Ayer vimos un patrón muy simple, que te permite extraer el texto que hay entre los tags de apertura y cierre de un elemento HTML (o XML), y también vimos cómo extraer el valor de un atributo. Si tenemos en cuenta que en HTML todo son tags o atributos, parece que con estos dos patrones deberíamos tener resuelto cualquier problema ¿no?
En realidad se resuelven la mayoría de los casos, pero estos patrones tienen dos limitaciones importantes que vamos a intentar resolver usando las dos técnicas que se describen en esta entrada.
La primera limitación está en el hecho de que en HTML unos tags pueden estar dentro de otros, lo que complica bastante la elaboración de expresiones regulares cuando sólo buscas los símbolos «<» y «>».
Y la segunda limitación, más práctica que tecnológica, está en la dificultad que pueden llegar a tener las expresiones regulares en las páginas HTML más complejas. Esto hace muy difícil la depuración, y el posterior mantenimiento, por lo que en este caso atacaremos el problema con un enfoque pragmático que nos permitirá hacer más fácil la tarea.