Mi segundo código python

mi segundo código python
mi segundo código python

Hace unos meses me puse a estudiar Python. Python es un lenguaje de programación sencillo, potente y con unos módulos (librerías) con que conseguir ciertas alegrías. Por ejemplo, extraer la información deseada de una web. A eso se le llama parsear.

No soy ningún experto. Mi primer código fue un ejercicio, casi un juego. Mi segundo código Python se conecta con el servidor mediante protocolo HTTP, parsea la web de vidasajenas.es (un proyecto periodístico personal) y extrae todos los enlaces. Sobra la tercera línea, porque no usé (ni habría sabido usar todavía) las expresiones regulares.

¿Y?

Después de unos meses con la lógica de programación, el resultado de un código de apenas 10 líneas me parece mágico. Si consigues sacar los enlaces de cualquier página, nada te impide extraer la actividad de los diputados de la web del Congreso, seguir las exportaciones de armas de cada país o analizar el histórico de accidentes de aviones en el mundo. Ves un horizonte mayor, quiero decir. El mundo de los datos es más accesible con Python.

El mundo del parseo es interesantísimo, útil y complicado. No creo que vaya mucho más allá de la librería urllib y de BeautifulSoup. urllib facilita los protocolos de conexión con el servidor. BeautifulSoup es un módulo que desde 2004 consigue analizar el html y xml de cualquier web. Como digo: magia.

Since 2004, [BeautifulSoup] it’s been saving programmers hours or days of work on quick-turnaround screen scraping projects.

Esto es lo que devuelve el código:

El código devuelve los enlaces de vidasajenas.es
El código devuelve los enlaces de vidasajenas.es

El siguiente paso natural es analizar los datos extraídos con la librería Pandas, otra maravilla. No hay prisa.

Estoy preparando un pequeño analizador de textos que indica adverbios, adjetivos, cantidad de párrafos, longitud de las palabras, de las frases, las posibilidades de haber usado la pasiva y de incluir verbos auxiliares. En definitiva, un programita que me dice todo lo que puede mejorar en mis textos. Si no es eficaz, al menos es divertido.

El mundo es más pequeño. Y es fascinante.

Actualización 5/04/2016

Seguí ampliando el código anterior para cumplir con un ejercicio del curso. El ejercicio pedía que el programa rastreara los enlaces de una página, seleccionara uno de ellos y volviera a rastrear los enlaces de la nueva dirección. Lo haría tantas veces como le indicara el usuario. Seguro que es un código poco eficiente y que se puede hacer más sintético. En todo caso, es esto:

PrtScr capture_5

Deja un comentario