Web Scrapping con Python – Primera parte

Decidí escribir este tutorial a raíz de una reunión que asistí en la comunidad Python-Perú, en la cual existieron 3 charlas a la cual llegue solo 2 charlas por motivos del trafico en Lima, bueno en la charla 2da trataba de usar una ERP llamada Open Orage(http://www.openorange.com/site/
), pero este post no hablare de OpenOrage sino como los esperan de scrapear la web.Como primera parte iniciamos asi:

Vamos a usar las sgt módulos : URLLIB2, HTML Parsing ,lxml,BeautifulSoup y tambien DOM Parsing.

Primer ejemplo seria asi usando urllib2 :

import urllib2
data = urllib2.urlopen("http://www.tuxsago.wordpress.com")
#debemos observar lo que sale aqui cuando usamos readline()
data2=data.readline
#debemos observar lo que sale aqui cuando usamos el read()
data2=data.read()

Segundo Ejemplo usando urllib2 y re :
vamos a usar un sitio de compras común y vamos a averiguar cuantos productos hay en la cartelera con ayuda de nuestros amigos urllib2 y re :
Para ellos vamos a ver el código fuente de esta sgt web: click
y observamos que hay un <div>

produc

…y continuamos con el análisis elaboramos el sgt paso..

In [57]: urlnose=urllib2.urlopen('http://www.tigerdirect.com/applications/Category/guidedSearch.asp?CatId=17&cm_sp=Masthead-_-Computers-_-Spot%2002')

In [58]: loquehace = urlnose.read()
In [59]: cantidadproduc= re.findall(r'.*?',loquehace) 

In [60]: len(cantidadproduc)
Out[60]: 16

cantipython

scrotpComo lo observas existen 16 productos en la web , gracias python 









































Continuaremos con los posteos en la segunda parte espero que les haya gustado! 
pronto realizare la segunda parte :D

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s

Más noticias llegaran...

Únete a otros 37 seguidores

diciembre 2016
L M X J V S D
« Dic    
 1234
567891011
12131415161718
19202122232425
262728293031  
Estadísticas
  • 197,197 VISITAS
A %d blogueros les gusta esto: