Publicado hace 5 años por FreddyFregaplatos a tech4trolls.com

El espionaje entre empresas es una realidad hoy día 👥 Parte de ese espionaje ha trascendido a la red pero sigue habiendo espías alejados de un ratón y un teclado. Voy a contarte una historia de espionaje marketero, esta vez alejado de internet. Sucedió en el MediaMarkt y la viví en persona. Voy a enseñarte las utilidades del Web Scraping y como supone una ventaja competitiva entre e-commerce.

Comentarios

kumo

Curioso. De todas maneras, yo he encontrado diferencias entre la web y el comercio en varias ocasiones, mandando la web, por lo que si está más barato, tienen que rebajarte el precio. Así que cuando voy al Media suelo mirarlo.

a

menudo tolai el que escribe

d

Me lloran los ojos después de leer el código y ver que no hace ni única comprobación de tipos, tamaños, etc.
product = str(elemento).split('":"')[1]
precio = str(elemento).split('":"')[3].replace('brand','').replace(',','').replace('""','')+'EU'

Esto mañana ya le está lanzando una excepción.

PD: Ya que hace un POST sobre eso, bien podía utilizar la version 4 de beautiful soup donde métodos como findAll han sido redefinidos a find_all (y así con todos).

P

#4 #5 podéis dejar el comentario en la web, el autor ya dice "Si crees que el código es susceptible de mejora escríbeme con la propuesta y lo cambiaré encantado". A lo mejor es que solo quiere contar el concepto y añade un ejemplo de "andar por casa" aunque #4 tienes toda la razón no comprueba nada y en cualquier cambio cascará.

dphi0pn

Para empezar si vas a usar time.sleep el import deberia ser from time import sleep.
Desde luego no crawlea, esto es no añade nuevos links que el Spider encuentre, sino un triste loop for, por lo demás aprobado en Scraping sin scrapy.

PD: Para instalar BeatifulSoup para Python3, creo que se llama bs4-BeatifulSoup el paquete o algo similar

FreddyFregaplatos

#5 Hola. Soy el autor de la entrada. Gracias adphi0pndphi0pn ,@dirok y@PeT por los comentarios

He cambiado el import como recomendabas. Con respecto al bucle ya he cambiado el código para escrapear el paginador de la seccion de moviles del mediamarkt y no tener que meter "a mano" la cantidad de peticiones.

Con respecto a validar lo escrapeado creo que os referís a que compruebe si el precio es un número y sino, lanzar una excepción, etc, verdad? Lo haré próximamente para completar el código y dejarlo fetén también.

Gracias por las recomendaciones, no tengo mucha experiencia con python y esto me ayuda!

dphi0pn

#7 sigue así y llegarás a hacker

D

Lo mejor, si quieres encontrar un chollo, es ir al MediaMarkt en el Black Friday o en el día sin IVA. Se encuentran unos chollos cojonudos.