edición general
12 meneos
186 clics

Scrapy, el framework open source que se ha convertido en el terror silencioso de millones de sitios web

Scrapy nació para facilitar la recolección de datos estructurados desde páginas web. Se ha convertido hoy en una de las herramientas preferidas para proyectos de data mining, monitorización, archivado web y entrenamiento de modelos de Inteligencia Artificial. Pero el problema no está en la herramienta en sí, sino en cómo está siendo utilizada masivamente sin control. Miles de scripts automatizados —desde laboratorios de IA hasta operadores anónimos— lanzan ataques de scraping intensivo desde IPs rotativas que saturan recursos,...

| etiquetas: scrapy , framework , open source , scraping , saturación , ddos , ia
#4
lighttpd.conf

server.tag = "ZX Spectrum 48K."
server.error-handler-404 = "/blockip.php"

blockip.php

<?php
$ip="";
if (!empty($_SERVER['HTTP_CLIENT_IP'])) {
$ip = $_SERVER['HTTP_CLIENT_IP'];
} elseif (!empty($_SERVER['HTTP_X_FORWARDED_FOR'])) {
$ip = $_SERVER['HTTP_X_FORWARDED_FOR'];
} else {
$ip = $_SERVER['REMOTE_ADDR'];
}
if(!empty($ip)){
$rip ="sudo bash /home/m_rajoy/blockip.sh $ip";
$output=sh…   » ver todo el comentario
Tengo una Raspberry 5 como pequeño servidor experimental con el lighttpd instalado, los logs eran el puto horror de robots e intentos de hacking automatizados hasta que escribí un pequeño script lincado al error 404 que bloquea la IP peticionaria durante 30 minutos. Ahora los logs son humanos.
#3 Puedes compartirlo? yo tengo una 3B que en principio no tiene salida al exterior , pero nunca esta de mas....
muy buen framework tanto para modelar y realizar peticiones HTTP directas como para integrarse con Selenium cuando se necesita renderizado dinámico.
De Scrapy solo se cuentan las cosas malas...

menéame