Scrapy nació para facilitar la recolección de datos estructurados desde páginas web. Se ha convertido hoy en una de las herramientas preferidas para proyectos de data mining, monitorización, archivado web y entrenamiento de modelos de Inteligencia Artificial. Pero el problema no está en la herramienta en sí, sino en cómo está siendo utilizada masivamente sin control. Miles de scripts automatizados —desde laboratorios de IA hasta operadores anónimos— lanzan ataques de scraping intensivo desde IPs rotativas que saturan recursos,...
|
etiquetas: scrapy , framework , open source , scraping , saturación , ddos , ia
lighttpd.conf
server.tag = "ZX Spectrum 48K."
server.error-handler-404 = "/blockip.php"
blockip.php
<?php
$ip="";
if (!empty($_SERVER['HTTP_CLIENT_IP'])) {
$ip = $_SERVER['HTTP_CLIENT_IP'];
} elseif (!empty($_SERVER['HTTP_X_FORWARDED_FOR'])) {
$ip = $_SERVER['HTTP_X_FORWARDED_FOR'];
} else {
$ip = $_SERVER['REMOTE_ADDR'];
}
if(!empty($ip)){
$rip ="sudo bash /home/m_rajoy/blockip.sh $ip";
$output=sh… » ver todo el comentario