Hace 15 años | Por --11289-- a consumer.es
Publicado hace 15 años por --11289-- a consumer.es

¿Por qué está teniendo Google cada vez más problemas al indexar las páginas de forma útil para el usuario?. El "webspam" es un gran problema. Según los datos que tenemos en Technorati, más del 99% de la web es spam. Pero gracias a que los buscadores como por ejemplo Google son bastante buenos ignorando el spam, no nos damos cuenta de que hay tanto. ¡Realmente es mucho peor de lo que parece!.

Comentarios

angelitoMagno

El titular es incorrecto (culpa de la gente de consumer, no de #0)

García dice:
Según los datos que tenemos en Technorati, más del 99% de la web es spam.

Es decir, no el tráfico, sino el contenido, que es muy distinto. Añade que gracias a que los buscadores como google y similares son capaces de distinguir una web que es únicamente spam de webs reales, estas "spam webs" no se indexan, con lo que no son, en la práctica, invisibles para nosotros. Por lo tanto no generarían tráfico.

D

#2 Si, en la entrevista que tu indicas que es de hace un año responde cosas similares, gracias por el enlace...

t

#5, No. El 90% del trafico de internet es porno. SOlo que a veces llega en forma de spam

D

#6 En la época en que viven los periodistas de papel, todavía no

tomasulo

yo tengo un foro phpbb
y tengo bloqueada la poblicacion a los robots por un capcha

pero eso no evita que intenten publicar spam
consumiendo muchísimo trafico.

en sitios como melodysoft, es escandaloso

D

#12 Como se suele decir "que una noticia no te estropée un buen titular"

andresrguez

#6 Héctor García Puigcerver es uno de los bloggers españoles que más lejos ha llegado. Concretamente a Japón, donde este ingeniero informático alicantino trabaja para el buscador de blogs Technorati a través de su propia empresa, Mirai Inc.

jm22381

#6 Geolocalizada en Mirai Inc.

angelitoMagno

#16 Exactamente, eso es lo que quiero decir. Lo que no está indexado por Google, a efectos prácticos es como si no existiera. Difícilmente alguien va a ir a parar a una web que no haya sido indexada por un buscador.

Vamos, que si llegas a este tipo de webs las vas a poder ver, pero las probabilidades de que llegues a una de estas webs es cercana a cero.

sorrillo

#15 La técnica antispam mas efectiva en estos momentos, dejando ese +97%, que por cierto confirmo, en cerca de un 3% es el greylisting:
http://es.wikipedia.org/wiki/Greylisting

El greylisting es bastante sencillo de saltar por un spammer, pero ese sobrecoste de tiempo y recursos a día de hoy no les compensa. No se puede descartar que el greylisting muera de éxito pero mientras funcione vale la pena utilizarlo.

De todas formas la noticia no se refiere al SPAM del correo sino al SPAM en el contenido de las webs.

D

#3 Yo te puedo hablar del tráfico de correo de una empresa española de las TIC de tamaño medio-grande, y te digo con datos no públicos (además actualicé la información hace unos días), que el 97.3% del correo que maneja el servidor es SPAM. Para algunas cuentas concretas (aquellas que ya he anotado como futuras víctimas de mis momentos BOFH) el volumen de SPAM alcanza más del 99%, por fuerte que parezca (en otras mucho menos, también hay que decirlo).

andresrguez

En vez de Héctor García, porque no ponemos Kirai ?

andresrguez

#27 lee mi comentario en #21

al009675

Antigua la entrevista ya que Kirai (Hector) ya no trabaja en Technorati,sino que se ha montado una empresa (Mirai) con Danny Choo. A estas alturas igual ya es más del 99%.

sorrillo

(borrado, lo he duplicado en #19, sorry)

D

De hecho hay toda una parte de la recuperación de información centrada en este problema:
http://en.wikipedia.org/wiki/Adversarial_information_retrieval

Zzelp

No se porque lo dice

"comentario patrocinado por nestlé"

dreidel

#5, los conjuntos Spam y Porno no son disjuntos

HeavyBoy

#6 te me has adelantado.

c

#29 ¿Y que quieres que indexe un buscador de blogs? ¿Peras? ¿Olmos? ¿Ciruelas?
... y menos con la mierda de buscador que es Google, que por cierto no me prepara el café por las mañanas... (irónico)

D

#19 llevo desde que entré en la empresa queriendo renovar todo el sistema de correos para meter el greylisting entre otras cosas, pero hasta la próxima vez que peten los servidores no considerarán la medida necesaria. Según mis cálculos será en cuestión de semanas...

Sagman

Y ahora pienso yo... ¿Que dirá la SGAE de todo esto? Segun ellos el 99% del trafico es P2P lol

WillAlvein

Título incorrecto, no es ingeniero de Technorati ya.

D

Pues ya pueden retomar la Operacion Barbarossa, porque viene casi todo de Rusia

D

...y aquí es donde entramos los usuarios.

d

#12 revisa lo redactado, creo que en la ultima linea quieres decir que no son visibles para nosotros

b

no me lo creo... y menos con la mierda de buscador que es Technorati, que por cierto solo indexa blogs...

mko2

buy vi4gra, buy vi4gra, buy vi4gra, buy vi4gra, buy vi4gra, buy vi4gra, buy vi4gra, buy vi4gra, buy vi4gra, buy vi4gra, buy vi4gra, buy vi4gra, buy vi4gra, buy vi4gra, buy vi4gra, buy vi4gra, buy vi4gra, buy vi4gra, buy vi4gra, buy vi4gra, buy vi4gra, buy vi4gra, buy vi4gra, buy vi4gra, buy vi4gra, buy vi4gra, buy vi4gra, buy vi4gra, buy vi4gra, buy vi4gra, buy vi4gra, buy vi4gra, buy vi4gra!

pues yo no creo que haya tanto spam