En sitios como Digg o Menéame es habitual encontrarse con que una misma noticia ha sido enviada repetidamente por varios usuarios en un breve espacio de tiempo. Es algo normal teniendo en cuenta que cada día se menean cientos de historias. Pero Digg ha estrenado un sistema ultra-avanzado que, según los ingenieros del portal, va a acabar con los artículos duplicados. Bueno, o no... En inglés: http://blog.digg.com/?p=866
Aquí tenemos un script muy efectivo llamado HAJO, y lleva funcionando desde hace lustros. Aunque el HAJO se repite mucho y deja siempre los mismos comentarios con regusto es muy eficaz
* Votos positivos a tus noticias enviadas.
* Votos positivos a noticias que han sido publicadas, siempre que el voto haya sido realizado antes de la publicación de la noticia.
* Votos negativos a noticias que han sido descartadas, siempre que el voto haya sido realizado en los 15 minutos siguientes al envío de la noticia.
* Votos positivos a tus comentarios.
Parece que #22 es el unico comentario interesado por el tema que no ha hecho un chiste malo.
En el Blog de digg explican en que consisten los nuevos mecanismos que estan desarrollando que NO se estan aplicando de momento. http://blog.digg.com/?p=866
las nuevas soluciones corregiran casos en que se envia un link al mismo contenido pero con urls diferentes, mediante un algoritmo que compara la similitud entre contenidos.
Y por otro lado intentan algo un poco mas complejo: detectar como duplicadas dos noticias que aunque no sean la misma traten sobre el mismo tema (esto parece mas complicado... ya veremos que tal funciona
Básicamente, al enviar la noticia con todos los metadatos, el buscador no la detectó como duplicada porque la dirección no era idéntica. Así que la infalibilidad es bastante discutible.
Es un problema muy grande. La base de datos de digg es monstruosa y analizar textos muy costoso.
Evidentemente lo primero es buscar URL idénticas. Pero no es tan fácil, deben previamente ser canonicalizarlas de alguna manera para que sea efectivo. Y no es nada trivial, por ejemplo, ¿tenemos en cuenta subdominios o solo los de primer nivel? ¿quitamos las barras que sobran? provad esta URL:
http://meneame.net////story/digg-estrena-sistema-infalible-para-evitar-envio-historias
¿Raro, no? ¿Quitamos el #ancla? En algunas páginas, como la wikipedia llevarían a la misma página. En otras, donde son parámetros para el javascript/ajax de la página resultarían distintas (ej: facebook).
Y eso es solo el paso más fácil. Yo seguramente seguiría buscando envios similares a través de las etiquetas, y por último analizar el título de las más probables, que siendo optimistas serían pocas noticias. Vamos, casi imposible.
Reirme de los programadores de digg, me parece mal. Seguramente sean muy buenos, y han invertido un montón de tiempo y esfuerzo en esto, y seguramente ayude a evitar las duplicadas. Como uno del gremio, me compadezco por ellos por el escarnio público y el asegurado mal rollo en la oficina.
Esto lo tiene menéame desde hace tiempo, lo dicen en los primeros comentarios y la noticia ha llegado a portada... ¿Algún sistema para evitar eso? Quizás sea mejor que lo de las duples
Comentarios
Aquí hay hordas de aguerridos buscadupes, eso basta para dejar en la sombra a la inteligencia artificial de Digg.
El sistema está todavía en periodo de pruebas y por el momento únicamente bloquea por defecto las URLs idénticas.
¿Nadie lo va a decir?
Pues lo digo yo:
diggowned http://www.abadiadigital.com/imagenes/digg-duplicadas.png
#1
Ingenieros de Digg:
Amo' a ver... creo que si uno esto aquí, junto por allá, adapto la junta de la culata...
¡Mirad! ¡He conseguido un sistema infalible para las dupes!
consulta = "Select * from PAGINAS where URL=" + url;
if(query(consulta)!=0)
#1 DIGG FAIL! MENÉAME WIN!
DUPE Digg estrena un sistema 'infalible' para evitar el envío de historias duplicadas
Digg estrena un sistema 'infalible' para evitar el...
abadiadigital.comAquí tenemos un script muy efectivo llamado HAJO, y lleva funcionando desde hace lustros. Aunque el HAJO se repite mucho y deja siempre los mismos comentarios con regusto es muy eficaz
Gracias HAJO (HAbladorcito JOrsovernet)
#14 Verás, como con la tontería voten dupe...
#11 es una broma, que poco sentido del humor!
Carme pilla todas las duplicadas al vuelo, por eso lo digo. En fin.
Entonces perderia la gracia de pelearnos por ¿relacionada o dupe?...
#16 Pensé que te habías vuelto hoygan y que ibas a poner:
"HAJO y agua"
Votamos copia/plagio?
#17.........NO, es relacionada...........
Aumenta el karma:
* Votos positivos a tus noticias enviadas.
* Votos positivos a noticias que han sido publicadas, siempre que el voto haya sido realizado antes de la publicación de la noticia.
* Votos negativos a noticias que han sido descartadas, siempre que el voto haya sido realizado en los 15 minutos siguientes al envío de la noticia.
* Votos positivos a tus comentarios.
+
Karmawhores
=
Sistema infalible antidupes ...
#9 No se a que viene ese ataque personal.
El sistema está todavía en periodo de pruebas y por el momento únicamente bloquea por defecto las URLs idénticas
Pues sí que es ultra-avanzado, sí.
infalible mis bolainas, ayer mismos envié una historia que era dupe
#14 Descartaayaakesdupeeeee!
esta noticia es duplicada!!!!!!!!!!!!
La verdad es que en Digg hay demasiados envios duplicados y lo que es peor, en portada.
Parece que #22 es el unico comentario interesado por el tema que no ha hecho un chiste malo.
En el Blog de digg explican en que consisten los nuevos mecanismos que estan desarrollando que NO se estan aplicando de momento.
http://blog.digg.com/?p=866
las nuevas soluciones corregiran casos en que se envia un link al mismo contenido pero con urls diferentes, mediante un algoritmo que compara la similitud entre contenidos.
Y por otro lado intentan algo un poco mas complejo: detectar como duplicadas dos noticias que aunque no sean la misma traten sobre el mismo tema (esto parece mas complicado... ya veremos que tal funciona
Habís perdido un meneador
..........A LA BASTILLA!!!!!!!!!!!!!!!!!!!
Detecta urls idénticas...y el resto de features donde se las dejaron? Pffff yo creo que "programan" leyéndose el svn de menéame, a mí no me jodas.
y que sería meneame sin sus discusiones sobre dupes
Estamos rodeados de expertos, cualquiera programaría digg con los ojos cerrados, es increible
¿Como funciona el sistema?
Donde dije Diggo diggo Dieggo.
Va va, que no puedo resistirme a decirlo:
Esto es inDIGGnante
#3
[chiste_malo]
¿Las hordas tienen inteligencia?
[/chiste_malo]
Pues tanto como infalible... recuerdo una vez que otro usuario y yo se la colamos al buscadupes de Menéame sin darnos cuenta:
Él mandó Orgullo, prejuicio y nada de persuasión
Orgullo, prejuicio y nada de persuasión
lanacion.com.arY luego yo envié Cómo debe y NO debe ser la atención en Call Center
Cómo debe y NO debe ser la atención en Call Center
lanacion.com.arBásicamente, al enviar la noticia con todos los metadatos, el buscador no la detectó como duplicada porque la dirección no era idéntica. Así que la infalibilidad es bastante discutible.
El sistema para evitar historias duplicadas es este:
Y el usuario es quien decide si enviarla finalmente o no.
Es un problema muy grande. La base de datos de digg es monstruosa y analizar textos muy costoso.
Evidentemente lo primero es buscar URL idénticas. Pero no es tan fácil, deben previamente ser canonicalizarlas de alguna manera para que sea efectivo. Y no es nada trivial, por ejemplo, ¿tenemos en cuenta subdominios o solo los de primer nivel? ¿quitamos las barras que sobran? provad esta URL:
http://meneame.net////story/digg-estrena-sistema-infalible-para-evitar-envio-historias
¿Raro, no? ¿Quitamos el #ancla? En algunas páginas, como la wikipedia llevarían a la misma página. En otras, donde son parámetros para el javascript/ajax de la página resultarían distintas (ej: facebook).
Y eso es solo el paso más fácil. Yo seguramente seguiría buscando envios similares a través de las etiquetas, y por último analizar el título de las más probables, que siendo optimistas serían pocas noticias. Vamos, casi imposible.
Reirme de los programadores de digg, me parece mal. Seguramente sean muy buenos, y han invertido un montón de tiempo y esfuerzo en esto, y seguramente ayude a evitar las duplicadas. Como uno del gremio, me compadezco por ellos por el escarnio público y el asegurado mal rollo en la oficina.
Esto lo tiene menéame desde hace tiempo, lo dicen en los primeros comentarios y la noticia ha llegado a portada... ¿Algún sistema para evitar eso? Quizás sea mejor que lo de las duples
Epdigg fail
Tienen mania por usar mayusculas jaja
Lo de sistema infalible...
Menéame ya lo tiene y aún así se siguen subiendo las mismas noticias publicadas en otros medios...
Sistema infalible? Nisiquiera es un sistema, es una única regla, es como decir que construyeron una casa cuando apenas acotaron el perímetro.
si pusieran eso en meneame Carme se quedaría sin trabajo