Un chico de 17 años crea un algoritmo para predecir qué historias llegarán a la portada de Digg

  1. #34   #31 Visto que hay unas 5000 páginas de noticias que han llegado a portada y unas 15000 páginas de noticias que no han llegado a portada, tu algoritmo tiene un porcentaje de acierto del 75%. Incluso si buscamos sólo entre las noticias de gatos, son minoría las que llegaron a portada.

    Pero creo que lo que hace el artículo es pronosticar cuáles son las noticias que van a llegar a portada, no si una noticia dada va a llegar. En ese sentido, que un 63% de sus predicciones llegue a portada no está nada mal.

    Ahora bien, ¿cómo sería un algoritmo similar para Menéame?

    Aumentan la probabilidad:
    1) que la noticia hable de gatos, tecnología, becarios, informáticos, cosas frikis en general, gitanos, musulmanes, muslamen, tías buenas, Tesla o la SGAE.
    2) que la noticia venga de un medio generalista que sea progresista (pero tampoco demasiado) o que tenga una audiencia considerable. Por ejemplo, El País (cumple ambas) y El Mundo (cumple la segunda).
    2.1) Si viene de El Mundo pero podría venir perfectamente de El Mundo Today, tiene un minipunto extra. ;)
    3) que el usuario que la envía sea un power user.

    Disminuyen la probabilidad:
    1) que la noticia provenga de un medio incluido en el listado de MIERDA (Medios Informativos Expertos en Repugnantes Deposiciones de Artículos), generalmente porque es percibido como demasiado extremista (La Haine y Público por la izquierda, los no-sé-qué digitales en general e Intereconomía por la derecha) o sensacionalista (Marca, The Sun).
    2) que la noticia provenga del blog de quien la envía, o bien, que el que envía la noticia ha enviado más de un determinado porcentaje de noticias de ese mismo sitio.
    3) que el texto de la entradilla no esté contenido en el texto de la noticia original (aunque sea perfectamente válido, si no es un copiapega, es probable que reciba votos de microblogging).
    4) que el texto de la entradilla esté escrito en forma de anuncio publicitario.

    Lo que no sabría hacer es cuantificar, o sea, poner números y decir a partir de esto cuáles serán las próximas noticias ahora en pendientes que pasarán a estar en la portada. Así que lo dejaré como ejercicio para el lector. xD
    20  votos: 1   link
    el 25-08-2010 23:49 UTC por sabbut sabbut
     twitter  facebook  tuenti  
comentarios cerrados

menéame