Introducción
Hace poco@Samu_ publicaba el siguiente artículo: gran-avance-google-deepmind-hacia-inteligencia-artificial/c062#c-62
A lo largo de todo ese artículo destacaba un troll en particular:h4x0r
Mirando su perfil es bastante fresco, junio del 2018, y solamente 183 comentarios. ¿Se trataría de alguien con más experiencia en Menéame? ¿Cómo saberlo?
Natural Language Processing al rescate
Aquí es dónde entra en juego la inteligencia artificial, en concreto una rama llamada NLP (Natural Language Processing) que trata de analizar el lenguaje. Una de las técnicas utilizadas en NLP son los n-gramas, que el nombre técnico suena raro, pero no es más que el análisis de las palabras consecutivas dónde n es el número de palabras. Pongamos un ejemplo: "Desde Santurce a Bilbao" tendría 3 bigramas: [Desde, Santurce], [Santurce, a], [a, Bilbao], y 2 trigramas: [Desde, Santurce, a],[Santurce, a, Bilbao]
Esta técnica de los n-gramas se usa muchísimo, y seguramente que lo habéis usado, porque son la base para los modelos de Markov. ¿Sabéis los teclados predictivos que os muestran las siguientes palabras? ¿O los típicos retos de "escribe tal cosa y luego pon la primera palabra que te sugiera"? Pues dichas predicciones son por el análisis de frecuencias de los n-gramas. También se emplean mucho en análisis de secuencias de ADN o proteínas, para que veáis lo potentes que pueden llegar a ser, sirven para identificar el lenguaje de una frase, se usan al pasar de voz a texto para identificar las palabras...
¿Y cómo se puede identificar si dos personas hablan igual?
Las personas suelen hablar de una cierta manera, y suelen crear una especie de "firma" lingüística, que se aprecia muchísimo más cuanto más marcado y único es el vocabulario y expresiones de una persona, y cómo no, cuanto más habla. Esa firma lingüística, a mano, es muy compleja de procesar, pero recordemos que tenemos los n-gramas. Además utilizaremos algo llamado stemmers. Un stemmer es un algoritmo capaz de calcular la raíz de una palabra, de manera que cosas como "viajé", "viajando", "viajero" tienen la misma raíz "viaj".
Usando los n-gramas de cada persona, diremos que cada n-grama es una feature, y si tenemos tooooodos los n-gramas que han dicho las personas de menéame, lo que podemos es hacer es para cada persona crear vectores de unos y ceros que nos indican si ese usuario ha utilizado esa feature o no. Como tener una única observación por usuario es poco, usamos además data augmentation, es decir, modificaciones de las observaciones (sustituir unos por ceros) para generar un dataset de 200 observaciones por usuario.
Ahora tendremos un modelo entrenado que dado un input de una persona (su array de features) nos da la probabilidad de que sea cada usuario del foro.
¿Y h4x0r es Malversan?
Bueno, no se puede estar seguro, pero el resultado de la red es que h4x0r se trata de malversan con un 0.96 de coincidencia (96%). Hay que tener en cuenta que los siguientes usuarios más probables no alcanzan el 0.5 de coincidencia.
Si suponemos que h4x0r es un troll dupe de un usuario habitual preexistente, pues... que cada uno saque sus conclusiones.
¿Pero hay forma de comprobarlo?
En inteligencia artificial hay un campo que es la interpretabilidad. Es el campo que investiga cómo justificar la respuesta de la IA sobre todo por sus posibles implicaciones éticas: nadie quiere tener un sistema para tomar decisiones que no se sabe en qué se basa. En este caso, la decisión está tomada por la frecuencia de algunos n-gramas que son comunes entre ambos y que sin embargo su frecuencia es muy baja o nula en el resto de usuarios. En una red neuronal que clasifica, la última capa suele ser una softmax, para interpretar el resultado basta con mirar los pesos más elevados que conectan la capa anterior con el nodo más activado de la softmax, de esa manera encontramos las features más decisivas.
Todos los n-gramas comunes de h4x0r y Malversan se pueden consultar aquí: http://batman.gyptis.org/zerobin/?63bdf69bae3a183d#cvF535OEH9vIN+/kDrdM/Y3wfaLcom8F4HiYd/QAZXs=
He obviado los stemmers y los skipgramas para que no fuese enorme. Pero simplemente con el análisis de n-gramas si hacer stemming es suficiente para ver ciertas cosas. Ojo, las que pongo a continuación son solamente una pequeña muestra:
"temas de los que no tienes ni puta idea": Aunque podría parecer una frase habitual, lo cierto es que esa construcción exacta solamente se ha utilizado 42 veces en Menéame. De esas 42, una vez ha sido h4x0r y 3 ha sido malversan. Eso significa que entre ambos monopolizan casi el 10% del uso de esa construcción exacta.
"Es una gilipollez del tamaño de Notre Dame": Esta construcción exacta ha sido usada 2 veces en menéame: 1 h4x0r y otra Malversan, así que alcanzan el 100% de uso y constituye una expresión muy suya. Por cierto, "del tamaño de Notre Dame" ha sido usada 5 veces en total en la historia de menéame, 2 veces Malversan, 1 vez h4x0r , y luego dos usuarios llamdos daphoene y danihr.
"Que tú has venido aquí a hablar de": De nuevo una construcción que podría parecer habitual, pero no lo es. Estamos hablando de 19 veces, 2 de ellas Malversan y una h4x0r. Además, la construcción completa es un 10-grama! "que tú has venido aquí a hablar de tu libro", pero al no usar skipgramas no vemos que h4x0r puso "hablar tu libro" en su lugar. En ese caso, tenemos que ha sido usada 13 veces, 2 por malversan y una por h4x0r.
"Ni te has molestado en comprobar": Otra que es común pero ha sido empleada 53 veces, 3 de las cuales ha sido Malversan y 1 h4x0r.
"Lo cual no quita que la": Es común, aparece más de 20.000 veces, pero es muy característica de Malversan que la ha empleado 136 veces, y h4x0r 6 veces en tan solo 181 comentarios. Así que no marca la diferencia, pero es una huella lingüística más.
"tengo mejores cosas que hacer que": Aparece 152 veces, 2 de Malversan y 1 de h4x0r
"dónde te salga de los cojones": Aparece 51 veces, 1 de Malversan y 1 de h4x0r.
"lo que te he dicho porque": Otra coletilla... aparece 3981 veces, 39 de Malversan y 4 de h4x0r
"además es una falta de respeto": 19 veces, 1 de Malversan y 1 de h4x0r
"puedes seguir haciendo el ridículo": 41 veces, 2 de Malversan y 1 de h4x0r
"por ejemplo tirarme un cuesco": Ha sido empleado un total de 10 veces, 3 veces Malversan, 1 vez h4x0r y el resto de veces 2 cuentas borradas.
"cuesco lentejero": ha sido empleado 4 veces: 2 Malversan, 1 h4x0r y 1 El_Apolítico. Como curiosidad, esta expresión fuera de Menéame solamente se ha usado una vez en la historia de internet, en el foro burbuja.info.
"sólo te has apuntado": ha sido empleado 3 veces: 1 Malversan, 1 h4x0r y 1 Melirka
"forma parte del retraso": Ha sido empleado 3 veces: 1 Malversan, 1 h4x0r y 1 fentdaci
Pero además hay una cierta cantidad de insultos y expresiones características y poco frecuentes que comparten en común.
Por ejemplo, ambos definen a los niños como "monstruitos de turno", nadie más en menéame lo hace. "chimpancé" y "cacahuetes" en la misma frase como folma de insulto, "zote" (de 810 veces, 114 son de Malversan), "zopenco", "ejperto", "berreando", "barrabasada", "tontolhaba", "maniqueas", "milongas", "attentionwhore", "murga", "cazurros", "tirria",... menciones a "Reinhard Heydrich"...
No es por una en concreto sino la suma de todas las pequeñas coincidencias las que hacen que la IA afirme que son la misma persona.
Conclusión
¿Se puede estar totalmente seguro? No. Pero si no son la misma persona, es demasiada coincidencia como para que no hayan recibido la misma educación en la misma casa... o ser almas gemelas.
Comentarios
Dios, nada como ver un troll duplicado atacándose a sí mismo. Digno del mismísimo Gollum.
Y encima lo muestra con orgullo en los comentarios
27.000 euros de multa por lesionar un niño a una mujer jugando a la pelota/c65#c-65
#41 Oh dios mio! Ahí ya me esta empezando a dar pena de verdad.
#41 Mola cuando se pregunta a sí mismo si tiene algún tipo de esquizofrenia. Me lo imagino haciendo lo mismo delante del espejo y me entra la risa
#61 No están prohibido el tener clones en menéame. Lo que está prohibido es el astroturfing y #41 es un ejemplo claro de ello.
#3 Lo que más lleva es el scrap, la obtención de los datos. Una vez hecho el scrap es la obtención de los n-gramas, en mi caso estoy generando hasta 10-gram. La obtención de n-grams tarda más o menos una hora psra toda la bd. Si usas skip-grams (generación de n-gramas pero saltándose palabras) tardará mucho más, y necesitarás mucha ram.
Luego la red neuronal, para cosas de NLP no suele haber muchas features derivadas pero sí es bueno obtener ciertas combinaciones de features relevantes, así que tengo la capa de input y 2 hidden del doble de dimensión que input, y finalmente la softmax. La activación he comprobado en otros experimentos que sigmoid no es la mejor y ReLu es excesivamente lineal, así que me decanto por tanh. El entreno, al no ser un problema computacionalmente muy complejo, se puede hacer en una máquina de casa con una gráfica decente, aunque yo lo he hecho en un EC3 con GPU.
#4 Muy interesante el resultado. Sé que te va a parecer una burrada, pero aplicando esto de los n-gramas, ¿podrías comprobar el Lazarillo de Tormes contra algunos autores como Juan de Arce de Otálora, Diego Hurtado de Mendoza, y Pedro Cieza de León?
#24 Hola! Bueno, imagino que sí se podría... pero no creo que lo fuese a hacer mejor que los lingüistas que llevan años investigándolo. Pero como prueba de concepto sí... de hecho muchas gracias, porque es muy buena idea para investigar.
#58 Lo estaba pensando como prueba de concepto, no como otra cosa. Si dispusiese de un corpus digital adecuado, te habría indicado también que comparases con Francisco de Enzinas y Juan de Jarava, que son realmente los más adecuados.
#60 Lo que yo no sé, es si las obras de esos autores nos han llegado traducidas a un castellano moderno por las editoriales.
Lo suyo sería entonces acceder a los textos originales sin adaptar para poder hacer correctamente ese estudio.
#72 Lo que habría que tener es una estandarización de las grafías para tener resultados fiables. Ten en cuenta que en esa época, por ponerte un ejemplo, te encuentras indistintamente las formas havía, hauía, avía, auía, y había. Otro ejemplo puede ser offrecer, offrescer, offresçer, ofreçer, ofrecer, y ofrescer. Si no se estandarizan las grafías para el cotejo, los resultados pueden ser inadecuados.
Las editoriales, como mucho, adaptan las grafías a la forma moderna, y aun así no siempre lo hacen.
#74 ¿Si adaptas las grafias no estas alterando el cotejamiento?
#72 Hablando de textos originales y de variantes textuales, te doy un extracto del Lazarillo de Tormes conforme a sus cuatro ediciones de 1554.:
Amberes 1554: Baylauanle los ojos en el caxco, como si fueran de azogue, quantas blancas ofrecian tenia por cuenta, y acabado el ofrecer luego me quitaua la concheta y la ponia sobre el altar.
Alcalá 1554: Baylauanle los ojos en el caxco, como si fueran de azogue, quantas blancas offrescian tenia por cuenta, y acabado el offrescer luego me quiataua la concha y la ponia sobre el altar.
Burgos 1554: Baylauanle los ojos en el caxco, como si fueran de azogue, quantas blancas ofreçian tenia por cuenta: y acabado el offrecer: luego me quitaua la corneta y la ponia sobre el altar.
Medina 1554: Baylauanle los ojos en el caxco, como si fueran de azogue, quantas blancas ofrecian tenia por cuenta: y acabado el offrecer: luego me quitaua la corneta y la ponia sobre el altar.
Nótese la diferencia ofrecer/offrescer/offrecer y la sorprendente variante concheta/concha/corneta. Para esta segunda variante, la forma correcta es "concheta".
#75 Si al menos supiéramos como lo escribió el autor original...
#76 ¿Te refieres a la ortografía? Poca o ninguna diferencia iba a suponer para el cotejo. Además, ni siquiera los propios autores eran coherentes consigo mismos en las grafías, y te estoy hablando de manuscritos. Por ejemplo, en este párrafo de un manuscrito autógrafo de Gonzalo Fernández de Oviedo tenemos tres formas para la palabra "divisa", que son devisa/deuisa/divisa:
ALCAYDE- Sobre el escudo ponía un baúl de torneo de çinco lumbres o vistas; e el rollo e dependeçias de oro e de goles vel sanguina color; e por timbre o deuisa, sobre el yelmo, vn armiño purísimo vel cándido. Porque, como mejor sabés, muy acostumbrada cosa en nuestra España, entre caualleros e señores, procurar que la invençión comiençe su nombre en la primera letra del nombre de la señora por quien se inuençiona, demás del atributo o sinificaçión que quieren magnifestar o publicar con esas devisas. E guardando esta orden, el Cathólico Rey Don Fernando trahía un yugo, porque la primera letra es Y, por Ysabel; y la Reyna Cathólica trahía por diuisa las frechas, que la primera letra es F, por Fernando; y la serenísima emperatriz, que en gloria está, trahía por deuisa un cabestrante, que la primera letra es C por César. E así este señor Rodrigo de Ulloa, como enamorado de la señora doña Aldonça de Castilla, que la primera letra de su nombre es A, ponía el armiño; e como señor graue, loando a su señora la compara a vn animal tan limpio, de la manera que se suele pintar tal animal, e muy al natural.
#77 Muchas gracias por las explicaciones y por los ejemplos.
#75 Viendo el problema (nunca lo había visto antes... no sabía que hubiese diferentes variantes... pero se abre un mundo para mí), tengo varias cosas que decir:
1. Sobre "ofrecer/offrescer/offrecer", dado que un stemmer tiene reglas para calcular la raíz de la palabra, al final quedarían tanto los infinitivos como sus conjugaciones en "ofrec/offresc/offrec". Esto tiene una cosa positiva, y es que las reglas de conjugación son comunes y parece que no han cambiado en siglos, con lo cual el algoritmo de cálculo de raíces del castellano moderno debería en principio servir para castellano antiguo. Como parte negativa, al ser las raíces diferentes, no se identificarían como la misma palabra o significado con el método que he usado en este artículo
2. Por otro lado, con skipgramas se puede hacer word2vec y analizar el corpus. Esto lo que hace es calcular para cada palabra un vector en el que cada dimensión del vector es un "significado". En este caso, dado que las 3 variantes estarían en el mismo contexto y posición dentro del corpus, se puede suponer en principio que sus vectores serán los mismos. Esto significa que dadas dos palabras cuya representación escrita es diferente, se puede conocer si son sinónimas o equivalentes comparando los vectores. Como dato chulo, estos vectores te permiten jugar con el lenguaje, de manera que si tienes un vector para "rey" otro vector para "hombre" y otro vector para "mujer", si haces "rey" - "hombre" + "mujer" te da el vector de reina (al rey le has quitado la componente que significa hombre y le has añadido la que significa mujer).
3. Teniendo las variantes de un libro, como se espera que el contenido sea el mismo, se pueden aprender las palabras con mismo significado incluso sin IA... simplemente por la posición
4. Hay otra manera de aproximarse que sería realizando la transcripción fonética... lo digo porque "Baylauanle" no sé lo que significa pero suena a "Bailanle", que fonéticamente son muy similares.
Bueno, el tema me parece interesante
#78 Baylauanle sería "bailábanle" en castellano actual, aunque con el uso que tenemos de los pronombres hoy en día, la forma que se vería es "le bailaban". "Caxco" es una peculiar forma de "casco", y no es la única vez que el autor usa una x antes de /k/, pues escribe en algún lado "coxqueaba", que hoy se día "cojeaba".
Hay alguna otra variante llamativa, como el arcaísmo "turar" en vez de "durar", así como alguna conjugación que ha variado con los siglos. En el XVI no se decía "pondría", "tendría", "vendrá" o "tendrá" sino "pornía", "ternía", "verná", y "terná".
#78 digo yo que es Bailábanle, le bailaban.
Coincido con #1 #3 #24 y con casi todo el mundo: excelente trabajo y explicación. Deberíamos crear un premio a artículo del mes y del año, y este envío sería un gran candidato
#24 Imagino que estas técnicas ya las usan los gobiernos en materia criminal, ¿no? Me parece algo tan interesante que me tiraría horas y horas buscando coincidencias. ¡Buen trabajo y gracias por compartirlo y por la explicación!
Últimamente me asquea Menéame, pero no paro de entrar porque de vez en cuando sigue habiendo cosas así de interesantes.
#24 He comprobado que en el 99% de los casos que escribes es para poner algo interesante.
#24 Eso ya se hace desde hace algunos añicos, dentro de los que se llama las digital humanities, de hecho, la comparación estilística es uno de los trabajos más abordables. Un trabajo de vulgarización al respecto se publicó el año pasado alrededor de la identidad de Elena Ferrante, que escribe bajo seudónimo: "Who is behind Elena Ferrante?". Yo mismo he hecho modelos de aprendizaje CRF y SVM para textos medievales en latín. El problema de trabajar con textos antiguos en realidad radica en el "estado de la lengua". La mayoría de las herramientas están adaptadas al inglés y para procesar textos en lengua vernácula, latin clásico o romance medieval hay que hacer adaptaciones muy muy finas ya que la heterogeneidad lingüística y discursiva es muy alta, a veces casi única. La resolución de problemas exigen además que tengas un conocimiento muy alto tanto en lingüística, historia, lenguas antiguas y sepas bastante de programación y de técnicas machine learning, por lo que es un perfil realmente muy escaso y últimamente muy demandado.
#4 TensorFlow? Compartes el código?
#25 Jejeje, por ahora no puedo porque la propieda intelectual no es mía, porque era un experimento que llevo haciendo para el trabajo desde que volví de vacaciones, para experimentar un poco sobre lenguaje natural aplicado a fraude. Pero en principio lo podré liberar en cuanto consiga la aprobación para hacer paper.
#4 Muy interesante!!!
¿podrías elaborar un poco más lo del data augmentation?
He entendido que la red N tiene como input el vector de n-gramas de una persona y como output la probabilidad de que tal vector pertenezca a x usuario. Durante el data augmentation entiendo que has substituido de forma aleatoria alguna de las entradas del input, pero aun se le asigna al usuario, algo así como generar ruido en la única observación que se tiene y calibrar el modelo con esos 200 "observaciones" por usuario.
Asi que el problema tiene un input de dimension x y un output de
¿Cómo afectan los criterios del data augmentation al problema? por ejemplo, porque 200?, cuantos "errores se meten por realización?
Muchas gracias por el post!
#37 Mmm... En principio empecemos con esto: Cómo entienden los bots el lenguaje
En chatbots interesa entrenar con frases cortas, y varias frases son las observaciones de un intent, así que es un problema fácil porque tienes vectores como este para los intents:
[1, 1, 1, 0, 0, 0, 0, 0, 0, 0,......... ]
[1, 0, 1, 1, 0, 0, 0, 0, 0, 0,........]
Pero comparar las características de escritura de alguien no es el mismo problema, y no funciona. Revisando papers encontré muy poco y casi todo estadístico basado en frecuencias, así que me lancé a hacer esto, y tenía que partir de hipótesis. Al principio lo hice con un único vector por persona, con lo cual te queda para cada persona un único vector... pero eso no representa la frecuencia de las palabras, alguien puede decir "zote" pero no por ello ser una característica de su habla. Además con una única observación por cada clase no tira muy bien.
Así que me planteé usar data augmentation, que es lo que uso en computer vision. Ejemplo: si tengo fotos de cosas y tengo pocas, lo que hago es que a cada foto le hago microcambios aleatorios: giro, desplazamiento en x, desplazamiento en y, crop, cambio de aspect ratio... De esa manera de cada foto puedo generar 100 (o las que yo quiera).
Para aplicar data augmentation en este caso, de nuevo me encontré con el obstáculo de que no hay nada, ni un sólo paper, que me diese indicaciones. Podría probar con poner ceros al azar donde hay unos... pero eso no tendría en cuenta las características del habla de la persona. Podría eliminar las menos frecuentes, pero entonces te encuentras con un problema: las palabras más frecuentes son lo que usualmente se llaman stopwords, palabras que no aportan gran significado, como conjunciones, artículos y preposiciones. Así que decidí eliminar en base a la frecuencia del uso en relación al resto de usuarios. ¿Qué quiere decir eso? Que si la palabra "zote" la usa muy poca gente, no se va a eliminar, en cambio cosas como "a", "el", "la", "un", "y" son propensas a desaparecer. Lo mismo para n-gramas combinados de ellas.
#37 Interesantísimamente mierda. Goto #183
ccttesttdaphoeneJanSmitekaeldran@facheame@PapasyNataslainrubConde_lito@Mahdifernando_x@hessacelyo
#4 joder, menudo curro...
Si descubres que soy un holograma dímelo y dejo de pagar la hipoteca...
No sé qué decir,@fluffy. Menudo curro. Un trabajo interesante y ameno. Meneo. Sólo me chirría un poco en primer lugar, que esto pueda ser una especie de caza de alguien (aunque viendo el comportamiento deh4x0r en el hilo original, tampoco me extraña) y, en segundo, y como bien dices: interpretabilidad.
¿Has probado a cotejar tus comentarios en Menéame a ver si tus ingramas coinciden con otros? Es decir, tú eres el que mejor sabe si tú tienes clones o no. Así podrías hallar una guía de a partir de cuántas coincidencias podemos sospechar de clones. O puedes hacerlo con varios usuarios y ver la variación típica.
#1 El score con Malversan es de 0.96 el siguiente más alto es de 0.48. En cuanto a la interpretabilidad, pues eso, las features con más peso son precisamente formas de expresarse muy características de esa persona, algunas de ellas únicas entre ambos. Al final su perfil coincide tan perfecto que dudo que sea posible obtener un score tan elevado entre otras dupes y sus dueños, porque es tan detectable por la exclusividad de muchas de sus expresiones. Los ejemplos más claros son "cuesco lentejero" y "gilipollez del tamaño de notre dame" que no es que sean exclusivas aquí en menéame, es que son exclusivas en todo internet, lo que las convierte en expresiones de uso dentro de la familia, en un entorno muy cerrado, sin que se haya extendido su uso.
#2 Interesante. Cuéntanos sobre el proceso, ¿cuánto te ha llevado el análisis? ¿Te dedicas a ello profesionalmente?
#2 es interesante.
pero ¿me puedes explicar por qué lo llamas ia, cuando supongo que te refieres a estadística o "machine learning" para los modernos?
#20 Pues por varios motivos. El primero porque IA es un conjunto de técnicas, dentro de ese conjunto hay un subconjunto que es el Machine Learning y dentro de Machine Learning hay un subconjubto que ew el Deep Learning. Con lo cual si es machine learning es IA dado que está contenido.
En este caso, tal y como explico en el artículo y en comentarios, es perceptrón multicapa con capas ocultas, es decir deep learning, con lo cual hay un optimizador (adam) haciendo el descenso del gradiente para calcular los pesos y los bias mediante backpropagation... que es más álgebra que estadística.
#32 gracias! Tenía, entendido que la ia y el machine learning como disciplinas se separaron hace 30 años.
#32 La verdad es que sigo confuso, por esa regla de tres en un cifrado por sustitución un programa que realice un ataque estadístico dando peso a la frecuencia de las letras y posibles palabras es una inteligencia aritficial.
Aunque atendiendo a la definición que me das supongo que sí.
Tal vez ando falto de terminología, pero daba por hecho que la ia implicaba una resolución en base a muchos caminos recorridos no en base a estadísticas de datos.
#93 Lo que dices es estadística pero no machine learning, así como el machine learning no necesariamente es estadístico. Machine learning es todo aquello que conlleve un aprendizaje automático, bien sea supervisado o no supervisado, independientemente de las técnicas empleadas, si bien en data science muchas de las técnicas implican modelos probabilísticos.
De todas formas las definiciones no las doy yo, te aconsejo leerte Artificial Intelligence: A Modern Approach que es el libro obligatorio de casi todas las universidades de informática para el primer año de la asignatura de IA o de sistemas conexionistas.
#32 Sólo por hacer un poco de abogado del diablo: las partes no son el todo. La IA es el conjunto de técnicas y tecnologías que la conforman, pero cada una de las partes no es IA por sí sola.
#2 Me siento halagado por verme mencionado en el artículo, que por cierto, me ha gustado. Te puede servir de base para hacer un plugin para Menéame y otros sitios, aquí vendría bastante bien que pusiera advertencias en los comentarios con el percentil de semejanza con otros usuarios.
Otra forma muy detectable es la coincidencia con errores ortográficos o de expresión, que no es determinante por sí solo, pero puede añadir peso a ese porcentaje de semejanza ( aunque hay gente que escribe tan mal que te rompe el algoritmo ). A nivel de errores ortográficos, se podría comparar los errores que comete un usuario con mayor frecuencia, comparando ese grupo con los errores que comete el resto con más frecuencia, en este caso sin importar el orden ni la cercanía de las palabras.
Iba a comentar que no soy h4xt0r ni Malversan, pero después de fallar seis veces un captcha el otro día, tengo una crisis de identidad.
Lo que sí he visto entre las frases escogidas son errores que yo jamás cometería, si yo quisiera descartarme de esa lista, usaría el método que te he comentado para defender mi inociencia, puede ser bastante fino
Edito: Para lo de la exclusividad de la frase y el entorno cerrado, tienes que tener en cuenta el contexto de todas esas frases, ya que ambos usuarios forman parte de menéame, y se pueden contaminar entre sí.
#c-2" class="content-link" style="color: rgb(14, 170, 116)" data-toggle="popover" data-popover-type="comment" data-popover-url="/tooltip/comment/3074748/order/2">#2 TONTOOOOOOOOOOOOO
He estado descojonándome viendo cómo haces el ridículo públicamente. Vamos a ver, tontolhaba, cariñín, muchas de esas expresiones, incluyendo la de cuesco lentejero, la he visto tropocientas veces en Menéame. ¿Sabes lo que pasa, querubín? Que está claro que sólo has tenido en cuenta cuentas activas, CON LO QUE TU CONCLUSIÓN ES MIERDA, PEQUEÑÍN. Fíjate que la expresión que consideras más característica es justamente una que tiene muchas más ocurrencias de las que dices que tiene. TOOONTO.
Lo más gracioso es que ya te dejé en ridículo en el hilo original, en el que te mostré cómo ya había interactuado con el aneuronal de Malversan en su momento, así como otros fallos de tu mierda de método. Lo mejor es ver cómo teniendo delante de sus narices un comentario que desmiente tu método, y dejando a un lado a un par de retrasados mentales comoDerko_89 oVarlak que también lo han visto y no se han dado cuenta, en vez de ver que somos dos personas diferentes, aún hay quien se cree que es que claro, nos aburrimos y no tenemos otra cosa que hacer que ponernos en plan Gollum… ¿con qué fin?
Antes de usar las neuronas artificiales hay que usar la neurona que te queda, si como en este mismo hilo ha quedado patente que al culofino de@Malversan no le han baneado nunca porque sus admins son sus amigüitos, para qué coño le hace falta un clon que encima diga las mismas mierdas que él. 🌴 🌴 🌴
Pues claro que hay coincidencias en algunas expresiones, algo que si en vez de una IA lo hubiera visto una persona acostumbrada a leer al otro troll podría haber llegado a la misma conclusión sin parafernalias… y estaría exactamente igual de equivocado. ¿Ese es el método mágico, ver algunas coincidencias inútiles en un foro endogámico donde coinciden esas expresiones muchas más veces de las que ha sido capaz de detectar esa mierda de plugin que has usado? ¿Te das cuenta de que el hecho de que el segundo grupo con más score tenga sólo 0.40 y pico indica LO MIERDA QUE ES ESTE MÉTODO cuando ha detectado a alguien que no es clon mío y no ha detectado mis clones de verdad? Por no hablar de que hay muchas cuentas clon de otros usuarios que tu método evidentemente no pilla (y te han retado y se te ha hecho guindilla el culo) muchas de ellas con un habla característica muy determinada, de usuarios con expresiones muy suyas, que sí que son realmente clones entre sí, y que ni salen ni se les espera en tu mierda de método TONTO.
Me ha parecido divertidísimo ver a todos los granosos del lugar, polla en mano, fliparse con una gilipollez absolutamente INÚTIL que sólo ha servido para ver que la mierda de los “n-gramas” no vale ni para tomar por culo. Y el idiota de@Malversan ni se habrá dado cuenta de esta gilipollez, si no, teniendo en cuenta lo troll que es, ya habría respondido hace rato.
¿Sabéis lo mejor, pajerillos? Que todo este post de@fluffy lo ha hecho POR PICÓN, porque quedó en ridículo en el otro hilo, decidió hacerse una pajilla con esta mierda método, le demostré en dicho hilo que había quedado en ridículo, y aprovechó mi strike para poner esta mierda de post de forma pública sabiendo que yo no podría responder. Lo más gracioso es que le respondí con otra cuenta, h4xor, y en vez de deducir que soy yo, h4x0r con cero, se pensaba que era una tercera persona, amigo de ambos, que estaba ahí comentando sin saber muy por qué. Ni siquiera atinaba a responder a mis comentarios y acababa citando el de otros usuarios. Si hasta el tonto de@FreEdoOm, al que estaba defendiendo, le entendió mal y se puso a atacarle diciendo que él no era clon de nadie. Patético.XD
Yo dejándole en ridículo:
Gran avance de Google DeepMind hacia una inteligencia artificial general/c125#c-125
Su respuesta metiendo la gamba aún más:
“Curioso. ¿Sabes por qué? Porque yo he analizado el perfil deh4x0r, con un cerito, y tú eres@h4xOr con una O mayúscula. Mi sospecha (bueno, sospecha... las probabilidades de que el NLP se equivoque son bastante bajas...) es queh4x0r es@Malversan y@h4xOr es algún amiguete.”
Gran avance de Google DeepMind hacia una inteligencia artificial general/c135#c-135
Aquí le dejo definitivamente en ridículo y no vuelve a responder hasta que no tengo el strike puesto y así puede poner este hilo sin desmentir su idiotez de método: Gran avance de Google DeepMind hacia una inteligencia artificial general/c136#c-136
Para que veais lo picón que es, mirad esta nota, resulta que@zurditorium votó negativo esta mierda noticia y el tío se puso a berrear como una nena porque no habían sido capaz de apreciar las hipermatemáticas ridículas con las que había quedado como un idiota
“Vaya@zurditorium, llevo una semana escribiendo un paper sobre el modelo detrás de lo que he escrito hoy aquí, más que nada porque tal y como puedes comprobar buscando, no hay casi nada al respecto. El más completo al respecto era este arxiv.org/pdf/1607.06961.pdf y ni siquiera utiliza n-gramas ni deep learning. Buscaba un matemático para colaborar en el modelado y ser coautor, pero visto que has votado irrelevante se ve que a tu universidad no le interesa, así que contactaré con la UPC. Un bechi”
@fluffy
“@ElPerroSeLlamabaMisTetas Para nada. Es una decepción. Es decir, yo he sido fan de este tío cuando hacía rubik, y ahora me doy cuenta de que matemáticamente ni siquiera es capaz de reconocer una solución matemática novedosa, y es que ni siquiera es capaz de diferenciar estadística de álgebra en inteligencia artificial... un matemático que no diferencia estadística de álgebra... a menos que haya votado el artículo sin leerlo. Es como diría Broncano "la desepsió"... “
@fluffy
Mirad si es niñito y picón, que en su comentario # 172 le dice a@minipimmer lo siguiente, sólo porque éste propone que no se utilicen tantos anglicismos:
“Voy a lanzar una apuesta al aire: no eres informático y si lo eres no ganas más de 50k.”
Inteligencia Artificial en acción: ¿es h4x0r una cuenta de Malversan?/c172#c-172
Que@Malversan nos saque de dudas: ¿Eres o no eres@h4xor?
Si resulta que sí, podríamos intentar averiguar si@RecauchutadosPelaez ha tenido otros nicks antes que ese, y qué clase de comentarios hacía.
#13 Intentar averiguar, dices...
#13 Es una gilipollez del tamaño de Notre Dame.
#28 Menos mal que esta la chupupandi para aclararnos que esto que trata de uno de los suyos es una gilipollez
#49 Ni una. No das ni una.
#55 Anda, otra afirmacion rimbombante de esas que suelen venir de gente con poca capacidad intelectual pero mucha seguridad aparente
#28 o un cuesco lentejero
#28 Ya le has jodido el algoritmo. Qué poco respeto por el trabajo de los demás...
#13 Pues se esta
ranmordiendo los dedos sin poder contestarte, por que ambos perfiles tienen 4.01 y 4.03 de Karma. Se pica así mismo a ver quien tiene menos.#13 No es ese@h4xor, bueno o tal vez también sea, el avatar es realmente parecido
En el artículo hablan deh4x0r
Y tanto@Malversan comoh4x0r no creo que te puedan contar mucho ya que andan con karma 4 y algo.
No lo se, pero tengo una conversación con@Malversan en la que no deja de insultarme, le reporté como 10 veces y ningún@admin ha movido un dedo para banearle.
#11 A mí me pasó lo mismo con el usuario@h4xor. Justo en esa noticia de la que hablan intentaba, junto con otro usuario, hacer ver que lo que llaman "inteligencia artificial" no es más que un algoritmo complejo, pero que no tiene nada que ver con la "inteligencia natural" y que solo sirve para resolver el problema concreto para el que lo hayas entrenado. Una inteligencia artificial nunca decide qué resolver ni cómo. Y no paró de insultarme. Lo reporté varias veces pero no sé si eso en realidad vale para algo.
Lo metí en ignorados, pero viendo esto, voy a meter al otro usuario también.
#30 Tiene sentido que sea una IA, si ha aprendido su comportamiento de menéame es normal que insulte.
#30 De nuevo, sólo por hacer de abogado del diablo: la "inteligencia natural" también son algoritmos, muchísimo más complejos y con acceso a muchísima más información y sensores que los actuales ordenadores y sus IAs. Mi esposa es neuropsicóloga y se dedica a enseñarle algoritmos (pautas, habilidades) a aquellas personas que no los tienen, en la mayoría de ocasiones porque su hardware está "escacharrado", sus sensores no funcionan bien o están mal calibrados, su adquisición e interpretación de datos no es correcta, etc.
Ahora nos maravillamos con unas IAs en realidad MUY sencillas, con la capacidad general de un niño de 3 años para temas generales y muy especializadas en temas concretos, pero es sólo cuestión de tiempo que el hardware mejore, que se le dote de mejores sensores (vista, oído, gusto, tacto, olfato, propriocepción, temperatura, equilibrio, esos propios de los humanos, y algunos otros con los que nosotros no contamos, como infrarrojos, ultravioleta, ultrasonidos, GPS, radiación, etc., etc.) y con algoritmos capaces de aprender, categorizar toda esa información, relacionarla entre sí, integrarla y sacar conclusiones propias y tomar decisiones, creando incluso algoritmos propios. Y esos algoritmos pueden no limitarse a cuestiones lógicas, sino también a temas de imaginación, creatividad… Y de ahí a la autoconciencia de las IA hay un paso…
#11 ya te lo digo yo: porque uno de los admins es amigo suyo y debe de ser el mismo que va metiendo strikes a todos los que le replican y lo dejan mal. No tengo pruebas pero canta bastante que cada vez que he tenido una enganchada con el personaje en cuestión... bum! baneo de karma al día siguiente. Pero él nunca recibe alguno.
#80 Si, a mi también me ha pasado. Da la sensación de que haya mucho nazi entre el staff de menéame.
#96 No sé si mucho nazi pero con uno le basta al colega del Malversan.
Lo que es increíble que en una mierda de web como Menéame vengan con estas tácticas mafiosas. Y luego nos quejamos cuando pasa en las altas esferas. Parece algo cultural.
#80¿ Y si es él mismo el admin? en la cuenta de admin no haría el troll, claro está.
#11 El estado natural de@malversan es el insulto. Quien escribe en realidad es su bilis...
#88 Y la ignorancia también, que@malversan es un palurdo de cuidado.
#11 ¿Conspiración?
#11 A mí también me estuvo insultando en una conversación en la que iba de listillo prepotente sin tener ni idea, pero pasé de reportarle porque sospechaba que no serviría para nada.
La solución que tomé fue mandarle al ignore. Para leer la bilis que vomita, mejor que ni me aparezca.
#11 Yo le metí al Ignore la primera vez que se pasó de listo de conmigo. Le veía una actitud demasiado agresiva, no le interesaba debatir ni llevar razón, sólo provocar. Veo que no me equivocaba.
Me preguntó cuantos strikes llevará, habida cuenta que muchos han recibido alguno por cosas mucho más nimias
Lo de cuesco lentejero me parece suficiente
#15 Si lo repites dos veces más tendrás el liderazgo en su uso en Menéame.
#34 a no ser que alguien empiece a decirlo sin más.
Atte: el Cuesco lentejero
Resulta que tengo ignorados a los dos. ¿Coincidencia? No creo
Yo que lo tenía en ignorados y va y se pone a sacar cuentas clones .
#10 Yo tengo ambas cuentas en ignorados. No es nada más que un troll que se ríe de su propia ignorancia.
#0 es una pasada lo que acabas de hacer. espero que@Malversan no se lo tome a mal... pero yo he flipado.
#9 #17 Ni@Malversan ni@h4x0r...
#29 pobrecillos. que en serio se toman esto algunos...
#31 Yo lo veo feten, es alguien que curra con estas cosas, a la que le apasiona su trabajo y que hace decide usar alguna de sus aficiones para ello.
Diseñar una red neuronal que pueda identificar características lingüísticas escritas le sirve para esta coña en meneame, pero no pinta que sea el objetivo.
A mi me da algo de envidia, y desde luego me parece admirable. Mucho mejor que el típico "pasar 4 horas al día comentando enfadado en meneame"
#40 sí, si lo digo por el de la doble (o vete a saber si más) cuenta.
#43
Sí, eso tiene más aquel, pero bueno, a su manera, es otra manera de mostrar pasión...
#0 #31 Dependiendo del tiempo que se tome el sistema en detectar clones, sería una herramienta muy interesante para encontrar por ejemplo opiniones interesadas o troles en foros, tiendas, competencia desleal que pueda ser demostrada ante un juez etc... el sistema parece interesante y puede que tenga una salida comercial. Incluso en un supercomputador sería interesante la posible capacidad de encontrar noticias falsas o fakes, o textos manipulados para crear confusión, y un largo etc...
"tengo mejores cosas que hacer que": Aparece 152 veces, 2 de Malversan y 1 de h4x0r
Creo que las otras 149 son mías.
Y no se qué coño hago perdiendo el tiempo, tengo mejores que hacer que andar explicandoos esto.
#33 153 veces
Muy impresionado, la cazada en el hilo original ya era digna de elogio. Pero vaya, cuando se ve pasar de las palabras a los hechos así... uno recupera un poco su fe en la humanidad.
Excelente trabajo. ¿Puedes hacer un tutorial en el que muestres el uso de las librerías paso a paso con este ejemplo?
#5 Excelente gilipollez. Goto #183 para ver cómo se pone en ridículo
Esto es muy interesante. No tienen sentido los votos negativos que se ha llevado.
#0 enhorabuena por el currazo! has unido en un mismo post algo tremendamente interesante, y los dos personajes, o quiza uno, mas detestables de meneame.
Puedo preguntar si has publicado tu codigo, o podrias describir brevemente el mismo? he intentado unas cuantas veces aplicar markov y nlp a un tensor con resultados penosos. solamente textacy + stacy me han dado ciertos resultados, pero esta lejos de ser una instancia inteligente.
Hay que tenerlos cuadrados para llamar inteligencia artificial a algo que imita a Malversan.
#90
No considero probado que h4x0r y Malversan sean la misma persona, pero en las normas de uso de un foro en particular su propietario puede actuar como le venga en gana buscando maximizar tanto los beneficios como una buena experiencia de sus usuarios o lo que lo que le parezca oportuno.
Determinados indicios o sospechas que no tenían categoría de prueba se han usado en multitud de foros para banear cuentas de forma preventiva. Yo en un foro dedicado a comentar, tomaría en consideración este tipo de indicios aunque solo sea para hacer un estudio de cada caso particular antes de tomar una decisión dura.
En otro tipo de foros donde la gente comparte cosas más valiosas como código, vídeos con mucho trabajo detrás o contenidos de cierta calidad, el beneficio de la duda sería la norma para no provocar graves perjuicios a inocentes.
Tengo la sospecha de que Meneame y muchas otras redes sociales podrían estar plagadas de cuentas que comparten el mismo usuario o de grupos de usuarios que trabajan de forma conjunta introduciendo falacias con un tipo de toxicidad dirijida a un mismo objetivo.
Todo ello forma parte de una forma de hackeo de la democracia que aún no sabemos combatir.
#61 pero en las normas de uso de un foro en particular su propietario puede actuar como le venga en gana buscando maximizar tanto los beneficios como una buena experiencia de sus usuarios o lo que lo que le parezca oportuno.
Entiendo que no puede hacer lo que le venga en gana si hay manipulación de los usuarios y más aún sin su conocimiento o consentimiento. #0 pero una manera de detectar lo que dices sería entrenar el sistema de@fluffy para poder encontrar respuestas con falacias y sin duda una manera efectiva de detectar troles, al menos de los que suelen pulular por meneame creyéndose más listos que el resto de meneantes, supongo que para algo parecido tendría que añadir una capa tesauro para poder sumar las estadísticas al resultado sin tener que comprender el contexto de las opiniones.
#61 Queda probado que@fluffy es un ridículo que le gusta quedar en evidencia delante de todo dios.
Goto #183
ccjesuo@zimpMacario_Polo@Dechado wondering@Españoljesuo@marainCantro
Otro que ha visto Colombo.
¿Y cómo sabes sih4x0r también ha visto Colombo y lo que pretende es hacerse pasar por@Malversan?
Este envío es más inútil que un cuesco lentejero...oh mierda.
Pues mira, meneo por el curro. Pero me parece muy feo perseguir usuarios... Mira el comentario y no te fijes en quién lo hace. Salvo dos o tres usuarios que tienen fijación por mí y que probablmente sean el mismo tipo, la verdad es que apenas recuerdo motes... Lo que importa es el comentario actual, no lo que el tipo haya dicho ayer porque esto no deja de ser un juego para ratos muertos de oficina.
Por cierto, "cuesco lentejero" me parece una expresión maravillosa. Y como la acabo de usar, supongo que me convierto en sospechoso de clon de Malversan...
Mi perceptron dice que@fluffy tiene más bigote que flequillo
Quizá tengo que añadirle alguna capa más!
Y muy interesante la investigación y el método.
#82 Barba completa, y la ultima vez que me afeité fue el 21 de diciembre... Sobre el flequillo, se me ve ya tanto el cartón que estoy ya planteándome raparme para ver si el pelo nece más fuerte
# La cuestión es.... ¿tu sistema puede discernir si Malversan y h4x0r son en realidad personas y no producto de un bot avanzado? quiero decir..¿tu sistema podría encontrar una IA o conjunto de scripts conversacionales creados para opinar de manera troll con la única intención de sacar información de los que replican?, sería muy interesante que pudieras analizar a todo Meneame con tu sistema....¿tardaría mucho? ¿que potencia necesitarías para detectar clones y bots entre todos los usuarios de meneame o forocoches?
#100 La auténtica pregunta es si podemos construir una IA que traduzca la propia escritura a otra que copie el perfil lingüístico de otra persona arbitraria.
Y por esto señorías, no me gusta tener perfiles con más de 1000 comentarios.
Eso si llegan, que normalmente me los hunden a strikes por "incitación al odio". Me gustaría ver a los admins actuales moderando el flame del Maidan
#FreeSacreew
#16 otra solución es no incitar al odio
#66 😮 Oºoh hay que ver lo cerca que estamos de el futuro! bueno, pongamos que me da un patatus y me muero, no creo que@admin tuviera reparos en que funcionara en el foro la "copia de seguridad de@helisan" por decirlo de algún modo.
#67
Eso me recuerda a la pelicula "Cam" (2008) y a la saga "death race" en que el corredor protagonista Frankenstein que aparece en publico tras una mascara. Al personaje con camara lo ocupan varias personas.
Aparte decir que creo que mucho del contenido de meneame, casi hilos completos son directamente clonados. Toman un hilo de hace tiempo, buscan una web o blog que mande el mismo contenido de aquel hilo (o incluso crean una nueva entrada en un blog qye sea identica a otra antigua) y lo ponen (o directamente ponen la misma url que se envió siempre que no sea un envio del grupo actualidad). Los comentarios de algunas de las personas que enviaron entonces son copiados y enviados con el mismo usuario u otro usuario.
Lo mas increible es que me da la sensación de que yo, no siendo un clon, ni un bot (si una persona humana, un bot de carne y hueso) me repito. Es decir que digo casi exactamente lo mismo que dije en el hilo mas antiguo. Tengo una sensación de deja vu cuando lo hago. Y me da la sensación de que me repito al ver el mismo envio, misma entradilla (muchas veces ya ni accedo al envió) y mismos comentario.
Aprovecho para poner estos envios que extrapolan con meneame.
Un estudio dice que Facebook miente: la mitad de las cuentas son falsas
Un estudio dice que Facebook miente: la mitad de las cuentas son falsas
Un estudio dice que Facebook miente: la mitad de l...
adslzone.netvia Guerra del taxi: esto es lo que cobra y trabaja un taxista respecto a un conductor de Uber y Cabify/c56#c-56
Facebook gives users trustworthiness score
https://www.bbc.com/news/technology-45257894
Como ZTE ayuda a Venezuela a implementar un control social al estilo chino/c1#c-1
Cobayas constantes de experimentos en meneame
Las cobayas humanas de la CIA/c28#c-28
Why Twitter Is the Best Social Media Platform for Disinformation (2017)
https://motherboard.vice.com/en_us/article/bj7vam/why-twitter-is-the-best-social-media-platform-for-disinformation
Me parece un abuso buling que se usen softwares, clones y bots, para interactuar con nosotros los usuarios humanos, y para influirnos cuando al ver un hilo pensemos que son personas reales las que comentan. Aparte de abuso y poco etico, si no es delictivo, creo que deberia serio (en el ambito de la publicidad engañosa, suplantación de identidad o nuevas leyes de la robotica respecto a los humanos que deberán saber SIEMPRE si están tratando con un software o bot automatico)
#0 Habia algun sistema o algoritmo de ibm dr watson que servia para sacar la personalidad, no recuerdo si los parametros ocean o que de un recopilatorio de textos y comentarios de una persona. Era algun servicio o herramienta que creo que estuvo, no sé si seguira estando disponible online.
#67 Lo malo es que lo pongan a funcionar antes del óbito, y sea mejor tú que tú mismo, y la gente acabe adorando a tu bot, y tú te pierdas en el olvido... Coño, me ha salido un capítulo de Black Mirror
Que nos lo desvele el susodicho y asunto zanjado.
Yo, para saber quién es clon de quién analizo las faltas de ortografía.
El Zas mas epico que he visto en años
¿No se puede utilizar OCR para la obtención de los datos? Hay que pensar en la máxima automatización posible.
#7 Hay técnicas mejores para obtener el texto de una página web. OCR sería más útil para texto impreso o manuscrito.
#7 El OCR es para pasar manuscrito a caracteres de texto o de papel a digital. Si ya lo tiene en caracteres de texto digitales no veo en qué es necesario el OCR.
#7 Usar OCR cuando ya tienes el texto es igual de innecesario que imprimir un PDF para escanearlo y mandarlo por correo electrónico.
#7 Automatización de pasos innecesarios. El nuevo paradigma de la computación.
Muy interesante.
#84 Deplorable revista.
#0 ¡Fascinante! ¿Crees que estamos cerca de un escenario en el que usuarios o oscuras organizaciones llenen los foros con clones manejados por IAs (más o menos tontas) pero con aspecto de meneante normal?
#48 Sería posible hacer un bot que emulase a nuestros trolls favoritos. A partir de los n-gramas puedes hacer la cadena de Markov, que es lo que genera texto similar al origen de los n-gramas. Con la cadena de markov y algún aprendizaje de a qué comentarios suele contestar y qué suele decir como respuesta, se puede hacer un bot que automáticamente busque molestar y comportándose igual que alguien. Pero no creo que a la administración le apasionase el tema...
#59 yo sueño con que, en un futuro no muy lejano, vuelquen los miles de comentarios que tengo aquí en una IA y que, en base a ellos, responda con mis ideas, mis temas recurrentes y mis expresiones. Así tendríamos un@helisan eterno!
#64 Pues eso te lo puedo hacer, si no en bot de menéame porque dudo que los admins dejen tener bots, pero sí en bot de telegram o facebook messenger.... Es decir, no sería perfecto, pero para hacer la broma con los amigos sí
#66 Ya tuvimos un fisgobot en la fisgona. Unas risas.
#66 hay un capítulo de black mirror sobre eso..
#59 no se que decirte, igual hasta les ahorrabas un par de sueldos...
#59 No sé por qué me has recordado esta tira épica de xkcd... Utiliza tus poderes para el bien
https://xkcd.com/810/
#48 Para creación de textos está la arquitectura de Redes Neuronales llamada LSTM. Lo más asombroso de todo es que muchas veces se genera el texto carácter a carácter en lugar de palabra a palabra que es lo que nos diría la intuición:
Puedes buscar "LSTM Text Generation" para ver varios ejemplos, aquí te coloco el primero que me sale en Google:
https://machinelearningmastery.com/text-generation-lstm-recurrent-neural-networks-python-keras/
#0 #68 #98 #111 La de cosas interesantes que hacen los rusos y yo sin enterarme por no salir de este agregador de provincias. En mi ignorancia tenía en mente algo más simple, un futuro en el que las corporaciones, partidos políticos y gente sin escrúpulos introducirían aquí a sus bots para hacer astroturfing. Imaginaba a los administradores, incapaces de distinguir, baneando a diestro y siniestro a humanos inocentes que caen junto a los bots, y a éstos clonándose para volver al instante diciendo las zarandajas habituales que dicen los meneantes junto a su propaganda, que será cada vez más sutil y sofisticada, todo ocurriendo a velocidades crecientes, sobrehumanas e incontrolables, hasta que Menéame acaba convirtiéndose en un nido de bots anunciando, entre cháchara y cháchara, autos eléctricos, teléfonos o partidos políticos de formas más o menos discretas, para que no los identifiquen como bots los maltrechos humanos que quedan entre las ruinas del foro. Éstos a su vez soltarán otros bots programados para tratar de anular a los primeros enredándolos en conversaciones absurdas llenas de ad hominems y falacias extravagantes. El futuro sería un foro en los que los hilos consisten en cadenas de "comentarios ladrillo" de bots respondiendo a bots con inextricables disertaciones de filosofía posmoderna.
#48 "Meneante" y "normal" en la misma frase. hum...
#48 Cuidadín que tu también estás en el punto mira, que tu nombre acaba tambien en -san
#48 En Reddit tienen un problema real con las "granjas de karma". Básicamente, alguien (normalmente desde Rusia) crea 100 cuentas, se dedica a cosas como repostear las imágenes que han tenido más votos en los últimos años, o a buscar preguntas duplicadas y responderlas con un copy-paste del comentario más votado la vez anterior, y así van recolectando karma. Cuando ya tienen suficiente, las venden al mejor postor, o las usan para postear en los foros que se considere oportuno, para crear o distorsionar una opinión concreta.
#0 Bravo. Me ha encantado, la explicación del proceso ha sido muy clara. Esta es una de las cosas que me da envidia no saber hacer. Seguro que se pueden hacer más cosas, como saber si un usuario es usado por dos personas o si dos personas pertenecen a un mismo grupo fuera de meneame o hasta saber que alias tiene sacreew en este momento. Además habrá más análisis que confirmen que dos usuarios son la misma persona, como el uso de los signos de puntuación.
#38 pues esto no es ninguna magia como todo en.la vida se aprende poco a poco
Muy buen analisis.
#0 Buen artículo.
Ya solo queda mi pregunta de rigor, aunque puede ser desde obvia hasta vaguería.
¿Donde se puede obtener documentación al respecto y sin morir en el intento?
De todas maneras ya resulta intersante la información que das.
#19 Este libro que está siendo editado actualmente por uno de los mayores expertos en el tema está muy bien:
https://web.stanford.edu/~jurafsky/slp3/
Aunque todavía tiene secciones por completar y a los temas más nuevos les faltan ejercicios.
En cuanto al uso de redes neuronales en procesamiento de lenguaje natural está muy bien el curso de Stanford:
http://web.stanford.edu/class/cs224n/index.html#schedule
Este tiene un montón de lecturas recomendadas, y también vídeos de las clases en youtube:
Además, el twitter de Deeplearning4java suele publicar muchas novedades interesantes:
Por último recomendaría al autor que usase un poco de sus conocimientos de NLP para traducir sus propios textos, se hace un poco cargante tanto "scrap", "features", "stemmer" etc.
#39 Gracias.
#39 Hice el curso de Stanford hace años en Coursera y lo disfruté de verdad. Muy recomendable.
Pues Malversan por el karma que tiene (4,01) diria que tiene un strike en marcha.
Aunque no es de extrañar cosas asi, es un tema recurrente y antiguo en meneame.
#45 eso si no se ha auto-dado un strike para escurrir el bulto unos días...
#63 A saber, no le conozo.
Uff, vaya cazada a un trollaco.
Muy interesante y muy didáctico.
No se quien es esa persona a la que llamas troll pero... para mi la definicion de troll es la de ese que se obseiona con un tema y trata de humillar publicamente a otros por internet usando datos y argumentos.
#44 Eso no es un troll. De toda la vida, un troll es un tocapelotas que no le importa el tema a debatir, solo busca que haya bronca para divertirse.
#51 Si, puede no importarle el tema a debatir pero una vez se pone en un bando lo defiende y se informa sobre ello creando confusion entre los aldeanos del lugar. Ademas no solo crean la bronca para divertirse y ganar reputacion, lo usan como una danza de cortejo. Se sabe que Forocoches es el Tinder de los trolls y la mayoria de biologos hacen su tesis ahi.
En este caso es una persona que busca informacion para humillar a alguien en concreto y usa programas y datos que ayuden a que los lectores cambien su opinion sobre ese tema/persona a tratar incitando asi a los detractores a un conflicto.