Introducción
Hace poco@Samu_ publicaba el siguiente artículo: gran-avance-google-deepmind-hacia-inteligencia-artificial/c062#c-62
A lo largo de todo ese artículo destacaba un troll en particular:h4x0r
Mirando su perfil es bastante fresco, junio del 2018, y solamente 183 comentarios. ¿Se trataría de alguien con más experiencia en Menéame? ¿Cómo saberlo?
Natural Language Processing al rescate
Aquí es dónde entra en juego la inteligencia artificial, en concreto una rama llamada NLP (Natural Language Processing) que trata de analizar el lenguaje. Una de las técnicas utilizadas en NLP son los n-gramas, que el nombre técnico suena raro, pero no es más que el análisis de las palabras consecutivas dónde n es el número de palabras. Pongamos un ejemplo: "Desde Santurce a Bilbao" tendría 3 bigramas: [Desde, Santurce], [Santurce, a], [a, Bilbao], y 2 trigramas: [Desde, Santurce, a],[Santurce, a, Bilbao]
Esta técnica de los n-gramas se usa muchísimo, y seguramente que lo habéis usado, porque son la base para los modelos de Markov. ¿Sabéis los teclados predictivos que os muestran las siguientes palabras? ¿O los típicos retos de "escribe tal cosa y luego pon la primera palabra que te sugiera"? Pues dichas predicciones son por el análisis de frecuencias de los n-gramas. También se emplean mucho en análisis de secuencias de ADN o proteínas, para que veáis lo potentes que pueden llegar a ser, sirven para identificar el lenguaje de una frase, se usan al pasar de voz a texto para identificar las palabras...
¿Y cómo se puede identificar si dos personas hablan igual?
Las personas suelen hablar de una cierta manera, y suelen crear una especie de "firma" lingüística, que se aprecia muchísimo más cuanto más marcado y único es el vocabulario y expresiones de una persona, y cómo no, cuanto más habla. Esa firma lingüística, a mano, es muy compleja de procesar, pero recordemos que tenemos los n-gramas. Además utilizaremos algo llamado stemmers. Un stemmer es un algoritmo capaz de calcular la raíz de una palabra, de manera que cosas como "viajé", "viajando", "viajero" tienen la misma raíz "viaj".
Usando los n-gramas de cada persona, diremos que cada n-grama es una feature, y si tenemos tooooodos los n-gramas que han dicho las personas de menéame, lo que podemos es hacer es para cada persona crear vectores de unos y ceros que nos indican si ese usuario ha utilizado esa feature o no. Como tener una única observación por usuario es poco, usamos además data augmentation, es decir, modificaciones de las observaciones (sustituir unos por ceros) para generar un dataset de 200 observaciones por usuario.
Ahora tendremos un modelo entrenado que dado un input de una persona (su array de features) nos da la probabilidad de que sea cada usuario del foro.
¿Y h4x0r es Malversan?
Bueno, no se puede estar seguro, pero el resultado de la red es que h4x0r se trata de malversan con un 0.96 de coincidencia (96%). Hay que tener en cuenta que los siguientes usuarios más probables no alcanzan el 0.5 de coincidencia.
Si suponemos que h4x0r es un troll dupe de un usuario habitual preexistente, pues... que cada uno saque sus conclusiones.
¿Pero hay forma de comprobarlo?
En inteligencia artificial hay un campo que es la interpretabilidad. Es el campo que investiga cómo justificar la respuesta de la IA sobre todo por sus posibles implicaciones éticas: nadie quiere tener un sistema para tomar decisiones que no se sabe en qué se basa. En este caso, la decisión está tomada por la frecuencia de algunos n-gramas que son comunes entre ambos y que sin embargo su frecuencia es muy baja o nula en el resto de usuarios. En una red neuronal que clasifica, la última capa suele ser una softmax, para interpretar el resultado basta con mirar los pesos más elevados que conectan la capa anterior con el nodo más activado de la softmax, de esa manera encontramos las features más decisivas.
Todos los n-gramas comunes de h4x0r y Malversan se pueden consultar aquí: http://batman.gyptis.org/zerobin/?63bdf69bae3a183d#cvF535OEH9vIN+/kDrdM/Y3wfaLcom8F4HiYd/QAZXs=
He obviado los stemmers y los skipgramas para que no fuese enorme. Pero simplemente con el análisis de n-gramas si hacer stemming es suficiente para ver ciertas cosas. Ojo, las que pongo a continuación son solamente una pequeña muestra:
"temas de los que no tienes ni puta idea": Aunque podría parecer una frase habitual, lo cierto es que esa construcción exacta solamente se ha utilizado 42 veces en Menéame. De esas 42, una vez ha sido h4x0r y 3 ha sido malversan. Eso significa que entre ambos monopolizan casi el 10% del uso de esa construcción exacta.
"Es una gilipollez del tamaño de Notre Dame": Esta construcción exacta ha sido usada 2 veces en menéame: 1 h4x0r y otra Malversan, así que alcanzan el 100% de uso y constituye una expresión muy suya. Por cierto, "del tamaño de Notre Dame" ha sido usada 5 veces en total en la historia de menéame, 2 veces Malversan, 1 vez h4x0r , y luego dos usuarios llamdos daphoene y danihr.
"Que tú has venido aquí a hablar de": De nuevo una construcción que podría parecer habitual, pero no lo es. Estamos hablando de 19 veces, 2 de ellas Malversan y una h4x0r. Además, la construcción completa es un 10-grama! "que tú has venido aquí a hablar de tu libro", pero al no usar skipgramas no vemos que h4x0r puso "hablar tu libro" en su lugar. En ese caso, tenemos que ha sido usada 13 veces, 2 por malversan y una por h4x0r.
"Ni te has molestado en comprobar": Otra que es común pero ha sido empleada 53 veces, 3 de las cuales ha sido Malversan y 1 h4x0r.
"Lo cual no quita que la": Es común, aparece más de 20.000 veces, pero es muy característica de Malversan que la ha empleado 136 veces, y h4x0r 6 veces en tan solo 181 comentarios. Así que no marca la diferencia, pero es una huella lingüística más.
"tengo mejores cosas que hacer que": Aparece 152 veces, 2 de Malversan y 1 de h4x0r
"dónde te salga de los cojones": Aparece 51 veces, 1 de Malversan y 1 de h4x0r.
"lo que te he dicho porque": Otra coletilla... aparece 3981 veces, 39 de Malversan y 4 de h4x0r
"además es una falta de respeto": 19 veces, 1 de Malversan y 1 de h4x0r
"puedes seguir haciendo el ridículo": 41 veces, 2 de Malversan y 1 de h4x0r
"por ejemplo tirarme un cuesco": Ha sido empleado un total de 10 veces, 3 veces Malversan, 1 vez h4x0r y el resto de veces 2 cuentas borradas.
"cuesco lentejero": ha sido empleado 4 veces: 2 Malversan, 1 h4x0r y 1 El_Apolítico. Como curiosidad, esta expresión fuera de Menéame solamente se ha usado una vez en la historia de internet, en el foro burbuja.info.
"sólo te has apuntado": ha sido empleado 3 veces: 1 Malversan, 1 h4x0r y 1 Melirka
"forma parte del retraso": Ha sido empleado 3 veces: 1 Malversan, 1 h4x0r y 1 fentdaci
Pero además hay una cierta cantidad de insultos y expresiones características y poco frecuentes que comparten en común.
Por ejemplo, ambos definen a los niños como "monstruitos de turno", nadie más en menéame lo hace. "chimpancé" y "cacahuetes" en la misma frase como folma de insulto, "zote" (de 810 veces, 114 son de Malversan), "zopenco", "ejperto", "berreando", "barrabasada", "tontolhaba", "maniqueas", "milongas", "attentionwhore", "murga", "cazurros", "tirria",... menciones a "Reinhard Heydrich"...
No es por una en concreto sino la suma de todas las pequeñas coincidencias las que hacen que la IA afirme que son la misma persona.
Conclusión
¿Se puede estar totalmente seguro? No. Pero si no son la misma persona, es demasiada coincidencia como para que no hayan recibido la misma educación en la misma casa... o ser almas gemelas.
Comentarios
Dios, nada como ver un troll duplicado atacándose a sí mismo. Digno del mismísimo Gollum.
Y encima lo muestra con orgullo en los comentarios
27.000 euros de multa por lesionar un niño a una mujer jugando a la pelota/c65#c-65
#1 El score con Malversan es de 0.96 el siguiente más alto es de 0.48. En cuanto a la interpretabilidad, pues eso, las features con más peso son precisamente formas de expresarse muy características de esa persona, algunas de ellas únicas entre ambos. Al final su perfil coincide tan perfecto que dudo que sea posible obtener un score tan elevado entre otras dupes y sus dueños, porque es tan detectable por la exclusividad de muchas de sus expresiones. Los ejemplos más claros son "cuesco lentejero" y "gilipollez del tamaño de notre dame" que no es que sean exclusivas aquí en menéame, es que son exclusivas en todo internet, lo que las convierte en expresiones de uso dentro de la familia, en un entorno muy cerrado, sin que se haya extendido su uso.
#3 Lo que más lleva es el scrap, la obtención de los datos. Una vez hecho el scrap es la obtención de los n-gramas, en mi caso estoy generando hasta 10-gram. La obtención de n-grams tarda más o menos una hora psra toda la bd. Si usas skip-grams (generación de n-gramas pero saltándose palabras) tardará mucho más, y necesitarás mucha ram.
Luego la red neuronal, para cosas de NLP no suele haber muchas features derivadas pero sí es bueno obtener ciertas combinaciones de features relevantes, así que tengo la capa de input y 2 hidden del doble de dimensión que input, y finalmente la softmax. La activación he comprobado en otros experimentos que sigmoid no es la mejor y ReLu es excesivamente lineal, así que me decanto por tanh. El entreno, al no ser un problema computacionalmente muy complejo, se puede hacer en una máquina de casa con una gráfica decente, aunque yo lo he hecho en un EC3 con GPU.
No sé qué decir,@fluffy. Menudo curro. Un trabajo interesante y ameno. Meneo. Sólo me chirría un poco en primer lugar, que esto pueda ser una especie de caza de alguien (aunque viendo el comportamiento deh4x0r en el hilo original, tampoco me extraña) y, en segundo, y como bien dices: interpretabilidad.
¿Has probado a cotejar tus comentarios en Menéame a ver si tus ingramas coinciden con otros? Es decir, tú eres el que mejor sabe si tú tienes clones o no. Así podrías hallar una guía de a partir de cuántas coincidencias podemos sospechar de clones. O puedes hacerlo con varios usuarios y ver la variación típica.
#4 Muy interesante el resultado. Sé que te va a parecer una burrada, pero aplicando esto de los n-gramas, ¿podrías comprobar el Lazarillo de Tormes contra algunos autores como Juan de Arce de Otálora, Diego Hurtado de Mendoza, y Pedro Cieza de León?
Que@Malversan nos saque de dudas: ¿Eres o no eres@h4xor?
Si resulta que sí, podríamos intentar averiguar si@RecauchutadosPelaez ha tenido otros nicks antes que ese, y qué clase de comentarios hacía.
No lo se, pero tengo una conversación con@Malversan en la que no deja de insultarme, le reporté como 10 veces y ningún@admin ha movido un dedo para banearle.
#13 Es una gilipollez del tamaño de Notre Dame.
Lo de cuesco lentejero me parece suficiente
#19 Este libro que está siendo editado actualmente por uno de los mayores expertos en el tema está muy bien:
https://web.stanford.edu/~jurafsky/slp3/
Aunque todavía tiene secciones por completar y a los temas más nuevos les faltan ejercicios.
En cuanto al uso de redes neuronales en procesamiento de lenguaje natural está muy bien el curso de Stanford:
http://web.stanford.edu/class/cs224n/index.html#schedule
Este tiene un montón de lecturas recomendadas, y también vídeos de las clases en youtube:
Además, el twitter de Deeplearning4java suele publicar muchas novedades interesantes:
Por último recomendaría al autor que usase un poco de sus conocimientos de NLP para traducir sus propios textos, se hace un poco cargante tanto "scrap", "features", "stemmer" etc.
Resulta que tengo ignorados a los dos. ¿Coincidencia? No creo
#44 Eso no es un troll. De toda la vida, un troll es un tocapelotas que no le importa el tema a debatir, solo busca que haya bronca para divertirse.
#24 Hola! Bueno, imagino que sí se podría... pero no creo que lo fuese a hacer mejor que los lingüistas que llevan años investigándolo. Pero como prueba de concepto sí... de hecho muchas gracias, porque es muy buena idea para investigar.
Yo que lo tenía en ignorados y va y se pone a sacar cuentas clones .
#11 El estado natural de@malversan es el insulto. Quien escribe en realidad es su bilis...
#49 Ni una. No das ni una.
#9 #17 Ni@Malversan ni@h4x0r...
#13 Intentar averiguar, dices...
#0 es una pasada lo que acabas de hacer. espero que@Malversan no se lo tome a mal... pero yo he flipado.
"tengo mejores cosas que hacer que": Aparece 152 veces, 2 de Malversan y 1 de h4x0r
Creo que las otras 149 son mías.
Y no se qué coño hago perdiendo el tiempo, tengo mejores que hacer que andar explicandoos esto.
Muy impresionado, la cazada en el hilo original ya era digna de elogio. Pero vaya, cuando se ve pasar de las palabras a los hechos así... uno recupera un poco su fe en la humanidad.
#10 Yo tengo ambas cuentas en ignorados. No es nada más que un troll que se ríe de su propia ignorancia.
#72 Hablando de textos originales y de variantes textuales, te doy un extracto del Lazarillo de Tormes conforme a sus cuatro ediciones de 1554.:
Amberes 1554: Baylauanle los ojos en el caxco, como si fueran de azogue, quantas blancas ofrecian tenia por cuenta, y acabado el ofrecer luego me quitaua la concheta y la ponia sobre el altar.
Alcalá 1554: Baylauanle los ojos en el caxco, como si fueran de azogue, quantas blancas offrescian tenia por cuenta, y acabado el offrescer luego me quiataua la concha y la ponia sobre el altar.
Burgos 1554: Baylauanle los ojos en el caxco, como si fueran de azogue, quantas blancas ofreçian tenia por cuenta: y acabado el offrecer: luego me quitaua la corneta y la ponia sobre el altar.
Medina 1554: Baylauanle los ojos en el caxco, como si fueran de azogue, quantas blancas ofrecian tenia por cuenta: y acabado el offrecer: luego me quitaua la corneta y la ponia sobre el altar.
Nótese la diferencia ofrecer/offrescer/offrecer y la sorprendente variante concheta/concha/corneta. Para esta segunda variante, la forma correcta es "concheta".
#11 ya te lo digo yo: porque uno de los admins es amigo suyo y debe de ser el mismo que va metiendo strikes a todos los que le replican y lo dejan mal. No tengo pruebas pero canta bastante que cada vez que he tenido una enganchada con el personaje en cuestión... bum! baneo de karma al día siguiente. Pero él nunca recibe alguno.
#11 A mí me pasó lo mismo con el usuario@h4xor. Justo en esa noticia de la que hablan intentaba, junto con otro usuario, hacer ver que lo que llaman "inteligencia artificial" no es más que un algoritmo complejo, pero que no tiene nada que ver con la "inteligencia natural" y que solo sirve para resolver el problema concreto para el que lo hayas entrenado. Una inteligencia artificial nunca decide qué resolver ni cómo. Y no paró de insultarme. Lo reporté varias veces pero no sé si eso en realidad vale para algo.
Lo metí en ignorados, pero viendo esto, voy a meter al otro usuario también.
#15 Si lo repites dos veces más tendrás el liderazgo en su uso en Menéame.
#31 Yo lo veo feten, es alguien que curra con estas cosas, a la que le apasiona su trabajo y que hace decide usar alguna de sus aficiones para ello.
Diseñar una red neuronal que pueda identificar características lingüísticas escritas le sirve para esta coña en meneame, pero no pinta que sea el objetivo.
A mi me da algo de envidia, y desde luego me parece admirable. Mucho mejor que el típico "pasar 4 horas al día comentando enfadado en meneame"
#76 ¿Te refieres a la ortografía? Poca o ninguna diferencia iba a suponer para el cotejo. Además, ni siquiera los propios autores eran coherentes consigo mismos en las grafías, y te estoy hablando de manuscritos. Por ejemplo, en este párrafo de un manuscrito autógrafo de Gonzalo Fernández de Oviedo tenemos tres formas para la palabra "divisa", que son devisa/deuisa/divisa:
ALCAYDE- Sobre el escudo ponía un baúl de torneo de çinco lumbres o vistas; e el rollo e dependeçias de oro e de goles vel sanguina color; e por timbre o deuisa, sobre el yelmo, vn armiño purísimo vel cándido. Porque, como mejor sabés, muy acostumbrada cosa en nuestra España, entre caualleros e señores, procurar que la invençión comiençe su nombre en la primera letra del nombre de la señora por quien se inuençiona, demás del atributo o sinificaçión que quieren magnifestar o publicar con esas devisas. E guardando esta orden, el Cathólico Rey Don Fernando trahía un yugo, porque la primera letra es Y, por Ysabel; y la Reyna Cathólica trahía por diuisa las frechas, que la primera letra es F, por Fernando; y la serenísima emperatriz, que en gloria está, trahía por deuisa un cabestrante, que la primera letra es C por César. E así este señor Rodrigo de Ulloa, como enamorado de la señora doña Aldonça de Castilla, que la primera letra de su nombre es A, ponía el armiño; e como señor graue, loando a su señora la compara a vn animal tan limpio, de la manera que se suele pintar tal animal, e muy al natural.
Excelente trabajo. ¿Puedes hacer un tutorial en el que muestres el uso de las librerías paso a paso con este ejemplo?
#41 Mola cuando se pregunta a sí mismo si tiene algún tipo de esquizofrenia. Me lo imagino haciendo lo mismo delante del espejo y me entra la risa
#11 A mí también me estuvo insultando en una conversación en la que iba de listillo prepotente sin tener ni idea, pero pasé de reportarle porque sospechaba que no serviría para nada.
La solución que tomé fue mandarle al ignore. Para leer la bilis que vomita, mejor que ni me aparezca.
#41 Oh dios mio! Ahí ya me esta empezando a dar pena de verdad.
Esto es muy interesante. No tienen sentido los votos negativos que se ha llevado.
#0 enhorabuena por el currazo! has unido en un mismo post algo tremendamente interesante, y los dos personajes, o quiza uno, mas detestables de meneame.
Puedo preguntar si has publicado tu codigo, o podrias describir brevemente el mismo? he intentado unas cuantas veces aplicar markov y nlp a un tensor con resultados penosos. solamente textacy + stacy me han dado ciertos resultados, pero esta lejos de ser una instancia inteligente.
#0 #68 #98 #111 La de cosas interesantes que hacen los rusos y yo sin enterarme por no salir de este agregador de provincias. En mi ignorancia tenía en mente algo más simple, un futuro en el que las corporaciones, partidos políticos y gente sin escrúpulos introducirían aquí a sus bots para hacer astroturfing. Imaginaba a los administradores, incapaces de distinguir, baneando a diestro y siniestro a humanos inocentes que caen junto a los bots, y a éstos clonándose para volver al instante diciendo las zarandajas habituales que dicen los meneantes junto a su propaganda, que será cada vez más sutil y sofisticada, todo ocurriendo a velocidades crecientes, sobrehumanas e incontrolables, hasta que Menéame acaba convirtiéndose en un nido de bots anunciando, entre cháchara y cháchara, autos eléctricos, teléfonos o partidos políticos de formas más o menos discretas, para que no los identifiquen como bots los maltrechos humanos que quedan entre las ruinas del foro. Éstos a su vez soltarán otros bots programados para tratar de anular a los primeros enredándolos en conversaciones absurdas llenas de ad hominems y falacias extravagantes. El futuro sería un foro en los que los hilos consisten en cadenas de "comentarios ladrillo" de bots respondiendo a bots con inextricables disertaciones de filosofía posmoderna.
#0
Otra comparativa para saber siiescolar es barbijaputa o no.
(yo creo q no lo es, pero hay tanta gente que lo dice que a saber si es verdad)
#78 Baylauanle sería "bailábanle" en castellano actual, aunque con el uso que tenemos de los pronombres hoy en día, la forma que se vería es "le bailaban". "Caxco" es una peculiar forma de "casco", y no es la única vez que el autor usa una x antes de /k/, pues escribe en algún lado "coxqueaba", que hoy se día "cojeaba".
Hay alguna otra variante llamativa, como el arcaísmo "turar" en vez de "durar", así como alguna conjugación que ha variado con los siglos. En el XVI no se decía "pondría", "tendría", "vendrá" o "tendrá" sino "pornía", "ternía", "verná", y "terná".
#11 Yo le metí al Ignore la primera vez que se pasó de listo de conmigo. Le veía una actitud demasiado agresiva, no le interesaba debatir ni llevar razón, sólo provocar. Veo que no me equivocaba.
Me preguntó cuantos strikes llevará, habida cuenta que muchos han recibido alguno por cosas mucho más nimias
#67
Eso me recuerda a la pelicula "Cam" (2008) y a la saga "death race" en que el corredor protagonista Frankenstein que aparece en publico tras una mascara. Al personaje con camara lo ocupan varias personas.
Aparte decir que creo que mucho del contenido de meneame, casi hilos completos son directamente clonados. Toman un hilo de hace tiempo, buscan una web o blog que mande el mismo contenido de aquel hilo (o incluso crean una nueva entrada en un blog qye sea identica a otra antigua) y lo ponen (o directamente ponen la misma url que se envió siempre que no sea un envio del grupo actualidad). Los comentarios de algunas de las personas que enviaron entonces son copiados y enviados con el mismo usuario u otro usuario.
Lo mas increible es que me da la sensación de que yo, no siendo un clon, ni un bot (si una persona humana, un bot de carne y hueso) me repito. Es decir que digo casi exactamente lo mismo que dije en el hilo mas antiguo. Tengo una sensación de deja vu cuando lo hago. Y me da la sensación de que me repito al ver el mismo envio, misma entradilla (muchas veces ya ni accedo al envió) y mismos comentario.
Aprovecho para poner estos envios que extrapolan con meneame.
Un estudio dice que Facebook miente: la mitad de las cuentas son falsas
Un estudio dice que Facebook miente: la mitad de las cuentas son falsas
Un estudio dice que Facebook miente: la mitad de l...
adslzone.netvia Guerra del taxi: esto es lo que cobra y trabaja un taxista respecto a un conductor de Uber y Cabify/c56#c-56
Facebook gives users trustworthiness score
https://www.bbc.com/news/technology-45257894
Como ZTE ayuda a Venezuela a implementar un control social al estilo chino/c1#c-1
Cobayas constantes de experimentos en meneame
Las cobayas humanas de la CIA/c28#c-28
Why Twitter Is the Best Social Media Platform for Disinformation (2017)
https://motherboard.vice.com/en_us/article/bj7vam/why-twitter-is-the-best-social-media-platform-for-disinformation
Me parece un abuso buling que se usen softwares, clones y bots, para interactuar con nosotros los usuarios humanos, y para influirnos cuando al ver un hilo pensemos que son personas reales las que comentan. Aparte de abuso y poco etico, si no es delictivo, creo que deberia serio (en el ambito de la publicidad engañosa, suplantación de identidad o nuevas leyes de la robotica respecto a los humanos que deberán saber SIEMPRE si están tratando con un software o bot automatico)
#0 Habia algun sistema o algoritmo de ibm dr watson que servia para sacar la personalidad, no recuerdo si los parametros ocean o que de un recopilatorio de textos y comentarios de una persona. Era algun servicio o herramienta que creo que estuvo, no sé si seguira estando disponible online.
#75 Viendo el problema (nunca lo había visto antes... no sabía que hubiese diferentes variantes... pero se abre un mundo para mí), tengo varias cosas que decir:
1. Sobre "ofrecer/offrescer/offrecer", dado que un stemmer tiene reglas para calcular la raíz de la palabra, al final quedarían tanto los infinitivos como sus conjugaciones en "ofrec/offresc/offrec". Esto tiene una cosa positiva, y es que las reglas de conjugación son comunes y parece que no han cambiado en siglos, con lo cual el algoritmo de cálculo de raíces del castellano moderno debería en principio servir para castellano antiguo. Como parte negativa, al ser las raíces diferentes, no se identificarían como la misma palabra o significado con el método que he usado en este artículo
2. Por otro lado, con skipgramas se puede hacer word2vec y analizar el corpus. Esto lo que hace es calcular para cada palabra un vector en el que cada dimensión del vector es un "significado". En este caso, dado que las 3 variantes estarían en el mismo contexto y posición dentro del corpus, se puede suponer en principio que sus vectores serán los mismos. Esto significa que dadas dos palabras cuya representación escrita es diferente, se puede conocer si son sinónimas o equivalentes comparando los vectores. Como dato chulo, estos vectores te permiten jugar con el lenguaje, de manera que si tienes un vector para "rey" otro vector para "hombre" y otro vector para "mujer", si haces "rey" - "hombre" + "mujer" te da el vector de reina (al rey le has quitado la componente que significa hombre y le has añadido la que significa mujer).
3. Teniendo las variantes de un libro, como se espera que el contenido sea el mismo, se pueden aprender las palabras con mismo significado incluso sin IA... simplemente por la posición
4. Hay otra manera de aproximarse que sería realizando la transcripción fonética... lo digo porque "Baylauanle" no sé lo que significa pero suena a "Bailanle", que fonéticamente son muy similares.
Bueno, el tema me parece interesante
#30 Tiene sentido que sea una IA, si ha aprendido su comportamiento de menéame es normal que insulte.
Hay que tenerlos cuadrados para llamar inteligencia artificial a algo que imita a Malversan.
#16 otra solución es no incitar al odio
#4 joder, menudo curro...
Si descubres que soy un holograma dímelo y dejo de pagar la hipoteca...
#30 De nuevo, sólo por hacer de abogado del diablo: la "inteligencia natural" también son algoritmos, muchísimo más complejos y con acceso a muchísima más información y sensores que los actuales ordenadores y sus IAs. Mi esposa es neuropsicóloga y se dedica a enseñarle algoritmos (pautas, habilidades) a aquellas personas que no los tienen, en la mayoría de ocasiones porque su hardware está "escacharrado", sus sensores no funcionan bien o están mal calibrados, su adquisición e interpretación de datos no es correcta, etc.
Ahora nos maravillamos con unas IAs en realidad MUY sencillas, con la capacidad general de un niño de 3 años para temas generales y muy especializadas en temas concretos, pero es sólo cuestión de tiempo que el hardware mejore, que se le dote de mejores sensores (vista, oído, gusto, tacto, olfato, propriocepción, temperatura, equilibrio, esos propios de los humanos, y algunos otros con los que nosotros no contamos, como infrarrojos, ultravioleta, ultrasonidos, GPS, radiación, etc., etc.) y con algoritmos capaces de aprender, categorizar toda esa información, relacionarla entre sí, integrarla y sacar conclusiones propias y tomar decisiones, creando incluso algoritmos propios. Y esos algoritmos pueden no limitarse a cuestiones lógicas, sino también a temas de imaginación, creatividad… Y de ahí a la autoconciencia de las IA hay un paso…
#13 Pues se esta
ranmordiendo los dedos sin poder contestarte, por que ambos perfiles tienen 4.01 y 4.03 de Karma. Se pica así mismo a ver quien tiene menos.#58 Lo estaba pensando como prueba de concepto, no como otra cosa. Si dispusiese de un corpus digital adecuado, te habría indicado también que comparases con Francisco de Enzinas y Juan de Jarava, que son realmente los más adecuados.
No considero probado que h4x0r y Malversan sean la misma persona, pero en las normas de uso de un foro en particular su propietario puede actuar como le venga en gana buscando maximizar tanto los beneficios como una buena experiencia de sus usuarios o lo que lo que le parezca oportuno.
Determinados indicios o sospechas que no tenían categoría de prueba se han usado en multitud de foros para banear cuentas de forma preventiva. Yo en un foro dedicado a comentar, tomaría en consideración este tipo de indicios aunque solo sea para hacer un estudio de cada caso particular antes de tomar una decisión dura.
En otro tipo de foros donde la gente comparte cosas más valiosas como código, vídeos con mucho trabajo detrás o contenidos de cierta calidad, el beneficio de la duda sería la norma para no provocar graves perjuicios a inocentes.
Tengo la sospecha de que Meneame y muchas otras redes sociales podrían estar plagadas de cuentas que comparten el mismo usuario o de grupos de usuarios que trabajan de forma conjunta introduciendo falacias con un tipo de toxicidad dirijida a un mismo objetivo.
Todo ello forma parte de una forma de hackeo de la democracia que aún no sabemos combatir.
#59 no se que decirte, igual hasta les ahorrabas un par de sueldos...
#114 ¿Quién te dice que algo así no está sucediendo ya? Por ejemplo, Amazon tiene un problema serio con las opiniones inventadas, que generan bots creando usuarios aparentemente fidedignos, y que se venden poco menos que a granel en los círculos adecuados si eres un vendedor poco escrupuloso. No veo por qué no podrían estar haciendo eso mismo en foros como Menéame, para orientar la opinión hacia donde le interesa al cliente de turno.
#34 a no ser que alguien empiece a decirlo sin más.
Atte: el Cuesco lentejero
#60 Lo que yo no sé, es si las obras de esos autores nos han llegado traducidas a un castellano moderno por las editoriales.
Lo suyo sería entonces acceder a los textos originales sin adaptar para poder hacer correctamente ese estudio.
#37 Mmm... En principio empecemos con esto: Cómo entienden los bots el lenguaje
En chatbots interesa entrenar con frases cortas, y varias frases son las observaciones de un intent, así que es un problema fácil porque tienes vectores como este para los intents:
[1, 1, 1, 0, 0, 0, 0, 0, 0, 0,......... ]
[1, 0, 1, 1, 0, 0, 0, 0, 0, 0,........]
Pero comparar las características de escritura de alguien no es el mismo problema, y no funciona. Revisando papers encontré muy poco y casi todo estadístico basado en frecuencias, así que me lancé a hacer esto, y tenía que partir de hipótesis. Al principio lo hice con un único vector por persona, con lo cual te queda para cada persona un único vector... pero eso no representa la frecuencia de las palabras, alguien puede decir "zote" pero no por ello ser una característica de su habla. Además con una única observación por cada clase no tira muy bien.
Así que me planteé usar data augmentation, que es lo que uso en computer vision. Ejemplo: si tengo fotos de cosas y tengo pocas, lo que hago es que a cada foto le hago microcambios aleatorios: giro, desplazamiento en x, desplazamiento en y, crop, cambio de aspect ratio... De esa manera de cada foto puedo generar 100 (o las que yo quiera).
Para aplicar data augmentation en este caso, de nuevo me encontré con el obstáculo de que no hay nada, ni un sólo paper, que me diese indicaciones. Podría probar con poner ceros al azar donde hay unos... pero eso no tendría en cuenta las características del habla de la persona. Podría eliminar las menos frecuentes, pero entonces te encuentras con un problema: las palabras más frecuentes son lo que usualmente se llaman stopwords, palabras que no aportan gran significado, como conjunciones, artículos y preposiciones. Así que decidí eliminar en base a la frecuencia del uso en relación al resto de usuarios. ¿Qué quiere decir eso? Que si la palabra "zote" la usa muy poca gente, no se va a eliminar, en cambio cosas como "a", "el", "la", "un", "y" son propensas a desaparecer. Lo mismo para n-gramas combinados de ellas.
#48 Para creación de textos está la arquitectura de Redes Neuronales llamada LSTM. Lo más asombroso de todo es que muchas veces se genera el texto carácter a carácter en lugar de palabra a palabra que es lo que nos diría la intuición:
Puedes buscar "LSTM Text Generation" para ver varios ejemplos, aquí te coloco el primero que me sale en Google:
https://machinelearningmastery.com/text-generation-lstm-recurrent-neural-networks-python-keras/
#7 Usar OCR cuando ya tienes el texto es igual de innecesario que imprimir un PDF para escanearlo y mandarlo por correo electrónico.
#93 Lo que dices es estadística pero no machine learning, así como el machine learning no necesariamente es estadístico. Machine learning es todo aquello que conlleve un aprendizaje automático, bien sea supervisado o no supervisado, independientemente de las técnicas empleadas, si bien en data science muchas de las técnicas implican modelos probabilísticos.
De todas formas las definiciones no las doy yo, te aconsejo leerte Artificial Intelligence: A Modern Approach que es el libro obligatorio de casi todas las universidades de informática para el primer año de la asignatura de IA o de sistemas conexionistas.
#88 Y la ignorancia también, que@malversan es un palurdo de cuidado.
Otro que ha visto Colombo.
¿Y cómo sabes sih4x0r también ha visto Colombo y lo que pretende es hacerse pasar por@Malversan?
#48 En Reddit tienen un problema real con las "granjas de karma". Básicamente, alguien (normalmente desde Rusia) crea 100 cuentas, se dedica a cosas como repostear las imágenes que han tenido más votos en los últimos años, o a buscar preguntas duplicadas y responderlas con un copy-paste del comentario más votado la vez anterior, y así van recolectando karma. Cuando ya tienen suficiente, las venden al mejor postor, o las usan para postear en los foros que se considere oportuno, para crear o distorsionar una opinión concreta.
#67 Lo malo es que lo pongan a funcionar antes del óbito, y sea mejor tú que tú mismo, y la gente acabe adorando a tu bot, y tú te pierdas en el olvido... Coño, me ha salido un capítulo de Black Mirror
#171 Voy a lanzar una apuesta al aire: no eres informático y si lo eres no ganas más de 50k.
Llevo desde el año 94 estudiando todo en inglés, por otro lado las conferencias y cursos son en inglés, y los papers son en inglés (leo una media de 2 al día desde hace años).
En el año 2005 cambié de curro y desde ese hasta mi actual todo es en inglés. Y bueno, array no sería tabla sino vector.
Por otro lado, hablemos de tu batalla personal. Tu nick es "minipimmer" y dices ser "blogger", para ti el estatut es un "show", de vez en cuando reproduces un "clip" de un "flash mob" o alguna película "yanki", Enrique Dans te parece un "crack", lees "posts" controvertidos, para ti muchos "brexiters" son "white trash", y todo esto en menos del 1% de tus posts, lo cual es algo "mind blown".
Este envío es más inútil que un cuesco lentejero...oh mierda.
#82 Barba completa, y la ultima vez que me afeité fue el 21 de diciembre... Sobre el flequillo, se me ve ya tanto el cartón que estoy ya planteándome raparme para ver si el pelo nece más fuerte
#45 eso si no se ha auto-dado un strike para escurrir el bulto unos días...
#104 jaja, si yo te contara, a mi me han baneado un monton de veces, la censura es permanente, pero no sera porque puedo ponerme 100 nicks sin problemas...asi que me importa un pito, a mi no me van a callar, y a la 1a que salga una web parecida que no censure, me piro.
#2 Interesante. Cuéntanos sobre el proceso, ¿cuánto te ha llevado el análisis? ¿Te dedicas a ello profesionalmente?
Pues mira, meneo por el curro. Pero me parece muy feo perseguir usuarios... Mira el comentario y no te fijes en quién lo hace. Salvo dos o tres usuarios que tienen fijación por mí y que probablmente sean el mismo tipo, la verdad es que apenas recuerdo motes... Lo que importa es el comentario actual, no lo que el tipo haya dicho ayer porque esto no deja de ser un juego para ratos muertos de oficina.
Por cierto, "cuesco lentejero" me parece una expresión maravillosa. Y como la acabo de usar, supongo que me convierto en sospechoso de clon de Malversan...
Mi perceptron dice que@fluffy tiene más bigote que flequillo
Quizá tengo que añadirle alguna capa más!
Y muy interesante la investigación y el método.
# La cuestión es.... ¿tu sistema puede discernir si Malversan y h4x0r son en realidad personas y no producto de un bot avanzado? quiero decir..¿tu sistema podría encontrar una IA o conjunto de scripts conversacionales creados para opinar de manera troll con la única intención de sacar información de los que replican?, sería muy interesante que pudieras analizar a todo Meneame con tu sistema....¿tardaría mucho? ¿que potencia necesitarías para detectar clones y bots entre todos los usuarios de meneame o forocoches?
Hola@fluffy, como el individuo en cuestión ha venido a trolearme por ponerle un negativo, a un hilo diferente, acusándome de ser tú, y todo este tema me ha animado la hora de comer (y la de todos mis compis de curro, descojonados, y convencidos de que son la misma persona), vengo a presentarte mis respetos. No sé mucho de redes neuronales, pero te lo has currado.
¡Caña al eskizo-trol astroturfer!
#215 Buenas, nah no te preocupes. El título tiene su por qué. Mira el artículo que he publicado después con el título "Deep Learning: Genera tus propias imágenes con BigGAN". 5 meneos y lo que contiene es lo último de lo último de generación de imágenes mediante inteligencia artificial, con generación perfecta de caras, y publicado antes que medios de divulgación porque todavía es algo que solamente escucharás en conferencias especializadas o leyendo papers. Incluso incluye el código desplegado en colab para que los que usan python puedan clonarlo y los que no saben programar le den a play y punto. Cuando puse el título sabía que no llegaría ni a 10 meneos. ¿El por qué? El título. Si yo a esto le llamo "Inteligencia artificial aplicada a la identificación por características lingüísticas y no entra ni dios". De la misma forma que si al otro le llamo "IA: en el presente ya no es posible diferenciar vídeos falsos de reales" o "El apocalipsis de la información: ya es imposible distinguir lo real de lo falso" conseguiría unos 30 o 40. Pero si implicas personalmente al lector votan más. Lo siento por haberte confundido.
#7 Hay técnicas mejores para obtener el texto de una página web. OCR sería más útil para texto impreso o manuscrito.
#148 Claro hombre, yo te explico. El Tribunal Supremo se pronunció en su sentencia 572/2012 del 9 de octubre de 2012, de Ryanair contra Atrápalo, determinando que el webscrapping era legal excepto en casos de competencia desleal o de propiedad intelectual (por ejemplo imágenes registradas), o si hubiese estructuración de datos de carácter personal (nombre, dni, etc...), pero sobre eso los propios términos de menéame dicen "los ficheros de meneame.net no contienen datos de carácter privado ni requieren información para identificar personas físicas.", ergo si menéame no los tiene, ¿cómo los iba a conseguir alguien haciendo scrapping?
Sin embargo, y mira tú por dónde, aunque no fuera así no pasaría nada. ¿Sabes por qué? Porque lo que se guardan no son las frases, sino los n-gramas, en mi artículo va un link a un ejemplo. Esto hace que la información contenida sea un agregado del que no se puede reconstruir la información original. Y voy más allá, los n-gramas son temporales, podría no almacenarlos en absoluto, sino usarlos en memoria para entrenar la red y no persistirlos, de esta manera como la red lo que es por dentro son matrices de números reales que no contienen parcial ni totalmente ninguna información, y de la que no se puede obtener información total o parcial, tampoco pasaría nada.
En cambio lo que sí dicen las condiciones de menéame es:
"El usuario se abstendrá de crear múltiples cuentas con el fin de promocionar sitios webs, participar en discusiones simulando las opiniones de personas distintas (astroturfing), suplantar la identidad de otras personas o intentar alterar artificialmente los contadores de votos y karma y crear múltiples usuarios con el único objetivo de eludir las restricciones y penalizaciones generales del sistema."
Sin embargo tal cual pareciera que según para quién, esa condición de sus términos legales hace que tenga que fregar muy a menudo su sede, porque les suda a todos la polla.
#66 hay un capítulo de black mirror sobre eso..
#133 yo también me repito, y además de repetirme con mis temas recurrentes, es que algunas veces copipasteo comentarios antiguos (como #114) aunque siempre los adapto y los modifico para la nueva/vieja discusión, algunos comentarios evolucionan o acaban haciéndose artículos.
#150
Hay algo mas.
"Irresistible: ¿Quién nos ha convertido en yonquis tecnológicos?" de Adam Alter.
Movimiento antivacunas y polución entran a la lista de amenazas para la salud de la OMS/c3#c-3
Y los suicidios e intentos de suicidio por la adicción inducida (o no inducida, aprovechada, como el que se pone a regalar heroina y espera a que quieran comprarsela) y la desesperacion que produce la repetición.
¿Qué es la apeirofobia? [ENG]/c5#c-5
Despues están los delirios por la maquina tragaperras de meneame. Desde "Black Mirror Banderscach" (2018) (que no os engañen con verla desde netflix, no hay suficientes ramificaciones que no se hayan reproducido en la versión o montaje sin interactividad disponible para descargar) a "El corazón del guerrero" (2000), pasando por una posible versión oscura y mas real de "Ready player one"
Adicciones. Sobre el abismo de mis adicciones/c5#c-5
[Aquí realmente va una captura de Elijah sangrando tumbado en la calle, pero no la he encontrado]
#48 "Meneante" y "normal" en la misma frase. hum...
#24 Imagino que estas técnicas ya las usan los gobiernos en materia criminal, ¿no? Me parece algo tan interesante que me tiraría horas y horas buscando coincidencias. ¡Buen trabajo y gracias por compartirlo y por la explicación!
Últimamente me asquea Menéame, pero no paro de entrar porque de vez en cuando sigue habiendo cosas así de interesantes.
Un día soltarán un virus informático basado en inteligencia artificial que además de buscar errores y aprovecharse de ellos también tratará de ampliar su capacidad de computación creando una red de ordenares infectados para aumentar su capacidad de hackear más ordenadores hasta que... bueno eso ya está en la peli de Matrix.
Guapísimo el artículo.
Pero es que además no había leído el que enlazas del StarCraft ni el hilo que se generó a partir de él, y por lo tanto desconocía las aportaciones tuyas y de Freedoom. Genialísimo todo.
#182 Todos somos ofendiditos. El que le revienta que se use palabras en femenino para todos, se ofende. El que le molesta que a un tipo con pilila se le diga mujer, también es ofendidito. El que lloriquea porque se meten con su religión, "pero con Mahoma no se atreven" también es un ofendidito.
ejemplo numero uno de ofendiditos por todas partes: la expulsan de un avión por llamar cerdos a los pasajeros que tenía al lado. Tan solo quería hacerles comprender su falta de higiene, pero se ofendieron tanto, ¡que la expulsaron a ella!
Y por esto señorías, no me gusta tener perfiles con más de 1000 comentarios.
Eso si llegan, que normalmente me los hunden a strikes por "incitación al odio". Me gustaría ver a los admins actuales moderando el flame del Maidan
#FreeSacreew
#33 153 veces
#66 😮 Oºoh hay que ver lo cerca que estamos de el futuro! bueno, pongamos que me da un patatus y me muero, no creo que@admin tuviera reparos en que funcionara en el foro la "copia de seguridad de@helisan" por decirlo de algún modo.
Coincido con #1 #3 #24 y con casi todo el mundo: excelente trabajo y explicación. Deberíamos crear un premio a artículo del mes y del año, y este envío sería un gran candidato
#116 a veces tengo la sensación de estar respondiendo a bots cuando leo como se repiten incesantemente las mismas ideas expresadas con las mismas frases. Pero se que aun estoy respondiendo a humanos porque repiten como loros, y hasta un bot cuidaría de propagar su mensaje de formas más sutiles, interesantes y variadas. Yo creo que estaremos en manos de los bots cuando veamos la repetición de ideas expuestas en comentarios de 2000 palabras que construyan frases originales, cargadas de razones y escritas en correcto castellano clásico.
#84 Deplorable revista.
Que nos lo desvele el susodicho y asunto zanjado.
#43
Sí, eso tiene más aquel, pero bueno, a su manera, es otra manera de mostrar pasión...
#48 Sería posible hacer un bot que emulase a nuestros trolls favoritos. A partir de los n-gramas puedes hacer la cadena de Markov, que es lo que genera texto similar al origen de los n-gramas. Con la cadena de markov y algún aprendizaje de a qué comentarios suele contestar y qué suele decir como respuesta, se puede hacer un bot que automáticamente busque molestar y comportándose igual que alguien. Pero no creo que a la administración le apasionase el tema...
#59 yo sueño con que, en un futuro no muy lejano, vuelquen los miles de comentarios que tengo aquí en una IA y que, en base a ellos, responda con mis ideas, mis temas recurrentes y mis expresiones. Así tendríamos un@helisan eterno!
#64 Pues eso te lo puedo hacer, si no en bot de menéame porque dudo que los admins dejen tener bots, pero sí en bot de telegram o facebook messenger.... Es decir, no sería perfecto, pero para hacer la broma con los amigos sí
#0 #31 Dependiendo del tiempo que se tome el sistema en detectar clones, sería una herramienta muy interesante para encontrar por ejemplo opiniones interesadas o troles en foros, tiendas, competencia desleal que pueda ser demostrada ante un juez etc... el sistema parece interesante y puede que tenga una salida comercial. Incluso en un supercomputador sería interesante la posible capacidad de encontrar noticias falsas o fakes, o textos manipulados para crear confusión, y un largo etc...
#100 La auténtica pregunta es si podemos construir una IA que traduzca la propia escritura a otra que copie el perfil lingüístico de otra persona arbitraria.
#0 Me parece muy interesante, pero no comparto lo de perseguir usuarios. Al menos creo que demuestras los "peligros" de que estemos cediendo constantemente nuestros "datos" gratis. Seguro que ese tipo de análisis se puede utilizar de alguna forma para perseguir delitos, y me consta que cosas similares he visto, pero también supone que lo mismo puedas empezar a cruzar datos de personas en redes sociales distintas.
#66 Ya tuvimos un fisgobot en la fisgona. Unas risas.
#114 Yo te lo compro, no puede ser más aburrido que esto últimamente... Y eso que este hilo se sale con mucho por la tangente. Pero se nota mucho que falta peña, peña interesante. No me suelo fijar mucho en los nicks, pero noto como un "deshinchamiento" de la fuerza...
#181 Goto #183 para ver un pwned real
PD: Hay que ser bastante subnormaloide para, cuando se ríen de ti por los anglicismos, hablar de "ganar más de 50k", como si tuviera que ver el hablar como un idiota con el dinero que ganas.
ccCabre13
¿No se puede utilizar OCR para la obtención de los datos? Hay que pensar en la máxima automatización posible.
Yo, para saber quién es clon de quién analizo las faltas de ortografía.