Hace 5 años | Por fluffy

Publicado hace 5 años por fluffy

Inteligencia Artificial en acción: ¿es h4x0r una cuenta de Malversan?

Introducción

Hace poco@Samu_ publicaba el siguiente artículo: gran-avance-google-deepmind-hacia-inteligencia-artificial/c062#c-62

A lo largo de todo ese artículo destacaba un troll en particular:h4x0r

Mirando su perfil es bastante fresco, junio del 2018, y solamente 183 comentarios. ¿Se trataría de alguien con más experiencia en Menéame? ¿Cómo saberlo?

Natural Language Processing al rescate

Aquí es dónde entra en juego la inteligencia artificial, en concreto una rama llamada NLP (Natural Language Processing) que trata de analizar el lenguaje. Una de las técnicas utilizadas en NLP son los n-gramas, que el nombre técnico suena raro, pero no es más que el análisis de las palabras consecutivas dónde n es el número de palabras. Pongamos un ejemplo: "Desde Santurce a Bilbao" tendría 3 bigramas: [Desde, Santurce], [Santurce, a], [a, Bilbao], y 2 trigramas: [Desde, Santurce, a],[Santurce, a, Bilbao]

Esta técnica de los n-gramas se usa muchísimo, y seguramente que lo habéis usado, porque son la base para los modelos de Markov. ¿Sabéis los teclados predictivos que os muestran las siguientes palabras? ¿O los típicos retos de "escribe tal cosa y luego pon la primera palabra que te sugiera"? Pues dichas predicciones son por el análisis de frecuencias de los n-gramas. También se emplean mucho en análisis de secuencias de ADN o proteínas, para que veáis lo potentes que pueden llegar a ser, sirven para identificar el lenguaje de una frase, se usan al pasar de voz a texto para identificar las palabras...

¿Y cómo se puede identificar si dos personas hablan igual?

Las personas suelen hablar de una cierta manera, y suelen crear una especie de "firma" lingüística, que se aprecia muchísimo más cuanto más marcado y único es el vocabulario y expresiones de una persona, y cómo no, cuanto más habla. Esa firma lingüística, a mano, es muy compleja de procesar, pero recordemos que tenemos los n-gramas. Además utilizaremos algo llamado stemmers. Un stemmer es un algoritmo capaz de calcular la raíz de una palabra, de manera que cosas como "viajé", "viajando", "viajero" tienen la misma raíz "viaj".

Usando los n-gramas de cada persona, diremos que cada n-grama es una feature, y si tenemos tooooodos los n-gramas que han dicho las personas de menéame, lo que podemos es hacer es para cada persona crear vectores de unos y ceros que nos indican si ese usuario ha utilizado esa feature o no. Como tener una única observación por usuario es poco, usamos además data augmentation, es decir, modificaciones de las observaciones (sustituir unos por ceros) para generar un dataset de 200 observaciones por usuario.

Ahora tendremos un modelo entrenado que dado un input de una persona (su array de features) nos da la probabilidad de que sea cada usuario del foro.

¿Y h4x0r es Malversan?

Bueno, no se puede estar seguro, pero el resultado de la red es que h4x0r se trata de malversan con un 0.96 de coincidencia (96%). Hay que tener en cuenta que los siguientes usuarios más probables no alcanzan el 0.5 de coincidencia.

Si suponemos que h4x0r es un troll dupe de un usuario habitual preexistente, pues... que cada uno saque sus conclusiones.

¿Pero hay forma de comprobarlo?

En inteligencia artificial hay un campo que es la interpretabilidad. Es el campo que investiga cómo justificar la respuesta de la IA sobre todo por sus posibles implicaciones éticas: nadie quiere tener un sistema para tomar decisiones que no se sabe en qué se basa. En este caso, la decisión está tomada por la frecuencia de algunos n-gramas que son comunes entre ambos y que sin embargo su frecuencia es muy baja o nula en el resto de usuarios. En una red neuronal que clasifica, la última capa suele ser una softmax, para interpretar el resultado basta con mirar los pesos más elevados que conectan la capa anterior con el nodo más activado de la softmax, de esa manera encontramos las features más decisivas.

Todos los n-gramas comunes de h4x0r y Malversan se pueden consultar aquí: http://batman.gyptis.org/zerobin/?63bdf69bae3a183d#cvF535OEH9vIN+/kDrdM/Y3wfaLcom8F4HiYd/QAZXs=

He obviado los stemmers y los skipgramas para que no fuese enorme. Pero simplemente con el análisis de n-gramas si hacer stemming es suficiente para ver ciertas cosas. Ojo, las que pongo a continuación son solamente una pequeña muestra:

"temas de los que no tienes ni puta idea": Aunque podría parecer una frase habitual, lo cierto es que esa construcción exacta solamente se ha utilizado 42 veces en Menéame. De esas 42, una vez ha sido h4x0r y 3 ha sido malversan. Eso significa que entre ambos monopolizan casi el 10% del uso de esa construcción exacta.

"Es una gilipollez del tamaño de Notre Dame": Esta construcción exacta ha sido usada 2 veces en menéame: 1 h4x0r y otra Malversan, así que alcanzan el 100% de uso y constituye una expresión muy suya. Por cierto, "del tamaño de Notre Dame" ha sido usada 5 veces en total en la historia de menéame, 2 veces Malversan, 1 vez h4x0r , y luego dos usuarios llamdos daphoene y danihr.

"Que tú has venido aquí a hablar de": De nuevo una construcción que podría parecer habitual, pero no lo es. Estamos hablando de 19 veces, 2 de ellas Malversan y una h4x0r. Además, la construcción completa es un 10-grama! "que tú has venido aquí a hablar de tu libro", pero al no usar skipgramas no vemos que h4x0r puso "hablar tu libro" en su lugar. En ese caso, tenemos que ha sido usada 13 veces, 2 por malversan y una por h4x0r.

"Ni te has molestado en comprobar": Otra que es común pero ha sido empleada 53 veces, 3 de las cuales ha sido Malversan y 1 h4x0r.

"Lo cual no quita que la": Es común, aparece más de 20.000 veces, pero es muy característica de Malversan que la ha empleado 136 veces, y h4x0r 6 veces en tan solo 181 comentarios. Así que no marca la diferencia, pero es una huella lingüística más.

"tengo mejores cosas que hacer que": Aparece 152 veces, 2 de Malversan y 1 de h4x0r

"dónde te salga de los cojones": Aparece 51 veces, 1 de Malversan y 1 de h4x0r.

"lo que te he dicho porque": Otra coletilla... aparece 3981 veces, 39 de Malversan y 4 de h4x0r

"además es una falta de respeto": 19 veces, 1 de Malversan y 1 de h4x0r

"puedes seguir haciendo el ridículo": 41 veces, 2 de Malversan y 1 de h4x0r

"por ejemplo tirarme un cuesco": Ha sido empleado un total de 10 veces, 3 veces Malversan, 1 vez h4x0r y el resto de veces 2 cuentas borradas.

"cuesco lentejero": ha sido empleado 4 veces: 2 Malversan, 1 h4x0r y 1 El_Apolítico. Como curiosidad, esta expresión fuera de Menéame solamente se ha usado una vez en la historia de internet, en el foro burbuja.info.

"sólo te has apuntado": ha sido empleado 3 veces: 1 Malversan, 1 h4x0r y 1 Melirka

"forma parte del retraso": Ha sido empleado 3 veces: 1 Malversan, 1 h4x0r y 1 fentdaci

Pero además hay una cierta cantidad de insultos y expresiones características y poco frecuentes que comparten en común.

Por ejemplo, ambos definen a los niños como "monstruitos de turno", nadie más en menéame lo hace. "chimpancé" y "cacahuetes" en la misma frase como folma de insulto, "zote" (de 810 veces, 114 son de Malversan), "zopenco", "ejperto", "berreando", "barrabasada", "tontolhaba", "maniqueas", "milongas", "attentionwhore", "murga", "cazurros", "tirria",... menciones a "Reinhard Heydrich"...

No es por una en concreto sino la suma de todas las pequeñas coincidencias las que hacen que la IA afirme que son la misma persona.

Conclusión

¿Se puede estar totalmente seguro? No. Pero si no son la misma persona, es demasiada coincidencia como para que no hayan recibido la misma educación en la misma casa... o ser almas gemelas.

comentarios destacados

#41: Dios, nada como ver un troll duplicado atacándose a sí mismo. Digno del mismísimo Gollum.

Y encima lo muestra con orgullo en los comentarios

27.000 euros de multa por lesionar un niño a una mujer jugando a la pelota/c65#c-65

Derko_89

hace 5 años

#2: #1 El score con Malversan es de 0.96 el siguiente más alto es de 0.48. En cuanto a la interpretabilidad, pues eso, las features con más peso son precisamente formas de expresarse muy características de esa persona, algunas de ellas únicas entre ambos. Al final su perfil coincide tan perfecto que dudo que sea posible obtener un score tan elevado entre otras dupes y sus dueños, porque es tan detectable por la exclusividad de muchas de sus expresiones. Los ejemplos más claros son "cuesco lentejero" y "gilipollez del tamaño de notre dame" que no es que sean exclusivas aquí en menéame, es que son exclusivas en todo internet, lo que las convierte en expresiones de uso dentro de la familia, en un entorno muy cerrado, sin que se haya extendido su uso.

fluffy

hace 5 años

autor

#4: #3 Lo que más lleva es el scrap, la obtención de los datos. Una vez hecho el scrap es la obtención de los n-gramas, en mi caso estoy generando hasta 10-gram. La obtención de n-grams tarda más o menos una hora psra toda la bd. Si usas skip-grams (generación de n-gramas pero saltándose palabras) tardará mucho más, y necesitarás mucha ram.
Luego la red neuronal, para cosas de NLP no suele haber muchas features derivadas pero sí es bueno obtener ciertas combinaciones de features relevantes, así que tengo la capa de input y 2 hidden del doble de dimensión que input, y finalmente la softmax. La activación he comprobado en otros experimentos que sigmoid no es la mejor y ReLu es excesivamente lineal, así que me decanto por tanh. El entreno, al no ser un problema computacionalmente muy complejo, se puede hacer en una máquina de casa con una gráfica decente, aunque yo lo he hecho en un EC3 con GPU.

fluffy

hace 5 años

autor

#1: No sé qué decir, @fluffy. Menudo curro. Un trabajo interesante y ameno. Meneo. Sólo me chirría un poco en primer lugar, que esto pueda ser una especie de caza de alguien (aunque viendo el comportamiento de @h4x0r en el hilo original, tampoco me extraña) y, en segundo, y como bien dices: interpretabilidad.

¿Has probado a cotejar tus comentarios en Menéame a ver si tus ingramas coinciden con otros? Es decir, tú eres el que mejor sabe si tú tienes clones o no. Así podrías hallar una guía de a partir de cuántas coincidencias podemos sospechar de clones. O puedes hacerlo con varios usuarios y ver la variación típica.

PasaPollo

hace 5 años

#24: #4 Muy interesante el resultado. Sé que te va a parecer una burrada, pero aplicando esto de los n-gramas, ¿podrías comprobar el Lazarillo de Tormes contra algunos autores como Juan de Arce de Otálora, Diego Hurtado de Mendoza, y Pedro Cieza de León?

themarquesito

hace 5 años

#13: Que @Malversan nos saque de dudas: ¿Eres o no eres @h4xor?
Si resulta que sí, podríamos intentar averiguar si @RecauchutadosPelaez ha tenido otros nicks antes que ese, y qué clase de comentarios hacía.

ElPerroDeLosCinco

hace 5 años

#201: #0
Otra comparativa para saber si @iescolar es barbijaputa o no.
(yo creo q no lo es, pero hay tanta gente que lo dice que a saber si es verdad)

--542032--

hace 5 años

#39: #19 Este libro que está siendo editado actualmente por uno de los mayores expertos en el tema está muy bien:
https://web.stanford.edu/~jurafsky/slp3/

Aunque todavía tiene secciones por completar y a los temas más nuevos les faltan ejercicios.

En cuanto al uso de redes neuronales en procesamiento de lenguaje natural está muy bien el curso de Stanford:
http://web.stanford.edu/class/cs224n/index.html#schedule

Este tiene un montón de lecturas recomendadas, y también vídeos de las clases en youtube:

https://www.youtube.com/watch?v=OQQ-W_63UgQ&list=PL3FW7Lu3i5Jsnh1rnUwq_TcylNr7EkRe6

Además, el twitter de Deeplearning4java suele publicar muchas novedades interesantes:

https://twitter.com/deeplearning4j

Por último recomendaría al autor que usase un poco de sus conocimientos de NLP para traducir sus propios textos, se hace un poco cargante tanto "scrap", "features", "stemmer" etc.

--568222--

hace 5 años

#114: #0 #68 #98 #111 La de cosas interesantes que hacen los rusos y yo sin enterarme por no salir de este agregador de provincias. En mi ignorancia tenía en mente algo más simple, un futuro en el que las corporaciones, partidos políticos y gente sin escrúpulos introducirían aquí a sus bots para hacer astroturfing. Imaginaba a los administradores, incapaces de distinguir, baneando a diestro y siniestro a humanos inocentes que caen junto a los bots, y a éstos clonándose para volver al instante diciendo las zarandajas habituales que dicen los meneantes junto a su propaganda, que será cada vez más sutil y sofisticada, todo ocurriendo a velocidades crecientes, sobrehumanas e incontrolables, hasta que Menéame acaba convirtiéndose en un nido de bots anunciando, entre cháchara y cháchara, autos eléctricos, teléfonos o partidos políticos de formas más o menos discretas, para que no los identifiquen como bots los maltrechos humanos que quedan entre las ruinas del foro. Éstos a su vez soltarán otros bots programados para tratar de anular a los primeros enredándolos en conversaciones absurdas llenas de ad hominems y falacias extravagantes. El futuro sería un foro en los que los hilos consisten en cadenas de "comentarios ladrillo" de bots respondiendo a bots con inextricables disertaciones de filosofía posmoderna.

--45561--

hace 5 años

#11: No lo se, pero tengo una conversación con @Malversan en la que no deja de insultarme, le reporté como 10 veces y ningún @admin ha movido un dedo para banearle.

U221E__

hace 5 años

#75: #72 Hablando de textos originales y de variantes textuales, te doy un extracto del Lazarillo de Tormes conforme a sus cuatro ediciones de 1554.:
Amberes 1554: Baylauanle los ojos en el caxco, como si fueran de azogue, quantas blancas ofrecian tenia por cuenta, y acabado el ofrecer luego me quitaua la concheta y la ponia sobre el altar.

Alcalá 1554: Baylauanle los ojos en el caxco, como si fueran de azogue, quantas blancas offrescian tenia por cuenta, y acabado el offrescer luego me quiataua la concha y la ponia sobre el altar.

Burgos 1554: Baylauanle los ojos en el caxco, como si fueran de azogue, quantas blancas ofreçian tenia por cuenta: y acabado el offrecer: luego me quitaua la corneta y la ponia sobre el altar.

Medina 1554: Baylauanle los ojos en el caxco, como si fueran de azogue, quantas blancas ofrecian tenia por cuenta: y acabado el offrecer: luego me quitaua la corneta y la ponia sobre el altar.

Nótese la diferencia ofrecer/offrescer/offrecer y la sorprendente variante concheta/concha/corneta. Para esta segunda variante, la forma correcta es "concheta".

themarquesito

hace 5 años

#140: #41 Mola cuando se pregunta a sí mismo si tiene algún tipo de esquizofrenia. Me lo imagino haciendo lo mismo delante del espejo y me entra la risa

Varlak

hace 5 años

#80: #11 ya te lo digo yo: porque uno de los admins es amigo suyo y debe de ser el mismo que va metiendo strikes a todos los que le replican y lo dejan mal. No tengo pruebas pero canta bastante que cada vez que he tenido una enganchada con el personaje en cuestión... bum! baneo de karma al día siguiente. Pero él nunca recibe alguno.

--456958--

hace 5 años

#121: #11 Yo le metí al Ignore la primera vez que se pasó de listo de conmigo. Le veía una actitud demasiado agresiva, no le interesaba debatir ni llevar razón, sólo provocar. Veo que no me equivocaba.

Me preguntó cuantos strikes llevará, habida cuenta que muchos han recibido alguno por cosas mucho más nimias

Endor_Fino

hace 5 años

#58: #24 Hola! Bueno, imagino que sí se podría... pero no creo que lo fuese a hacer mejor que los lingüistas que llevan años investigándolo. Pero como prueba de concepto sí... de hecho muchas gracias, porque es muy buena idea para investigar.

fluffy

hace 5 años

autor

#77: #76 ¿Te refieres a la ortografía? Poca o ninguna diferencia iba a suponer para el cotejo. Además, ni siquiera los propios autores eran coherentes consigo mismos en las grafías, y te estoy hablando de manuscritos. Por ejemplo, en este párrafo de un manuscrito autógrafo de Gonzalo Fernández de Oviedo tenemos tres formas para la palabra "divisa", que son devisa/deuisa/divisa:

ALCAYDE- Sobre el escudo ponía un baúl de torneo de çinco lumbres o vistas; e el rollo e dependeçias de oro e de goles vel sanguina color; e por timbre o deuisa, sobre el yelmo, vn armiño purísimo vel cándido. Porque, como mejor sabés, muy acostumbrada cosa en nuestra España, entre caualleros e señores, procurar que la invençión comiençe su nombre en la primera letra del nombre de la señora por quien se inuençiona, demás del atributo o sinificaçión que quieren magnifestar o publicar con esas devisas. E guardando esta orden, el Cathólico Rey Don Fernando trahía un yugo, porque la primera letra es Y, por Ysabel; y la Reyna Cathólica trahía por diuisa las frechas, que la primera letra es F, por Fernando; y la serenísima emperatriz, que en gloria está, trahía por deuisa un cabestrante, que la primera letra es C por César. E así este señor Rodrigo de Ulloa, como enamorado de la señora doña Aldonça de Castilla, que la primera letra de su nombre es A, ponía el armiño; e como señor graue, loando a su señora la compara a vn animal tan limpio, de la manera que se suele pintar tal animal, e muy al natural.

themarquesito

hace 5 años

Comentarios

Ordenados

PasaPollo

hace 5 años

editado

No sé qué decir,@fluffy. Menudo curro. Un trabajo interesante y ameno. Meneo. Sólo me chirría un poco en primer lugar, que esto pueda ser una especie de caza de alguien (aunque viendo el comportamiento deh4x0r en el hilo original, tampoco me extraña) y, en segundo, y como bien dices: interpretabilidad.

¿Has probado a cotejar tus comentarios en Menéame a ver si tus ingramas coinciden con otros? Es decir, tú eres el que mejor sabe si tú tienes clones o no. Así podrías hallar una guía de a partir de cuántas coincidencias podemos sospechar de clones. O puedes hacerlo con varios usuarios y ver la variación típica.

V 23

K 196

fluffy

hace 5 años

autor

#1 El score con Malversan es de 0.96 el siguiente más alto es de 0.48. En cuanto a la interpretabilidad, pues eso, las features con más peso son precisamente formas de expresarse muy características de esa persona, algunas de ellas únicas entre ambos. Al final su perfil coincide tan perfecto que dudo que sea posible obtener un score tan elevado entre otras dupes y sus dueños, porque es tan detectable por la exclusividad de muchas de sus expresiones. Los ejemplos más claros son "cuesco lentejero" y "gilipollez del tamaño de notre dame" que no es que sean exclusivas aquí en menéame, es que son exclusivas en todo internet, lo que las convierte en expresiones de uso dentro de la familia, en un entorno muy cerrado, sin que se haya extendido su uso.

V 25

K 207

PasaPollo

hace 5 años

#2 Interesante. Cuéntanos sobre el proceso, ¿cuánto te ha llevado el análisis? ¿Te dedicas a ello profesionalmente?

V 2

K 23

fluffy

hace 5 años

autor

#3 Lo que más lleva es el scrap, la obtención de los datos. Una vez hecho el scrap es la obtención de los n-gramas, en mi caso estoy generando hasta 10-gram. La obtención de n-grams tarda más o menos una hora psra toda la bd. Si usas skip-grams (generación de n-gramas pero saltándose palabras) tardará mucho más, y necesitarás mucha ram.
Luego la red neuronal, para cosas de NLP no suele haber muchas features derivadas pero sí es bueno obtener ciertas combinaciones de features relevantes, así que tengo la capa de input y 2 hidden del doble de dimensión que input, y finalmente la softmax. La activación he comprobado en otros experimentos que sigmoid no es la mejor y ReLu es excesivamente lineal, así que me decanto por tanh. El entreno, al no ser un problema computacionalmente muy complejo, se puede hacer en una máquina de casa con una gráfica decente, aunque yo lo he hecho en un EC3 con GPU.

V 27

K 203

Res_cogitans

hace 5 años

Excelente trabajo. ¿Puedes hacer un tutorial en el que muestres el uso de las librerías paso a paso con este ejemplo?

V 4

K 54

kaeldran

hace 5 años

Muy impresionado, la cazada en el hilo original ya era digna de elogio. Pero vaya, cuando se ve pasar de las palabras a los hechos así... uno recupera un poco su fe en la humanidad.

V 7

K 70

pepel

hace 5 años

¿No se puede utilizar OCR para la obtención de los datos? Hay que pensar en la máxima automatización posible.

V 0

K 16

oliver7

hace 5 años

Que nos lo desvele el susodicho y asunto zanjado.

V 1

K 17

Dravot

hace 5 años

#0 es una pasada lo que acabas de hacer. espero que@Malversan no se lo tome a mal... pero yo he flipado.

V 6

K 71

#10

Desactivado

hace 5 años

Yo que lo tenía en ignorados y va y se pone a sacar cuentas clones .

V 7

K 88

#11

U221E__

hace 5 años

No lo se, pero tengo una conversación con@Malversan en la que no deja de insultarme, le reporté como 10 veces y ningún@admin ha movido un dedo para banearle.

V 17

K 142

#12

Desactivado

hace 5 años

#10 Yo tengo ambas cuentas en ignorados. No es nada más que un troll que se ríe de su propia ignorancia.

V 7

K 70

#13

ElPerroDeLosCinco

hace 5 años

Que@Malversan nos saque de dudas: ¿Eres o no eres@h4xor?
Si resulta que sí, podríamos intentar averiguar si@RecauchutadosPelaez ha tenido otros nicks antes que ese, y qué clase de comentarios hacía.

V 15

K 167

#14

Ze7eN

hace 5 años

Resulta que tengo ignorados a los dos. ¿Coincidencia? No creo

V 10

K 94

#15

ankra

hace 5 años

Lo de cuesco lentejero me parece suficiente

V 13

K 127

#16

Desactivado

hace 5 años

Y por esto señorías, no me gusta tener perfiles con más de 1000 comentarios.

Eso si llegan, que normalmente me los hunden a strikes por "incitación al odio". Me gustaría ver a los admins actuales moderando el flame del Maidan

#FreeSacreew

V 1

K 18

#17

Desactivado

hace 5 años

editado

Otro que ha visto Colombo.

¿Y cómo sabes sih4x0r también ha visto Colombo y lo que pretende es hacerse pasar por@Malversan?

V 1

K 28

#18

U221E__

hace 5 años

#7 Hay técnicas mejores para obtener el texto de una página web. OCR sería más útil para texto impreso o manuscrito.

V 2

K 21

#19

celyo

hace 5 años

#0 Buen artículo.

Ya solo queda mi pregunta de rigor, aunque puede ser desde obvia hasta vaguería.

¿Donde se puede obtener documentación al respecto y sin morir en el intento?

De todas maneras ya resulta intersante la información que das.

V 0

K 9

#20

ttestt

hace 5 años

#2 es interesante.
pero ¿me puedes explicar por qué lo llamas ia, cuando supongo que te refieres a estadística o "machine learning" para los modernos?

V 0

K 6

#21

delcarglo

hace 5 años

#13 Intentar averiguar, dices...

V 5

K 72

#22

Desactivado

hace 5 años

Muy buen analisis.

V 1

K 9

#23

AsVHEn

hace 5 años

Esto es muy interesante. No tienen sentido los votos negativos que se ha llevado.

V 5

K 47

#24

themarquesito

hace 5 años

#4 Muy interesante el resultado. Sé que te va a parecer una burrada, pero aplicando esto de los n-gramas, ¿podrías comprobar el Lazarillo de Tormes contra algunos autores como Juan de Arce de Otálora, Diego Hurtado de Mendoza, y Pedro Cieza de León?

V 23

K 187

#25

Desactivado

hace 5 años

editado

#4 TensorFlow? Compartes el código?

V 0

K 7

#26

Desactivado

hace 5 años

Yo, para saber quién es clon de quién analizo las faltas de ortografía.

V 1

K 16

#27

manwy

hace 5 años

#7 El OCR es para pasar manuscrito a caracteres de texto o de papel a digital. Si ya lo tiene en caracteres de texto digitales no veo en qué es necesario el OCR.

V 1

K 12

#28

Charles_Dexter_Ward

hace 5 años

#13 Es una gilipollez del tamaño de Notre Dame.

V 14

K 135

#29

kaeldran

hace 5 años

#9 #17 Ni@Malversan ni@h4x0r...

V 8

K 80

#30

Desactivado

hace 5 años

editado

#11 A mí me pasó lo mismo con el usuario@h4xor. Justo en esa noticia de la que hablan intentaba, junto con otro usuario, hacer ver que lo que llaman "inteligencia artificial" no es más que un algoritmo complejo, pero que no tiene nada que ver con la "inteligencia natural" y que solo sirve para resolver el problema concreto para el que lo hayas entrenado. Una inteligencia artificial nunca decide qué resolver ni cómo. Y no paró de insultarme. Lo reporté varias veces pero no sé si eso en realidad vale para algo.

Lo metí en ignorados, pero viendo esto, voy a meter al otro usuario también.

V 8

K 69

#31

Dravot

hace 5 años

#29 pobrecillos. que en serio se toman esto algunos...

V 0

K 11

#32

fluffy

hace 5 años

autor

#20 Pues por varios motivos. El primero porque IA es un conjunto de técnicas, dentro de ese conjunto hay un subconjunto que es el Machine Learning y dentro de Machine Learning hay un subconjubto que ew el Deep Learning. Con lo cual si es machine learning es IA dado que está contenido.
En este caso, tal y como explico en el artículo y en comentarios, es perceptrón multicapa con capas ocultas, es decir deep learning, con lo cual hay un optimizador (adam) haciendo el descenso del gradiente para calcular los pesos y los bias mediante backpropagation... que es más álgebra que estadística.

V 0

K 6

#33

DORAP

hace 5 años

"tengo mejores cosas que hacer que": Aparece 152 veces, 2 de Malversan y 1 de h4x0r

Creo que las otras 149 son mías.

Y no se qué coño hago perdiendo el tiempo, tengo mejores que hacer que andar explicandoos esto.

V 7

K 71

#34

DORAP

hace 5 años

#15 Si lo repites dos veces más tendrás el liderazgo en su uso en Menéame.

V 5

K 65

#35

U221E__

hace 5 años

#30 Tiene sentido que sea una IA, si ha aprendido su comportamiento de menéame es normal que insulte.

V 3

K 38

#36

xizor

hace 5 años

Pues mira, meneo por el curro. Pero me parece muy feo perseguir usuarios... Mira el comentario y no te fijes en quién lo hace. Salvo dos o tres usuarios que tienen fijación por mí y que probablmente sean el mismo tipo, la verdad es que apenas recuerdo motes... Lo que importa es el comentario actual, no lo que el tipo haya dicho ayer porque esto no deja de ser un juego para ratos muertos de oficina.

Por cierto, "cuesco lentejero" me parece una expresión maravillosa. Y como la acabo de usar, supongo que me convierto en sospechoso de clon de Malversan...

V 2

K 23

#37

Argantonio1

hace 5 años

#4 Muy interesante!!!
¿podrías elaborar un poco más lo del data augmentation?

He entendido que la red N tiene como input el vector de n-gramas de una persona y como output la probabilidad de que tal vector pertenezca a x usuario. Durante el data augmentation entiendo que has substituido de forma aleatoria alguna de las entradas del input, pero aun se le asigna al usuario, algo así como generar ruido en la única observación que se tiene y calibrar el modelo con esos 200 "observaciones" por usuario.

Asi que el problema tiene un input de dimension x y un output de

¿Cómo afectan los criterios del data augmentation al problema? por ejemplo, porque 200?, cuantos "errores se meten por realización?

Muchas gracias por el post!

V 1

K 16

#38

tusitala

hace 5 años

editado

#0 Bravo. Me ha encantado, la explicación del proceso ha sido muy clara. Esta es una de las cosas que me da envidia no saber hacer. Seguro que se pueden hacer más cosas, como saber si un usuario es usado por dos personas o si dos personas pertenecen a un mismo grupo fuera de meneame o hasta saber que alias tiene sacreew en este momento. Además habrá más análisis que confirmen que dos usuarios son la misma persona, como el uso de los signos de puntuación.

V 0

K 11

#39

Desactivado

hace 5 años

editado

#19 Este libro que está siendo editado actualmente por uno de los mayores expertos en el tema está muy bien:
https://web.stanford.edu/~jurafsky/slp3/

Aunque todavía tiene secciones por completar y a los temas más nuevos les faltan ejercicios.

En cuanto al uso de redes neuronales en procesamiento de lenguaje natural está muy bien el curso de Stanford:
http://web.stanford.edu/class/cs224n/index.html#schedule

Este tiene un montón de lecturas recomendadas, y también vídeos de las clases en youtube:

Además, el twitter de Deeplearning4java suele publicar muchas novedades interesantes:

Por último recomendaría al autor que usase un poco de sus conocimientos de NLP para traducir sus propios textos, se hace un poco cargante tanto "scrap", "features", "stemmer" etc.

V 13

K 119

#40

kaeldran

hace 5 años

#31 Yo lo veo feten, es alguien que curra con estas cosas, a la que le apasiona su trabajo y que hace decide usar alguna de sus aficiones para ello.
Diseñar una red neuronal que pueda identificar características lingüísticas escritas le sirve para esta coña en meneame, pero no pinta que sea el objetivo.

A mi me da algo de envidia, y desde luego me parece admirable. Mucho mejor que el típico "pasar 4 horas al día comentando enfadado en meneame"

V 6

K 62

#41

Derko_89

hace 5 años

Dios, nada como ver un troll duplicado atacándose a sí mismo. Digno del mismísimo Gollum.

Y encima lo muestra con orgullo en los comentarios

27.000 euros de multa por lesionar un niño a una mujer jugando a la pelota/c65#c-65

V 27

K 226

#42

celyo

hace 5 años

#39 Gracias.

V 0

K 9

#43

Dravot

hace 5 años

#40 sí, si lo digo por el de la doble (o vete a saber si más) cuenta.

V 0

K 11

#44

UnCualquieraCualquiera

hace 5 años

No se quien es esa persona a la que llamas troll pero... para mi la definicion de troll es la de ese que se obseiona con un tema y trata de humillar publicamente a otros por internet usando datos y argumentos.

V 5

K -26

#45

Desactivado

hace 5 años

Pues Malversan por el karma que tiene (4,01) diria que tiene un strike en marcha.
Aunque no es de extrañar cosas asi, es un tema recurrente y antiguo en meneame.

V 0

K 7

#46

kaeldran

hace 5 años

#43
Sí, eso tiene más aquel, pero bueno, a su manera, es otra manera de mostrar pasión...

V 1

K 17

#47

Desactivado

hace 5 años

El Zas mas epico que he visto en años

V 5

K 16

#48

Desactivado

hace 5 años

editado

#0 ¡Fascinante! ¿Crees que estamos cerca de un escenario en el que usuarios o oscuras organizaciones llenen los foros con clones manejados por IAs (más o menos tontas) pero con aspecto de meneante normal?

V 0

K 11

#49

Desactivado

hace 5 años

editado

#28 Menos mal que esta la chupupandi para aclararnos que esto que trata de uno de los suyos es una gilipollez

V 3

K -2

#50

ttestt

hace 5 años

#32 gracias! Tenía, entendido que la ia y el machine learning como disciplinas se separaron hace 30 años.

V 0

K 7

#51

Desactivado

hace 5 años

editado

#44 Eso no es un troll. De toda la vida, un troll es un tocapelotas que no le importa el tema a debatir, solo busca que haya bronca para divertirse.

V 10

K 91

#52

SOBANDO

hace 5 años

Este envío es más inútil que un cuesco lentejero...oh mierda.

V 2

K 26

#53

mr_x

hace 5 años

#28 o un cuesco lentejero

V 0

K 6

#54

mr_x

hace 5 años

#34 a no ser que alguien empiece a decirlo sin más.

_{Atte: el Cuesco lentejero}

V 2

K 30

#55

Charles_Dexter_Ward

hace 5 años

#49 Ni una. No das ni una.

V 7

K 82

#56

fluffy

hace 5 años

autor

#25 Jejeje, por ahora no puedo porque la propieda intelectual no es mía, porque era un experimento que llevo haciendo para el trabajo desde que volví de vacaciones, para experimentar un poco sobre lenguaje natural aplicado a fraude. Pero en principio lo podré liberar en cuanto consiga la aprobación para hacer paper.

V 1

K 16

#57

fluffy

hace 5 años

autor

#37 Mmm... En principio empecemos con esto: Cómo entienden los bots el lenguaje
En chatbots interesa entrenar con frases cortas, y varias frases son las observaciones de un intent, así que es un problema fácil porque tienes vectores como este para los intents:
[1, 1, 1, 0, 0, 0, 0, 0, 0, 0,......... ]
[1, 0, 1, 1, 0, 0, 0, 0, 0, 0,........]

Pero comparar las características de escritura de alguien no es el mismo problema, y no funciona. Revisando papers encontré muy poco y casi todo estadístico basado en frecuencias, así que me lancé a hacer esto, y tenía que partir de hipótesis. Al principio lo hice con un único vector por persona, con lo cual te queda para cada persona un único vector... pero eso no representa la frecuencia de las palabras, alguien puede decir "zote" pero no por ello ser una característica de su habla. Además con una única observación por cada clase no tira muy bien.
Así que me planteé usar data augmentation, que es lo que uso en computer vision. Ejemplo: si tengo fotos de cosas y tengo pocas, lo que hago es que a cada foto le hago microcambios aleatorios: giro, desplazamiento en x, desplazamiento en y, crop, cambio de aspect ratio... De esa manera de cada foto puedo generar 100 (o las que yo quiera).

Para aplicar data augmentation en este caso, de nuevo me encontré con el obstáculo de que no hay nada, ni un sólo paper, que me diese indicaciones. Podría probar con poner ceros al azar donde hay unos... pero eso no tendría en cuenta las características del habla de la persona. Podría eliminar las menos frecuentes, pero entonces te encuentras con un problema: las palabras más frecuentes son lo que usualmente se llaman stopwords, palabras que no aportan gran significado, como conjunciones, artículos y preposiciones. Así que decidí eliminar en base a la frecuencia del uso en relación al resto de usuarios. ¿Qué quiere decir eso? Que si la palabra "zote" la usa muy poca gente, no se va a eliminar, en cambio cosas como "a", "el", "la", "un", "y" son propensas a desaparecer. Lo mismo para n-gramas combinados de ellas.

V 3

K 29

#58

fluffy

hace 5 años

autor

#24 Hola! Bueno, imagino que sí se podría... pero no creo que lo fuese a hacer mejor que los lingüistas que llevan años investigándolo. Pero como prueba de concepto sí... de hecho muchas gracias, porque es muy buena idea para investigar.

V 8

K 90

#59

fluffy

hace 5 años

autor

#48 Sería posible hacer un bot que emulase a nuestros trolls favoritos. A partir de los n-gramas puedes hacer la cadena de Markov, que es lo que genera texto similar al origen de los n-gramas. Con la cadena de markov y algún aprendizaje de a qué comentarios suele contestar y qué suele decir como respuesta, se puede hacer un bot que automáticamente busque molestar y comportándose igual que alguien. Pero no creo que a la administración le apasionase el tema...

V 1

K 17

#60

themarquesito

hace 5 años

#58 Lo estaba pensando como prueba de concepto, no como otra cosa. Si dispusiese de un corpus digital adecuado, te habría indicado también que comparases con Francisco de Enzinas y Juan de Jarava, que son realmente los más adecuados.

V 2

K 32

#61

acastro

hace 5 años

No considero probado que h4x0r y Malversan sean la misma persona, pero en las normas de uso de un foro en particular su propietario puede actuar como le venga en gana buscando maximizar tanto los beneficios como una buena experiencia de sus usuarios o lo que lo que le parezca oportuno.

Determinados indicios o sospechas que no tenían categoría de prueba se han usado en multitud de foros para banear cuentas de forma preventiva. Yo en un foro dedicado a comentar, tomaría en consideración este tipo de indicios aunque solo sea para hacer un estudio de cada caso particular antes de tomar una decisión dura.

En otro tipo de foros donde la gente comparte cosas más valiosas como código, vídeos con mucho trabajo detrás o contenidos de cierta calidad, el beneficio de la duda sería la norma para no provocar graves perjuicios a inocentes.

Tengo la sospecha de que Meneame y muchas otras redes sociales podrían estar plagadas de cuentas que comparten el mismo usuario o de grupos de usuarios que trabajan de forma conjunta introduciendo falacias con un tipo de toxicidad dirijida a un mismo objetivo.

Todo ello forma parte de una forma de hackeo de la democracia que aún no sabemos combatir.

V 3

K 32

#62

Desactivado

hace 5 años

#33 153 veces

V 2

K 18

#63

Dravot

hace 5 años

#45 eso si no se ha auto-dado un strike para escurrir el bulto unos días...

V 1

K 24

#64

Desactivado

hace 5 años

editado

#59 yo sueño con que, en un futuro no muy lejano, vuelquen los miles de comentarios que tengo aquí en una IA y que, en base a ellos, responda con mis ideas, mis temas recurrentes y mis expresiones. Así tendríamos un@helisan eterno!

V 1

K 17

#65

UnCualquieraCualquiera

hace 5 años

#51 Si, puede no importarle el tema a debatir pero una vez se pone en un bando lo defiende y se informa sobre ello creando confusion entre los aldeanos del lugar. Ademas no solo crean la bronca para divertirse y ganar reputacion, lo usan como una danza de cortejo. Se sabe que Forocoches es el Tinder de los trolls y la mayoria de biologos hacen su tesis ahi.
En este caso es una persona que busca informacion para humillar a alguien en concreto y usa programas y datos que ayuden a que los lectores cambien su opinion sobre ese tema/persona a tratar incitando asi a los detractores a un conflicto.

V 0

K 6

#66

fluffy

hace 5 años

autor

#64 Pues eso te lo puedo hacer, si no en bot de menéame porque dudo que los admins dejen tener bots, pero sí en bot de telegram o facebook messenger.... Es decir, no sería perfecto, pero para hacer la broma con los amigos sí

V 1

K 17

#67

Desactivado

hace 5 años

#66 😮 Oºoh hay que ver lo cerca que estamos de el futuro! bueno, pongamos que me da un patatus y me muero, no creo que@admin tuviera reparos en que funcionara en el foro la "copia de seguridad de@helisan" por decirlo de algún modo.

V 1

K 18

#68

Desactivado

hace 5 años

#48 Para creación de textos está la arquitectura de Redes Neuronales llamada LSTM. Lo más asombroso de todo es que muchas veces se genera el texto carácter a carácter en lugar de palabra a palabra que es lo que nos diría la intuición:

Puedes buscar "LSTM Text Generation" para ver varios ejemplos, aquí te coloco el primero que me sale en Google:
https://machinelearningmastery.com/text-generation-lstm-recurrent-neural-networks-python-keras/

V 2

K 29

#69

barni

hace 5 años

#7 Usar OCR cuando ya tienes el texto es igual de innecesario que imprimir un PDF para escanearlo y mandarlo por correo electrónico.

V 3

K 29

#70

zimpo

hace 5 años

Uff, vaya cazada a un trollaco.

V 0

K 6

#71

slainrub

hace 5 años

#41 Oh dios mio! Ahí ya me esta empezando a dar pena de verdad.

V 5

K 48

#72

Am_Shaegar

hace 5 años

#60 Lo que yo no sé, es si las obras de esos autores nos han llegado traducidas a un castellano moderno por las editoriales.

Lo suyo sería entonces acceder a los textos originales sin adaptar para poder hacer correctamente ese estudio.

V 3

K 30

#73

slainrub

hace 5 años

#13 Pues se esta~~ran~~ mordiendo los dedos sin poder contestarte, por que ambos perfiles tienen 4.01 y 4.03 de Karma. Se pica así mismo a ver quien tiene menos.

V 3

K 35

#74

themarquesito

hace 5 años

editado

#72 Lo que habría que tener es una estandarización de las grafías para tener resultados fiables. Ten en cuenta que en esa época, por ponerte un ejemplo, te encuentras indistintamente las formas havía, hauía, avía, auía, y había. Otro ejemplo puede ser offrecer, offrescer, offresçer, ofreçer, ofrecer, y ofrescer. Si no se estandarizan las grafías para el cotejo, los resultados pueden ser inadecuados.
Las editoriales, como mucho, adaptan las grafías a la forma moderna, y aun así no siempre lo hacen.

V 0

K 14

#75

themarquesito

hace 5 años

#72 Hablando de textos originales y de variantes textuales, te doy un extracto del Lazarillo de Tormes conforme a sus cuatro ediciones de 1554.:
Amberes 1554: Baylauanle los ojos en el caxco, como si fueran de azogue, quantas blancas ofrecian tenia por cuenta, y acabado el ofrecer luego me quitaua la concheta y la ponia sobre el altar.

Alcalá 1554: Baylauanle los ojos en el caxco, como si fueran de azogue, quantas blancas offrescian tenia por cuenta, y acabado el offrescer luego me quiataua la concha y la ponia sobre el altar.

Burgos 1554: Baylauanle los ojos en el caxco, como si fueran de azogue, quantas blancas ofreçian tenia por cuenta: y acabado el offrecer: luego me quitaua la corneta y la ponia sobre el altar.

Medina 1554: Baylauanle los ojos en el caxco, como si fueran de azogue, quantas blancas ofrecian tenia por cuenta: y acabado el offrecer: luego me quitaua la corneta y la ponia sobre el altar.

Nótese la diferencia ofrecer/offrescer/offrecer y la sorprendente variante concheta/concha/corneta. Para esta segunda variante, la forma correcta es "concheta".

V 5

K 70

#76

Am_Shaegar

hace 5 años

#75 Si al menos supiéramos como lo escribió el autor original...

V 0

K 8

#77

themarquesito

hace 5 años

#76 ¿Te refieres a la ortografía? Poca o ninguna diferencia iba a suponer para el cotejo. Además, ni siquiera los propios autores eran coherentes consigo mismos en las grafías, y te estoy hablando de manuscritos. Por ejemplo, en este párrafo de un manuscrito autógrafo de Gonzalo Fernández de Oviedo tenemos tres formas para la palabra "divisa", que son devisa/deuisa/divisa:

ALCAYDE- Sobre el escudo ponía un baúl de torneo de çinco lumbres o vistas; e el rollo e dependeçias de oro e de goles vel sanguina color; e por timbre o deuisa, sobre el yelmo, vn armiño purísimo vel cándido. Porque, como mejor sabés, muy acostumbrada cosa en nuestra España, entre caualleros e señores, procurar que la invençión comiençe su nombre en la primera letra del nombre de la señora por quien se inuençiona, demás del atributo o sinificaçión que quieren magnifestar o publicar con esas devisas. E guardando esta orden, el Cathólico Rey Don Fernando trahía un yugo, porque la primera letra es Y, por Ysabel; y la Reyna Cathólica trahía por diuisa las frechas, que la primera letra es F, por Fernando; y la serenísima emperatriz, que en gloria está, trahía por deuisa un cabestrante, que la primera letra es C por César. E así este señor Rodrigo de Ulloa, como enamorado de la señora doña Aldonça de Castilla, que la primera letra de su nombre es A, ponía el armiño; e como señor graue, loando a su señora la compara a vn animal tan limpio, de la manera que se suele pintar tal animal, e muy al natural.

V 4

K 57

#78

fluffy

hace 5 años

autor

#75 Viendo el problema (nunca lo había visto antes... no sabía que hubiese diferentes variantes... pero se abre un mundo para mí), tengo varias cosas que decir:
1. Sobre "ofrecer/offrescer/offrecer", dado que un stemmer tiene reglas para calcular la raíz de la palabra, al final quedarían tanto los infinitivos como sus conjugaciones en "ofrec/offresc/offrec". Esto tiene una cosa positiva, y es que las reglas de conjugación son comunes y parece que no han cambiado en siglos, con lo cual el algoritmo de cálculo de raíces del castellano moderno debería en principio servir para castellano antiguo. Como parte negativa, al ser las raíces diferentes, no se identificarían como la misma palabra o significado con el método que he usado en este artículo
2. Por otro lado, con skipgramas se puede hacer word2vec y analizar el corpus. Esto lo que hace es calcular para cada palabra un vector en el que cada dimensión del vector es un "significado". En este caso, dado que las 3 variantes estarían en el mismo contexto y posición dentro del corpus, se puede suponer en principio que sus vectores serán los mismos. Esto significa que dadas dos palabras cuya representación escrita es diferente, se puede conocer si son sinónimas o equivalentes comparando los vectores. Como dato chulo, estos vectores te permiten jugar con el lenguaje, de manera que si tienes un vector para "rey" otro vector para "hombre" y otro vector para "mujer", si haces "rey" - "hombre" + "mujer" te da el vector de reina (al rey le has quitado la componente que significa hombre y le has añadido la que significa mujer).
3. Teniendo las variantes de un libro, como se espera que el contenido sea el mismo, se pueden aprender las palabras con mismo significado incluso sin IA... simplemente por la posición
4. Hay otra manera de aproximarse que sería realizando la transcripción fonética... lo digo porque "Baylauanle" no sé lo que significa pero suena a "Bailanle", que fonéticamente son muy similares.

Bueno, el tema me parece interesante

V 4

K 39

#79

themarquesito

hace 5 años

editado

#78 Baylauanle sería "bailábanle" en castellano actual, aunque con el uso que tenemos de los pronombres hoy en día, la forma que se vería es "le bailaban". "Caxco" es una peculiar forma de "casco", y no es la única vez que el autor usa una x antes de /k/, pues escribe en algún lado "coxqueaba", que hoy se día "cojeaba".
Hay alguna otra variante llamativa, como el arcaísmo "turar" en vez de "durar", así como alguna conjugación que ha variado con los siglos. En el XVI no se decía "pondría", "tendría", "vendrá" o "tendrá" sino "pornía", "ternía", "verná", y "terná".

V 2

K 42

#80

Desactivado

hace 5 años

editado

#11 ya te lo digo yo: porque uno de los admins es amigo suyo y debe de ser el mismo que va metiendo strikes a todos los que le replican y lo dejan mal. No tengo pruebas pero canta bastante que cada vez que he tenido una enganchada con el personaje en cuestión... bum! baneo de karma al día siguiente. Pero él nunca recibe alguno.

V 8

K 70

#81

Macario_Polo

hace 5 años

Muy interesante y muy didáctico.

V 0

K 6

#82

Desactivado

hace 5 años

editado

Mi perceptron dice que@fluffy tiene más bigote que flequillo
Quizá tengo que añadirle alguna capa más!

Y muy interesante la investigación y el método.

V 2

K 23

#83

fluffy

hace 5 años

autor

#82 Barba completa, y la ultima vez que me afeité fue el 21 de diciembre... Sobre el flequillo, se me ve ya tanto el cartón que estoy ya planteándome raparme para ver si el pelo nece más fuerte

V 2

K 26

#84

wondering

hace 5 años

Muy interesante.

V 0

K 12

#85

Am_Shaegar

hace 5 años

#77 Muchas gracias por las explicaciones y por los ejemplos.

V 0

K 8

#86

EspañoI

hace 5 años

#0 enhorabuena por el currazo! has unido en un mismo post algo tremendamente interesante, y los dos personajes, o quiza uno, mas detestables de meneame.

Puedo preguntar si has publicado tu codigo, o podrias describir brevemente el mismo? he intentado unas cuantas veces aplicar markov y nlp a un tensor con resultados penosos. solamente textacy + stacy me han dado ciertos resultados, pero esta lejos de ser una instancia inteligente.

V 4

K 46

#87

EspañoI

hace 5 años

#59 no se que decirte, igual hasta les ahorrabas un par de sueldos...

V 2

K 31

#88

Duke00

hace 5 años

#11 El estado natural de@malversan es el insulto. Quien escribe en realidad es su bilis...

V 11

K 88

#89

noises

hace 5 años

#11 ¿Conspiración?

V 0

K 9

#90

Desactivado

hace 5 años

Hay que tenerlos cuadrados para llamar inteligencia artificial a algo que imita a Malversan.

V 4

K 38

#91

Overmind

hace 5 años

#11 A mí también me estuvo insultando en una conversación en la que iba de listillo prepotente sin tener ni idea, pero pasé de reportarle porque sospechaba que no serviría para nada.
La solución que tomé fue mandarle al ignore. Para leer la bilis que vomita, mejor que ni me aparezca.

V 5

K 51

#92

Desactivado

hace 5 años

#48 "Meneante" y "normal" en la misma frase. hum...

V 1

K 19

#93

ttestt

hace 5 años

#32 La verdad es que sigo confuso, por esa regla de tres en un cifrado por sustitución un programa que realice un ataque estadístico dando peso a la frecuencia de las letras y posibles palabras es una inteligencia aritficial.
Aunque atendiendo a la definición que me das supongo que sí.
Tal vez ando falto de terminología, pero daba por hecho que la ia implicaba una resolución en base a muchos caminos recorridos no en base a estadísticas de datos.

V 0

K 7

#94

vacuonauta

hace 5 años

#78 digo yo que es Bailábanle, le bailaban.

V 0

K 10

#95

fluffy

hace 5 años

autor

#93 Lo que dices es estadística pero no machine learning, así como el machine learning no necesariamente es estadístico. Machine learning es todo aquello que conlleve un aprendizaje automático, bien sea supervisado o no supervisado, independientemente de las técnicas empleadas, si bien en data science muchas de las técnicas implican modelos probabilísticos.
De todas formas las definiciones no las doy yo, te aconsejo leerte Artificial Intelligence: A Modern Approach que es el libro obligatorio de casi todas las universidades de informática para el primer año de la asignatura de IA o de sistemas conexionistas.

V 2

K 29

#96

U221E__

hace 5 años

#80 Si, a mi también me ha pasado. Da la sensación de que haya mucho nazi entre el staff de menéame.

V 1

K 13

#97

Conde_Lito

hace 5 años

editado

#13 No es ese@h4xor, bueno o tal vez también sea, el avatar es realmente parecido
En el artículo hablan deh4x0r
Y tanto@Malversan comoh4x0r no creo que te puedan contar mucho ya que andan con karma 4 y algo.

V 0

K 13

#98

Conde_Lito

hace 5 años

#48 Cuidadín que tu también estás en el punto mira, que tu nombre acaba tambien en -san

V 0

K 13

#99

Jesuo

hace 5 años

#0 #31 Dependiendo del tiempo que se tome el sistema en detectar clones, sería una herramienta muy interesante para encontrar por ejemplo opiniones interesadas o troles en foros, tiendas, competencia desleal que pueda ser demostrada ante un juez etc... el sistema parece interesante y puede que tenga una salida comercial. Incluso en un supercomputador sería interesante la posible capacidad de encontrar noticias falsas o fakes, o textos manipulados para crear confusión, y un largo etc...

V 1

K 17

#100

Jesuo

hace 5 años

# La cuestión es.... ¿tu sistema puede discernir si Malversan y h4x0r son en realidad personas y no producto de un bot avanzado? quiero decir..¿tu sistema podría encontrar una IA o conjunto de scripts conversacionales creados para opinar de manera troll con la única intención de sacar información de los que replican?, sería muy interesante que pudieras analizar a todo Meneame con tu sistema....¿tardaría mucho? ¿que potencia necesitarías para detectar clones y bots entre todos los usuarios de meneame o forocoches?

V 2

K 23

1 2 3

Inteligencia Artificial en acción: ¿es h4x0r una cuenta de Malversan?

Introducción

Natural Language Processing al rescate

¿Y cómo se puede identificar si dos personas hablan igual?

¿Y h4x0r es Malversan?

¿Pero hay forma de comprobarlo?

Conclusión

Etiquetas

comentarios destacados

Comentarios