Hace 5 años | Por fluffy
Publicado hace 5 años por fluffy

Comentarios

slainrub

#41 Oh dios mio! Ahí ya me esta empezando a dar pena de verdad.

Priorat

#61 No están prohibido el tener clones en menéame. Lo que está prohibido es el astroturfing y #41 es un ejemplo claro de ello.

themarquesito

#58 Lo estaba pensando como prueba de concepto, no como otra cosa. Si dispusiese de un corpus digital adecuado, te habría indicado también que comparases con Francisco de Enzinas y Juan de Jarava, que son realmente los más adecuados.

Am_Shaegar

#60 Lo que yo no sé, es si las obras de esos autores nos han llegado traducidas a un castellano moderno por las editoriales.

Lo suyo sería entonces acceder a los textos originales sin adaptar para poder hacer correctamente ese estudio.

themarquesito

#72 Lo que habría que tener es una estandarización de las grafías para tener resultados fiables. Ten en cuenta que en esa época, por ponerte un ejemplo, te encuentras indistintamente las formas havía, hauía, avía, auía, y había. Otro ejemplo puede ser offrecer, offrescer, offresçer, ofreçer, ofrecer, y ofrescer. Si no se estandarizan las grafías para el cotejo, los resultados pueden ser inadecuados.
Las editoriales, como mucho, adaptan las grafías a la forma moderna, y aun así no siempre lo hacen.

D

#74 ¿Si adaptas las grafias no estas alterando el cotejamiento?

Am_Shaegar

#75 Si al menos supiéramos como lo escribió el autor original...

Am_Shaegar

#77 Muchas gracias por las explicaciones y por los ejemplos.

f

#75 Viendo el problema (nunca lo había visto antes... no sabía que hubiese diferentes variantes... pero se abre un mundo para mí), tengo varias cosas que decir:
1. Sobre "ofrecer/offrescer/offrecer", dado que un stemmer tiene reglas para calcular la raíz de la palabra, al final quedarían tanto los infinitivos como sus conjugaciones en "ofrec/offresc/offrec". Esto tiene una cosa positiva, y es que las reglas de conjugación son comunes y parece que no han cambiado en siglos, con lo cual el algoritmo de cálculo de raíces del castellano moderno debería en principio servir para castellano antiguo. Como parte negativa, al ser las raíces diferentes, no se identificarían como la misma palabra o significado con el método que he usado en este artículo
2. Por otro lado, con skipgramas se puede hacer word2vec y analizar el corpus. Esto lo que hace es calcular para cada palabra un vector en el que cada dimensión del vector es un "significado". En este caso, dado que las 3 variantes estarían en el mismo contexto y posición dentro del corpus, se puede suponer en principio que sus vectores serán los mismos. Esto significa que dadas dos palabras cuya representación escrita es diferente, se puede conocer si son sinónimas o equivalentes comparando los vectores. Como dato chulo, estos vectores te permiten jugar con el lenguaje, de manera que si tienes un vector para "rey" otro vector para "hombre" y otro vector para "mujer", si haces "rey" - "hombre" + "mujer" te da el vector de reina (al rey le has quitado la componente que significa hombre y le has añadido la que significa mujer).
3. Teniendo las variantes de un libro, como se espera que el contenido sea el mismo, se pueden aprender las palabras con mismo significado incluso sin IA... simplemente por la posición
4. Hay otra manera de aproximarse que sería realizando la transcripción fonética... lo digo porque "Baylauanle" no sé lo que significa pero suena a "Bailanle", que fonéticamente son muy similares.

Bueno, el tema me parece interesante

themarquesito

#78 Baylauanle sería "bailábanle" en castellano actual, aunque con el uso que tenemos de los pronombres hoy en día, la forma que se vería es "le bailaban". "Caxco" es una peculiar forma de "casco", y no es la única vez que el autor usa una x antes de /k/, pues escribe en algún lado "coxqueaba", que hoy se día "cojeaba".
Hay alguna otra variante llamativa, como el arcaísmo "turar" en vez de "durar", así como alguna conjugación que ha variado con los siglos. En el XVI no se decía "pondría", "tendría", "vendrá" o "tendrá" sino "pornía", "ternía", "verná", y "terná".

vacuonauta

#78 digo yo que es Bailábanle, le bailaban.

XavierGEltroll

Coincido con #1 #3 #24 y con casi todo el mundo: excelente trabajo y explicación. Deberíamos crear un premio a artículo del mes y del año, y este envío sería un gran candidato

D

#24 Imagino que estas técnicas ya las usan los gobiernos en materia criminal, ¿no? Me parece algo tan interesante que me tiraría horas y horas buscando coincidencias. ¡Buen trabajo y gracias por compartirlo y por la explicación!
Últimamente me asquea Menéame, pero no paro de entrar porque de vez en cuando sigue habiendo cosas así de interesantes.

D

#24 He comprobado que en el 99% de los casos que escribes es para poner algo interesante.

magistermilitum

#24 Eso ya se hace desde hace algunos añicos, dentro de los que se llama las digital humanities, de hecho, la comparación estilística es uno de los trabajos más abordables. Un trabajo de vulgarización al respecto se publicó el año pasado alrededor de la identidad de Elena Ferrante, que escribe bajo seudónimo: "Who is behind Elena Ferrante?". Yo mismo he hecho modelos de aprendizaje CRF y SVM para textos medievales en latín. El problema de trabajar con textos antiguos en realidad radica en el "estado de la lengua". La mayoría de las herramientas están adaptadas al inglés y para procesar textos en lengua vernácula, latin clásico o romance medieval hay que hacer adaptaciones muy muy finas ya que la heterogeneidad lingüística y discursiva es muy alta, a veces casi única. La resolución de problemas exigen además que tengas un conocimiento muy alto tanto en lingüística, historia, lenguas antiguas y sepas bastante de programación y de técnicas machine learning, por lo que es un perfil realmente muy escaso y últimamente muy demandado.

D

#4 TensorFlow? Compartes el código?

f

#25 Jejeje, por ahora no puedo porque la propieda intelectual no es mía, porque era un experimento que llevo haciendo para el trabajo desde que volví de vacaciones, para experimentar un poco sobre lenguaje natural aplicado a fraude. Pero en principio lo podré liberar en cuanto consiga la aprobación para hacer paper.

A

#4 Muy interesante!!!
¿podrías elaborar un poco más lo del data augmentation?

He entendido que la red N tiene como input el vector de n-gramas de una persona y como output la probabilidad de que tal vector pertenezca a x usuario. Durante el data augmentation entiendo que has substituido de forma aleatoria alguna de las entradas del input, pero aun se le asigna al usuario, algo así como generar ruido en la única observación que se tiene y calibrar el modelo con esos 200 "observaciones" por usuario.

Asi que el problema tiene un input de dimension x y un output de

¿Cómo afectan los criterios del data augmentation al problema? por ejemplo, porque 200?, cuantos "errores se meten por realización?

Muchas gracias por el post!

f

#37 Mmm... En principio empecemos con esto: Cómo entienden los bots el lenguaje
En chatbots interesa entrenar con frases cortas, y varias frases son las observaciones de un intent, así que es un problema fácil porque tienes vectores como este para los intents:
[1, 1, 1, 0, 0, 0, 0, 0, 0, 0,......... ]
[1, 0, 1, 1, 0, 0, 0, 0, 0, 0,........]

Pero comparar las características de escritura de alguien no es el mismo problema, y no funciona. Revisando papers encontré muy poco y casi todo estadístico basado en frecuencias, así que me lancé a hacer esto, y tenía que partir de hipótesis. Al principio lo hice con un único vector por persona, con lo cual te queda para cada persona un único vector... pero eso no representa la frecuencia de las palabras, alguien puede decir "zote" pero no por ello ser una característica de su habla. Además con una única observación por cada clase no tira muy bien.
Así que me planteé usar data augmentation, que es lo que uso en computer vision. Ejemplo: si tengo fotos de cosas y tengo pocas, lo que hago es que a cada foto le hago microcambios aleatorios: giro, desplazamiento en x, desplazamiento en y, crop, cambio de aspect ratio... De esa manera de cada foto puedo generar 100 (o las que yo quiera).

Para aplicar data augmentation en este caso, de nuevo me encontré con el obstáculo de que no hay nada, ni un sólo paper, que me diese indicaciones. Podría probar con poner ceros al azar donde hay unos... pero eso no tendría en cuenta las características del habla de la persona. Podría eliminar las menos frecuentes, pero entonces te encuentras con un problema: las palabras más frecuentes son lo que usualmente se llaman stopwords, palabras que no aportan gran significado, como conjunciones, artículos y preposiciones. Así que decidí eliminar en base a la frecuencia del uso en relación al resto de usuarios. ¿Qué quiere decir eso? Que si la palabra "zote" la usa muy poca gente, no se va a eliminar, en cambio cosas como "a", "el", "la", "un", "y" son propensas a desaparecer. Lo mismo para n-gramas combinados de ellas.

D

#4 joder, menudo curro...
Si descubres que soy un holograma dímelo y dejo de pagar la hipoteca...

PasaPollo

#2 Interesante. Cuéntanos sobre el proceso, ¿cuánto te ha llevado el análisis? ¿Te dedicas a ello profesionalmente?

ttestt

#2 es interesante.
pero ¿me puedes explicar por qué lo llamas ia, cuando supongo que te refieres a estadística o "machine learning" para los modernos?

f

#20 Pues por varios motivos. El primero porque IA es un conjunto de técnicas, dentro de ese conjunto hay un subconjunto que es el Machine Learning y dentro de Machine Learning hay un subconjubto que ew el Deep Learning. Con lo cual si es machine learning es IA dado que está contenido.
En este caso, tal y como explico en el artículo y en comentarios, es perceptrón multicapa con capas ocultas, es decir deep learning, con lo cual hay un optimizador (adam) haciendo el descenso del gradiente para calcular los pesos y los bias mediante backpropagation... que es más álgebra que estadística.

ttestt

#32 gracias! Tenía, entendido que la ia y el machine learning como disciplinas se separaron hace 30 años.

ttestt

#32 La verdad es que sigo confuso, por esa regla de tres en un cifrado por sustitución un programa que realice un ataque estadístico dando peso a la frecuencia de las letras y posibles palabras es una inteligencia aritficial.
Aunque atendiendo a la definición que me das supongo que sí.
Tal vez ando falto de terminología, pero daba por hecho que la ia implicaba una resolución en base a muchos caminos recorridos no en base a estadísticas de datos.

f

#93 Lo que dices es estadística pero no machine learning, así como el machine learning no necesariamente es estadístico. Machine learning es todo aquello que conlleve un aprendizaje automático, bien sea supervisado o no supervisado, independientemente de las técnicas empleadas, si bien en data science muchas de las técnicas implican modelos probabilísticos.
De todas formas las definiciones no las doy yo, te aconsejo leerte Artificial Intelligence: A Modern Approach que es el libro obligatorio de casi todas las universidades de informática para el primer año de la asignatura de IA o de sistemas conexionistas.

JanSmite

#32 Sólo por hacer un poco de abogado del diablo: las partes no son el todo. La IA es el conjunto de técnicas y tecnologías que la conforman, pero cada una de las partes no es IA por sí sola.

daphoene

#2 Me siento halagado por verme mencionado en el artículo, que por cierto, me ha gustado. Te puede servir de base para hacer un plugin para Menéame y otros sitios, aquí vendría bastante bien que pusiera advertencias en los comentarios con el percentil de semejanza con otros usuarios.

Otra forma muy detectable es la coincidencia con errores ortográficos o de expresión, que no es determinante por sí solo, pero puede añadir peso a ese porcentaje de semejanza ( aunque hay gente que escribe tan mal que te rompe el algoritmo ). A nivel de errores ortográficos, se podría comparar los errores que comete un usuario con mayor frecuencia, comparando ese grupo con los errores que comete el resto con más frecuencia, en este caso sin importar el orden ni la cercanía de las palabras.

Iba a comentar que no soy h4xt0r ni Malversan, pero después de fallar seis veces un captcha el otro día, tengo una crisis de identidad.

Lo que sí he visto entre las frases escogidas son errores que yo jamás cometería, si yo quisiera descartarme de esa lista, usaría el método que te he comentado para defender mi inociencia, puede ser bastante fino

Edito: Para lo de la exclusividad de la frase y el entorno cerrado, tienes que tener en cuenta el contexto de todas esas frases, ya que ambos usuarios forman parte de menéame, y se pueden contaminar entre sí.

hAx0r

#c-2" class="content-link" style="color: rgb(14, 170, 116)" data-toggle="popover" data-popover-type="comment" data-popover-url="/tooltip/comment/3074748/order/2">#2 TONTOOOOOOOOOOOOO lol lol lol

He estado descojonándome viendo cómo haces el ridículo públicamente. Vamos a ver, tontolhaba, cariñín, muchas de esas expresiones, incluyendo la de cuesco lentejero, la he visto tropocientas veces en Menéame. ¿Sabes lo que pasa, querubín? Que está claro que sólo has tenido en cuenta cuentas activas, CON LO QUE TU CONCLUSIÓN ES MIERDA, PEQUEÑÍN. lol Fíjate que la expresión que consideras más característica es justamente una que tiene muchas más ocurrencias de las que dices que tiene. TOOONTO. lol

Lo más gracioso es que ya te dejé en ridículo en el hilo original, en el que te mostré cómo ya había interactuado con el aneuronal de Malversan en su momento, así como otros fallos de tu mierda de método. Lo mejor es ver cómo teniendo delante de sus narices un comentario que desmiente tu método, y dejando a un lado a un par de retrasados mentales comoDerko_89Derko_89 oVarlakVarlak que también lo han visto y no se han dado cuenta, en vez de ver que somos dos personas diferentes, aún hay quien se cree que es que claro, nos aburrimos y no tenemos otra cosa que hacer que ponernos en plan Gollum… ¿con qué fin? lol

Antes de usar las neuronas artificiales hay que usar la neurona que te queda, si como en este mismo hilo ha quedado patente que al culofino de@Malversan no le han baneado nunca porque sus admins son sus amigüitos, para qué coño le hace falta un clon que encima diga las mismas mierdas que él. 🌴 🌴 🌴

Pues claro que hay coincidencias en algunas expresiones, algo que si en vez de una IA lo hubiera visto una persona acostumbrada a leer al otro troll podría haber llegado a la misma conclusión sin parafernalias… y estaría exactamente igual de equivocado. ¿Ese es el método mágico, ver algunas coincidencias inútiles en un foro endogámico donde coinciden esas expresiones muchas más veces de las que ha sido capaz de detectar esa mierda de plugin que has usado? ¿Te das cuenta de que el hecho de que el segundo grupo con más score tenga sólo 0.40 y pico indica LO MIERDA QUE ES ESTE MÉTODO cuando ha detectado a alguien que no es clon mío y no ha detectado mis clones de verdad? Por no hablar de que hay muchas cuentas clon de otros usuarios que tu método evidentemente no pilla (y te han retado y se te ha hecho guindilla el culo) muchas de ellas con un habla característica muy determinada, de usuarios con expresiones muy suyas, que sí que son realmente clones entre sí, y que ni salen ni se les espera en tu mierda de método TONTO. lol lol lol

Me ha parecido divertidísimo ver a todos los granosos del lugar, polla en mano, fliparse con una gilipollez absolutamente INÚTIL que sólo ha servido para ver que la mierda de los “n-gramas” no vale ni para tomar por culo. Y el idiota de@Malversan ni se habrá dado cuenta de esta gilipollez, si no, teniendo en cuenta lo troll que es, ya habría respondido hace rato. lol

¿Sabéis lo mejor, pajerillos? Que todo este post de@fluffy lo ha hecho POR PICÓN, porque quedó en ridículo en el otro hilo, decidió hacerse una pajilla con esta mierda método, le demostré en dicho hilo que había quedado en ridículo, y aprovechó mi strike para poner esta mierda de post de forma pública sabiendo que yo no podría responder. Lo más gracioso es que le respondí con otra cuenta, h4xor, y en vez de deducir que soy yo, h4x0r con cero, se pensaba que era una tercera persona, amigo de ambos, que estaba ahí comentando sin saber muy por qué. Ni siquiera atinaba a responder a mis comentarios y acababa citando el de otros usuarios. Si hasta el tonto de@FreEdoOm, al que estaba defendiendo, le entendió mal y se puso a atacarle diciendo que él no era clon de nadie. Patético.XD lol lol

Yo dejándole en ridículo:
Gran avance de Google DeepMind hacia una inteligencia artificial general/c125#c-125

Su respuesta metiendo la gamba aún más:
“Curioso. ¿Sabes por qué? Porque yo he analizado el perfil deh4x0rh4x0r, con un cerito, y tú eres@h4xOr con una O mayúscula. Mi sospecha (bueno, sospecha... las probabilidades de que el NLP se equivoque son bastante bajas...) es queh4x0rh4x0r es@Malversan y@h4xOr es algún amiguete.”
Gran avance de Google DeepMind hacia una inteligencia artificial general/c135#c-135

Aquí le dejo definitivamente en ridículo y no vuelve a responder hasta que no tengo el strike puesto y así puede poner este hilo sin desmentir su idiotez de método: Gran avance de Google DeepMind hacia una inteligencia artificial general/c136#c-136


Para que veais lo picón que es, mirad esta nota, resulta que@zurditorium votó negativo esta mierda noticia y el tío se puso a berrear como una nena porque no habían sido capaz de apreciar las hipermatemáticas ridículas con las que había quedado como un idiota lol

“Vaya@zurditorium, llevo una semana escribiendo un paper sobre el modelo detrás de lo que he escrito hoy aquí, más que nada porque tal y como puedes comprobar buscando, no hay casi nada al respecto. El más completo al respecto era este arxiv.org/pdf/1607.06961.pdf y ni siquiera utiliza n-gramas ni deep learning. Buscaba un matemático para colaborar en el modelado y ser coautor, pero visto que has votado irrelevante se ve que a tu universidad no le interesa, así que contactaré con la UPC. Un bechi”
@fluffy

“@ElPerroSeLlamabaMisTetas Para nada. Es una decepción. Es decir, yo he sido fan de este tío cuando hacía rubik, y ahora me doy cuenta de que matemáticamente ni siquiera es capaz de reconocer una solución matemática novedosa, y es que ni siquiera es capaz de diferenciar estadística de álgebra en inteligencia artificial... un matemático que no diferencia estadística de álgebra... a menos que haya votado el artículo sin leerlo. Es como diría Broncano "la desepsió"... “
@fluffy

Mirad si es niñito y picón, que en su comentario # 172 le dice a@minipimmer lo siguiente, sólo porque éste propone que no se utilicen tantos anglicismos:

“Voy a lanzar una apuesta al aire: no eres informático y si lo eres no ganas más de 50k.”
Inteligencia Artificial en acción: ¿es h4x0r una cuenta de Malversan?/c172#c-172

delcarglo

#13 Intentar averiguar, dices... lol lol lol lol

#13 Es una gilipollez del tamaño de Notre Dame.

D

#28 Menos mal que esta la chupupandi para aclararnos que esto que trata de uno de los suyos es una gilipollez lol

#49 Ni una. No das ni una.

D

#55 Anda, otra afirmacion rimbombante de esas que suelen venir de gente con poca capacidad intelectual pero mucha seguridad aparente

mr_x

#28 o un cuesco lentejero

daphoene

#28 Ya le has jodido el algoritmo. Qué poco respeto por el trabajo de los demás...

slainrub

#13 Pues se estaran mordiendo los dedos sin poder contestarte, por que ambos perfiles tienen 4.01 y 4.03 de Karma. Se pica así mismo a ver quien tiene menos. lol

Conde_Lito

#13 No es ese@h4xor, bueno o tal vez también sea, el avatar es realmente parecido
En el artículo hablan deh4x0rh4x0r
Y tanto@Malversan comoh4x0rh4x0r no creo que te puedan contar mucho ya que andan con karma 4 y algo.

D

#11 A mí me pasó lo mismo con el usuario@h4xor. Justo en esa noticia de la que hablan intentaba, junto con otro usuario, hacer ver que lo que llaman "inteligencia artificial" no es más que un algoritmo complejo, pero que no tiene nada que ver con la "inteligencia natural" y que solo sirve para resolver el problema concreto para el que lo hayas entrenado. Una inteligencia artificial nunca decide qué resolver ni cómo. Y no paró de insultarme. Lo reporté varias veces pero no sé si eso en realidad vale para algo.

Lo metí en ignorados, pero viendo esto, voy a meter al otro usuario también.

U221E__

#30 Tiene sentido que sea una IA, si ha aprendido su comportamiento de menéame es normal que insulte. lol

JanSmite

#30 De nuevo, sólo por hacer de abogado del diablo: la "inteligencia natural" también son algoritmos, muchísimo más complejos y con acceso a muchísima más información y sensores que los actuales ordenadores y sus IAs. Mi esposa es neuropsicóloga y se dedica a enseñarle algoritmos (pautas, habilidades) a aquellas personas que no los tienen, en la mayoría de ocasiones porque su hardware está "escacharrado", sus sensores no funcionan bien o están mal calibrados, su adquisición e interpretación de datos no es correcta, etc.

Ahora nos maravillamos con unas IAs en realidad MUY sencillas, con la capacidad general de un niño de 3 años para temas generales y muy especializadas en temas concretos, pero es sólo cuestión de tiempo que el hardware mejore, que se le dote de mejores sensores (vista, oído, gusto, tacto, olfato, propriocepción, temperatura, equilibrio, esos propios de los humanos, y algunos otros con los que nosotros no contamos, como infrarrojos, ultravioleta, ultrasonidos, GPS, radiación, etc., etc.) y con algoritmos capaces de aprender, categorizar toda esa información, relacionarla entre sí, integrarla y sacar conclusiones propias y tomar decisiones, creando incluso algoritmos propios. Y esos algoritmos pueden no limitarse a cuestiones lógicas, sino también a temas de imaginación, creatividad… Y de ahí a la autoconciencia de las IA hay un paso…

U221E__

#80 Si, a mi también me ha pasado. Da la sensación de que haya mucho nazi entre el staff de menéame.

D

#96 No sé si mucho nazi pero con uno le basta al colega del Malversan.

Lo que es increíble que en una mierda de web como Menéame vengan con estas tácticas mafiosas. Y luego nos quejamos cuando pasa en las altas esferas. Parece algo cultural.

masde120

#80¿ Y si es él mismo el admin? en la cuenta de admin no haría el troll, claro está.

Duke00

#11 El estado natural de@malversan es el insulto. Quien escribe en realidad es su bilis...

D

#88 Y la ignorancia también, que@malversan es un palurdo de cuidado.

n

#11 tinfoil ¿Conspiración? tinfoil

Overmind

#11 A mí también me estuvo insultando en una conversación en la que iba de listillo prepotente sin tener ni idea, pero pasé de reportarle porque sospechaba que no serviría para nada.
La solución que tomé fue mandarle al ignore. Para leer la bilis que vomita, mejor que ni me aparezca.

ankra

Lo de cuesco lentejero me parece suficiente lol

DORAP

#15 Si lo repites dos veces más tendrás el liderazgo en su uso en Menéame.

mr_x

#34 a no ser que alguien empiece a decirlo sin más.

Atte: el Cuesco lentejero

Ze7eN

Resulta que tengo ignorados a los dos. ¿Coincidencia? No creo

D

Yo que lo tenía en ignorados y va y se pone a sacar cuentas clones lol.

D

#10 Yo tengo ambas cuentas en ignorados. No es nada más que un troll que se ríe de su propia ignorancia.

Dravot

#0 es una pasada lo que acabas de hacer. espero que@Malversan no se lo tome a mal... pero yo he flipado. lol

Dravot

#29 pobrecillos. que en serio se toman esto algunos... lol

kaeldran

#31 Yo lo veo feten, es alguien que curra con estas cosas, a la que le apasiona su trabajo y que hace decide usar alguna de sus aficiones para ello.
Diseñar una red neuronal que pueda identificar características lingüísticas escritas le sirve para esta coña en meneame, pero no pinta que sea el objetivo.

A mi me da algo de envidia, y desde luego me parece admirable. Mucho mejor que el típico "pasar 4 horas al día comentando enfadado en meneame"

Dravot

#40 sí, si lo digo por el de la doble (o vete a saber si más) cuenta.

kaeldran

#43 lol
Sí, eso tiene más aquel, pero bueno, a su manera, es otra manera de mostrar pasión... lol

Jesuo

#0 #31 Dependiendo del tiempo que se tome el sistema en detectar clones, sería una herramienta muy interesante para encontrar por ejemplo opiniones interesadas o troles en foros, tiendas, competencia desleal que pueda ser demostrada ante un juez etc... el sistema parece interesante y puede que tenga una salida comercial. Incluso en un supercomputador sería interesante la posible capacidad de encontrar noticias falsas o fakes, o textos manipulados para crear confusión, y un largo etc...

DORAP

"tengo mejores cosas que hacer que": Aparece 152 veces, 2 de Malversan y 1 de h4x0r

Creo que las otras 149 son mías.

Y no se qué coño hago perdiendo el tiempo, tengo mejores que hacer que andar explicandoos esto.

D

#33 153 veces

kaeldran

Muy impresionado, la cazada en el hilo original ya era digna de elogio. Pero vaya, cuando se ve pasar de las palabras a los hechos así... uno recupera un poco su fe en la humanidad.

Res_cogitans

Excelente trabajo. ¿Puedes hacer un tutorial en el que muestres el uso de las librerías paso a paso con este ejemplo?

hAx0r

#5 Excelente gilipollez. Goto #183 para ver cómo se pone en ridículo roll

AsVHEn

Esto es muy interesante. No tienen sentido los votos negativos que se ha llevado.

EspañoI

#0 enhorabuena por el currazo! has unido en un mismo post algo tremendamente interesante, y los dos personajes, o quiza uno, mas detestables de meneame.

Puedo preguntar si has publicado tu codigo, o podrias describir brevemente el mismo? he intentado unas cuantas veces aplicar markov y nlp a un tensor con resultados penosos. solamente textacy + stacy me han dado ciertos resultados, pero esta lejos de ser una instancia inteligente.

D

Hay que tenerlos cuadrados para llamar inteligencia artificial a algo que imita a Malversan. lol lol lol lol lol

Cantro

#90

a

No considero probado que h4x0r y Malversan sean la misma persona, pero en las normas de uso de un foro en particular su propietario puede actuar como le venga en gana buscando maximizar tanto los beneficios como una buena experiencia de sus usuarios o lo que lo que le parezca oportuno.

Determinados indicios o sospechas que no tenían categoría de prueba se han usado en multitud de foros para banear cuentas de forma preventiva. Yo en un foro dedicado a comentar, tomaría en consideración este tipo de indicios aunque solo sea para hacer un estudio de cada caso particular antes de tomar una decisión dura.

En otro tipo de foros donde la gente comparte cosas más valiosas como código, vídeos con mucho trabajo detrás o contenidos de cierta calidad, el beneficio de la duda sería la norma para no provocar graves perjuicios a inocentes.

Tengo la sospecha de que Meneame y muchas otras redes sociales podrían estar plagadas de cuentas que comparten el mismo usuario o de grupos de usuarios que trabajan de forma conjunta introduciendo falacias con un tipo de toxicidad dirijida a un mismo objetivo.

Todo ello forma parte de una forma de hackeo de la democracia que aún no sabemos combatir.

Jesuo

#61 pero en las normas de uso de un foro en particular su propietario puede actuar como le venga en gana buscando maximizar tanto los beneficios como una buena experiencia de sus usuarios o lo que lo que le parezca oportuno.

Entiendo que no puede hacer lo que le venga en gana si hay manipulación de los usuarios y más aún sin su conocimiento o consentimiento. #0 pero una manera de detectar lo que dices sería entrenar el sistema de@fluffy para poder encontrar respuestas con falacias y sin duda una manera efectiva de detectar troles, al menos de los que suelen pulular por meneame creyéndose más listos que el resto de meneantes, supongo que para algo parecido tendría que añadir una capa tesauro para poder sumar las estadísticas al resultado sin tener que comprender el contexto de las opiniones.

hAx0r

#61 Queda probado que@fluffy es un ridículo que le gusta quedar en evidencia delante de todo dios.

Goto #183 lol lol

ccjesuojesuo@zimpMacario_PoloMacario_Polo@Dechado wonderingwondering@Españoljesuojesuo@marainCantroCantro lol lol

D

Otro que ha visto Colombo.

¿Y cómo sabes sih4x0rh4x0r también ha visto Colombo y lo que pretende es hacerse pasar por@Malversan?

SOBANDO

Este envío es más inútil que un cuesco lentejero...oh mierda.

x

Pues mira, meneo por el curro. Pero me parece muy feo perseguir usuarios... Mira el comentario y no te fijes en quién lo hace. Salvo dos o tres usuarios que tienen fijación por mí y que probablmente sean el mismo tipo, la verdad es que apenas recuerdo motes... Lo que importa es el comentario actual, no lo que el tipo haya dicho ayer porque esto no deja de ser un juego para ratos muertos de oficina.

Por cierto, "cuesco lentejero" me parece una expresión maravillosa. Y como la acabo de usar, supongo que me convierto en sospechoso de clon de Malversan...

D

Mi perceptron dice que@fluffy tiene más bigote que flequillo lol
Quizá tengo que añadirle alguna capa más!

Y muy interesante la investigación y el método.

f

#82 Barba completa, y la ultima vez que me afeité fue el 21 de diciembre... Sobre el flequillo, se me ve ya tanto el cartón que estoy ya planteándome raparme para ver si el pelo nece más fuerte

Jesuo

# La cuestión es.... ¿tu sistema puede discernir si Malversan y h4x0r son en realidad personas y no producto de un bot avanzado? quiero decir..¿tu sistema podría encontrar una IA o conjunto de scripts conversacionales creados para opinar de manera troll con la única intención de sacar información de los que replican?, sería muy interesante que pudieras analizar a todo Meneame con tu sistema....¿tardaría mucho? ¿que potencia necesitarías para detectar clones y bots entre todos los usuarios de meneame o forocoches?

m

#100 La auténtica pregunta es si podemos construir una IA que traduzca la propia escritura a otra que copie el perfil lingüístico de otra persona arbitraria.

D

Y por esto señorías, no me gusta tener perfiles con más de 1000 comentarios.

Eso si llegan, que normalmente me los hunden a strikes por "incitación al odio". Me gustaría ver a los admins actuales moderando el flame del Maidan

#FreeSacreew

Fernando_x

#16 otra solución es no incitar al odio

D

#66 😮 Oºoh hay que ver lo cerca que estamos de el futuro! bueno, pongamos que me da un patatus y me muero, no creo que@admin tuviera reparos en que funcionara en el foro la "copia de seguridad de@helisan" por decirlo de algún modo.

capitan__nemo

#67
Eso me recuerda a la pelicula "Cam" (2008) y a la saga "death race" en que el corredor protagonista Frankenstein que aparece en publico tras una mascara. Al personaje con camara lo ocupan varias personas.

Aparte decir que creo que mucho del contenido de meneame, casi hilos completos son directamente clonados. Toman un hilo de hace tiempo, buscan una web o blog que mande el mismo contenido de aquel hilo (o incluso crean una nueva entrada en un blog qye sea identica a otra antigua) y lo ponen (o directamente ponen la misma url que se envió siempre que no sea un envio del grupo actualidad). Los comentarios de algunas de las personas que enviaron entonces son copiados y enviados con el mismo usuario u otro usuario.

Lo mas increible es que me da la sensación de que yo, no siendo un clon, ni un bot (si una persona humana, un bot de carne y hueso) me repito. Es decir que digo casi exactamente lo mismo que dije en el hilo mas antiguo. Tengo una sensación de deja vu cuando lo hago. Y me da la sensación de que me repito al ver el mismo envio, misma entradilla (muchas veces ya ni accedo al envió) y mismos comentario.

Aprovecho para poner estos envios que extrapolan con meneame.
Un estudio dice que Facebook miente: la mitad de las cuentas son falsas
Un estudio dice que Facebook miente: la mitad de las cuentas son falsas

Hace 5 años | Por A_D a adslzone.net

via Guerra del taxi: esto es lo que cobra y trabaja un taxista respecto a un conductor de Uber y Cabify/c56#c-56

Facebook gives users trustworthiness score
https://www.bbc.com/news/technology-45257894
Como ZTE ayuda a Venezuela a implementar un control social al estilo chino/c1#c-1

Cobayas constantes de experimentos en meneame
Las cobayas humanas de la CIA/c28#c-28

Why Twitter Is the Best Social Media Platform for Disinformation (2017)
https://motherboard.vice.com/en_us/article/bj7vam/why-twitter-is-the-best-social-media-platform-for-disinformation

Me parece un abuso buling que se usen softwares, clones y bots, para interactuar con nosotros los usuarios humanos, y para influirnos cuando al ver un hilo pensemos que son personas reales las que comentan. Aparte de abuso y poco etico, si no es delictivo, creo que deberia serio (en el ambito de la publicidad engañosa, suplantación de identidad o nuevas leyes de la robotica respecto a los humanos que deberán saber SIEMPRE si están tratando con un software o bot automatico)


#0 Habia algun sistema o algoritmo de ibm dr watson que servia para sacar la personalidad, no recuerdo si los parametros ocean o que de un recopilatorio de textos y comentarios de una persona. Era algun servicio o herramienta que creo que estuvo, no sé si seguira estando disponible online.

daphoene

#67 Lo malo es que lo pongan a funcionar antes del óbito, y sea mejor tú que tú mismo, y la gente acabe adorando a tu bot, y tú te pierdas en el olvido... Coño, me ha salido un capítulo de Black Mirror

oliver7

Que nos lo desvele el susodicho y asunto zanjado. lol

D

Yo, para saber quién es clon de quién analizo las faltas de ortografía.

D

El Zas mas epico que he visto en años clap

pepel

¿No se puede utilizar OCR para la obtención de los datos? Hay que pensar en la máxima automatización posible.

U221E__

#7 Hay técnicas mejores para obtener el texto de una página web. OCR sería más útil para texto impreso o manuscrito.

manwy

#7 El OCR es para pasar manuscrito a caracteres de texto o de papel a digital. Si ya lo tiene en caracteres de texto digitales no veo en qué es necesario el OCR.

barni

#7 Usar OCR cuando ya tienes el texto es igual de innecesario que imprimir un PDF para escanearlo y mandarlo por correo electrónico.

D

#7 Automatización de pasos innecesarios. El nuevo paradigma de la computación.

wondering

Muy interesante.

m

#84 Deplorable revista.

D

#0 ¡Fascinante! ¿Crees que estamos cerca de un escenario en el que usuarios o oscuras organizaciones llenen los foros con clones manejados por IAs (más o menos tontas) pero con aspecto de meneante normal?

f

#48 Sería posible hacer un bot que emulase a nuestros trolls favoritos. A partir de los n-gramas puedes hacer la cadena de Markov, que es lo que genera texto similar al origen de los n-gramas. Con la cadena de markov y algún aprendizaje de a qué comentarios suele contestar y qué suele decir como respuesta, se puede hacer un bot que automáticamente busque molestar y comportándose igual que alguien. Pero no creo que a la administración le apasionase el tema...

D

#59 yo sueño con que, en un futuro no muy lejano, vuelquen los miles de comentarios que tengo aquí en una IA y que, en base a ellos, responda con mis ideas, mis temas recurrentes y mis expresiones. Así tendríamos un@helisan eterno!

f

#64 Pues eso te lo puedo hacer, si no en bot de menéame porque dudo que los admins dejen tener bots, pero sí en bot de telegram o facebook messenger.... Es decir, no sería perfecto, pero para hacer la broma con los amigos sí

kumo

#66 Ya tuvimos un fisgobot en la fisgona. Unas risas.

devnull

#66 hay un capítulo de black mirror sobre eso..

EspañoI

#59 no se que decirte, igual hasta les ahorrabas un par de sueldos...

daphoene

#59 No sé por qué me has recordado esta tira épica de xkcd... Utiliza tus poderes para el bien

https://xkcd.com/810/

D

#48 Para creación de textos está la arquitectura de Redes Neuronales llamada LSTM. Lo más asombroso de todo es que muchas veces se genera el texto carácter a carácter en lugar de palabra a palabra que es lo que nos diría la intuición:

Puedes buscar "LSTM Text Generation" para ver varios ejemplos, aquí te coloco el primero que me sale en Google:
https://machinelearningmastery.com/text-generation-lstm-recurrent-neural-networks-python-keras/

D

#48 "Meneante" y "normal" en la misma frase. hum...

Conde_Lito

#48 Cuidadín que tu también estás en el punto mira, que tu nombre acaba tambien en -san lol

t

#48 En Reddit tienen un problema real con las "granjas de karma". Básicamente, alguien (normalmente desde Rusia) crea 100 cuentas, se dedica a cosas como repostear las imágenes que han tenido más votos en los últimos años, o a buscar preguntas duplicadas y responderlas con un copy-paste del comentario más votado la vez anterior, y así van recolectando karma. Cuando ya tienen suficiente, las venden al mejor postor, o las usan para postear en los foros que se considere oportuno, para crear o distorsionar una opinión concreta.

tusitala

#0 Bravo. Me ha encantado, la explicación del proceso ha sido muy clara. Esta es una de las cosas que me da envidia no saber hacer. Seguro que se pueden hacer más cosas, como saber si un usuario es usado por dos personas o si dos personas pertenecen a un mismo grupo fuera de meneame o hasta saber que alias tiene sacreew en este momento. Además habrá más análisis que confirmen que dos usuarios son la misma persona, como el uso de los signos de puntuación.

enrii.bc

#38 pues esto no es ninguna magia como todo en.la vida se aprende poco a poco

D

Muy buen analisis.

celyo

#0 Buen artículo.

Ya solo queda mi pregunta de rigor, aunque puede ser desde obvia hasta vaguería.

¿Donde se puede obtener documentación al respecto y sin morir en el intento?

De todas maneras ya resulta intersante la información que das.

celyo

#39 Gracias.

D

#39 Hice el curso de Stanford hace años en Coursera y lo disfruté de verdad. Muy recomendable.

D

Pues Malversan por el karma que tiene (4,01) diria que tiene un strike en marcha.
Aunque no es de extrañar cosas asi, es un tema recurrente y antiguo en meneame.

Dravot

#45 eso si no se ha auto-dado un strike para escurrir el bulto unos días... roll

D

#63 A saber, no le conozo.

z

Uff, vaya cazada a un trollaco.

Macario_Polo

Muy interesante y muy didáctico.

No se quien es esa persona a la que llamas troll pero... para mi la definicion de troll es la de ese que se obseiona con un tema y trata de humillar publicamente a otros por internet usando datos y argumentos.

D

#44 Eso no es un troll. De toda la vida, un troll es un tocapelotas que no le importa el tema a debatir, solo busca que haya bronca para divertirse.

#51 Si, puede no importarle el tema a debatir pero una vez se pone en un bando lo defiende y se informa sobre ello creando confusion entre los aldeanos del lugar. Ademas no solo crean la bronca para divertirse y ganar reputacion, lo usan como una danza de cortejo. Se sabe que Forocoches es el Tinder de los trolls y la mayoria de biologos hacen su tesis ahi.
En este caso es una persona que busca informacion para humillar a alguien en concreto y usa programas y datos que ayuden a que los lectores cambien su opinion sobre ese tema/persona a tratar incitando asi a los detractores a un conflicto.

1 2 3