Hace 9 meses | Por techjb a genbeta.com
Publicado hace 9 meses por techjb a genbeta.com

"Un script de Python de sólo 14 líneas que utiliza gzip y supera un modelo transformer de 345 millones de parámetros es probablemente el resultado más hilarante que he visto en todo el año".

Comentarios

d

Conceptualmente le veo un sentido. Una red neuronal lo único que hace es "comprimir" (yo digo resumir, pero es lo mismo) los datos recibidos en parámetros para luego usarlos para generar resultados.

ronko

#7 Como decía Cifra:"yo ya no veo el código, solo una rubia, una morena...."

Vamos que estaba aburrido y por eso traicionó a todos.

prejudice

#8 siempre me ha gustado esa cita de Matrix
Algunos nos ponemos mas con github que con pornhub

t

Lo que hace es comprimir el texto de entrada y todos los del conjunto de entrenamiento. Va comparando uno por uno hasta encontrar los más cercanos (normalized compression distance), y predice con los k más similares.

alfema

Un artículo interesante pero que no explica, o al menos yo no entiendo, cómo funciona este sistema. Entiendo que usa un compresor, que los compresores buscan patrones de repetición para poder comprimir un fichero, pero no llego a más.

alehopio

#4 en el propio artículo pone el tweet con el código, solo tienes que leer el código para saber lo que hace:

https://github.com/bazingagin/npc_gzip

npc_gzip
“Low-Resource” Text Classification: A Parameter-Free Classification Method with Compressors

https://aclanthology.org/2023.findings-acl.426.pdf

Text classification using compressors can be di-
vided into two main approaches: (1) Using a com-
pressor to estimate entropy based on Shannon In-
formation Theory; (2) Using a compressor to ap-
proximate Kolmogorov complexity and informa-
tion distance.

...

Our approach consists of a lossless compressor, a
compressor-based distance metric, and a k-Nearest-
Neighbor classifier. Lossless compressors aim to
represent information using as few bits as possi-
ble by assigning shorter codes to symbols with
higher probability.

(seguir leyendo desde ahí para entenderlo)

alfema

#6 muy gracioso, resulta que ahora sólo leyendo código ya aprendes, ¡no sabía yo que era tan fácil!.

M

gzip, el compresor de ficheros ZIP estándar en Linux

Eteee... No

Shannon, el genio más infravalorado del siglo 0x14

D

La diferencia es que con el script de Python necesitas saber lo que tienes que hacer y con la red neuronal solo necesitas una arquitectura y un conjunto de entrenamiento bien etiquetado.