Hace 3 años | Por Find a genbeta.com
Publicado hace 3 años por Find a genbeta.com

La Biblioteca Nacional de España ha anunciado que el texto completo de las publicaciones de dominio público de la Hemeroteca Digital ya pueden descargarse en formatos abiertos libres y reutilizables. Gratis, por supuesto. La institución ha incorporado una nueva página a su web en la que se recoge un listado de los título de dominio público cuyo texto al completo puede ser descargado. Estos textos, explican, se obtienen a partir de un proceso de reconocimiento óptico de caracteres u OCR.

Comentarios

m

Gracias por el envío

Fingolfin

Buena iniciativa, pero espero que mejoren el OCR, porque el resultado a menudo es catastrófico. Por poner un ejemplo, este "semanario económico" de 1765: http://hemerotecadigital.bne.es/issue.vm?id=0003999177&search=&lang=en . No pegaré el texto que obtiene el sistema de reconocimiento de texto porque es prácticamente ilegible, entiendo que es un texto viejo y mal fotocopiado, pero por ejemplo se detecta la "s" del texto, que es bastante curiosa, con "C" o "f". Y si aun fuera sólo eso, pero hay muchísimos otros fallos. Creo que hace falta una generación de reconocimiento de textos que utilice las técnicas más modernas de AI para ser capaz de hacer una traducción más efectiva.

woopi

#4 #5 Lo ideal (creo) es que pusieran un pdf que integre el texto en el propio documento con lo que se haya podido rescatar con el ocr. Permitiría hacer alguna búsqueda y se agradecería. Pero los txt que he probado, sin una referencia contextual no me parece que tengan mucho interés y son bastante ilegibles. Y aunque el texto fuera correcto, imagina un periódico de hoy en día convertido en txt, sin distinguir titulares de noticias ni columnas, etc... no lo veo. Un gasto de recursos y dudo que valga para algo.

woopi

#4 #5 #9 Me he colado y veo que SI que hay botón para descargar el pdf y tiene el texto integrado en el sitio de la imagen... OK. Era a lo que me refería. Eso si que me parece útil. Aunque siempre se podría mejorar el ocr, claro.

themarquesito

A ver si tienen La Flaca, mítica revista de la segunda mitad del siglo XIX.

V

Pero alguien ha abierto algún texto?
He abierto uno aleatoriamente y...

G

Sería de agradecer que el listado en sí pudiera descargarse en formato xls o csv, y que en la actualización mensual hubiese un enlace a las novedades (si hubiese)

m

#2: Y JSON, que es un formato hijo de JavaScript y está bien porque hay bibliotecas de lectura para muchos lenguajes diferentes.

RubiaDereBote

#2 Y perfumado con unas gotas de Shumukh.

Nova6K0

En TXT no pocos de ellos, que reutilizable, por favor... Ahora sí, compatible de narices.

Saludos.