Hace 7 años | Por Minipunk a lanuevacronica.com
Publicado hace 7 años por Minipunk a lanuevacronica.com

"Cuando publicas unos datos en PDF, solo el que está al tanto de la página web se entera". Y no siempre está toda la información, además de que no se hace en tiempo real y tampoco se pueden extraer las cuestiones que el ciudadano necesite. Por eso considera que es «una barrera», ya que «el político cree que por publicar así los datos ya es transparente, pero no».

Comentarios

D3S1GN

Este señor (o a lo mejor el periodista que ha puesto lo que ha creído entender) no entiende de qué va el PDF y por qué se emplea. El PDF es un formato de documento final. Implica que está pensado para ser leído por personas, no por sistemas informáticos; ya que esto de los sistemas informáticos para dichas tareas es relativamente reciente (desde el punto de vista de las administraciones). Extraer los datos de manera formateada requerirá igualmente un tratamiento para que pueda ser cómodo para los humanos. De lo contrario sigue siendo una lluvia de datos.
Eso sí, si la cuestión es dar acceso a sistemas, cuesta más bien poco proporcionar una API (XML, JSON, etc) y generar los datos al PDF con una plantilla. Pero eventualmente habrá un aluvión de datos a ser analizados por una persona, si requiere un sistema para filtrar, muchas tienen ya suscripciones a publicaciones concretas.
Lo de CSV y Excel me ha dejado de piedra. ¿En qué siglo vive? Son formatos poco flexibles.

SerraCalderona

Mi solución en casos de PDF con imágenes es sencilla: OCR, pero tiene los lógicos problemas de poner las columnas correctamente y la pérdida de tiempo, me programé una cosilla en C++, tomando los datos resultantes para no perder tanto tiempo luego ordenándolos, pero aún así es un coñazo. Muerte al pdf, hojas de cálculo en formato de código abierto o lo que sea, pero ya está bien del puñetero .pdf

D

#9 Con que hagan el pdf desde el texto original y no del escaneo del impreso alcnaza

SerraCalderona

#11 Crees que no lo hacen deliberadamente muchas veces? roll

D

#13 Nunca subestimes la estupidez de la gente

D

Se queja del pdf que es un formato opensource y quiere la información en Excel. Todo un experto

Dene

#1 Creo que te equivocas.
La frase es "en CSV o Excel".
Por lo que se entiende, el formato es CSV, abierto y facilmente legible, pero ha dicho "o Excel" porque es el programa con el que habitualmente la mayoría abre los ficheros excel. O sea, para que la gente se entere de lo que quiere decir.
No pide formato excel. Que por otro lado, es un formato perfectamente editable con software no propietario.
Tiene toda la razon del mundo cuando dice que el PDF es un formato muy poco amigable

t

#2 Excel no es un formaron abierto. Un CSV si y además se puede abrir con Excel o Calc o con cualquier editor de texto.

D

#2 Existen un montón de programas que te permiten extraer datos de un pdf, algunos de código abierto. Y todas las plataformas te permiten leerlo sin la instalación de programas adiconales
De todas formas creo que comete un error al convertirlo en un problema de formatos. Aunque coincido de que los datos en bruto deberían estar disponible para todos

Minipunk

#4 Los PDFs que suelen publicar las administraciones son una imagen, no puedes seleccionar o buscar texto.

D

#6
En ninguna parte del artículo dice eso. Y de todas maneras confirma que no es un problema del formato pdf.

tul

#6 alguien deberia inventar el ocr

D

#2 Yo votaría por que se currasen una API.

tul

#5 te gustan las aberraciones?

A

Pues que lo publiquen en PostScript

dosvga

Ya comentáis algunos que uno de los problemas del pdf no es el formato en sí, sino que se trata de una imagen convertida en pdf. Y ahí no hay forma de hacer búsquedas ni nada ¿Usar un OCR? Claro, también podemos picar el texto... Pero una mayor transparencia tiene que venir por parte de la administración. Una mayor transparencia real, donde la información sea fácil de extraer, consultar, analizar en función de los intereses de cada uno. Pero en este país los políticos son expertos en crear leyes cuyo título obedece a una exigencia legal de la UE o a contentar a la opinión pública, por ejemplo ley de transparencia, pero en su articulado y, sobre todo, en sus reglamentos, anulan lo que debería ser y se queda en un mero ejercicio de propaganda.
"Haced las leyes y dejarme a mi los reglamentos", frase de algún estadista cuyo nombre no recuerdo.

Yo he sufrido durante años, de un departamento de la Xunta de Galicia, la publicación de un concurso público anual con 60 folios que era un pdf de una imagen... ¡girada unos grados! Y seguro que no era por malicia, sino simple incompetencia. Me imagino al pobre funcionario con el marrón de subir el tocho de folios a la plataforma de contratación y en vez de convencer a la secretaria del departamento (responsable final de verificar el texto) de usar el botoncito de "exportar" de su procesador de textos, o usar una impresora virtual en pdf, descubrir el botón gordo de la gran multicopista que le permitía escanear a un archivo en vea de fotocopiar. Es una pena que no descubriera también el quita-grapas y la bandeja de entrada de la fotocopiadora para que las imágenes salieran rectas.