714 meneos
5466 clics

Script para procesar la contabilidad del PP

He creado este pequeño script para convertir a txt los PDFs de la contabilidad del PP. Este script crea un hilo por cada core de tu CPU, convierte el pdf a tif y lo procesa con tesseract, que saca el texto de las imágenes. Iré actualizando el post con las sugerencias de la gente.
etiquetas: script, contabilidad, pp, bárcenas, corrupción
usuarios: 316   anónimos: 398   negativos: 5  
37comentarios mnm karma: 668
Comentarios destacados:         
#1   Gracias a toda la gente que se está preocupando en analizar y mejorar el acceso a las cuentas del PP. Gracias.
votos: 65    karma: 577
#14   #1 Gracias a toda la gente que se está preocupando en analizar y mejorar el acceso a los ordenadores con comandos ocultos. Gracias.
votos: 0    karma: 6
#23   #1 una cosa, esos pdf son de fiar?
Puede que sea una filtración controlada por parte del PP?
votos: 0    karma: 6
#28   #25 Merci por el link.
Pero igualmente yo tengo mis dudas. Es el procedimiento que deberían de hacer para aparentar que son ciertas esas cuentas. llámame conspiranoico pero es lo que pienso

saludos
votos: 0    karma: 6
#30   #28 Creo que los sobreestimas, no veo yo a esa panda de borderlines haciendo un montaje de ese calibre... ¬¬
votos: 0    karma: 9
#4   #2 ¿En qué? El script que comentas usa una función recursiva para pasar por todos los directorios, yo hago una llamada recursiva para ejecutar un proceso por cada core y exprimir la CPU. Además yo convierto los pdfs a tif usando ghostscript, el script que dices usa pdftoppm ... El único parecido es el uso de tesseract, que es un software muy utilizado ¿Todo el que lo use esta copiando ese script? yo creo que no.

No soy ningún genio de la programación, pero no he estado yo un buen rato escribiendo el script, y peleándome con la documentación de parallel para que vengas ahora a decir que me lo he copiado!
votos: 108    karma: 920
#6   #5 si lo hubiese cogido de ahí no tendría ningún problema en reconocerlo, pero mis fuentes han sido estas webs:
www.webupd8.org/2010/02/how-to-extract-all-text-from-pdfs.html
www.gnu.org/software/parallel/man.html
stackoverflow.com/questions/16448887/gnu-parallel-not-working-at-all
votos: 25    karma: 208
#9   #4 #5 podeis dejar de pelearos, utilizad ambos, compararemos resultados,quien sabe a lo mejor el bueno es la combinacion de ambos.

hay que compartir trabajar juntos es la unica manera de poner a estos ladrones en su sitio
votos: 7    karma: 66
 *   sangetsu
#10   #9 He actualizado el script con lo bueno que tiene el de #2. Ahora procesa todos los directorios y además continua donde se haya quedado, es decir, si ya ha generado el txt de un tomo, pues pasa al sieguiente.
votos: 27    karma: 247
#22   #10 Un script genial. Se agradece mucho tu aporte, buen trabajo.
votos: 4    karma: 38
#3   Aquí ya hay una buena parte pasados a texto: pastebin.com/7pDfubLA
votos: 3    karma: 36
 *   anarion321_1 anarion321_1
#8   El problema es que el OCR hace un gran trabajo, pero comete gran cantidad de fallos debido en muchos casos a la calidad de la fotocopia o a la dificultad del texto, por eso, lo mejor es analizar cada documento que procesa el OCR , como hace #3 , yo realice uno ( www.meneame.net/c/13150315 ) la memoria del 2012 y afirmo que es un trabajo duro corregir todos los errores (y que abandone con el del 2011 ya por cansancio).
Por eso, aunque el script esta muy bien, hay que usarlo con cierta cautela.
Por cierto, si queréis ver los papeles sin tener que descargaros todo el torrent los he publicado online en elpp.chorizo.es/ para verlos online.
votos: 9    karma: 89
#7   Toda ayuda para encontrar pruebas contra la Banda organizada PP a partir de su contabilidad filtrada, es bienvenida, gracias!
votos: 7    karma: 67
 *   Paisos_Catalans Paisos_Catalans
#11   :-O :-O

Meneo por el curro de #0 y porque los del PP son unos sinvergüenzas HIJOS DE PUTA.
www.meneame.net/story/llamado-declarar-twit :roll:
votos: 12    karma: 99
#12   #0 muy boss!
votos: 2    karma: 24
#13   Si se empleara el esfuerzo que ese está empleando contra el PP con otros partidos habria demasiada mierda que tapar.
votos: 4    karma: 1
#18   #13 Ya hay mierda suficiente encima de la mesa. Como para un atracón.
votos: 2    karma: 27
#15   ¿POR QUÉ TODA LA MIERDA sale en Julio y Agosto? Que "casualmente" la gente está de vacaciones (la que puede)... Bienvenidos a la nave del misterio...
votos: 4    karma: 44
#33   #15 Hay 6m que estan de vacaciones permanentes.
votos: 0    karma: 7
#16   Una cosa de la que me estoy dando cuenta con tanta noticia es que hay mucha gente que el problema de todo esto es fundamentalmente del PP, o que piensan que dentro de que todos son malos, el PP es todavia mas malo. Lamentablemente todos son basura, el sistema esta podridisimo, lo que pasa es que el PP esta ahora en el gobierno y como es normal salen mas mierdas suyas.
votos: 1    karma: 3
#17   Justo por gente asi es por lo que se recorta y reforma la educación para q no aprenda a hacer script y la sanidad para q si aprende que se muera rápido.
votos: 2    karma: 33
#19   Preveo que la contabilidad del PP va a acabar de Craptcha en breve.  media
votos: 3    karma: 31
 *   --340484--
#29   #19 ¿Euros o pesetas?

espanol.answers.yahoo.com/question/index?qid=20111022161705AAgosUQ
Establo: 250€/mes (3000€/año)
Herrajes: 60€ cada mes y medio (480€/año)
Vacunas: 40€/año

Total: 3520€/año (584.000pts)
votos: 0    karma: 6
#20   Que está muy currao y tal, pero... ¿lo de subir algo de tu propio blog no debería ser considerado SPAM? Porque por mucho menos se han tirado temas aquí...
votos: 1    karma: 6
#26   #20 Es muy común que los primeros enlaces que se envíen no estén "en sintonía" con la comunidad de usuarios de Menéame y reciban votos negativos. Un error típico suele ser enviar artículos de tu blog sin parar. Algunos usuarios lo consideran de mal gusto y lo votan como "spam". No tiene nada de malo enviar del propio blog; pero es mejor enviar sólo los artículos que consideres más interesantes y no abusar, procurando que la proporción de envíos de tu blog sea baja…

  » ver todo el comentario
votos: 4    karma: 57
#31   #26 WTF? Que mis envíos tienen más de spam? Pues no se de qué...

En fin, que yo he visto cómo se itraba a un usuario recién llegado un post de su blog por ser de su blog.

Pero vamos, que no me sobra esta noticia en portada. Me sorprende que haya entrado, nada más
votos: 0    karma: 13
#32   #31 WTF? Que mis envíos tienen más de spam? Pues no se de qué... Yo no escrito eso... Solo constato que desde el punto de vista de los niveles de "entropía" (que hasta donde yo se, miden la variedad de las fuentes) el usuario que envía esta noticia, hasta el momento, tiene el doble que tu (por cierto, y que yo :-) ).

También habría que tener en cuenta el número de envíos realizados desde la fecha del registro, claro.

Simplemente me extrañaba que un usuario tan antiguo…   » ver todo el comentario
votos: 1    karma: 20
#36   #31 "Que mis envíos tienen más de spam? Pues no se de qué..."

Spam de huevos con Spam.
Si solo enviases Spam con pan y Spam, a lo mejor el Spam con Spam huevos y Spam podría colar, pero el Spam con Spam Spam y huevos y Spam, pues como que Spam Spam Spam Spam Spam!
votos: 0    karma: 6
#24   ¿No lo hay para Windows?
votos: 0    karma: 7
#27   Parsear ls es lo peor que se puede hacer . Usando como argumento '*.pdf' sirve igualmente. Por lo demás, un script cojonudo.

O si no usad "xargs -p NUMERODEHILOSPORCPU "
votos: 0    karma: 11
 *   Ander_ Ander_
#34   El pastebin de ppgoteras ha sido eliminado.

El pastebin de @anarion321_1 parece no estar disponible.

La web de anon your voice ha eliminado el contenido por recibir informaciones de que es ilegal.

Larga vida al TORRENT!!

thepiratebay.sx/torrent/8659683/Cables_contabilidad_PP_1990-2011
votos: 1    karma: 17
 *   Luyso
#35   Estoy seguro que ese tal Anonymous jamás sacará las del PSOE por razones obvias.
votos: 0    karma: 6
comentarios cerrados

menéame