714 meneos
5463 clics

Script para procesar la contabilidad del PP

He creado este pequeño script para convertir a txt los PDFs de la contabilidad del PP. Este script crea un hilo por cada core de tu CPU, convierte el pdf a tif y lo procesa con tesseract, que saca el texto de las imágenes. Iré actualizando el post con las sugerencias de la gente.
etiquetas: script, contabilidad, pp, bárcenas, corrupción
usuarios: 316   anónimos: 398   negativos: 5  
37comentarios mnm karma: 668
  1. #1   Gracias a toda la gente que se está preocupando en analizar y mejorar el acceso a las cuentas del PP. Gracias.
    votos: 65    karma: 577
  2. #3   Aquí ya hay una buena parte pasados a texto: pastebin.com/7pDfubLA
    votos: 3    karma: 36
     *   anarion321_1 anarion321_1
  3. #4   #2 ¿En qué? El script que comentas usa una función recursiva para pasar por todos los directorios, yo hago una llamada recursiva para ejecutar un proceso por cada core y exprimir la CPU. Además yo convierto los pdfs a tif usando ghostscript, el script que dices usa pdftoppm ... El único parecido es el uso de tesseract, que es un software muy utilizado ¿Todo el que lo use esta copiando ese script? yo creo que no.

    No soy ningún genio de la programación, pero no he estado yo un buen rato escribiendo el script, y peleándome con la documentación de parallel para que vengas ahora a decir que me lo he copiado!
    votos: 108    karma: 920
  4. #6   #5 si lo hubiese cogido de ahí no tendría ningún problema en reconocerlo, pero mis fuentes han sido estas webs:
    www.webupd8.org/2010/02/how-to-extract-all-text-from-pdfs.html
    www.gnu.org/software/parallel/man.html
    stackoverflow.com/questions/16448887/gnu-parallel-not-working-at-all
    votos: 25    karma: 208
  5. #7   Toda ayuda para encontrar pruebas contra la Banda organizada PP a partir de su contabilidad filtrada, es bienvenida, gracias!
    votos: 7    karma: 67
     *   Paisos_Catalans Paisos_Catalans
  6. #8   El problema es que el OCR hace un gran trabajo, pero comete gran cantidad de fallos debido en muchos casos a la calidad de la fotocopia o a la dificultad del texto, por eso, lo mejor es analizar cada documento que procesa el OCR , como hace #3 , yo realice uno ( www.meneame.net/c/13150315 ) la memoria del 2012 y afirmo que es un trabajo duro corregir todos los errores (y que abandone con el del 2011 ya por cansancio).
    Por eso, aunque el script esta muy bien, hay que usarlo con cierta cautela.
    Por cierto, si queréis ver los papeles sin tener que descargaros todo el torrent los he publicado online en elpp.chorizo.es/ para verlos online.
    votos: 9    karma: 89
  7. #9   #4 #5 podeis dejar de pelearos, utilizad ambos, compararemos resultados,quien sabe a lo mejor el bueno es la combinacion de ambos.

    hay que compartir trabajar juntos es la unica manera de poner a estos ladrones en su sitio
    votos: 7    karma: 66
     *   sangetsu sangetsu
  8. #10   #9 He actualizado el script con lo bueno que tiene el de #2. Ahora procesa todos los directorios y además continua donde se haya quedado, es decir, si ya ha generado el txt de un tomo, pues pasa al sieguiente.
    votos: 27    karma: 247
  9. #11   :-O :-O

    Meneo por el curro de #0 y porque los del PP son unos sinvergüenzas HIJOS DE PUTA.
    www.meneame.net/story/llamado-declarar-twit :roll:
    votos: 12    karma: 99
  10. #12   #0 muy boss!
    votos: 2    karma: 24
  11. #13   Si se empleara el esfuerzo que ese está empleando contra el PP con otros partidos habria demasiada mierda que tapar.
    votos: 4    karma: 1
  12. #14   #1 Gracias a toda la gente que se está preocupando en analizar y mejorar el acceso a los ordenadores con comandos ocultos. Gracias.
    votos: 0    karma: 6
  13. #15   ¿POR QUÉ TODA LA MIERDA sale en Julio y Agosto? Que "casualmente" la gente está de vacaciones (la que puede)... Bienvenidos a la nave del misterio...
    votos: 4    karma: 44
  14. #16   Una cosa de la que me estoy dando cuenta con tanta noticia es que hay mucha gente que el problema de todo esto es fundamentalmente del PP, o que piensan que dentro de que todos son malos, el PP es todavia mas malo. Lamentablemente todos son basura, el sistema esta podridisimo, lo que pasa es que el PP esta ahora en el gobierno y como es normal salen mas mierdas suyas.
    votos: 1    karma: 3
  15. #17   Justo por gente asi es por lo que se recorta y reforma la educación para q no aprenda a hacer script y la sanidad para q si aprende que se muera rápido.
    votos: 2    karma: 33
  16. #18   #13 Ya hay mierda suficiente encima de la mesa. Como para un atracón.
    votos: 2    karma: 27
  17. #19   Preveo que la contabilidad del PP va a acabar de Craptcha en breve.  media
    votos: 3    karma: 31
     *   --340484-- --340484--
  18. #20   Que está muy currao y tal, pero... ¿lo de subir algo de tu propio blog no debería ser considerado SPAM? Porque por mucho menos se han tirado temas aquí...
    votos: 1    karma: 6
  19. #22   #10 Un script genial. Se agradece mucho tu aporte, buen trabajo.
    votos: 4    karma: 38
  20. #23   #1 una cosa, esos pdf son de fiar?
    Puede que sea una filtración controlada por parte del PP?
    votos: 0    karma: 6
  21. #24   ¿No lo hay para Windows?
    votos: 0    karma: 7
  22. #26   #20 Es muy común que los primeros enlaces que se envíen no estén "en sintonía" con la comunidad de usuarios de Menéame y reciban votos negativos. Un error típico suele ser enviar artículos de tu blog sin parar. Algunos usuarios lo consideran de mal gusto y lo votan como "spam". No tiene nada de malo enviar del propio blog; pero es mejor enviar sólo los artículos que consideres más interesantes y no abusar, procurando que la proporción de envíos de tu blog sea baja respecto al total de tus envíos. Recuerda: a los usuarios les molesta mucho que la gente sólo intente aprovecharse del sitio para su propio beneficio, en vez de compartir enlaces interesantes y conversar o debatir con los demás.

    Fuente: meneame.wikispaces.com/Comenzando

    Es cierto que muchos envíos se "tiran" por cualquier gilipollez y que otros lleguen a la portada isospechadamente; y que la cola de pendientes a veces resulte más variada que la portada (por ejemplo hoy mismo); pero no deja de ser curioso que un usuario con un nivel de "entropía del 25%" escriba lo que tu escribes sobre otro usuario con un nivel de "entropía del 56%". o_o

    Si no ponemos tiquismiquis con los votos de spam, tus envíos tienen más papeletas que los del usuario que ha hecho este. Eso sin tener en cuenta ni la antigüedad del usuario ni la utilidad del envío ¬¬

    Con cariño.-
    votos: 4    karma: 57
  23. #27   Parsear ls es lo peor que se puede hacer . Usando como argumento '*.pdf' sirve igualmente. Por lo demás, un script cojonudo.

    O si no usad "xargs -p NUMERODEHILOSPORCPU "
    votos: 0    karma: 11
     *   Ander_ Ander_
  24. #28   #25 Merci por el link.
    Pero igualmente yo tengo mis dudas. Es el procedimiento que deberían de hacer para aparentar que son ciertas esas cuentas. llámame conspiranoico pero es lo que pienso

    saludos
    votos: 0    karma: 6
  25. #29   #19 ¿Euros o pesetas?

    espanol.answers.yahoo.com/question/index?qid=20111022161705AAgosUQ
    Establo: 250€/mes (3000€/año)
    Herrajes: 60€ cada mes y medio (480€/año)
    Vacunas: 40€/año

    Total: 3520€/año (584.000pts)
    votos: 0    karma: 6
  26. #30   #28 Creo que los sobreestimas, no veo yo a esa panda de borderlines haciendo un montaje de ese calibre... ¬¬
    votos: 0    karma: 9
  27. #31   #26 WTF? Que mis envíos tienen más de spam? Pues no se de qué...

    En fin, que yo he visto cómo se itraba a un usuario recién llegado un post de su blog por ser de su blog.

    Pero vamos, que no me sobra esta noticia en portada. Me sorprende que haya entrado, nada más
    votos: 0    karma: 13
  28. #32   #31 WTF? Que mis envíos tienen más de spam? Pues no se de qué... Yo no escrito eso... Solo constato que desde el punto de vista de los niveles de "entropía" (que hasta donde yo se, miden la variedad de las fuentes) el usuario que envía esta noticia, hasta el momento, tiene el doble que tu (por cierto, y que yo :-) ).

    También habría que tener en cuenta el número de envíos realizados desde la fecha del registro, claro.

    Simplemente me extrañaba que un usuario tan antiguo en MNM preguntase algo que está bastante claro en las normas de uso, con respecto al spam.

    A mi en la portada tampoco me sobra nada (casi nunca) lo que pasa es que en días como hoy la actualidad marca demasiado y echo en falta un poco más de variedad temática (sobre todo si tenemos en cuenta a los usuarios que no viven en España...).

    Discúlpame si mi comentario te ha resultado molesto.-
    votos: 1    karma: 20
  29. #33   #15 Hay 6m que estan de vacaciones permanentes.
    votos: 0    karma: 7
  30. #34   El pastebin de ppgoteras ha sido eliminado.

    El pastebin de @anarion321_1 parece no estar disponible.

    La web de anon your voice ha eliminado el contenido por recibir informaciones de que es ilegal.

    Larga vida al TORRENT!!

    thepiratebay.sx/torrent/8659683/Cables_contabilidad_PP_1990-2011
    votos: 1    karma: 17
     *   Luyso Luyso
  31. #35   Estoy seguro que ese tal Anonymous jamás sacará las del PSOE por razones obvias.
    votos: 0    karma: 6
  32. #36   #31 "Que mis envíos tienen más de spam? Pues no se de qué..."

    Spam de huevos con Spam.
    Si solo enviases Spam con pan y Spam, a lo mejor el Spam con Spam huevos y Spam podría colar, pero el Spam con Spam Spam y huevos y Spam, pues como que Spam Spam Spam Spam Spam!
    votos: 0    karma: 6
comentarios cerrados

menéame