edición general

Las #CuentasDelPP ¿nos ayudas a analizarlas?

Yo estoy modificando los pdf para pasar de imagen a texto y poder habilitar la búsqueda para hacer más fácil esta tarea, si a alguien le interesa:

1990- mega.co.nz/#!Ps5QhSTS!Bje0ImmtcuyCXk9NA3A0vCcxb8wbnfaPip7KJjfcEzg
1999- mega.co.nz/#!OpZjXTga!ESttYiBREeLd0uKC6tbB9kHiMe1oH8mP0isPaLK6gdE

De momento sólo tengo esas, el proceso es algo lento :-P
#5 te enlazo el comentario desde Twitter, si puedes ir actualizándolo con los links, agradecido ;)
#10 El comentario ya no puedo editarlo, habría que pedírselo a algún admin, pero procuraré irlos subiendo según los vaya completando, pero ya digo que llevará tiempo, es mucho texto y mi i7 no da más de sí.
#15 fácil, hazte un pastebin o similar (en pastebin como usuario registrado puedes editar los pastes), pega en él los links que ya llevas (luego podrás editarlo), y enlázalo desde tu comentario mientras aún puedes editarlo :-)

Si ya no puedes, quizá @gallir pueda ayudar, o no te preocupes, lo pasteo de nuevo, ya ves qué esfuerzo :-)
Estoy completando la lista de #5 aquí -> pastebin.com/7pDfubLA

si algún @admin modifica el comentario y cambia el enlace se lo agradecería :-)
#111 Cualquier aportación que me ayude a terminar la lista de #69 será bien recibida.

#110 abbyy finereader
#112 Tengo un programa de terminal llamado pdfocr que hace eso, calculo que en menos de una hora los convierto todos
#113 prueba, yo a txt lo pasé rápido, pero me quedaba mal a la hora de buscar, muy apelotonado y desorganizado.
#112 Yo de ti usaría el ocr Tesseract (actualmente es de google). No tiene interficie gráfica pero puedes procesar por lotes (batch). Yo lo he probado en el curro y va muy bien.
#115 pdfocr en GitHub , usa tesseract debajo :-)

Para iterar sobre los archivos , "find . -iname '+.pdf' -exec COMANDO_OCR {} \; "
#115 Perdón, "find . -iname '*.pdf' -exec COMANDO_OCR {} ; "

#115 Eso en Linux claro, en Win con un *.bat será parecido.
#5 ¿Con qué programa lo haces?
#5 Puedo hacerlo en bloque con convert y tesseract en Linux, si alguien quiere...

menéame