Pregunta ¿Cómo encuentro archivos PDF dañados? [duplicar]


Esta pregunta ya tiene una respuesta aquí:

Tengo más de 100,000 archivos .pdf. Entre ellos necesito encontrar los archivos corruptos.

¿Hay alguna manera de obtener los archivos que están corruptos, o viceversa, obtener los que están funcionando (de forma automática en lugar de examinar los archivos uno por uno)?

Busqué mucho pero no pude encontrar ninguno. Todos los resultados me mostraron software para arreglar archivos PDF rotos.


2


origen


¿Cuál es tu definición de corrupto? Ilegible por Adobe Reader? ¿Cero páginas de largo? ...
Sí, eso no puede ser abierto con adobe reader. - user1917830
Tal vez también vagamente relacionado: ¿Cómo encuentro y elimino imágenes corruptas del directorio?y Automatizando la exploración de archivos gráficos para detectar corrupción. - Scott


Respuestas:


Podría utilizar algo como Ghostscript para leerlos todos y convertirlos en imágenes de mapa de bits que no estén escritas en un archivo (por ejemplo, en la salida de redireccionamiento de Linux a / dev / null). Un script podría verificar los códigos de retorno y los mensajes de error.


0