Automatizacion de informes y extraccion PDF para calidad del hormigon
Sistema Python para revisar informes, extraer datos de PDFs tecnicos y acelerar cargas masivas de ensayos de hormigon.
Paso 01
Problema
La revision y recarga de ensayos de autocontrol y verificacion dependia de PDFs, hojas no homogeneas y comprobaciones manuales con cientos de registros por empresa.
Paso 02
Contexto y restricciones
Durante la migracion de software interno y la carga historica 2025/2026, muchos laboratorios remitian informes de resistencia, penetracion de agua y otros ensayos sin datos tabulados consistentes.
Rol: Diseno y desarrollo de extractores, validadores y plantillas Python, incluyendo versiones empaquetables como ejecutable para uso operativo.
Paso 03
Decisiones clave
- Construir extractores deterministas por plantilla para proveedores recurrentes cuando la estructura del PDF era suficientemente estable.
- Priorizar trazabilidad, reglas reproducibles y limpieza de datos antes que depender de APIs externas de IA con coste operativo propio.
- Incluir validaciones para detectar incumplimientos, incoherencias de autocontrol/verificacion y errores en nombres, certificados o codigos.
Paso 04
Resultados
- Cargas equivalentes a una jornada de trabajo pasaron a flujos ejecutables en menos de una hora cuando el lote ya estaba preparado.
- La extraccion se vuelve mas productiva cuanto mayor es el volumen de informes, porque el coste de preparar cada plantilla se amortiza por lote.
- La limpieza de datos redujo errores por espacios, prefijos, grupos, certificados inconsistentes y falta de estandarizacion documental.
Métricas
- Cientos de ensayos procesables por lote en segundos tras configurar la plantilla adecuada.
- Reduccion operativa estimada de unas 8 horas a menos de 1 hora en cargas comparables.
- Cobertura aplicada a resistencia de hormigon, penetracion de agua, autocontrol, verificacion y revision documental.
Paso 05
Aprendizajes y próxima mejora
Aprendizajes
- La automatizacion mas valiosa en calidad no es solo extraer rapido, sino dejar trazabilidad y criterios de revision que reduzcan errores humanos.
- Las plantillas por proveedor son una solucion pragmatica cuando los PDFs son recurrentes y no compensa asumir costes de API para cada lote.
- La limpieza de datos es parte del sistema de calidad: nombres, certificados y codigos inconsistentes pueden bloquear tanto como un calculo mal hecho.
Proxima mejora
- Convertir las plantillas en una interfaz interna con previsualizacion, registro de incidencias y opcion futura de IA cuando el coste lo justifique.
Paso 06