MATVARD - OCR y Hotspots Visuales#
Objetivo#
Complementar la lectura textual de los PDFs de Fase 2 con una capa visual priorizada, centrada en paginas con mayor densidad de graficos, diagramas y capturas relevantes para la interpretacion operativa.
Pipeline actual#
Se incorporo el script:
scripts/ocr_matvard_hotspots.py
Este pipeline hace lo siguiente:
- recorre los PDFs de
docs/matvard/FASE_2_METODOLOGIA_MATVARD/, - detecta paginas visualmente criticas,
- renderiza esas paginas a PNG,
- extrae texto PDF,
- ejecuta OCR con
tesseractsi esta instalado, - clasifica tags operativos y propone reglas sugeridas.
Salidas generadas#
Por defecto el pipeline deja sus artefactos en:
storage/reports/matvard/ocr_hotspots/hotspots_ocr.jsonstorage/reports/matvard/ocr_hotspots/hotspots_ocr.md
Estas salidas sirven para:
- localizar paginas criticas por modulo,
- inspeccionar texto fuente y OCR,
- relacionar contenido visual con reglas cuantificables.
Uso#
Ejecucion basica#
/Users/dmx83/Repos/SignalDashPro/.venv/bin/python scripts/ocr_matvard_hotspots.py --top-per-module 8 --min-score 18
Ejecucion con OCR habilitado#
Requiere tesseract instalado en el sistema:
brew install tesseract
brew install tesseract-lang
/Users/dmx83/Repos/SignalDashPro/.venv/bin/python scripts/ocr_matvard_hotspots.py --languages spa+eng
Que mejora Tesseract#
Sin OCR, el pipeline ya produce valor porque aprovecha el texto presente en el PDF y la distribucion visual de la pagina.
Con OCR, mejora especialmente en:
- texto incrustado dentro de imagenes,
- etiquetas de diagramas,
- anotaciones pequeñas,
- capturas de pantalla con informacion contextual.
Eso es util sobre todo para:
Elaboracion-de-Hipotesis,Valor-en-Desarrollo,Market-Profile-Volume-Profile,Introduccion-al-Ritmo.
Como encaja en la estrategia#
Este pipeline no implementa la estrategia. Su funcion es reducir la distancia entre el material fuente y una especificacion de trading automatizable.
Su aportacion concreta es:
- priorizar paginas de mayor valor visual,
- extraer texto adicional,
- generar tags como
riesgo,setup,valor,timing,narrativa,inval, - proponer reglas iniciales para MATVARD v1.
Limites actuales#
- OCR no interpreta por si solo la semantica completa de flechas, geometria o layout.
- La parte mas discrecional de MATVARD sigue requiriendo supervision humana.
- La utilidad maxima se obtiene cuando los hotspots se convierten despues en features y reglas verificables.