Saltar a contenido

MATVARD - OCR y Hotspots Visuales#

Objetivo#

Complementar la lectura textual de los PDFs de Fase 2 con una capa visual priorizada, centrada en paginas con mayor densidad de graficos, diagramas y capturas relevantes para la interpretacion operativa.

Pipeline actual#

Se incorporo el script:

  • scripts/ocr_matvard_hotspots.py

Este pipeline hace lo siguiente:

  1. recorre los PDFs de docs/matvard/FASE_2_METODOLOGIA_MATVARD/,
  2. detecta paginas visualmente criticas,
  3. renderiza esas paginas a PNG,
  4. extrae texto PDF,
  5. ejecuta OCR con tesseract si esta instalado,
  6. clasifica tags operativos y propone reglas sugeridas.

Salidas generadas#

Por defecto el pipeline deja sus artefactos en:

  • storage/reports/matvard/ocr_hotspots/hotspots_ocr.json
  • storage/reports/matvard/ocr_hotspots/hotspots_ocr.md

Estas salidas sirven para:

  • localizar paginas criticas por modulo,
  • inspeccionar texto fuente y OCR,
  • relacionar contenido visual con reglas cuantificables.

Uso#

Ejecucion basica#

/Users/dmx83/Repos/SignalDashPro/.venv/bin/python scripts/ocr_matvard_hotspots.py --top-per-module 8 --min-score 18

Ejecucion con OCR habilitado#

Requiere tesseract instalado en el sistema:

brew install tesseract
brew install tesseract-lang
/Users/dmx83/Repos/SignalDashPro/.venv/bin/python scripts/ocr_matvard_hotspots.py --languages spa+eng

Que mejora Tesseract#

Sin OCR, el pipeline ya produce valor porque aprovecha el texto presente en el PDF y la distribucion visual de la pagina.

Con OCR, mejora especialmente en:

  • texto incrustado dentro de imagenes,
  • etiquetas de diagramas,
  • anotaciones pequeñas,
  • capturas de pantalla con informacion contextual.

Eso es util sobre todo para:

  • Elaboracion-de-Hipotesis,
  • Valor-en-Desarrollo,
  • Market-Profile-Volume-Profile,
  • Introduccion-al-Ritmo.

Como encaja en la estrategia#

Este pipeline no implementa la estrategia. Su funcion es reducir la distancia entre el material fuente y una especificacion de trading automatizable.

Su aportacion concreta es:

  • priorizar paginas de mayor valor visual,
  • extraer texto adicional,
  • generar tags como riesgo, setup, valor, timing, narrativa, inval,
  • proponer reglas iniciales para MATVARD v1.

Limites actuales#

  • OCR no interpreta por si solo la semantica completa de flechas, geometria o layout.
  • La parte mas discrecional de MATVARD sigue requiriendo supervision humana.
  • La utilidad maxima se obtiene cuando los hotspots se convierten despues en features y reglas verificables.