Apolo es un flujo de trabajo bioinformatico para descubrimiento asistido por IA y docking molecular. Esta carpeta corresponde a una version final, documentada y lista para GitHub del MVP ya probado en el workspace local.
La prioridad de esta distribucion es dejar una base publica, reproducible y trazable sin subir artefactos gigantes o temporales que compliquen el push a GitHub.
- flujo end-to-end de cribado virtual asistido por IA y docking molecular
- biblioteca botanica priorizada de Ecuador y Amazonia
- 6 targets terapeuticos consolidados
- 193 ligandos retenidos desde una entrada inicial de 500
- 1158 pares evaluados por screening AI
- 20 pares finales dockeados con
docking_status=success - corridas de referencia incluidas para
20260401y20260405
Este MVP incluye:
- repositorio de targets curados y preparados para docking
- repositorio de ligandos botanicos curados
- cribado DTI masivo con modelo XGBoost y embeddings ESM-2
- docking batch con AutoDock Vina
- validacion por redocking gate
- clustering de poses y ranking ejecutivo
- documentacion operativa y configuraciones usadas en corridas validadas
No intenta ser una refactorizacion profunda. La meta sigue siendo estabilidad, ejecucion repetible y facilidad de handoff.
scripts/target_repository.pyDescarga, limpia y prepara targets; separa receptor y ligando co-cristal y generaPDBQTy pocket.scripts/ligand_repository.pyResuelve compuestos desde fuentes curadas, deduplica y genera la biblioteca consolidada de ligandos.scripts/dti_predictor.pyEjecuta el cribado DTI masivo y exportaai_docking_manifest.csv.scripts/docking_pipeline.pyEjecuta docking batch sobre el manifiesto, con redocking gate y clustering de poses.
Wrappers historicos incluidos por compatibilidad:
scripts/06_ai_massive_screening.py-> delega adti_predictor.pyscripts/vina_orchestrator.py-> delega adocking_pipeline.py
vina.exeen la raiz del proyectodata/models/apolo_dti_xgboost_v3.jsondata/models/apolo_model_metadata.jsondata/models/facebook_esm2_t33_650M_UR50D/con archivos de configuracion y tokenizerdata/targets/ydata/ligands/con activos preparados para pruebasdata/results/dti_screening/dti_full_20260401/data/results/dti_screening/dti_193ligands_6targets_20260405/data/docking/results_v20260401/data/docking/results_v20260405/
venv/,.venv/, logs y caches temporalesdata/models/facebook_esm2_t33_650M_UR50D/model.safetensors
El peso principal del modelo ESM-2 no se incluye porque supera ampliamente los limites practicos de GitHub. Esta version queda publicable; para reejecutar el screening DTI puedes:
- descargar el modelo localmente y apuntarlo con
--esm-model-path - o dejar que
transformerslo resuelva desde Hugging Face si el entorno tiene acceso de red y cache local
Consulta docs/INSTALLATION.md y
data/models/facebook_esm2_t33_650M_UR50D/APOLO_SETUP.md.
data/results/dti_screening/dti_full_20260401/data/docking/results_v20260401/docking_top_hits_clustered_20260401/redocking gatepaso paraP15056yP27487- el docking batch completo termino con
10/10pares exitosos
data/results/dti_screening/dti_193ligands_6targets_20260405/data/docking/results_v20260405/docking_193ligands_6targets_20260405/- resumen ejecutivo:
data/docking/results_v20260405/docking_193ligands_6targets_20260405/EXECUTIVE_SUMMARY_20260405.md - screening AI: 1158 pares evaluados, 28 seleccionados para docking
- redocking gate: 4 targets pass, 2 fail
- docking final: 20 pares finales, todos con
docking_status=success
Consulta la guia completa en docs/QUICKSTART.md. El resumen minimo es:
python -m venv venv
.\venv\Scripts\python.exe -m pip install --upgrade pip
.\venv\Scripts\pip.exe install -r requirements.txt
.\venv\Scripts\python.exe scripts\target_repository.py --help
.\venv\Scripts\python.exe scripts\ligand_repository.py --help
.\venv\Scripts\python.exe scripts\dti_predictor.py --help
.\venv\Scripts\python.exe scripts\main_batch_run.py --helpSi ya descargaste el modelo ESM-2 local:
.\venv\Scripts\python.exe scripts\dti_predictor.py `
--esm-model-path data\models\facebook_esm2_t33_650M_UR50D `
--helpdocs/ARCHITECTURE.mddocs/INSTALLATION.mddocs/QUICKSTART.mddocs/PIPELINE.mddocs/INPUTS_OUTPUTS.mddocs/RUNBOOK.mddocs/TROUBLESHOOTING.mddocs/REFERENCE_RUNS.md
apolo_mvp_v1/
├── config/
├── data/
├── docs/
├── env/
├── scripts/
├── src/
├── tests/
├── requirements.txt
├── vina.exe
└── README.md
Usa esta carpeta como base publica del proyecto y conserva el workspace original como historico de desarrollo y experimentacion.