Pas la génération de recherche, mais l’exécution autonome de la recherche.
Du brief au manuscrit, dans une exécution governed, checkpointed et inspectable.
English · 한국어 · 日本語 · 简体中文 · 繁體中文 · Español · Français · Deutsch · Português · Русский
Les README localisés sont des traductions maintenues de ce document. Pour le libellé normatif et les mises à jour les plus récentes, utilisez le README anglais comme canonical reference.
AutoLabOS est un système d’exploitation pour l’exécution de recherche gouvernée. Il traite un run comme un état de recherche checkpointé, pas comme une simple étape de génération.
Toute la boucle centrale est inspectable. La collecte de littérature, la formulation d’hypothèses, la conception expérimentale, l’implémentation, l’exécution, l’analyse, le figure audit, la review et la rédaction du manuscrit produisent tous des artefacts auditables. Les affirmations restent evidence-bounded sous un claim ceiling. La review n’est pas une étape de polissage, mais un structural gate.
Les hypothèses de qualité sont transformées en checks explicites. Le comportement réel compte davantage que l’apparence au niveau du prompt. La reproductibilité est assurée par les artefacts, les checkpoints et des transitions inspectables.
Beaucoup de systèmes de research agents sont optimisés pour produire du texte. AutoLabOS est optimisé pour exécuter un processus de recherche gouverné.
Cette différence compte lorsqu’un projet a besoin de plus qu’un brouillon convaincant.
- un research brief qui agit comme contrat d’exécution
- des workflow gates explicites au lieu d’une dérive libre des agents
- des checkpoints et des artefacts inspectables après coup
- une review capable d’arrêter un travail faible avant la génération du manuscrit
- une failure memory pour éviter de répéter aveuglément la même expérience ratée
- des evidence-bounded claims au lieu d’une prose qui dépasse les données
AutoLabOS s’adresse aux équipes qui veulent de l’autonomie sans abandonner l’auditabilité, le backtracking et la validation.
Un run governed suit toujours le même arc de recherche.
Brief.md → literature → hypothesis → experiment design → implementation → execution → analysis → figure audit → review → manuscript
En pratique :
/newcrée ou ouvre le research brief/brief start --latestvalide le brief, le snapshot dans le run et lance un run governed- le système avance dans le workflow fixe et checkpoint l’état et les artefacts à chaque frontière
- si l’evidence est faible, le système choisit le backtracking ou le downgrade plutôt qu’un polissage automatique
- seulement après le passage du review gate,
write_paperrédige un manuscrit à partir d’une evidence bornée
Le contrat historique à 9 nœuds reste la base architecturale. Dans le runtime actuel, figure_audit est le checkpoint supplémentaire approuvé entre analyze_results et review, afin que la critique des figures puisse être checkpointée et reprise indépendamment.
stateDiagram-v2
[*] --> collect_papers
collect_papers --> analyze_papers: complete
analyze_papers --> generate_hypotheses: complete
generate_hypotheses --> design_experiments: complete
design_experiments --> implement_experiments: complete
implement_experiments --> run_experiments: auto_handoff or complete
run_experiments --> analyze_results: complete
analyze_results --> figure_audit: auto_advance
analyze_results --> implement_experiments: auto_backtrack_to_implement
analyze_results --> design_experiments: auto_backtrack_to_design
analyze_results --> generate_hypotheses: auto_backtrack_to_hypotheses
figure_audit --> review: auto_advance
review --> write_paper: auto_advance
review --> implement_experiments: auto_backtrack_to_implement
review --> design_experiments: auto_backtrack_to_design
review --> generate_hypotheses: auto_backtrack_to_hypotheses
write_paper --> [*]: auto_complete
Toute l’automatisation dans ce flux reste bornée à des bounded node-internal loops. Même en mode non supervisé, le workflow reste governed.
AutoLabOS ne produit pas seulement un PDF. Il produit un état de recherche traçable.
| Sortie | Contenu |
|---|---|
| Corpus de littérature | papers collectés, BibTeX, evidence store extrait |
| Hypothèses | hypotheses fondées sur la littérature et skeptical review |
| Plan expérimental | governed design avec contract, baseline lock et checks de cohérence |
| Résultats exécutés | metrics, objective evaluation, failure memory log |
| Analyse des résultats | analyse statistique, attempt decisions, transition reasoning |
| Figure audit | figure lint, caption/reference consistency, vision critique optionnelle |
| Review packet | scorecard du panel de 5 spécialistes, claim ceiling, critique pré-brouillon |
| Manuscrit | brouillon LaTeX avec evidence links, scientific validation et PDF optionnel |
| Checkpoints | snapshots complets de l’état à chaque frontière de nœud, reprise possible à tout moment |
Tout est stocké sous .autolabos/runs/<run_id>/, avec une copie des sorties publiques sous outputs/.
C’est le modèle de reproductibilité du système : non pas un état caché, mais des artefacts, des checkpoints et des transitions inspectables.
# 1. Installer et construire
npm install
npm run build
npm link
# 2. Aller dans votre workspace de recherche
cd /path/to/your-research-workspace
# 3. Lancer une interface
autolabos # TUI
autolabos web # Web UIFlux typique au premier usage :
/new
/brief start --latest
/doctorNotes :
- si
.autolabos/config.yamln’existe pas, les deux interfaces guident l’onboarding - n’exécutez pas AutoLabOS depuis la racine du dépôt ; utilisez un répertoire de workspace séparé pour vos runs de recherche
- le TUI et le Web UI partagent le même runtime, les mêmes artefacts et les mêmes checkpoints
| Élément | Quand c’est nécessaire | Notes |
|---|---|---|
SEMANTIC_SCHOLAR_API_KEY |
Toujours | Découverte de papers et metadata |
OPENAI_API_KEY |
Quand le provider est api |
Exécution via modèles OpenAI API |
| Connexion Codex CLI | Quand le provider est codex |
Utilise votre session Codex locale |
Le brief n’est pas seulement un document de départ. C’est le governed contract du run.
/new crée ou ouvre Brief.md. /brief start --latest le valide, le snapshot dans le run, puis lance l’exécution à partir de ce snapshot. Le run enregistre le source path du brief, le snapshot path, ainsi que tout manuscript format analysé. Ainsi, la provenance du run reste inspectable même si le brief du workspace change ensuite.
Appendix Preferences peut désormais être structuré avec Prefer appendix for: et Keep in main body: afin que l’intention de routage vers l’appendice soit explicite dans le brief contract.
En d’autres termes, le brief n’est pas seulement une partie du prompt. Il fait partie de l’audit trail.
Dans le contrat actuel, .autolabos/config.yaml sert surtout à stocker les valeurs par défaut du provider/runtime et la workspace policy. L’intention de recherche propre à chaque run, les evidence bars, les attentes de baseline, les objectifs de manuscript format et le chemin du manuscript template doivent vivre dans le Brief. Le config persisté peut donc omettre les valeurs par défaut de research ainsi que certains champs de manuscript-profile / paper-template.
/new
/brief start --latestLe brief doit couvrir à la fois l’intention de recherche et les contraintes de gouvernance : topic, objective metric, baseline ou comparator, minimum acceptable evidence, disallowed shortcuts et le paper ceiling si l’evidence reste faible.
Sections du brief et grading
| Section | Statut | Rôle |
|---|---|---|
## Topic |
Requise | Définir la question de recherche en 1-3 phrases |
## Objective Metric |
Requise | Indicateur principal de réussite |
## Constraints |
Recommandée | compute budget, limites de dataset, règles de reproductibilité |
## Plan |
Recommandée | Plan expérimental étape par étape |
## Target Comparison |
Governance | Comparaison avec un baseline explicite |
## Minimum Acceptable Evidence |
Governance | Effect size minimal, fold count, decision boundary |
## Disallowed Shortcuts |
Governance | Raccourcis qui invalident le résultat |
## Paper Ceiling If Evidence Remains Weak |
Governance | Classification maximale du paper si l’evidence reste faible |
## Manuscript Format |
Optionnelle | Nombre de colonnes, budget de pages, règles de references / appendix |
| Grade | Signification | Prêt pour paper-scale ? |
|---|---|---|
complete |
core + 4 sections de governance substantielles ou plus | Oui |
partial |
core complet + 2 sections de governance ou plus | Avance avec avertissements |
minimal |
seulement les sections core | Non |
AutoLabOS propose deux front ends sur le même runtime governed.
| TUI | Web UI | |
|---|---|---|
| Lancement | autolabos |
autolabos web |
| Interaction | slash commands, langage naturel | dashboard et composer dans le navigateur |
| Vue du workflow | progression des nœuds en temps réel dans le terminal | governed workflow graph avec actions |
| Artefacts | inspection via CLI | preview inline du texte, des images et des PDFs |
| Surfaces opératoires | /watch, /queue, /explore, /doctor |
jobs queue, live watch cards, exploration status, diagnostics |
| Idéal pour | itération rapide et contrôle direct | monitoring visuel et navigation des artefacts |
Le point important est que les deux surfaces voient les mêmes checkpoints, les mêmes runs et les mêmes artefacts sous-jacents.
AutoLabOS est conçu autour de la governed execution, pas d’une prompt-only orchestration.
| Outils de recherche typiques | AutoLabOS | |
|---|---|---|
| Workflow | dérive ouverte d’agents | governed fixed graph avec review boundaries explicites |
| State | éphémère | checkpointed, resumable, inspectable |
| Claims | aussi fortes que le modèle les écrit | limitées par l’evidence et le claim ceiling |
| Review | cleanup pass optionnel | structural gate capable de bloquer l’écriture |
| Failures | oubliés puis réessayés | enregistrés avec fingerprint dans la failure memory |
| Interfaces | chemins de code séparés | TUI et Web partagent un seul runtime |
Le système se lit donc davantage comme une research infrastructure que comme un paper generator.
Le workflow est borné et auditable. Le backtracking fait partie du contract. Les résultats qui ne justifient pas la progression repartent vers hypotheses, design ou implementation au lieu d’être transformés en prose plus forte.
Chaque frontière de nœud écrit un state inspectable et resumable. L’unité de progression n’est pas seulement un texte produit, mais un run avec artifacts, transitions et recoverable state.
Les claims restent sous le strongest defensible evidence ceiling. Le système enregistre les claims plus fortes qui ont été bloquées et les evidence gaps nécessaires pour les débloquer.
review n’est pas une étape de nettoyage cosmétique. C’est le structural gate où readiness, méthodologie, evidence linkage, writing discipline et reproducibility handoff sont vérifiés avant la génération du manuscrit.
Les failure fingerprints sont persistés afin que les erreurs structurelles et les equivalent failures répétées ne soient pas relancées aveuglément.
La reproductibilité est imposée par les artefacts, les checkpoints et les transitions inspectables. Même les résumés publics se basent sur les persisted run outputs plutôt que sur une seconde source de vérité.
AutoLabOS traite les validation surfaces comme first-class.
/doctorvérifie l’environnement et la readiness du workspace avant le démarrage d’un run
Le paper readiness n’est pas une simple impression produite par un prompt.
- Layer 1 - deterministic minimum gate arrête le under-evidenced work via des artifact / evidence-integrity checks explicites
- Layer 2 - LLM paper-quality evaluator ajoute une critique structurée sur la methodology, l’evidence strength, la writing structure, le claim support et la limitations honesty
- Review packet + specialist panel décident si le chemin du manuscrit doit advance, revise ou backtrack
paper_readiness.json peut inclure un overall_score. Cette valeur doit être comprise comme un signal interne de qualité du run, pas comme un benchmark scientifique universel. Certains chemins avancés d’evaluation / self-improvement utilisent ce signal pour comparer des runs ou des candidats de prompt mutation.
AutoLabOS inclut des chemins de self-improvement bornés, mais il ne s’agit pas de blind autonomous rewriting. Ils restent contraints par la validation et le rollback.
autolabos meta-harness construit un context directory dans outputs/meta-harness/<timestamp>/ à partir de recent completed runs et de l’historique d’évaluation.
Il peut inclure :
- des run events filtrés
- des node artifacts comme
result_analysis.jsonoureview/decision.json paper_readiness.jsonoutputs/eval-harness/history.jsonl- les fichiers
node-prompts/actuels pour le nœud ciblé
Le LLM est contraint par TASK.md à répondre uniquement avec TARGET_FILE + unified diff, et la cible est restreinte à node-prompts/. En mode apply, la proposition doit passer validation checks; sinon elle est rollbackée et un audit log est écrit. --no-apply ne construit que le context. --dry-run affiche le diff sans modifier les fichiers.
autolabos evolve exécute une boucle bornée de mutation et d’évaluation sur .codex et node-prompts.
- supporte
--max-cycles,--target skills|prompts|allet--dry-run - lit la fitness du run depuis
paper_readiness.overall_score - mute prompts et skills, exécute la validation et compare la fitness entre cycles
- en cas de régression, restaure
.codexetnode-promptsdepuis le dernier good git tag
C’est un chemin de self-improvement, mais pas une réécriture repo-wide sans limites.
AutoLabOS fournit aussi des built-in harness presets comme base, compact, failure-aware et review-heavy. Ils ajustent l’artifact/context policy, l’emphase sur la failure memory, la prompt policy et la compression strategy pour l’évaluation comparative, sans modifier le governed production workflow.
| Commande | Description |
|---|---|
/new |
Créer ou ouvrir Brief.md |
/brief start <path|--latest> |
Démarrer la recherche à partir d’un brief |
/runs [query] |
Lister ou rechercher des runs |
/resume <run> |
Reprendre un run |
/agent run <node> [run] |
Exécuter depuis un nœud du graph |
/agent status [run] |
Afficher les états des nœuds |
/agent overnight [run] |
Exécuter un run unattended sous contraintes conservatrices |
/agent autonomous [run] |
Exécuter une bounded research exploration |
/watch |
Vue live watch des runs actifs et background jobs |
/explore |
Afficher l’état de l’exploration engine du run actif |
/queue |
Afficher les jobs running / waiting / stalled |
/doctor |
Diagnostics de l’environnement et du workspace |
/model |
Changer le modèle et le reasoning effort |
Liste complète des commandes
| Commande | Description |
|---|---|
/help |
Afficher la liste des commandes |
/new |
Créer ou ouvrir le Brief.md du workspace |
/brief start <path|--latest> |
Démarrer la recherche depuis le Brief.md du workspace ou un brief donné |
/doctor |
Diagnostics environment + workspace |
/runs [query] |
Lister ou rechercher des runs |
/run <run> |
Sélectionner un run |
/resume <run> |
Reprendre un run |
/agent list |
Lister les nœuds du graph |
/agent run <node> [run] |
Exécuter depuis un nœud |
/agent status [run] |
Afficher les états des nœuds |
/agent collect [query] [options] |
Collecter des papers |
/agent recollect <n> [run] |
Collecter des papers supplémentaires |
/agent focus <node> |
Déplacer le focus via safe jump |
/agent graph [run] |
Afficher l’état du graph |
/agent resume [run] [checkpoint] |
Reprendre depuis un checkpoint |
/agent retry [node] [run] |
Réessayer un nœud |
/agent jump <node> [run] [--force] |
Sauter vers un nœud |
/agent overnight [run] |
Overnight autonomy (24h) |
/agent autonomous [run] |
Open-ended autonomous research |
/model |
Sélecteur de modèle et de reasoning |
/approve |
Approuver un nœud en pause |
/queue |
Afficher les jobs running / waiting / stalled |
/watch |
Live watch des runs actifs |
/explore |
Afficher l’état de l’exploration engine |
/retry |
Réessayer le nœud courant |
/settings |
Paramètres provider et modèle |
/quit |
Quitter |
- vous voulez de l’autonomie sans renoncer à un governed workflow
- vous faites du research engineering où checkpoints et artifacts comptent
- vous travaillez sur des projets paper-scale ou paper-adjacent nécessitant une discipline d’evidence
- votre environnement valorise autant review, traceability et resumability que generation
- vous voulez seulement un one-shot draft rapide
- votre workflow n’a pas besoin d’artifact trail ni de review gate
- vous préférez un free-form agent behavior à la governed execution
- un simple outil de synthèse de littérature vous suffit
AutoLabOS is an active OSS research-engineering project. For deeper details beyond this overview, see the documents under docs.