Skip to content

Commit 66307f0

Browse files
committed
Refactor validation workspace handling and update documentation
- Updated README files in Portuguese, Russian, Simplified Chinese, and Traditional Chinese to clarify workspace usage and validation processes. - Introduced a new validation workspace structure to separate validation-related files from the main repository. - Modified the `run-tests.mjs` script to utilize a configurable validation workspace root. - Adjusted the `doctor.ts` and `harnessValidationService.ts` files to support the new validation workspace structure. - Enhanced test cases to accommodate the new validation workspace setup, ensuring proper functionality and coverage. - Removed hardcoded paths and replaced them with dynamic resolution based on the configured validation workspace. - Updated smoke test scripts to reflect changes in workspace directory structure.
1 parent 11db324 commit 66307f0

27 files changed

Lines changed: 263 additions & 444 deletions

.gitignore

Lines changed: 0 additions & 4 deletions
Original file line numberDiff line numberDiff line change
@@ -23,10 +23,6 @@ web/dist/
2323
# AutoLabOS runtime artifacts
2424
.autolabos/
2525

26-
# Manual example / real-validation workspace
27-
/test/*
28-
!/test/smoke/
29-
3026
# Logs / coverage
3127
coverage/
3228
.nyc_output/

README.md

Lines changed: 1 addition & 39 deletions
Original file line numberDiff line numberDiff line change
@@ -175,7 +175,6 @@ Typical first-use flow:
175175
Notes:
176176

177177
- Both UIs guide onboarding if `.autolabos/config.yaml` does not exist yet.
178-
- Do not run AutoLabOS from the repository root itself. Use a workspace such as `test/` or your own research workspace.
179178
- TUI and Web UI share the same runtime, artifacts, and checkpoints.
180179

181180
### Prerequisites
@@ -259,7 +258,6 @@ AutoLabOS is designed around governed execution rather than prompt-only orchestr
259258
| Claims | As strong as the model will generate | Bounded by evidence and a claim ceiling |
260259
| Review | Optional cleanup pass | Structural gate that can block writing |
261260
| Failures | Forgotten and retried | Fingerprinted in failure memory |
262-
| Validation | Secondary | First-class surface: `/doctor`, harnesses, smoke checks, live validation |
263261
| Interfaces | Separate code paths | TUI and Web share one runtime |
264262

265263
This is why the system reads more like research infrastructure than a paper generator.
@@ -290,7 +288,6 @@ Failure fingerprints are persisted so structural errors and repeated equivalent
290288

291289
### Reproducibility Through Artifacts
292290

293-
Reproducibility is enforced through artifacts, checkpoints, and inspectable transitions. Public-facing summaries mirror persisted run outputs rather than inventing a second source of truth.
294291

295292
---
296293

@@ -299,9 +296,6 @@ Reproducibility is enforced through artifacts, checkpoints, and inspectable tran
299296
AutoLabOS treats validation surfaces as first-class.
300297

301298
- `/doctor` checks environment and workspace readiness before a run starts
302-
- harness validation protects workflow, artifact, and governance contracts
303-
- smoke checks exist for targeted diagnostic coverage
304-
- live validation is used when interactive behavior matters
305299

306300
Paper readiness is not a single binary prompt judgment.
307301

@@ -311,13 +305,6 @@ Paper readiness is not a single binary prompt judgment.
311305

312306
`paper_readiness.json` can include an `overall_score`. It should be read as a run-quality signal inside the system, not as a universal scientific benchmark. Some advanced evaluation and self-improvement flows use that score to compare runs or candidate prompt mutations.
313307

314-
<details>
315-
<summary><strong>Why the validation model matters</strong></summary>
316-
317-
Quality assumptions are turned into explicit checks. Real behavior matters more than prompt-level appearance. The intended result is not "the model wrote something convincing," but "the run can be inspected and defended."
318-
319-
</details>
320-
321308
---
322309

323310
## Advanced Self-Improvement Capabilities
@@ -336,7 +323,7 @@ It can include:
336323
- `outputs/eval-harness/history.jsonl`
337324
- current `node-prompts/` files for the targeted node
338325

339-
The LLM is instructed through `TASK.md` to return only `TARGET_FILE + unified diff`, and the target is constrained to `node-prompts/`. In apply mode, the candidate must pass `validate:harness`; otherwise the change is rolled back and an audit log is written. `--no-apply` builds context only. `--dry-run` shows the diff without modifying files.
326+
The LLM is instructed through `TASK.md` to return only `TARGET_FILE + unified diff`, and the target is constrained to `node-prompts/`. In apply mode, the candidate must pass validation checks; otherwise the change is rolled back and an audit log is written. `--no-apply` builds context only. `--dry-run` shows the diff without modifying files.
340327

341328
### `autolabos evolve`
342329

@@ -428,29 +415,6 @@ AutoLabOS also has built-in harness presets such as `base`, `compact`, `failure-
428415

429416
---
430417

431-
## Development
432-
433-
```bash
434-
npm install
435-
npm run build
436-
npm test
437-
npm run test:web
438-
npm run validate:harness
439-
```
440-
441-
Use the smallest honest validation set that covers the change. For interactive defects, tests are not a substitute for re-running the same TUI or Web flow when the environment allows it.
442-
443-
Useful commands:
444-
445-
```bash
446-
npm run test:watch
447-
npm run test:smoke:natural-collect
448-
npm run test:smoke:natural-collect-execute
449-
npm run test:smoke:all
450-
```
451-
452-
---
453-
454418
## Advanced Details
455419

456420
<details>
@@ -574,10 +538,8 @@ outputs/<title-slug>-<run_id_prefix>/
574538
AutoLabOS is an active OSS research-engineering project. The canonical references for behavior and contracts are the repository docs under `docs/`, especially:
575539

576540
- `docs/architecture.md`
577-
- `docs/tui-live-validation.md`
578541
- `docs/experiment-quality-bar.md`
579542
- `docs/paper-quality-bar.md`
580543
- `docs/reproducibility.md`
581544
- `docs/research-brief-template.md`
582545

583-
If you are changing runtime behavior, treat those documents, the shipped tests, and the observable artifacts as the source of truth.

docs/README.de.md

Lines changed: 2 additions & 38 deletions
Original file line numberDiff line numberDiff line change
@@ -175,7 +175,7 @@ Typischer Einstieg:
175175
Hinweise:
176176

177177
- wenn `.autolabos/config.yaml` fehlt, führen beide UIs durch das Onboarding
178-
- AutoLabOS nicht aus dem Repository-Root starten; verwende `test/` oder einen eigenen Workspace
178+
- AutoLabOS nicht aus dem Repository-Root starten; verwende ein separates Workspace-Verzeichnis für deine Research-Runs
179179
- TUI und Web UI teilen sich denselben Runtime, dieselben Artefakte und dieselben Checkpoints
180180

181181
### Voraussetzungen
@@ -259,7 +259,6 @@ AutoLabOS ist auf governed execution ausgelegt, nicht auf prompt-only orchestrat
259259
| Claims | so stark, wie das Modell sie formuliert | begrenzt durch Evidence und claim ceiling |
260260
| Review | optionale Cleanup-Passage | structural gate, die Schreiben stoppen kann |
261261
| Failures | werden vergessen und erneut versucht | mit Fingerprint in failure memory gespeichert |
262-
| Validation | nachrangig | `/doctor`, Harnesses, Smoke und Live Validation sind first-class |
263262
| Interfaces | getrennte Codepfade | TUI und Web teilen sich einen Runtime |
264263

265264
Deshalb sollte dieses System eher als Research Infrastructure denn als Paper Generator gelesen werden.
@@ -299,9 +298,6 @@ Reproduzierbarkeit wird durch Artefakte, Checkpoints und inspectable transitions
299298
AutoLabOS behandelt Validation Surfaces als first-class.
300299

301300
- `/doctor` prüft Environment und Workspace-Readiness vor dem Start eines Runs
302-
- Harness Validation schützt Workflow-, Artifact- und Governance-Contracts
303-
- Targeted Smoke Checks liefern diagnostische Regressionsabdeckung
304-
- wenn interaktives Verhalten wichtig ist, wird Live Validation verwendet
305301

306302
Paper Readiness ist nicht das Ergebnis eines einzelnen Prompt-Eindrucks.
307303

@@ -311,13 +307,6 @@ Paper Readiness ist nicht das Ergebnis eines einzelnen Prompt-Eindrucks.
311307

312308
`paper_readiness.json` kann ein `overall_score` enthalten. Dieser Wert sollte als internes Run-Quality-Signal gelesen werden, nicht als allgemeiner wissenschaftlicher Benchmark. Einige fortgeschrittene evaluation / self-improvement paths nutzen ihn, um Runs oder Prompt-Mutation-Kandidaten zu vergleichen.
313309

314-
<details>
315-
<summary><strong>Warum dieses Validation-Modell wichtig ist</strong></summary>
316-
317-
Qualitätsannahmen werden in explizite Checks übersetzt. Reales Verhalten zählt mehr als Oberfläche auf Prompt-Ebene. Das Ziel ist nicht „das Modell hat etwas Überzeugendes geschrieben“, sondern „dieser Run lässt sich inspizieren und verteidigen“.
318-
319-
</details>
320-
321310
---
322311

323312
## Fortgeschrittene Self-Improvement-Fähigkeiten
@@ -336,7 +325,7 @@ Es kann enthalten:
336325
- `outputs/eval-harness/history.jsonl`
337326
- aktuelle `node-prompts/`-Dateien für den Zielknoten
338327

339-
Das LLM wird durch `TASK.md` darauf beschränkt, nur `TARGET_FILE + unified diff` zurückzugeben, und das Ziel ist auf `node-prompts/` begrenzt. Im Apply-Modus muss der Kandidat `validate:harness` bestehen; andernfalls erfolgt Rollback und ein Audit Log wird geschrieben. `--no-apply` erstellt nur den Context. `--dry-run` zeigt den Diff, ohne Dateien zu ändern.
328+
Das LLM wird durch `TASK.md` darauf beschränkt, nur `TARGET_FILE + unified diff` zurückzugeben, und das Ziel ist auf `node-prompts/` begrenzt. Im Apply-Modus muss der Kandidat validation checks bestehen; andernfalls erfolgt Rollback und ein Audit Log wird geschrieben. `--no-apply` erstellt nur den Context. `--dry-run` zeigt den Diff, ohne Dateien zu ändern.
340329

341330
### `autolabos evolve`
342331

@@ -428,29 +417,6 @@ AutoLabOS bietet außerdem built-in harness presets wie `base`, `compact`, `fail
428417

429418
---
430419

431-
## Entwicklung
432-
433-
```bash
434-
npm install
435-
npm run build
436-
npm test
437-
npm run test:web
438-
npm run validate:harness
439-
```
440-
441-
Wähle das kleinste Validation-Set, das die Änderung ehrlich abdeckt. Bei interaktiven Defects solltest du dich – wenn die Umgebung es erlaubt – nicht nur auf Tests verlassen, sondern denselben TUI- / Web-Flow erneut ausführen.
442-
443-
Nützliche Befehle:
444-
445-
```bash
446-
npm run test:watch
447-
npm run test:smoke:natural-collect
448-
npm run test:smoke:natural-collect-execute
449-
npm run test:smoke:all
450-
```
451-
452-
---
453-
454420
## Advanced Details
455421

456422
<details>
@@ -523,12 +489,10 @@ flowchart TB
523489
AutoLabOS ist ein aktiv entwickeltes OSS-Research-Engineering-Projekt. Die kanonischen Referenzen für Verhalten und Contracts liegen unter `docs/`, insbesondere:
524490

525491
- `docs/architecture.md`
526-
- `docs/tui-live-validation.md`
527492
- `docs/experiment-quality-bar.md`
528493
- `docs/paper-quality-bar.md`
529494
- `docs/reproducibility.md`
530495
- `docs/research-brief-template.md`
531496

532-
Wenn du Runtime-Verhalten änderst, behandle diese Dokumente, die veröffentlichten Tests und die beobachtbaren Artefakte als source of truth.
533497

534498
</details>

docs/README.es.md

Lines changed: 2 additions & 38 deletions
Original file line numberDiff line numberDiff line change
@@ -175,7 +175,7 @@ Flujo típico de primer uso:
175175
Notas:
176176

177177
- si `.autolabos/config.yaml` no existe, ambas interfaces te guían en el onboarding
178-
- no ejecutes AutoLabOS desde la raíz del repositorio; usa `test/` u otro workspace
178+
- no ejecutes AutoLabOS desde la raíz del repositorio; usa un directorio de workspace separado para tu ejecución de investigación
179179
- TUI y Web UI comparten el mismo runtime, los mismos artifacts y los mismos checkpoints
180180

181181
### Requisitos previos
@@ -259,7 +259,6 @@ AutoLabOS está diseñado alrededor de governed execution, no de prompt-only orc
259259
| Claims | Tan fuertes como el modelo los escriba | Limitados por evidence y claim ceiling |
260260
| Review | Cleanup pass opcional | Structural gate que puede bloquear la escritura |
261261
| Failures | Se olvidan y se reintentan | Se registran con fingerprint en failure memory |
262-
| Validation | Secundaria | `/doctor`, harnesses, smoke y live validation son first-class |
263262
| Interfaces | Caminos de código separados | TUI y Web comparten un runtime |
264263

265264
Por eso este sistema se entiende mejor como research infrastructure que como paper generator.
@@ -299,9 +298,6 @@ La reproducibilidad se impone mediante artifacts, checkpoints e inspectable tran
299298
AutoLabOS trata las validation surfaces como first-class.
300299

301300
- `/doctor` comprueba environment y workspace readiness antes de iniciar un run
302-
- harness validation protege workflow, artifact y governance contracts
303-
- targeted smoke checks dan cobertura diagnóstica de regresión
304-
- cuando importa el comportamiento interactivo, se usa live validation
305301

306302
Paper readiness no es una sola impresión producida por un prompt.
307303

@@ -311,13 +307,6 @@ Paper readiness no es una sola impresión producida por un prompt.
311307

312308
`paper_readiness.json` puede incluir `overall_score`. Debe leerse como una señal interna de calidad del run, no como un benchmark científico universal. Algunos caminos avanzados de evaluation / self-improvement usan esa señal para comparar runs o candidatos de prompt mutation.
313309

314-
<details>
315-
<summary><strong>Por qué importa este modelo de validation</strong></summary>
316-
317-
Los supuestos de calidad se convierten en checks explícitos. Importa más el comportamiento real que la apariencia a nivel de prompt. La meta no es “el modelo escribió algo convincente”, sino “el run se puede inspeccionar y defender”.
318-
319-
</details>
320-
321310
---
322311

323312
## Capacidades avanzadas de Self-Improvement
@@ -336,7 +325,7 @@ Puede incluir:
336325
- `outputs/eval-harness/history.jsonl`
337326
- archivos actuales de `node-prompts/` para el nodo objetivo
338327

339-
El LLM queda instruido por `TASK.md` para responder solo con `TARGET_FILE + unified diff`, y el target queda restringido a `node-prompts/`. En modo apply, el candidato debe pasar `validate:harness`; si falla, se hace rollback y se escribe un audit log. `--no-apply` solo genera el context. `--dry-run` muestra el diff sin cambiar archivos.
328+
El LLM queda instruido por `TASK.md` para responder solo con `TARGET_FILE + unified diff`, y el target queda restringido a `node-prompts/`. En modo apply, el candidato debe pasar validation checks; si falla, se hace rollback y se escribe un audit log. `--no-apply` solo genera el context. `--dry-run` muestra el diff sin cambiar archivos.
340329

341330
### `autolabos evolve`
342331

@@ -428,29 +417,6 @@ AutoLabOS también tiene built-in harness presets como `base`, `compact`, `failu
428417

429418
---
430419

431-
## Desarrollo
432-
433-
```bash
434-
npm install
435-
npm run build
436-
npm test
437-
npm run test:web
438-
npm run validate:harness
439-
```
440-
441-
Elige el conjunto mínimo de validation que cubra honestamente el cambio. Para defects interactivos, si el entorno lo permite, no te quedes solo con tests: vuelve a ejecutar el mismo flujo de TUI / Web.
442-
443-
Comandos útiles:
444-
445-
```bash
446-
npm run test:watch
447-
npm run test:smoke:natural-collect
448-
npm run test:smoke:natural-collect-execute
449-
npm run test:smoke:all
450-
```
451-
452-
---
453-
454420
## Advanced Details
455421

456422
<details>
@@ -574,10 +540,8 @@ outputs/<title-slug>-<run_id_prefix>/
574540
AutoLabOS es un proyecto OSS activo de research engineering. Las referencias canónicas de comportamiento y contracts están en `docs/`, especialmente:
575541

576542
- `docs/architecture.md`
577-
- `docs/tui-live-validation.md`
578543
- `docs/experiment-quality-bar.md`
579544
- `docs/paper-quality-bar.md`
580545
- `docs/reproducibility.md`
581546
- `docs/research-brief-template.md`
582547

583-
Si cambias comportamiento de runtime, trata esos documentos, los tests publicados y los artifacts observables como source of truth.

docs/README.fr.md

Lines changed: 2 additions & 38 deletions
Original file line numberDiff line numberDiff line change
@@ -175,7 +175,7 @@ Flux typique au premier usage :
175175
Notes :
176176

177177
- si `.autolabos/config.yaml` n’existe pas, les deux interfaces guident l’onboarding
178-
- n’exécutez pas AutoLabOS depuis la racine du dépôt ; utilisez `test/` ou votre propre workspace
178+
- n’exécutez pas AutoLabOS depuis la racine du dépôt ; utilisez un répertoire de workspace séparé pour vos runs de recherche
179179
- le TUI et le Web UI partagent le même runtime, les mêmes artefacts et les mêmes checkpoints
180180

181181
### Prérequis
@@ -259,7 +259,6 @@ AutoLabOS est conçu autour de la governed execution, pas d’une prompt-only or
259259
| Claims | aussi fortes que le modèle les écrit | limitées par l’evidence et le claim ceiling |
260260
| Review | cleanup pass optionnel | structural gate capable de bloquer l’écriture |
261261
| Failures | oubliés puis réessayés | enregistrés avec fingerprint dans la failure memory |
262-
| Validation | secondaire | `/doctor`, harnesses, smoke et live validation sont first-class |
263262
| Interfaces | chemins de code séparés | TUI et Web partagent un seul runtime |
264263

265264
Le système se lit donc davantage comme une research infrastructure que comme un paper generator.
@@ -299,9 +298,6 @@ La reproductibilité est imposée par les artefacts, les checkpoints et les tran
299298
AutoLabOS traite les validation surfaces comme first-class.
300299

301300
- `/doctor` vérifie l’environnement et la readiness du workspace avant le démarrage d’un run
302-
- la harness validation protège les workflow, artifact et governance contracts
303-
- les targeted smoke checks fournissent une couverture diagnostique de régression
304-
- quand le comportement interactif compte, on utilise la live validation
305301

306302
Le paper readiness n’est pas une simple impression produite par un prompt.
307303

@@ -311,13 +307,6 @@ Le paper readiness n’est pas une simple impression produite par un prompt.
311307

312308
`paper_readiness.json` peut inclure un `overall_score`. Cette valeur doit être comprise comme un signal interne de qualité du run, pas comme un benchmark scientifique universel. Certains chemins avancés d’evaluation / self-improvement utilisent ce signal pour comparer des runs ou des candidats de prompt mutation.
313309

314-
<details>
315-
<summary><strong>Pourquoi ce modèle de validation est important</strong></summary>
316-
317-
Les hypothèses de qualité sont transformées en checks explicites. Le comportement réel compte davantage que l’apparence au niveau du prompt. Le but n’est pas « le modèle a écrit quelque chose de convaincant », mais « ce run peut être inspecté et défendu ».
318-
319-
</details>
320-
321310
---
322311

323312
## Capacités avancées de Self-Improvement
@@ -336,7 +325,7 @@ Il peut inclure :
336325
- `outputs/eval-harness/history.jsonl`
337326
- les fichiers `node-prompts/` actuels pour le nœud ciblé
338327

339-
Le LLM est contraint par `TASK.md` à répondre uniquement avec `TARGET_FILE + unified diff`, et la cible est restreinte à `node-prompts/`. En mode apply, la proposition doit passer `validate:harness`; sinon elle est rollbackée et un audit log est écrit. `--no-apply` ne construit que le context. `--dry-run` affiche le diff sans modifier les fichiers.
328+
Le LLM est contraint par `TASK.md` à répondre uniquement avec `TARGET_FILE + unified diff`, et la cible est restreinte à `node-prompts/`. En mode apply, la proposition doit passer validation checks; sinon elle est rollbackée et un audit log est écrit. `--no-apply` ne construit que le context. `--dry-run` affiche le diff sans modifier les fichiers.
340329

341330
### `autolabos evolve`
342331

@@ -428,29 +417,6 @@ AutoLabOS fournit aussi des built-in harness presets comme `base`, `compact`, `f
428417

429418
---
430419

431-
## Développement
432-
433-
```bash
434-
npm install
435-
npm run build
436-
npm test
437-
npm run test:web
438-
npm run validate:harness
439-
```
440-
441-
Choisissez le plus petit ensemble de validation qui couvre honnêtement le changement. Pour un defect interactif, si l’environnement le permet, ne vous contentez pas des tests : relancez le même flux TUI / Web.
442-
443-
Commandes utiles :
444-
445-
```bash
446-
npm run test:watch
447-
npm run test:smoke:natural-collect
448-
npm run test:smoke:natural-collect-execute
449-
npm run test:smoke:all
450-
```
451-
452-
---
453-
454420
## Advanced Details
455421

456422
<details>
@@ -574,10 +540,8 @@ outputs/<title-slug>-<run_id_prefix>/
574540
AutoLabOS est un projet OSS actif de research engineering. Les références canoniques pour le comportement et les contracts se trouvent dans `docs/`, en particulier :
575541

576542
- `docs/architecture.md`
577-
- `docs/tui-live-validation.md`
578543
- `docs/experiment-quality-bar.md`
579544
- `docs/paper-quality-bar.md`
580545
- `docs/reproducibility.md`
581546
- `docs/research-brief-template.md`
582547

583-
Si vous modifiez le comportement du runtime, traitez ces documents, les tests publiés et les observable artifacts comme source of truth.

0 commit comments

Comments
 (0)