You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
Refactor validation workspace handling and update documentation
- Updated README files in Portuguese, Russian, Simplified Chinese, and Traditional Chinese to clarify workspace usage and validation processes.
- Introduced a new validation workspace structure to separate validation-related files from the main repository.
- Modified the `run-tests.mjs` script to utilize a configurable validation workspace root.
- Adjusted the `doctor.ts` and `harnessValidationService.ts` files to support the new validation workspace structure.
- Enhanced test cases to accommodate the new validation workspace setup, ensuring proper functionality and coverage.
- Removed hardcoded paths and replaced them with dynamic resolution based on the configured validation workspace.
- Updated smoke test scripts to reflect changes in workspace directory structure.
| Interfaces | Separate code paths | TUI and Web share one runtime |
264
262
265
263
This is why the system reads more like research infrastructure than a paper generator.
@@ -290,7 +288,6 @@ Failure fingerprints are persisted so structural errors and repeated equivalent
290
288
291
289
### Reproducibility Through Artifacts
292
290
293
-
Reproducibility is enforced through artifacts, checkpoints, and inspectable transitions. Public-facing summaries mirror persisted run outputs rather than inventing a second source of truth.
294
291
295
292
---
296
293
@@ -299,9 +296,6 @@ Reproducibility is enforced through artifacts, checkpoints, and inspectable tran
299
296
AutoLabOS treats validation surfaces as first-class.
300
297
301
298
-`/doctor` checks environment and workspace readiness before a run starts
302
-
- harness validation protects workflow, artifact, and governance contracts
303
-
- smoke checks exist for targeted diagnostic coverage
304
-
- live validation is used when interactive behavior matters
305
299
306
300
Paper readiness is not a single binary prompt judgment.
307
301
@@ -311,13 +305,6 @@ Paper readiness is not a single binary prompt judgment.
311
305
312
306
`paper_readiness.json` can include an `overall_score`. It should be read as a run-quality signal inside the system, not as a universal scientific benchmark. Some advanced evaluation and self-improvement flows use that score to compare runs or candidate prompt mutations.
313
307
314
-
<details>
315
-
<summary><strong>Why the validation model matters</strong></summary>
316
-
317
-
Quality assumptions are turned into explicit checks. Real behavior matters more than prompt-level appearance. The intended result is not "the model wrote something convincing," but "the run can be inspected and defended."
318
-
319
-
</details>
320
-
321
308
---
322
309
323
310
## Advanced Self-Improvement Capabilities
@@ -336,7 +323,7 @@ It can include:
336
323
-`outputs/eval-harness/history.jsonl`
337
324
- current `node-prompts/` files for the targeted node
338
325
339
-
The LLM is instructed through `TASK.md` to return only `TARGET_FILE + unified diff`, and the target is constrained to `node-prompts/`. In apply mode, the candidate must pass `validate:harness`; otherwise the change is rolled back and an audit log is written. `--no-apply` builds context only. `--dry-run` shows the diff without modifying files.
326
+
The LLM is instructed through `TASK.md` to return only `TARGET_FILE + unified diff`, and the target is constrained to `node-prompts/`. In apply mode, the candidate must pass validation checks; otherwise the change is rolled back and an audit log is written. `--no-apply` builds context only. `--dry-run` shows the diff without modifying files.
340
327
341
328
### `autolabos evolve`
342
329
@@ -428,29 +415,6 @@ AutoLabOS also has built-in harness presets such as `base`, `compact`, `failure-
428
415
429
416
---
430
417
431
-
## Development
432
-
433
-
```bash
434
-
npm install
435
-
npm run build
436
-
npm test
437
-
npm run test:web
438
-
npm run validate:harness
439
-
```
440
-
441
-
Use the smallest honest validation set that covers the change. For interactive defects, tests are not a substitute for re-running the same TUI or Web flow when the environment allows it.
AutoLabOS is an active OSS research-engineering project. The canonical references for behavior and contracts are the repository docs under `docs/`, especially:
575
539
576
540
-`docs/architecture.md`
577
-
-`docs/tui-live-validation.md`
578
541
-`docs/experiment-quality-bar.md`
579
542
-`docs/paper-quality-bar.md`
580
543
-`docs/reproducibility.md`
581
544
-`docs/research-brief-template.md`
582
545
583
-
If you are changing runtime behavior, treat those documents, the shipped tests, and the observable artifacts as the source of truth.
- wenn interaktives Verhalten wichtig ist, wird Live Validation verwendet
305
301
306
302
Paper Readiness ist nicht das Ergebnis eines einzelnen Prompt-Eindrucks.
307
303
@@ -311,13 +307,6 @@ Paper Readiness ist nicht das Ergebnis eines einzelnen Prompt-Eindrucks.
311
307
312
308
`paper_readiness.json` kann ein `overall_score` enthalten. Dieser Wert sollte als internes Run-Quality-Signal gelesen werden, nicht als allgemeiner wissenschaftlicher Benchmark. Einige fortgeschrittene evaluation / self-improvement paths nutzen ihn, um Runs oder Prompt-Mutation-Kandidaten zu vergleichen.
313
309
314
-
<details>
315
-
<summary><strong>Warum dieses Validation-Modell wichtig ist</strong></summary>
316
-
317
-
Qualitätsannahmen werden in explizite Checks übersetzt. Reales Verhalten zählt mehr als Oberfläche auf Prompt-Ebene. Das Ziel ist nicht „das Modell hat etwas Überzeugendes geschrieben“, sondern „dieser Run lässt sich inspizieren und verteidigen“.
318
-
319
-
</details>
320
-
321
310
---
322
311
323
312
## Fortgeschrittene Self-Improvement-Fähigkeiten
@@ -336,7 +325,7 @@ Es kann enthalten:
336
325
-`outputs/eval-harness/history.jsonl`
337
326
- aktuelle `node-prompts/`-Dateien für den Zielknoten
338
327
339
-
Das LLM wird durch `TASK.md` darauf beschränkt, nur `TARGET_FILE + unified diff` zurückzugeben, und das Ziel ist auf `node-prompts/` begrenzt. Im Apply-Modus muss der Kandidat `validate:harness` bestehen; andernfalls erfolgt Rollback und ein Audit Log wird geschrieben. `--no-apply` erstellt nur den Context. `--dry-run` zeigt den Diff, ohne Dateien zu ändern.
328
+
Das LLM wird durch `TASK.md` darauf beschränkt, nur `TARGET_FILE + unified diff` zurückzugeben, und das Ziel ist auf `node-prompts/` begrenzt. Im Apply-Modus muss der Kandidat validation checks bestehen; andernfalls erfolgt Rollback und ein Audit Log wird geschrieben. `--no-apply` erstellt nur den Context. `--dry-run` zeigt den Diff, ohne Dateien zu ändern.
340
329
341
330
### `autolabos evolve`
342
331
@@ -428,29 +417,6 @@ AutoLabOS bietet außerdem built-in harness presets wie `base`, `compact`, `fail
428
417
429
418
---
430
419
431
-
## Entwicklung
432
-
433
-
```bash
434
-
npm install
435
-
npm run build
436
-
npm test
437
-
npm run test:web
438
-
npm run validate:harness
439
-
```
440
-
441
-
Wähle das kleinste Validation-Set, das die Änderung ehrlich abdeckt. Bei interaktiven Defects solltest du dich – wenn die Umgebung es erlaubt – nicht nur auf Tests verlassen, sondern denselben TUI- / Web-Flow erneut ausführen.
442
-
443
-
Nützliche Befehle:
444
-
445
-
```bash
446
-
npm run test:watch
447
-
npm run test:smoke:natural-collect
448
-
npm run test:smoke:natural-collect-execute
449
-
npm run test:smoke:all
450
-
```
451
-
452
-
---
453
-
454
420
## Advanced Details
455
421
456
422
<details>
@@ -523,12 +489,10 @@ flowchart TB
523
489
AutoLabOS ist ein aktiv entwickeltes OSS-Research-Engineering-Projekt. Die kanonischen Referenzen für Verhalten und Contracts liegen unter `docs/`, insbesondere:
524
490
525
491
-`docs/architecture.md`
526
-
-`docs/tui-live-validation.md`
527
492
-`docs/experiment-quality-bar.md`
528
493
-`docs/paper-quality-bar.md`
529
494
-`docs/reproducibility.md`
530
495
-`docs/research-brief-template.md`
531
496
532
-
Wenn du Runtime-Verhalten änderst, behandle diese Dokumente, die veröffentlichten Tests und die beobachtbaren Artefakte als source of truth.
Copy file name to clipboardExpand all lines: docs/README.es.md
+2-38Lines changed: 2 additions & 38 deletions
Display the source diff
Display the rich diff
Original file line number
Diff line number
Diff line change
@@ -175,7 +175,7 @@ Flujo típico de primer uso:
175
175
Notas:
176
176
177
177
- si `.autolabos/config.yaml` no existe, ambas interfaces te guían en el onboarding
178
-
- no ejecutes AutoLabOS desde la raíz del repositorio; usa `test/` u otro workspace
178
+
- no ejecutes AutoLabOS desde la raíz del repositorio; usa un directorio de workspace separado para tu ejecución de investigación
179
179
- TUI y Web UI comparten el mismo runtime, los mismos artifacts y los mismos checkpoints
180
180
181
181
### Requisitos previos
@@ -259,7 +259,6 @@ AutoLabOS está diseñado alrededor de governed execution, no de prompt-only orc
259
259
| Claims | Tan fuertes como el modelo los escriba | Limitados por evidence y claim ceiling |
260
260
| Review | Cleanup pass opcional | Structural gate que puede bloquear la escritura |
261
261
| Failures | Se olvidan y se reintentan | Se registran con fingerprint en failure memory |
262
-
| Validation | Secundaria |`/doctor`, harnesses, smoke y live validation son first-class |
263
262
| Interfaces | Caminos de código separados | TUI y Web comparten un runtime |
264
263
265
264
Por eso este sistema se entiende mejor como research infrastructure que como paper generator.
@@ -299,9 +298,6 @@ La reproducibilidad se impone mediante artifacts, checkpoints e inspectable tran
299
298
AutoLabOS trata las validation surfaces como first-class.
300
299
301
300
-`/doctor` comprueba environment y workspace readiness antes de iniciar un run
302
-
- harness validation protege workflow, artifact y governance contracts
303
-
- targeted smoke checks dan cobertura diagnóstica de regresión
304
-
- cuando importa el comportamiento interactivo, se usa live validation
305
301
306
302
Paper readiness no es una sola impresión producida por un prompt.
307
303
@@ -311,13 +307,6 @@ Paper readiness no es una sola impresión producida por un prompt.
311
307
312
308
`paper_readiness.json` puede incluir `overall_score`. Debe leerse como una señal interna de calidad del run, no como un benchmark científico universal. Algunos caminos avanzados de evaluation / self-improvement usan esa señal para comparar runs o candidatos de prompt mutation.
313
309
314
-
<details>
315
-
<summary><strong>Por qué importa este modelo de validation</strong></summary>
316
-
317
-
Los supuestos de calidad se convierten en checks explícitos. Importa más el comportamiento real que la apariencia a nivel de prompt. La meta no es “el modelo escribió algo convincente”, sino “el run se puede inspeccionar y defender”.
318
-
319
-
</details>
320
-
321
310
---
322
311
323
312
## Capacidades avanzadas de Self-Improvement
@@ -336,7 +325,7 @@ Puede incluir:
336
325
-`outputs/eval-harness/history.jsonl`
337
326
- archivos actuales de `node-prompts/` para el nodo objetivo
338
327
339
-
El LLM queda instruido por `TASK.md` para responder solo con `TARGET_FILE + unified diff`, y el target queda restringido a `node-prompts/`. En modo apply, el candidato debe pasar `validate:harness`; si falla, se hace rollback y se escribe un audit log. `--no-apply` solo genera el context. `--dry-run` muestra el diff sin cambiar archivos.
328
+
El LLM queda instruido por `TASK.md` para responder solo con `TARGET_FILE + unified diff`, y el target queda restringido a `node-prompts/`. En modo apply, el candidato debe pasar validation checks; si falla, se hace rollback y se escribe un audit log. `--no-apply` solo genera el context. `--dry-run` muestra el diff sin cambiar archivos.
340
329
341
330
### `autolabos evolve`
342
331
@@ -428,29 +417,6 @@ AutoLabOS también tiene built-in harness presets como `base`, `compact`, `failu
428
417
429
418
---
430
419
431
-
## Desarrollo
432
-
433
-
```bash
434
-
npm install
435
-
npm run build
436
-
npm test
437
-
npm run test:web
438
-
npm run validate:harness
439
-
```
440
-
441
-
Elige el conjunto mínimo de validation que cubra honestamente el cambio. Para defects interactivos, si el entorno lo permite, no te quedes solo con tests: vuelve a ejecutar el mismo flujo de TUI / Web.
| Failures | oubliés puis réessayés | enregistrés avec fingerprint dans la failure memory |
262
-
| Validation | secondaire |`/doctor`, harnesses, smoke et live validation sont first-class |
263
262
| Interfaces | chemins de code séparés | TUI et Web partagent un seul runtime |
264
263
265
264
Le système se lit donc davantage comme une research infrastructure que comme un paper generator.
@@ -299,9 +298,6 @@ La reproductibilité est imposée par les artefacts, les checkpoints et les tran
299
298
AutoLabOS traite les validation surfaces comme first-class.
300
299
301
300
-`/doctor` vérifie l’environnement et la readiness du workspace avant le démarrage d’un run
302
-
- la harness validation protège les workflow, artifact et governance contracts
303
-
- les targeted smoke checks fournissent une couverture diagnostique de régression
304
-
- quand le comportement interactif compte, on utilise la live validation
305
301
306
302
Le paper readiness n’est pas une simple impression produite par un prompt.
307
303
@@ -311,13 +307,6 @@ Le paper readiness n’est pas une simple impression produite par un prompt.
311
307
312
308
`paper_readiness.json` peut inclure un `overall_score`. Cette valeur doit être comprise comme un signal interne de qualité du run, pas comme un benchmark scientifique universel. Certains chemins avancés d’evaluation / self-improvement utilisent ce signal pour comparer des runs ou des candidats de prompt mutation.
313
309
314
-
<details>
315
-
<summary><strong>Pourquoi ce modèle de validation est important</strong></summary>
316
-
317
-
Les hypothèses de qualité sont transformées en checks explicites. Le comportement réel compte davantage que l’apparence au niveau du prompt. Le but n’est pas « le modèle a écrit quelque chose de convaincant », mais « ce run peut être inspecté et défendu ».
318
-
319
-
</details>
320
-
321
310
---
322
311
323
312
## Capacités avancées de Self-Improvement
@@ -336,7 +325,7 @@ Il peut inclure :
336
325
-`outputs/eval-harness/history.jsonl`
337
326
- les fichiers `node-prompts/` actuels pour le nœud ciblé
338
327
339
-
Le LLM est contraint par `TASK.md` à répondre uniquement avec `TARGET_FILE + unified diff`, et la cible est restreinte à `node-prompts/`. En mode apply, la proposition doit passer `validate:harness`; sinon elle est rollbackée et un audit log est écrit. `--no-apply` ne construit que le context. `--dry-run` affiche le diff sans modifier les fichiers.
328
+
Le LLM est contraint par `TASK.md` à répondre uniquement avec `TARGET_FILE + unified diff`, et la cible est restreinte à `node-prompts/`. En mode apply, la proposition doit passer validation checks; sinon elle est rollbackée et un audit log est écrit. `--no-apply` ne construit que le context. `--dry-run` affiche le diff sans modifier les fichiers.
340
329
341
330
### `autolabos evolve`
342
331
@@ -428,29 +417,6 @@ AutoLabOS fournit aussi des built-in harness presets comme `base`, `compact`, `f
428
417
429
418
---
430
419
431
-
## Développement
432
-
433
-
```bash
434
-
npm install
435
-
npm run build
436
-
npm test
437
-
npm run test:web
438
-
npm run validate:harness
439
-
```
440
-
441
-
Choisissez le plus petit ensemble de validation qui couvre honnêtement le changement. Pour un defect interactif, si l’environnement le permet, ne vous contentez pas des tests : relancez le même flux TUI / Web.
AutoLabOS est un projet OSS actif de research engineering. Les références canoniques pour le comportement et les contracts se trouvent dans `docs/`, en particulier :
575
541
576
542
-`docs/architecture.md`
577
-
-`docs/tui-live-validation.md`
578
543
-`docs/experiment-quality-bar.md`
579
544
-`docs/paper-quality-bar.md`
580
545
-`docs/reproducibility.md`
581
546
-`docs/research-brief-template.md`
582
547
583
-
Si vous modifiez le comportement du runtime, traitez ces documents, les tests publiés et les observable artifacts comme source of truth.
0 commit comments