docs: auto-sync documentation [skip ci]

github-actions[bot] · github-actions[bot] · commit 5be7c8003bac · 2026-03-29T15:57:11.000Z
diff --git a/docs/packages/openadapt-capture.md b/docs/packages/openadapt-capture.md
@@ -2,7 +2,7 @@
 
 [![GitHub](https://img.shields.io/github/stars/OpenAdaptAI/openadapt-capture?style=social)](https://github.com/OpenAdaptAI/openadapt-capture)
 
-> *Auto-generated from [OpenAdaptAI/openadapt-capture](https://github.com/OpenAdaptAI/openadapt-capture). Last synced: 2026-03-29 15:50 UTC*
+> *Auto-generated from [OpenAdaptAI/openadapt-capture](https://github.com/OpenAdaptAI/openadapt-capture). Last synced: 2026-03-29 15:56 UTC*
 
 ---
 
diff --git a/docs/packages/openadapt-consilium.md b/docs/packages/openadapt-consilium.md
@@ -2,7 +2,7 @@
 
 [![GitHub](https://img.shields.io/github/stars/OpenAdaptAI/openadapt-consilium?style=social)](https://github.com/OpenAdaptAI/openadapt-consilium)
 
-> *Auto-generated from [OpenAdaptAI/openadapt-consilium](https://github.com/OpenAdaptAI/openadapt-consilium). Last synced: 2026-03-29 15:50 UTC*
+> *Auto-generated from [OpenAdaptAI/openadapt-consilium](https://github.com/OpenAdaptAI/openadapt-consilium). Last synced: 2026-03-29 15:56 UTC*
 
 ---
 
diff --git a/docs/packages/openadapt-crier.md b/docs/packages/openadapt-crier.md
@@ -2,7 +2,7 @@
 
 [![GitHub](https://img.shields.io/github/stars/OpenAdaptAI/openadapt-crier?style=social)](https://github.com/OpenAdaptAI/openadapt-crier)
 
-> *Auto-generated from [OpenAdaptAI/openadapt-crier](https://github.com/OpenAdaptAI/openadapt-crier). Last synced: 2026-03-29 15:50 UTC*
+> *Auto-generated from [OpenAdaptAI/openadapt-crier](https://github.com/OpenAdaptAI/openadapt-crier). Last synced: 2026-03-29 15:56 UTC*
 
 ---
 
diff --git a/docs/packages/openadapt-desktop.md b/docs/packages/openadapt-desktop.md
@@ -2,7 +2,7 @@
 
 [![GitHub](https://img.shields.io/github/stars/OpenAdaptAI/openadapt-desktop?style=social)](https://github.com/OpenAdaptAI/openadapt-desktop)
 
-> *Auto-generated from [OpenAdaptAI/openadapt-desktop](https://github.com/OpenAdaptAI/openadapt-desktop). Last synced: 2026-03-29 15:50 UTC*
+> *Auto-generated from [OpenAdaptAI/openadapt-desktop](https://github.com/OpenAdaptAI/openadapt-desktop). Last synced: 2026-03-29 15:56 UTC*
 
 ---
 
diff --git a/docs/packages/openadapt-evals.md b/docs/packages/openadapt-evals.md
@@ -2,7 +2,7 @@
 
 [![GitHub](https://img.shields.io/github/stars/OpenAdaptAI/openadapt-evals?style=social)](https://github.com/OpenAdaptAI/openadapt-evals)
 
-> *Auto-generated from [OpenAdaptAI/openadapt-evals](https://github.com/OpenAdaptAI/openadapt-evals). Last synced: 2026-03-29 15:50 UTC*
+> *Auto-generated from [OpenAdaptAI/openadapt-evals](https://github.com/OpenAdaptAI/openadapt-evals). Last synced: 2026-03-29 15:56 UTC*
 
 ---
 
@@ -204,6 +204,44 @@ python scripts/run_full_eval.py \
 
 The endpoint uses the UI-Venus native bounding-box prompt format (`[x1,y1,x2,y2]`) and is compatible with vLLM, Ollama, or any OpenAI-compatible server. Both `DemoExecutor` and `PlannerGrounderAgent` use the same prompt format for consistency.
 
+### GRPO training with TRL (recommended)
+
+The recommended path for RL training of VLM desktop agents uses TRL's `GRPOTrainer` with dense milestone rewards from WAA environments. This replaces the standalone GRPO trainer with a battle-tested implementation that supports Unsloth, vLLM, constrained decoding, and automatic telemetry.
+
+```bash
+# Basic training against a live WAA VM
+python scripts/train_trl_grpo.py \
+    --task-dir ./example_tasks \
+    --server-url http://localhost:5001 \
+    --model Qwen/Qwen2.5-VL-7B-Instruct \
+    --output ./grpo_output
+
+# With Unsloth (2x VRAM efficiency) + constrained decoding
+python scripts/train_trl_grpo.py \
+    --task-dir ./example_tasks \
+    --server-url http://localhost:5001 \
+    --model Qwen/Qwen2.5-VL-7B-Instruct \
+    --use-unsloth \
+    --constrained-decoding \
+    --output ./grpo_output
+
+# Mock mode (validates full pipeline without VM or GPU)
+python scripts/train_trl_grpo.py \
+    --task-dir ./example_tasks \
+    --mock \
+    --output ./grpo_output_mock
+
+# With Weave tracing for experiment tracking
+python scripts/train_trl_grpo.py \
+    --task-dir ./example_tasks \
+    --server-url http://localhost:5001 \
+    --model Qwen/Qwen2.5-VL-7B-Instruct \
+    --weave-project openadapt-grpo \
+    --output ./grpo_output
+```
+
+Key flags: `--constrained-decoding` (Outlines regex, eliminates unparseable output), `--vision-loss-mode` (exclude/include/checkpoint), `--weave-project` (Weave tracing), `--use-vllm` (faster generation), `--loss-type` (grpo/dapo/dr_grpo).
+
 ### Parallel evaluation
 
 ```bash
diff --git a/docs/packages/openadapt-herald.md b/docs/packages/openadapt-herald.md
@@ -2,7 +2,7 @@
 
 [![GitHub](https://img.shields.io/github/stars/OpenAdaptAI/openadapt-herald?style=social)](https://github.com/OpenAdaptAI/openadapt-herald)
 
-> *Auto-generated from [OpenAdaptAI/openadapt-herald](https://github.com/OpenAdaptAI/openadapt-herald). Last synced: 2026-03-29 15:50 UTC*
+> *Auto-generated from [OpenAdaptAI/openadapt-herald](https://github.com/OpenAdaptAI/openadapt-herald). Last synced: 2026-03-29 15:56 UTC*
 
 ---
 
diff --git a/docs/packages/openadapt-ml.md b/docs/packages/openadapt-ml.md
@@ -2,7 +2,7 @@
 
 [![GitHub](https://img.shields.io/github/stars/OpenAdaptAI/openadapt-ml?style=social)](https://github.com/OpenAdaptAI/openadapt-ml)
 
-> *Auto-generated from [OpenAdaptAI/openadapt-ml](https://github.com/OpenAdaptAI/openadapt-ml). Last synced: 2026-03-29 15:50 UTC*
+> *Auto-generated from [OpenAdaptAI/openadapt-ml](https://github.com/OpenAdaptAI/openadapt-ml). Last synced: 2026-03-29 15:56 UTC*
 
 ---
 
diff --git a/docs/packages/openadapt-wright.md b/docs/packages/openadapt-wright.md
@@ -2,7 +2,7 @@
 
 [![GitHub](https://img.shields.io/github/stars/OpenAdaptAI/openadapt-wright?style=social)](https://github.com/OpenAdaptAI/openadapt-wright)
 
-> *Auto-generated from [OpenAdaptAI/openadapt-wright](https://github.com/OpenAdaptAI/openadapt-wright). Last synced: 2026-03-29 15:50 UTC*
+> *Auto-generated from [OpenAdaptAI/openadapt-wright](https://github.com/OpenAdaptAI/openadapt-wright). Last synced: 2026-03-29 15:56 UTC*
 
 ---
 
diff --git a/docs/packages/openadapt.md b/docs/packages/openadapt.md
@@ -2,7 +2,7 @@
 
 [![GitHub](https://img.shields.io/github/stars/OpenAdaptAI/OpenAdapt?style=social)](https://github.com/OpenAdaptAI/OpenAdapt)
 
-> *Auto-generated from [OpenAdaptAI/OpenAdapt](https://github.com/OpenAdaptAI/OpenAdapt). Last synced: 2026-03-29 15:50 UTC*
+> *Auto-generated from [OpenAdaptAI/OpenAdapt](https://github.com/OpenAdaptAI/OpenAdapt). Last synced: 2026-03-29 15:56 UTC*
 
 ---
 
diff --git a/docs/whats-new.md b/docs/whats-new.md
@@ -1,7 +1,7 @@
 # What's New
 
 > *Auto-generated digest of recent changes across the OpenAdapt ecosystem.*
-> *Last updated: 2026-03-29 15:50 UTC*
+> *Last updated: 2026-03-29 15:57 UTC*
 
 
 
@@ -21,6 +21,8 @@
 ## openadapt-evals
 
 
+- [feat: TRL GRPOTrainer migration with drop-in wrapper](https://github.com/OpenAdaptAI/openadapt-evals/pull/229) (#229) — merged 
+
 - [feat: Weave integration for LLM/agent tracing](https://github.com/OpenAdaptAI/openadapt-evals/pull/228) (#228) — merged 
 
 - [fix: loss diagnostic logging + training step test](https://github.com/OpenAdaptAI/openadapt-evals/pull/227) (#227) — merged 
@@ -59,8 +61,6 @@
 
 - [fix: update enrichment tests for new instruction format](https://github.com/OpenAdaptAI/openadapt-evals/pull/210) (#210) — merged 
 
-- [feat: document DemoExecutor + standalone trainer, add telemetry events](https://github.com/OpenAdaptAI/openadapt-evals/pull/209) (#209) — merged 
-