실측 Dashboard

e2e Run 1~12 + Sprint 4 효과 추적 + Backlog

12 runs DoD 4/5 v0.2.0

e2e Success Rate Timeline

Run 1 (v0.1.1 baseline) → Run 12 (Sprint 4 R-bfs). Run 9에서 R-sandbox로 3/5 첫 도달, Run 10부터 4/5 안정.

Case별 Stability Matrix

초록 = success, 빨강 = fail, 회색 = aborted (Run 6 API hang).

Run Sprint Cases Total
✅ Stable success (Run 9~12 100%)
⚠️ Variance (case-by-case)
prompt-side fix 한계 → v0.2.1 결정적 fix 필요 (R-gen-cap / R-osc-break)

실행 시간 추세

Run 10 (R14 fanout=3) 후 Coder 3x token으로 시간 ↑, R3 + R-bfs 후 정상화.

Sprint별 PR + Impact

PR제목타입임팩트

Round 11 — 결정적 Fix Sprint

prompt-only fix(Sprint 1~4) 한계 너머 — 라우팅 레벨 결정적 차단

v0.2.1+ Backlog

잔존 variance 결정적 fix + 후속 확장