docs(roadmap): reconciliation + Sprint 7a livre

- Reconciliation des deux copies divergentes (frontend/backend) en version canonique. - Sprint 6 marque complet (6b/6c/6d backend/6e), note 6d backend reinjectee (commits 94387a7/5f7e52d). - Sprint 7a (T1 Live backend) marque livre : commits 868bd09/3722e2a, dettes tracees TD-23/24/25. - Sprint 7e (transcription live a l'ecran) reinjecte + annote post-7a (caveat TD-23 : incremental cote candidat a reconcevoir, flush a activityEnd en VAD manuel).
2026-06-29 22:41:49 +03:00 · 2026-06-29 22:41:49 +03:00 · 713d830be0
commit 713d830be0
parent 044a305019
1 changed files with 10 additions and 1 deletions
--- a/docs/ROADMAP.md
+++ b/docs/ROADMAP.md
@ -152,6 +152,7 @@

 - **6b (frontend)** : capture micro (AudioWorklet 16 kHz uplink) + playback IA + helpers audio purs.
 - **6c (frontend)** : state machine T2 (9 états), `useT2LiveSession` (WebSocket + audio + format Gemini natif), pages Sujets / Préparation / Dialogue + routes ; carte EO T2 Live déverrouillée Premium.
+- **6d (backend)** : prompt T2 durci (anti-relance, interdiction du `?`, règles dures Gemini — TD-22), VAD `realtimeInputConfig` réintégré, `@google/genai` retiré. Validé Groupe D en conditions réelles. Commits `94387a7` (code) + `5f7e52d` (docs), poussés sur `forgejo`.
 - **6e (frontend)** : architecture audio « Voie A » — un seul AudioContext au rate natif partagé (capture + playback + enregistrement), mix temps réel via tap worklet, WAV mono single-track aligné, indicateur de prise de parole (VAD), correction des blancs EO, nettoyage `[BISECT]`. Tests 269/37 ; validation audio à l'oreille.

 ## Sprint 6.5 — Clean
@ -162,7 +163,7 @@

 ## Sprint 7 — T1 Live (interruption aléatoire)

- **7a (backend)** : extension du proxy WebSocket Gemini Live (`gemini-3.1-flash-live-preview`, ws brut, pas de SDK) au mode T1 — system prompt « examinateur », décision d'interruption probabiliste, génération de la question de relance sur transcription partielle (DeepSeek). Réutilise l'infra T2 Live. Scoring EO 5 critères × /4. Phonologie live = 0 (TD-08, gelé). Contraintes héritées : pas de `speechConfig`.
+- **7a (backend) ✅** : extension du proxy WebSocket Gemini Live (`gemini-3.1-flash-live-preview`, ws brut, pas de SDK) au mode T1 — system prompt « examinateur », décision d'interruption probabiliste, génération de la question de relance sur transcription partielle (DeepSeek). Réutilise l'infra T2 Live. Scoring EO 5 critères × /4. Phonologie live = 0 (TD-08, gelé). Contraintes héritées : pas de `speechConfig`. Livré : commits `868bd09` (code) + `3722e2a` (docs) ; dettes tracées TD-23/24/25 (cf. `TECH_DEBT-backend.md`).
 - **7b (frontend)** : UI T1 Live réutilisant ws-client + audio worklet + state machine T2 ; phase préparation ; gestion interruption / reprise du flux audio dans la state machine ; gating Premium.

 ## Sprint 7.5 — Clean
@ -171,6 +172,14 @@
 - Tests manuels Groupe D étendu (T1 Live) rejoués
 - Commit refactor(t1-live)

+## Sprint 7e — Transcription live à l'écran (T2 + T1)
+
+- Affichage incrémental temps réel des prises de parole pendant le dialogue : router `inputTranscription` + `outputTranscription` (déjà produits côté backend pour l'évaluation) jusqu'au frontend via le WebSocket, puis rendu progressif à l'écran.
+- Placé après le T1 Live pour couvrir **les deux modes live** d'un seul chantier.
+- **Chantier non trivial** (flux WS + affichage incrémental) — à décomposer en sous-étapes ; pas « cosmétique ».
+- **MAJ post-7a** : source backend de la transcription déjà disponible (confirmé par 7a).
+- **Caveat TD-23** : en VAD manuel, `inputTranscription` candidat n'est flushé qu'à `activityEnd` (pas token par token) → l'affichage incrémental temps réel n'est possible que pour `outputTranscription` (examinateur) ; l'incrémental côté candidat est à reconcevoir.
+
 ## Sprint 8 — Mode Examen

 - Timer inarrêtable + readOnly à T=0