feat: ε-greedy v1 as active policy; dwell-time reward inference; offline sim framework

- Promote egreedy-v1 to active serving policy (ADR-0007): /score/egreedy + /reward/egreedy replaces linucb-v1 endpoints after offline sim shows +10.7% mean reward (−0.548 vs −0.606) - Replace explicit helpful/not_helpful feedback with dwell-time inferred reward (inferReward): dismiss=−1.0, snooze=+0.1, done<15s=−0.3, done 15s–2min=+1.0, done 2–10min=+0.6, done>10min=+0.3 - Add ml/serving ε-greedy endpoints: /score/egreedy, /reward/egreedy, /stats/egreedy/{user_id} with d=7 feature vector (base 5 + sin/cos day-of-week encoding) - Add offline simulation framework (ml/experiments/sim): rule/LLM/claude-code judges, two-phase score+reward, synthetic personas, task generator; results stored in sim_runs/sim_events - Add /admin/simulations page: start runs, live-poll status, reward curve SVG, action/persona tables - Fix egreedy day_of_week training skew: reward endpoint now uses actual dow instead of hardcoded 0 - Fix runner.py proxy bypass: httpx.Client(trust_env=False) for localhost ML calls - Add dwellMs to TipFeedbackEvent contract and bus.test.ts fixture - Schema: sim_runs, sim_events tables; tip_feedback gains dwell_ms, reward_milli columns - ADR-0006: admin console framework; ADR-0007: egreedy-v1 policy selection rationale Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
2026-04-16 07:44:37 +00:00
parent c5ea18ec6e
commit faf44c18fc
48 changed files with 6151 additions and 40 deletions
--- a/ml/experiments/sim/personas.py
+++ b/ml/experiments/sim/personas.py
@@ -0,0 +1,79 @@
+"""Synthetic user personas for simulation."""
+
+from dataclasses import dataclass
+
+
+@dataclass
+class Persona:
+    name: str
+    description: str
+    # Feature preference weights — used by deterministic judge
+    prefers_high_priority: float  # 0–1: scales response to priority
+    prefers_overdue: float        # 0–1: scales response to overdue tasks
+    morning_active: bool          # higher engagement hours 6–10
+    evening_active: bool          # higher engagement hours 18–22
+    recency_bias: float           # 0–1: prefers recently-due tasks
+
+
+PERSONAS: list[Persona] = [
+    Persona(
+        name="deadline-driven",
+        description=(
+            "Responds urgently to overdue and high-priority tasks. "
+            "Most active in the morning. Dismisses low-priority tips."
+        ),
+        prefers_high_priority=0.9,
+        prefers_overdue=0.85,
+        morning_active=True,
+        evening_active=False,
+        recency_bias=0.3,
+    ),
+    Persona(
+        name="evening-relaxed",
+        description=(
+            "Reviews tasks in the evenings. Neutral on priority. "
+            "Snoozes morning recommendations."
+        ),
+        prefers_high_priority=0.5,
+        prefers_overdue=0.4,
+        morning_active=False,
+        evening_active=True,
+        recency_bias=0.5,
+    ),
+    Persona(
+        name="low-priority-first",
+        description=(
+            "Clears small tasks first. Snoozes urgent items until deadline. "
+            "Morning person."
+        ),
+        prefers_high_priority=0.2,
+        prefers_overdue=0.6,
+        morning_active=True,
+        evening_active=False,
+        recency_bias=0.7,
+    ),
+    Persona(
+        name="consistent-responder",
+        description=(
+            "Engages consistently across hours and days. "
+            "Acts on helpful tips regardless of priority."
+        ),
+        prefers_high_priority=0.6,
+        prefers_overdue=0.6,
+        morning_active=True,
+        evening_active=True,
+        recency_bias=0.5,
+    ),
+    Persona(
+        name="overdue-ignorer",
+        description=(
+            "Avoids overdue tasks (stress avoidance). "
+            "Focuses on future-due, high-priority items. Evening person."
+        ),
+        prefers_high_priority=0.8,
+        prefers_overdue=0.1,
+        morning_active=False,
+        evening_active=True,
+        recency_bias=0.2,
+    ),
+]