alvis/oO

Files

alvis faf44c18fc feat: ε-greedy v1 as active policy; dwell-time reward inference; offline sim framework

- Promote egreedy-v1 to active serving policy (ADR-0007): /score/egreedy + /reward/egreedy
  replaces linucb-v1 endpoints after offline sim shows +10.7% mean reward (−0.548 vs −0.606)
- Replace explicit helpful/not_helpful feedback with dwell-time inferred reward (inferReward):
  dismiss=−1.0, snooze=+0.1, done<15s=−0.3, done 15s–2min=+1.0, done 2–10min=+0.6, done>10min=+0.3
- Add ml/serving ε-greedy endpoints: /score/egreedy, /reward/egreedy, /stats/egreedy/{user_id}
  with d=7 feature vector (base 5 + sin/cos day-of-week encoding)
- Add offline simulation framework (ml/experiments/sim): rule/LLM/claude-code judges,
  two-phase score+reward, synthetic personas, task generator; results stored in sim_runs/sim_events
- Add /admin/simulations page: start runs, live-poll status, reward curve SVG, action/persona tables
- Fix egreedy day_of_week training skew: reward endpoint now uses actual dow instead of hardcoded 0
- Fix runner.py proxy bypass: httpx.Client(trust_env=False) for localhost ML calls
- Add dwellMs to TipFeedbackEvent contract and bus.test.ts fixture
- Schema: sim_runs, sim_events tables; tip_feedback gains dwell_ms, reward_milli columns
- ADR-0006: admin console framework; ADR-0007: egreedy-v1 policy selection rationale

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>

2026-04-16 07:44:37 +00:00

e2e

feat: ε-greedy v1 as active policy; dwell-time reward inference; offline sim framework

2026-04-16 07:44:37 +00:00

public

feat: M1 — LinUCB bandit, RemotePolicy, Web Push, event bus

2026-04-15 14:08:00 +00:00

src

feat: ε-greedy v1 as active policy; dwell-time reward inference; offline sim framework

2026-04-16 07:44:37 +00:00

.gitkeep

chore: scaffold oO monorepo with architecture, roadmap, and module stubs

2026-04-13 14:19:56 +00:00

next-env.d.ts

feat: Phase 0 walking skeleton — auth, Todoist integration, tip page

2026-04-15 08:53:38 +00:00

next.config.ts

feat: Phase 0 walking skeleton — auth, Todoist integration, tip page

2026-04-15 08:53:38 +00:00

package.json

feat: ε-greedy v1 as active policy; dwell-time reward inference; offline sim framework

2026-04-16 07:44:37 +00:00

playwright.config.ts

feat: ε-greedy v1 as active policy; dwell-time reward inference; offline sim framework

2026-04-16 07:44:37 +00:00

README.md

chore: scaffold oO monorepo with architecture, roadmap, and module stubs

2026-04-13 14:19:56 +00:00

tsconfig.json

feat: Phase 0 walking skeleton — monorepo, API, web, ML stub

2026-04-14 12:41:24 +00:00

tsconfig.tsbuildinfo

feat: complete M0 — legal pages, consent, tip_views metrics, account deletion UI

2026-04-15 09:09:08 +00:00

vitest.config.ts

feat: ε-greedy v1 as active policy; dwell-time reward inference; offline sim framework

2026-04-16 07:44:37 +00:00

README.md

apps/web

Next.js PWA. Phase 0 scope: three pages.

Route	Purpose
`/sign-in`	Google/Apple OAuth buttons. No form.
`/connect`	List of integrations (cards). Tap → OAuth. Tap connected card → disconnect.
`/` (tip)	Pure black background. One tip centered. Tap gestures: done / snooze / dismiss.

Design notes

The tip page is the product. Treat it like a watch face.
Zero chrome, no nav bar, no settings icon while a tip is showing. Long-press reveals actions.
Offline-first: last tip is cached; reactions queued until reconnect.