Actors                            Trajectories
■════■   interact  ┌────────────┐     ┌──┐
║Agent──────┬──────▻Web Platform├──┐  │τ1│  ┌▻Q (demand estimate)─┐
║Human──────┘      └──────△─────┘  └──▻..│──┘                     │
╚════■                    │           │τK│                        │
  △                       │           └──┘                        │
  │motivate               │                                       │
  └────────┐              │Setting    ┌──┐      Pricing Engine    │
 ▲     ┌──┐│              │Prices     │p1│     ┌──────────────┐   │
 │   ┌─┘  ││              └───────────┤..│◅────│▒▒▒▒▒▒▒▒▒▒▒▒▒▒│◅──┘
 │   │    └──┐                        │pN│     └─────┬──┬─────┘
 │ ┌─┘       │                        └──┘           │  │
 └─┴─────────┴─▶                                     │  │
 Private Valuations                                  │  │
                                                     │  │
 ╔═══════════════════════════════════════════════════╧══╧════════╗
 ║ Training Loop / SAC PPO DQN A2C                               ║
 ║ ■═════════════════════════════■                               ║
 ║ Q̂_t,i = Σ_s Σ_k ω(a_s,k) · 1[i_s,k = i]                     │ ║
 ║ f(τ') from KL( T' || T_H ) and KL( T' || T_A )              │ ║
 ║ α* = argmin_{α ∈ Aε(α0)} [ Revenue(p, Q^α) - λ·COI_leak ]   │ ║
 ║ r_t = Revenue - λ·f(τ') | a*                                ▽ ║
 ╚═══════════════════════════════════════════════════════════════╝
