Cascade Model ã«é©ç”¨ã™ã‚‹ Bandit Algorithms ã®ç†è«–ã¨å®Ÿè£…

f:id:abctail30:20220121105631p:plain

ã‚¨ãƒ ã‚¹ãƒªãƒ¼ã‚¨ãƒ³ã‚¸ãƒ‹ã‚¢ãƒªãƒ³ã‚°ã‚°ãƒ«ãƒ¼ãƒ— AIãƒ»æ©Ÿæ¢°å¦ç¿’ãƒãƒ¼ãƒ ã§ã‚½ãƒ•ãƒˆã‚¦ã‚§ã‚¢ã‚¨ãƒ³ã‚¸ãƒ‹ã‚¢ã‚’ã—ã¦ã„ã‚‹ä¸æ‘(po3rin) ã§ã™ã€‚æ¤œç´¢ã¨GoãŒå¥½ãã§ã™ã€‚

æœ€è¿‘ã‚¨ãƒ ã‚¹ãƒªãƒ¼ã§ã¯è¿…é€Ÿã‹ã¤ç°¡å˜ã«å®Ÿè£…ã§ãã‚‹ã¨ã„ã†è¦³ç‚¹ã‹ã‚‰æƒ…å ±æ¤œç´¢(IR)ã«ãƒãƒ³ãƒ‡ã‚£ãƒƒãƒˆã‚¢ãƒ«ã‚´ãƒªã‚ºãƒ ã‚’é©ç”¨ã™ã‚‹æ–½ç–ãŒé€²è¡Œä¸ã§ã™ã€‚ãã®éŽç¨‹ã§Cascade Modelã«å¤šè…•ãƒãƒ³ãƒ‡ã‚£ãƒƒãƒˆã‚’é©ç”¨ã—ãŸã‚¢ãƒ«ã‚´ãƒªã‚ºãƒ ã‚’èª¿ã¹ãŸã®ã§ã€Pythonã«ã‚ˆã‚‹å®Ÿè£…ã¨ã¨ã‚‚ã«ç´¹ä»‹ã—ã¦ã„ãã¾ã™ã€‚

Introduction

ãƒãƒ³ãƒ‡ã‚£ãƒƒãƒˆã‚¢ãƒ«ã‚´ãƒªã‚ºãƒ ã¯è¿…é€Ÿã‹ã¤ç°¡å˜ã«å®Ÿè£…ã§ãã€ãƒˆãƒ¬ãƒ¼ãƒ‹ãƒ³ã‚°ãƒ‡ãƒ¼ã‚¿ã‚’å¿…è¦ã¨ã›ãšã€ç¶™ç¶šçš„ãªãƒ†ã‚¹ãƒˆ/å¦ç¿’ãŒå¯èƒ½ã§ã‚ã‚‹ãŸã‚ã€ã‚ã‚‰ã‚†ã‚‹ã‚ªãƒ³ãƒ©ã‚¤ãƒ³ã‚¢ãƒ—ãƒªã‚±ãƒ¼ã‚·ãƒ§ãƒ³ã§é©ç”¨ã•ã‚Œã‚‹äººæ°—ã®é«˜ã„æ‰‹æ³•ã§ã™ã€‚

ã—ã‹ã—ã€IRã«ãƒãƒ³ãƒ‡ã‚£ãƒƒãƒˆã‚¢ãƒ«ã‚´ãƒªã‚ºãƒ ã‚’é©ç”¨ã—ã‚ˆã†ã¨ã™ã‚‹å ´åˆã€å°‘ã—å·¥å¤«ã™ã‚‹å¿…è¦ãŒã‚ã‚Šã¾ã™ã€‚ãã®éš›ã®1ã¤ã®æ–¹æ³•ãŒCascade Modelã‚’ä»®å®šã—ãŸä¸Šã§ã®ãƒãƒ³ãƒ‡ã‚£ãƒƒãƒˆã‚¢ãƒ«ã‚´ãƒªã‚ºãƒ ã®é©ç”¨ã§ã™ã€‚

IRÃ—å¤šè…•ãƒãƒ³ãƒ‡ã‚£ãƒƒãƒˆã«ã¤ã„ã¦ã¯ICTIR '17ã®ãƒãƒ¥ãƒ¼ãƒˆãƒªã‚¢ãƒ«[¹]ãŒéžå¸¸ã«å‹‰å¼·ã«ãªã‚‹ã®ã§ãŠã™ã™ã‚ã§ã€Cascade Modelä»¥å¤–ã«ã‚‚æ§˜ã€…ãªãƒˆãƒ”ãƒƒã‚¯ã«è§¦ã‚Œã‚‰ã‚Œã¦ã„ã¾ã™ã€‚ä»Šå›žã¯ã“ã¡ã‚‰ã§ç´¹ä»‹ã•ã‚Œã¦ã„ã‚‹ã‚¢ãƒ«ã‚´ãƒªã‚ºãƒ ã‚’ä¸å¿ƒã«ç´¹ä»‹ã—ã¦ã„ãã¾ã™ã€‚

https://dl.acm.org/doi/10.1145/3121050.3121108

äº‹å‰çŸ¥è˜

ã“ã®è¨˜äº‹ã§ã¯ã€åŸºæœ¬çš„ãªå¤šè…•ãƒãƒ³ãƒ‡ã‚£ãƒƒãƒˆã‚¢ãƒ«ã‚´ãƒªã‚ºãƒ ã§ã‚ã‚‹Upper Confidence Bound(UCB)ã‚¢ãƒ«ã‚´ãƒªã‚ºãƒ ã¨Thompson Sampling(TS)ã«ã¤ã„ã¦ã®ç†è§£ãŒã‚ã‚‹å‰æã§é€²ã‚ã¾ã™ã€‚

UCBã‚„TSã®è§£èª¬ã«ã¯ã•ã¾ã–ã¾ãªæ›¸ç±ã‚„ãƒ–ãƒã‚°ãŒå¤§é‡ã«ã‚ã‚‹ã®ã§ãã¡ã‚‰ã‚’å‚ç…§ã—ã¦ã„ãŸã ãã®ãŒè‰¯ã„ã§ã—ã‚‡ã†ã€‚ç§ã®ãŠã™ã™ã‚ã¯Pythonã®å®Ÿè£…ã‚‚ã¤ã„ã¦ã„ã‚‹ã€Œã‚¦ã‚§ãƒ–æœ€é©åŒ–ã§ã¯ã˜ã‚ã‚‹æ©Ÿæ¢°å¦ç¿’ã€ã§ã™ã€‚

ã‚¦ã‚§ãƒ–æœ€é©åŒ–ã§ã¯ã˜ã‚ã‚‹æ©Ÿæ¢°å¦ç¿’ â€•A/Bãƒ†ã‚¹ãƒˆã€ãƒ¡ã‚¿ãƒ’ãƒ¥ãƒ¼ãƒªã‚¹ãƒ†ã‚£ã‚¯ã‚¹ã€ãƒãƒ³ãƒ‡ã‚£ãƒƒãƒˆã‚¢ãƒ«ã‚´ãƒªã‚ºãƒ ã‹ã‚‰ãƒ™ã‚¤ã‚ºæœ€é©åŒ–ã¾ã§

ä½œè€…:é£¯å¡š ä¿®å¹³
ã‚ªãƒ©ã‚¤ãƒªãƒ¼ãƒ»ã‚¸ãƒ£ãƒ‘ãƒ³

Amazon

Cascade Model ã¨ã¯

Cascade Model ã¯çµæžœãƒªã‚¹ãƒˆã‚’é †ä½ã®é«˜ã„ã‚¢ã‚¤ãƒ†ãƒ ã‹ã‚‰é †ç•ªã«èµ°æŸ»ã—ã¦ã„ãã“ã¨ã‚’ä»®å®šã—ãŸãƒ¢ãƒ‡ãƒ«ã§Craswell[²]ã‚‰ã«ã‚ˆã£ã¦ææ¡ˆã•ã‚Œã¾ã—ãŸã€‚ã•ã‚‰ã«å¼·åŠ›ãªä»®å®šã¨ã—ã¦ã€ãƒ¦ãƒ¼ã‚¶ãƒ¼ãŒã‚¢ã‚¤ãƒ†ãƒ ã‚’å¥½ã‚“ã§ã„ãŸå ´åˆã¯å¿…ãšã‚¯ãƒªãƒƒã‚¯ã‚’è¡Œã„ã€ãã®å¾Œã®é †ä½ã«ä¸¦ã‚“ã§ã„ã‚‹ã‚¢ã‚¤ãƒ†ãƒ ã¯å…¨ã¦ãƒ¦ãƒ¼ã‚¶ãƒ¼ã«èµ°æŸ»ã•ã‚Œãªã„ã“ã¨ã‚’å‰æã¨ã—ã¦ã„ã¾ã™ã€‚å¾Œã»ã©è©³ã—ãè¦‹ã¦ã„ãã¾ã™ãŒã€ã“ã®ãƒ¢ãƒ‡ãƒ«ã«ã‚ˆã‚Šãƒã‚¸ã‚·ãƒ§ãƒ³ãƒã‚¤ã‚¢ã‚¹ã‚’æ‰±ã†ã®ãŒç°¡å˜ã«ãªã‚Šã¾ã™ã€‚

æ¦‚è¦å›³ã¯ä¸‹è¨˜ã«ãªã‚Šã¾ã™ã€‚ã“ã®ä¾‹ã§ã¯ãƒ¦ãƒ¼ã‚¶ãƒ¼ãŒã‚¢ã‚¤ãƒ†ãƒ 3ã‚’ã‚¯ãƒªãƒƒã‚¯ã—ãŸã®ã§ã‚¢ã‚¤ãƒ†ãƒ 4ã¨ã‚¢ã‚¤ãƒ†ãƒ 5ã¯ãƒ¦ãƒ¼ã‚¶ãƒ¼ã«èµ°æŸ»ã•ã‚Œã¾ã›ã‚“ã€‚

f:id:abctail30:20220120010039p:plain — Cascade Modelã®æ¦‚è¦å›³

Cascade Modelã¯å˜ç´”ã§ã™ãŒã€éŽåŽ»ã®ã‚¯ãƒªãƒƒã‚¯ãƒ‡ãƒ¼ã‚¿ã®ä½ç½®ãƒã‚¤ã‚¢ã‚¹ã‚’èª¬æ˜Žã™ã‚‹ã®ã«åŠ¹æžœçš„ã¨ã—ã¦å¤šãã®ã‚¢ãƒ«ã‚´ãƒªã‚ºãƒ ã®ãƒ¢ãƒ‡ãƒ«ã¨ã—ã¦æŽ¡ç”¨ã•ã‚Œã¦ã„ã¾ã™ã€‚

å…¨ã‚¢ã‚¤ãƒ†ãƒ é›†åˆ $E=(1,...,L)$ ã®ä¸ã‹ã‚‰ $k$ å€‹ã®ã‚¢ã‚¤ãƒ†ãƒ ã‚’é¸ã³ãƒ©ãƒ³ã‚ãƒ³ã‚°ã—ãŸã‚‚ã®ã‚’ $A=(a_1,...,a_k)$ ã¨ã—ã€ã“ã‚Œã‚’ãƒ¦ãƒ¼ã‚¶ãƒ¼ã«è¡¨ç¤ºã™ã‚‹æ¤œç´¢çµæžœã¨ã—ã¾ã™ã€‚ $\bar{w}(a_k)$ ã‚’ã‚¢ã‚¤ãƒ†ãƒ $a_k$ ãŒãƒ¦ãƒ¼ã‚¶ãƒ¼ã«ã¨ã£ã¦å¥½ã¿ã§ã‚ã‚‹ç¢ºçŽ‡(ã“ã“ã§ã¯èª˜å¼•ç¢ºçŽ‡ã¨å‘¼ã¶)ã¨ã—ã¾ã™ã€‚èª˜å¼•ç¢ºçŽ‡ã¯ä»Šå›žã®è¨å®šã§ã¯ã‚¯ãƒªãƒƒã‚¯çŽ‡ã§ã™ã€‚

ãã†ã™ã‚‹ã¨ã€ $a_k$ ãŒãƒ¦ãƒ¼ã‚¶ãƒ¼ã«èµ°æŸ»ã•ã‚Œã‚‹ç¢ºçŽ‡ã¯

$\prod_{i=1}^{k-1} (1-\bar{w}(a_i))$

ã¨ãªã‚Šã¾ã™ã€‚ã‚ˆã£ã¦ã€å°‘ãªãã¨ã‚‚1ã¤ã®ã‚¢ã‚¤ãƒ†ãƒ ãŒã‚¯ãƒªãƒƒã‚¯ã•ã‚Œã‚‹ç¢ºçŽ‡ã¯

$1-\prod_{i=1}^{k} (1-\bar{w}(a_i))$

ã¨ãªã‚Šã¾ã™ã€‚

Cascade Model ã«é©ç”¨ã™ã‚‹å¤šè…•ãƒãƒ³ãƒ‡ã‚£ãƒƒãƒˆ

ã“ã®ç« ã§ã¯Cascade Modelã«é©ç”¨ã™ã‚‹åŸºæœ¬çš„ãªå¤šè…•ãƒãƒ³ãƒ‡ã‚£ãƒƒãƒˆã‚¢ãƒ«ã‚´ãƒªã‚ºãƒ ã§ã‚ã‚‹CascadeUCB1ã¨ã€ã‚¢ã‚¤ãƒ†ãƒ ã®ç‰¹å¾´é‡ã‚’è€ƒæ…®ã™ã‚‹CascadeLinTSã®2ã¤ã‚’ç´¹ä»‹ã—ã¾ã™ã€‚

Cascading Bandits

Cascade Modelã«å¤šè…•ãƒãƒ³ãƒ‡ã‚£ãƒƒãƒˆã‚¢ãƒ«ã‚´ãƒªã‚ºãƒ ã‚’é©ç”¨ã™ã‚‹ã“ã¨ã‚’è€ƒãˆã¾ã™ã€‚æ¦‚è¦å›³ã¯ä¸‹è¨˜ã®ã‚ˆã†ã«ãªã‚Šã¾ã™ã€‚

f:id:abctail30:20220120010118p:plain — Cascade Modelä¸Šã®ãƒãƒ³ãƒ‡ã‚£ãƒƒãƒˆã‚¢ãƒ«ã‚´ãƒªã‚ºãƒ

ã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆãŒå…¨ã‚¢ã‚¤ãƒ†ãƒ ãƒªã‚¹ãƒˆã‹ã‚‰ãƒ¦ãƒ¼ã‚¶ãƒ¼ã«è¡¨å‡ºã™ã‚‹ã‚¢ã‚¤ãƒ†ãƒ ã‚’é¸ã³ã¾ã™ã€‚ãƒ¦ãƒ¼ã‚¶ãƒ¼ã‹ã‚‰ã®ã‚¯ãƒªãƒƒã‚¯ã‚’ãƒ•ã‚£ãƒ¼ãƒ‰ãƒãƒƒã‚¯ã¨ã—ã¦å—ã‘å–ã‚Šã€æ¬¡ã®ãƒªã‚¹ãƒˆã‚’ä½œæˆã—ã¾ã™ã€‚

Cascade Modelã«æœ€åˆã«å¤šè…•ãƒãƒ³ãƒ‡ã‚£ãƒƒãƒˆã‚’é©ç”¨ã—ãŸKveton [³] ã‚‰ã¯CascadeUCB1ã¨CascadeKL-UCBã‚’ææ¡ˆã—ã¦ã„ã¾ã™ã€‚ã“ã®2ã¤ã®æ‰‹æ³•ã¯ä¸»ã«upper confidence bound(UCB)ã®è¨ˆç®—æ–¹æ³•ã®ã¿ãŒç•°ãªã‚Šã¾ã™ã€‚

2ã¤ã®ææ¡ˆæ‰‹æ³•ã¯å¤šè…•ãƒãƒ³ãƒ‡ã‚£ãƒƒãƒˆå•é¡Œã§ã‚ˆãåˆ©ç”¨ã•ã‚Œã‚‹UCBãŒãƒ™ãƒ¼ã‚¹ã«ãªã£ã¦ã„ã¾ã™ã€‚

ä»Šå›žã¯å®Ÿè£…ãŒç°¡å˜ãªCascadeUCB1ã®ä¾‹ã‚’è¦‹ã¦ã„ãã¾ã™ã€‚

ã‚¹ãƒ†ãƒƒãƒ— $t$ ã§ãƒ¦ãƒ¼ã‚¶ãƒ¼ã« $k$ å€‹ã®ã‚¢ã‚¤ãƒ†ãƒ ç¾¤ $A_t = (a^{t}_1 \dots a^{t}_k)$ ã‚’è¡¨ç¤ºã™ã‚‹ã“ã¨ã‚’è€ƒãˆã¾ã™ã€‚ä½•ç•ªç›®ã®ã‚¢ã‚¤ãƒ†ãƒ ãŒã‚¯ãƒªãƒƒã‚¯ã•ã‚ŒãŸã‹ã‚’ $C_t$ ã¨ã—ã¦ã‚¹ãƒ†ãƒƒãƒ—tã§ãƒ¦ãƒ¼ã‚¶ãƒ¼ãŒèµ°æŸ»ã—ãŸã‚¢ã‚¤ãƒ†ãƒ ã®è¦³æ¸¬ã•ã‚ŒãŸ $w_t$ ãŒã‚ã‹ã‚Šã¾ã™ã€‚

$\newcommand{\argmax}{\mathop{\rm arg~max}\limits} \newcommand{\argmin}{\mathop{\rm arg~min}\limits} \newcommand{\mymin}{\mathop{\rm min}\limits} \newcommand{\mymax}{\mathop{\rm max}\limits}$

$w_t(a^t_k) = \mathbb{1}\{C_t = k\} \\ (k = 1,..., \min{(C_t, k)})$

ãƒ¦ãƒ¼ã‚¶ãƒ¼ã«è¡¨å‡ºã™ã‚‹ã‚¢ã‚¤ãƒ†ãƒ ã¯ä¸‹è¨˜ã®ç›®çš„é–¢æ•° $f(A, w)$ ã‚’æœ€å¤§åŒ–ã™ã‚‹å½¢ã§æ±ºå®šã™ã‚‹ã“ã¨ã«ãªã‚Šã¾ã™ã€‚ã“ã‚ŒãŒCascade Modelä¸Šã«ãƒãƒ³ãƒ‡ã‚£ãƒƒãƒˆã‚¢ãƒ«ã‚´ãƒªã‚ºãƒ ã‚’é©ç”¨ã™ã‚‹éš›ã®ãƒã‚¤ãƒ³ãƒˆã§ã™ã€‚ç›®çš„é–¢æ•°ã¯Cascade Modelã§ã‚‚è§£èª¬ã—ãŸã‚ˆã†ã«ã€å°‘ãªãã¨ã‚‚1ã¤ã®ã‚¢ã‚¤ãƒ†ãƒ ãŒã‚¯ãƒªãƒƒã‚¯ã•ã‚Œã‚‹ç¢ºçŽ‡ã¨ãªã£ã¦ã„ã¾ã™ã€‚

$f(A, w) = 1-\prod_{i=1}^{k} (1-w(a_i))$

$A_t = \argmax f(A, w)$

CascadeUCB1ã«ãŠã„ã¦ã€ã‚ªãƒ³ãƒ©ã‚¤ãƒ³ã§è¿”ã™ãƒªã‚¹ãƒˆã¯æŽ¢ç´¢ã®ãŸã‚ã«UCBã®å€¤ã§ã‚ã‚‹ $U_t$ ã§æ±ºå®šã—ã¾ã™ã€‚

$U_t(e) = \hat{w}_{T_{t−1}(e)}(e) + c_{t−1,T_{t−1}(e)}$

$c_{t,s} = \sqrt{(1.5 \log{t})/s}$

ã“ã“ã§ $\hat{w}_s(e)$ ã¯ã‚¢ã‚¤ãƒ†ãƒ $e$ ã®è¦³æ¸¬ã•ã‚ŒãŸ $s$ å€‹ã®é‡ã¿ã®å¹³å‡ã§ã‚ã‚Šã€ $T_t(e)$ ã¯ã‚¢ã‚¤ãƒ†ãƒ $e$ ãŒã‚¹ãƒ†ãƒƒãƒ— $t$ ã¾ã§ã«è¦³æ¸¬ã•ã‚ŒãŸå›žæ•°ã§ã™ã€‚ $c_{t,s}$ ã¯ $t$ ã‚¹ãƒ†ãƒƒãƒ—æ™‚ã® $w_s(e)$ å‘¨ã‚Šã®ä¿¡é ¼åŒºé–“ã§ã™ã€‚

æœ€çµ‚çš„ã«ãƒ•ã‚£ãƒ¼ãƒ‰ãƒãƒƒã‚¯ã§æ›´æ–°ã—ãŸ $U_t$ ã‹ã‚‰ãƒ¦ãƒ¼ã‚¶ãƒ¼ã¸ã®æŽ¨è–¦ãƒªã‚¹ãƒˆã‚’æ±ºå®šã—ã¾ã™ã€‚

$A_t = \argmax f(A, U_t) \\ = \argmax (1-\prod_{i=1}^{k-1} (1-w(a_i)))$

çµæžœçš„ã« $U_t$ ãŒé«˜ã„ã‚‚ã®ã‹ã‚‰é †ã«æŽ¨è–¦ãƒªã‚¹ãƒˆã«åŠ ãˆã¦ã„ã‘ã°è‰¯ã„ã“ã¨ã«ãªã‚Šã¾ã™ã€‚

ã“ã“ã¾ã§ã®æ“¬ä¼¼ã‚³ãƒ¼ãƒ‰ã‚’ä¸‹è¨˜ã«å¼•ç”¨ã—ã¾ã™ã€‚

f:id:abctail30:20220120010157p:plain — CascadeUCB1ã®æ“¬ä¼¼ã‚³ãƒ¼ãƒ‰

ç–‘ä¼¼ã‚³ãƒ¼ãƒ‰ã§ã¯å¹³å‡ã®æ›´æ–°ã‚’ç›´æŽ¥è¡Œã£ã¦ã„ã‚‹ã“ã¨ã«æ³¨æ„ã—ã¦ãã ã•ã„ã€‚

Pythonã«ã‚ˆã‚‹CascadeUCB1ã®å®Ÿè£…

ä»Šå›žã®å®Ÿè£…ã§ã¯Python3.9ã‚’åˆ©ç”¨ã—ã¾ã™ã€‚ãƒ¢ã‚¸ãƒ¥ãƒ¼ãƒ«ã¯ä¸‹è¨˜ã‚’åˆ©ç”¨ã—ã¾ã™ã€‚

import math
import random
from abc import ABC, abstractmethod
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt
from scipy.stats import bernoulli
from tqdm import tqdm

å¾Œã»ã©åˆ¥ã®ã‚¢ãƒ«ã‚´ãƒªã‚ºãƒ ã¨ã‚‚æ¯”è¼ƒã™ã‚‹ã®ã§ã€å®Ÿè£…ã—ã‚„ã™ã„ã‚ˆã†ã«æŠ½è±¡ã‚¯ãƒ©ã‚¹ã‚’å®šç¾©ã—ã¦ãŠãã¾ã™ã€‚

class Agent(ABC):
    @abstractmethod
    def get_list(self, k: int) -> list[int]:
        pass

    @abstractmethod
    def observe(self, a: list[int], click : int) -> None:
        pass


class Env(ABC):
    @abstractmethod
    def click(self, A: list[int]) -> int:
        pass
    
    @abstractmethod
    def weights(self, A: list[int]) -> list[float]:
        pass

    @abstractmethod
    def optimal_weights(self, k: int) -> list[float]:
        pass

Agentã‚¯ãƒ©ã‚¹ã®è§£èª¬ã‚’ã—ã¾ã™ã€‚get_listãƒ¡ã‚½ãƒƒãƒ‰ã¯AgentãŒãƒ¦ãƒ¼ã‚¶ãƒ¼ã«è¦‹ã›ã‚‹ãƒªã‚¹ãƒˆã‚’ç”Ÿæˆã—ã¾ã™ã€‚observeã¯ãƒ¦ãƒ¼ã‚¶ãƒ¼ã‹ã‚‰ã®ãƒ•ã‚£ãƒ¼ãƒ‰ãƒãƒƒã‚¯ã‹ã‚‰ãƒ‘ãƒ©ãƒ¡ãƒ¼ã‚¿ã‚’æ›´æ–°ã—ã¾ã™ã€‚

Envã‚¯ãƒ©ã‚¹ã§ã¯clickãƒ¡ã‚½ãƒƒãƒ‰ãŒ $C_t$ ã‚’è¿”ã—ã¾ã™ã€‚ã‚‚ã—ä½•ã‚‚ã‚¯ãƒªãƒƒã‚¯ã—ãªã‹ã£ãŸå ´åˆã¯-1ã‚’è¿”ã™ã‚ˆã†ã«ã—ã¾ã™ã€‚weightsãƒ¡ã‚½ãƒƒãƒ‰ã¯ã€æ¸¡ã•ã‚ŒãŸãƒªã‚¹ãƒˆã®é‡ã¿ã‚’è¿”ã—ã€‚optimal_weightsã¯ç†æƒ³ãƒªã‚¹ãƒˆã®é‡ã¿ã‚’è¿”ã—ã¾ã™ã€‚ã“ã‚Œã‚‰2ã¤ã®ãƒ¡ã‚½ãƒƒãƒ‰ã¯ãƒªã‚°ãƒ¬ãƒƒãƒˆã‚’è¨ˆç®—ã™ã‚‹ã¨ãã«ä½¿ã„ã¾ã™ã€‚å¾Œã»ã©è©³ã—ãèª¬æ˜Žã—ã¾ã™ãŒã€ãƒªã‚°ãƒ¬ãƒƒãƒˆã¯ã‚¹ãƒ†ãƒƒãƒ— $t$ ã§ã®ç†æƒ³ã®æ–¹ç–ã¨ã®ç´¯ç©å ±é…¬ã®å·®ã§ã™ã€‚

å®Ÿéš›ã«ä»Šå›žã‚·ãƒŸãƒ¥ãƒ¬ãƒ¼ãƒˆã™ã‚‹ç’°å¢ƒã‚’ç”¨æ„ã—ã¾ã—ã‚‡ã†ã€‚Cascade Modelã«ãªã‚‰ã£ã¦CascadingModelEnvã‚’å®Ÿè£…ã—ã¾ã™ã€‚

class CascadingModelEnv(Env):
    def __init__(self, E: list[float]):
        self.E = E

    def click(self, A: list[int]) -> int:
        for i, item in enumerate(A):
            if self.E[item] > np.random.random():
                return i+1
        return -1

    def weights(self, A: list[int]) -> list[float]:
        return [self.E[i] for i in A]

    def optimal_weights(self, k: int) -> list[float]:
        return sorted(E, reverse=True)[:k]

CascadingModelEnvã®åˆæœŸåŒ–æ™‚ã«å…¨ã¦ã®ã‚¢ã‚¤ãƒ†ãƒ é›†åˆ $E$ ã®ã‚¯ãƒªãƒƒã‚¯ç¢ºçŽ‡ã‚’æ¸¡ã—ã¾ã™ã€‚Eã®indexã‚’ãã®ã‚¢ã‚¤ãƒ†ãƒ ã®IDã¨ã—ã¦åˆ©ç”¨ã—ã¾ã™ã€‚

å‹•ä½œç¢ºèªã—ã¦ãŠãã¨ã€ç‹™ã£ãŸã‚ˆã†ãªãƒ’ã‚¹ãƒˆã‚°ãƒ©ãƒ ã«ãªã£ã¦ã„ã‚‹ã“ã¨ãŒã‚ã‹ã‚Šã¾ã™ã€‚

## test
E = [0, 0.1, 0.2, 0.3]
env = CascadingModelEnv(E)

results = []
for i in range(1000):
    results.append(env.click([1,2,3]))

plt.xlabel("item_index")
plt.ylabel("click_freq")
plt.hist(results)

f:id:abctail30:20220120010255p:plain — Cascade Modelã®

æ¬¡ã«ã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆã‚’ä½œã‚Šã¾ã—ã‚‡ã†ã€‚ä¸Šã§ç´¹ä»‹ã—ãŸç–‘ä¼¼ã‚³ãƒ¼ãƒ‰ã‚’æ·¡ã€…ã¨å®Ÿè£…ã—ã¾ã™ã€‚UCBè¨ˆç®—ã®éƒ¨åˆ†ã¯CascadeUCB1ã‚’ä½¿ã£ã¦ã„ã‚‹ã“ã¨ã«æ³¨æ„ã—ã¾ã—ã‚‡ã†ã€‚

class CascadeUCB1Agent(Agent):
  def __init__(self, E: list[float], p: float):
    self.t = 1
    self.counts = [1 for _ in range(len(E))]
    self.weights = [bernoulli.rvs(p=p) for _ in range(len(E))]

  def ucb(self, e: int):
    return self.weights[e] + math.sqrt(1.5*math.log(self.t - 1)/self.counts[e])

  def get_list(self, k: int) -> list[int]:
    self.t += 1
    ucbs = [self.ucb(e) for e in range(len(E))]
    return sorted(range(len(ucbs)), key=lambda i: ucbs[i], reverse=True)[:k]

  def is_click(self, click: int, k: int) -> int:
    return 1 if click == k else 0

  def observe(self, a: list[int], click : int) -> None:
    if click == -1:
      click = len(a)

    for i in range(min(len(a), click)):
      e = a[i]
      before_count = self.counts[e]
      self.counts[e] += 1
      self.weights[e] = ( (before_count * self.weights[e]) + self.is_click(click, i+1) ) / self.counts[e]

ã“ã‚Œã§CascadeUCB1ã‚’å®Ÿè¡Œã™ã‚‹æº–å‚™ãŒã§ãã¾ã—ãŸã€‚ã“ã®ã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆã®ãƒãƒªã‚·ãƒ¼ã¯ãƒªã‚°ãƒ¬ãƒƒãƒˆã®ç´¯ç©ã«ã‚ˆã£ã¦è©•ä¾¡ã§ãã¾ã™ã€‚ãƒªã‚°ãƒ¬ãƒƒãƒˆã¯è«–æ–‡ 3 ã¨åŒã˜ã‚ˆã†ã«

$R(A_t, w_t) = f(A^*, w_t) - f(A_t, w_t)$

ã¨ã—ã¦è¨ˆç®—ã—ã¾ã™ã€‚ã“ã“ã§ $A^*$ ã¯ç†æƒ³ãƒªã‚¹ãƒˆã§ã‚ã‚Šã€ãƒ¦ãƒ¼ã‚¶ãƒ¼ã«æœ€ã‚‚ã‚¯ãƒªãƒƒã‚¯ã•ã‚Œã‚„ã™ã„ $k$ å€‹ã®ã‚¢ã‚¤ãƒ†ãƒ ã®é›†åˆã§ã™ã€‚ä»Šå›žå®Ÿè£…ã—ãŸã‚¨ãƒ¼ã‚¸ã‚§ãƒ³ãƒˆã®è©•ä¾¡ã®ãŸã‚ã«ãƒªã‚°ãƒ¬ãƒƒãƒˆã‚’è¨ˆç®—ã™ã‚‹regreté–¢æ•°ã‚’å®šç¾©ã—ã¾ã™ã€‚

def f(weights: list[float]) -> float:
    v = 1
    for w in weights:
        v *= (1-w)
    return 1-v

def regret(optimal_weights: list[float], weights: list[float]) -> float:
    return f(optimal_weights) - f(weights)

è©•ä¾¡ã®æº–å‚™ãŒã§ããŸã®ã§ã€æ¬¡ã«å®Ÿéš›ã«ã‚·ãƒŸãƒ¥ãƒ¬ãƒ¼ã‚·ãƒ§ãƒ³ã™ã‚‹é–¢æ•°ã‚’ç”¨æ„ã—ã¾ã™ã€‚

def simulate(agent: Agent, env: Env, k: int, steps: int) -> list[float]:
    optimal_weights = env.optimal_weights(k=k)

    cumulative_regret = 0
    regret_cumulative_history = []
    for i in tqdm(range(steps)):
        a = agent.get_list(k=k)
        click = env.click(a)
        agent.observe(a, click)

        setting_weights = env.weights(a)
        cumulative_regret += regret(optimal_weights, setting_weights)
        regret_cumulative_history.append(cumulative_regret)

    return regret_cumulative_history

æœ€çµ‚çš„ã«ç´¯ç©ãƒªã‚°ãƒ¬ãƒƒãƒˆã‚’è¿”ã™ã®ã¯ã€å¾Œã§ã‚°ãƒ©ãƒ•ã¨ã—ã¦æå†™ã—ã¦ã€æ£ã—ãå‹•ã„ã¦ã„ã‚‹ã“ã¨ã‚’ç¢ºèªã™ã‚‹ãŸã‚ã§ã™ã€‚

æ—©é€Ÿä»Šå›žã®ã‚·ãƒŸãƒ¥ãƒ¬ãƒ¼ã‚·ãƒ§ãƒ³ç”¨ã®ç’°å¢ƒã§å‹•ã‹ã—ã¦ã¿ã¾ã™ã€‚ä»Šå›žã®è¨å®šã§ã¯ $L=10$ ã€ $k=3$ ã€ $t=100000$ ã§è¡Œã„ã¾ã™ã€‚

E = [0.3, 0.2, 0.25, 0.1, 0.1, 0.24, 0.2, 0.1, 0.21, 0.1]
env = CascadingModelEnv(E=E)
agent = CascadeUCB1Agent(E=E, p=0.2)

regret_cumulative_history = simulate(agent=agent, env=env, k=3, steps=100000)

plt.xlabel("step t")
plt.ylabel("Regret")
plt.plot(regret_cumulative_history)

çµæžœã¯ä¸‹è¨˜ã«ãªã‚Šã¾ã™ã€‚

f:id:abctail30:20220120010400p:plain — CascadeUCB1ã®ç´¯ç©ãƒªã‚°ãƒ¬ãƒƒãƒˆ

ãƒªã‚°ãƒ¬ãƒƒãƒˆãŒåŽæŸã—ã¦ã„ã¾ã™ã€‚æ£ã—ãã‚¯ãƒªãƒƒã‚¯çŽ‡ã®é«˜ã„ãƒªã‚¹ãƒˆã‚’ç”Ÿæˆã—ã¦ãã‚Œã¦ã„ã‚‹ã‚ˆã†ã§ã™ã€‚

Linear Cascading Bandits

æŽ¢ç´¢å¯¾è±¡ã®ãƒ‰ã‚ãƒ¥ãƒ¡ãƒ³ãƒˆæ•° $L$ ãŒå¤§ãã„å ´åˆã€ãƒ¦ãƒ¼ã‚¶ãƒ¼ã«ãƒ‡ãƒ¼ã‚¿ã‚»ãƒƒãƒˆå†…ã®ã™ã¹ã¦ã®ã‚¢ã‚¤ãƒ†ãƒ ã‚’å°‘ãªãã¨ã‚‚1å›žã¯è¡¨ç¤ºã™ã‚‹å¿…è¦ãŒã‚ã‚‹ãŸã‚ã€æ—¥ã€…ãŸãã•ã‚“ã®ã‚¢ã‚¤ãƒ†ãƒ ãŒç¾ã‚Œã‚‹ãƒ¡ãƒ‡ã‚£ã‚¢ã‚µã‚¤ãƒˆãªã©ã§ã¯CascadeUCB1ã¯å®Ÿç”¨çš„ã§ã¯ã‚ã‚Šã¾ã›ã‚“ã€‚ãã“ã§Zongã‚‰[⁴]ã¯linear cascading banditsã¨ã„ã†ã‚¢ãƒ—ãƒãƒ¼ãƒã‚’ææ¡ˆã—ã¦ã„ã¾ã™ã€‚ã“ã‚Œã¯ã‚¢ã‚¤ãƒ†ãƒ ã®å¼•åŠ›ç¢ºçŽ‡ãŒã‚¢ã‚¤ãƒ†ãƒ ã®ç‰¹å¾´ã‹ã‚‰ç·šå½¢é–¢æ•°ã§å‡ºåŠ›ã•ã‚Œã‚‹ã¨ä»®å®šã™ã‚‹æ‰‹æ³•ã§ã™ã€‚

Zongã‚‰ã®è«–æ–‡ã§ã¯CascadeLinTSã¨CascadeLinUCBã¨ã„ã†æ‰‹æ³•ã‚’ææ¡ˆã—ã¦ã„ã¾ã™ã€‚ä»Šå›žã¯è«–æ–‡å†…ã§è©•ä¾¡ã®é«˜ã‹ã£ãŸCascadeLinTSã®ä¾‹ã‚’è¿½ã£ã¦ã„ãã¾ã™ã€‚

CascadeLinTSã¯ Thompson Sampling(TS)[⁵]ãŒãƒ™ãƒ¼ã‚¹ã«ãªã£ã¦ãŠã‚Šã€LinTS[⁶]ã¯TSã®æ–‡è„ˆãƒãƒ³ãƒ‡ã‚£ãƒƒãƒˆã¸ã®æ‹¡å¼µã«ãªã£ã¦ãŠã‚Šã€ã‚¢ã‚¤ãƒ†ãƒ ãªã©ã®ç´ æ€§ã‚’è€ƒæ…®ã§ãã¾ã™ã€‚CascadeLinTSã¯LinTSã‚’Cascade Modelã«é©ç”¨ã—ãŸæ‰‹æ³•ã§ã™ã€‚

ã‚¢ã‚¤ãƒ†ãƒ ã”ã¨ã®èª˜å¼•ç¢ºçŽ‡ã®æŽ¨å®šå€¤ã¯ $w(e)$ ã¯ä¸‹è¨˜ã®ã‚ˆã†ã«å®šç¾©ã—ã¾ã™ã€‚

$w(e) \approx x^{T}_e \theta^{*}$

$w(e)$ ãŒå¤§ãã„ã‚‚ã®ã‚’ä¸Šã‹ã‚‰é †ã«ãƒ¦ãƒ¼ã‚¶ãƒ¼ã«è¡¨ç¤ºã™ã‚‹ãƒªã‚¹ãƒˆã¨ã—ã¦ä¸¦ã¦ãƒ¦ãƒ¼ã‚¶ãƒ¼ã«è¡¨ç¤ºã—ã¾ã™ã€‚

ã“ã“ã§ $x_e$ ã¯ã‚¢ã‚¤ãƒ†ãƒ $e$ ã® $d$ æ¬¡å…ƒã®ç‰¹å¾´ãƒ™ã‚¯ãƒˆãƒ« $x_e \in \mathbb{R}^{d×1}$ ã§ã‚ã‚Šã€ $\theta^{*}$ ã¯ $d$ æ¬¡å…ƒã®ãƒ‘ãƒ©ãƒ¡ãƒ¼ã‚¿ãƒ™ã‚¯ãƒˆãƒ« $\theta^{*} \in \mathbb{R}^{d×1}$ ã§ã™ã€‚ $\theta^*$ ã¯å…¨ã¦ã®ã‚¢ã‚¤ãƒ†ãƒ ã«ã¤ã„ã¦å…±é€šã«åˆ©ç”¨ã•ã‚Œã¾ã™ã€‚

CascadeLinTSã¯ã€å¤šæ¬¡å…ƒæ£è¦åˆ†å¸ƒã‹ã‚‰ãƒ‘ãƒ©ãƒ¡ãƒ¼ã‚¿ãƒ¼ãƒ™ã‚¯ãƒˆãƒ« $θ_t$ ã‚’ã‚µãƒ³ãƒ—ãƒªãƒ³ã‚°ã—ã¾ã™ã€‚

$\theta_t \sim \mathcal{N}(\hat{\theta}_{t-1}, M^{-1}_{t-1})$

$\hat{\theta}_{t} = \sigma^{-2} M^{-1}_t B_{t-1}$

$M_t = σ^{−2}X^{T}_t X_t + I_d$

$B_t = X^{T}_tY_t$

$M_t \in \mathbb{R}^{d×d}$ ãŠã‚ˆã³ã€ãƒ™ã‚¯ãƒˆãƒ« $B_t \in \mathbb{R}^{d×1}$ ã¯å¤šæ¬¡å…ƒæ£è¦åˆ†å¸ƒã®äº‹å¾Œåˆ†å¸ƒã®ãƒ‘ãƒ©ãƒ¡ãƒ¼ã‚¿ã‚’æ±‚ã‚ã‚‹éš›ã«å‡ºç¾ã™ã‚‹ã„ã¤ã‚‚ã®å½¢ã§ã™ã€‚è©³ã—ã„å°Žå‡ºã¯é•·ããªã‚‹ã®ã§ä»–ã®æ–‡çŒ®ã‚’å‚ç…§ã—ã¦ãã ã•ã„ã€‚åƒ•ã®ãŠã™ã™ã‚ã¯ã‚ªãƒ©ã‚¤ãƒªãƒ¼ã®ã€Œã‚¦ã‚§ãƒ–æœ€é©åŒ–ã§ã¯ã˜ã‚ã‚‹æ©Ÿæ¢°å¦ç¿’ã€ã®æ–‡è„ˆä»˜ããƒãƒ³ãƒ‡ã‚£ãƒƒãƒˆã®ç« ã§ã™ã€‚ã“ã®ç« ã§ã¯æ–‡è„ˆä»˜ããƒãƒ³ãƒ‡ã‚£ãƒƒãƒˆã®å°Žå‡ºã®æµã‚Œã§ã€å¤šæ¬¡å…ƒæ£è¦åˆ†å¸ƒã®ç´¹ä»‹ã€äº‹å¾Œåˆ†å¸ƒã®ãƒ‘ãƒ©ãƒ¡ãƒ¼ã‚¿ã®å°Žå‡ºã€æ›´æ–°å¼ã®å°Žå‡ºã‚’è¡Œã£ã¦ã„ã¾ã™ã€‚

ä½œè€…:é£¯å¡š ä¿®å¹³
ã‚ªãƒ©ã‚¤ãƒªãƒ¼ãƒ»ã‚¸ãƒ£ãƒ‘ãƒ³

Amazon

è£œè¶³ã—ã¦ãŠãã¨ã€ $X_t$ è¡Œåˆ—ã¯è¡Œã‚’ã‚¹ãƒ†ãƒƒãƒ— $t$ ã§è¦³æ¸¬ã•ã‚ŒãŸã™ã¹ã¦ã®ã‚¢ã‚¤ãƒ†ãƒ ã®ç‰¹å¾´ãƒ™ã‚¯ãƒˆãƒ«ã¨ã—ã€ $Y_t$ ã‚’ã‚¹ãƒ†ãƒƒãƒ— $t$ ã§è¦³æ¸¬ã•ã‚ŒãŸã™ã¹ã¦ã®å¼•åŠ›ç¢ºçŽ‡ã®åˆ—ãƒ™ã‚¯ãƒˆãƒ«ã¨ã—ã¾ã™ã€‚ $I_d$ ã¯ $d×d$ å˜ä½è¡Œåˆ—ã§ã‚ã‚Šã€ $σ>θ$ ã¯å¦ç¿’çŽ‡ã‚’åˆ¶å¾¡ã™ã‚‹ãƒ‘ãƒ©ãƒ¡ãƒ¼ã‚¿ã§ã€ç†æƒ³çš„ã«ã¯è¦³æ¸¬ãƒŽã‚¤ã‚ºã®åˆ†æ•£ã§ã‚ã‚‹ã“ã¨ãŒæœ›ã¾ã—ã„ã¨è«–æ–‡ã§èª¬æ˜Žã•ã‚Œã¦ã„ã¾ã™ã€‚

ã“ã“ã¾ã§ã§ã€ $M_t$ ã¨ $B_t$ ãŒã‚ã‹ã‚Œã°ã€ $\theta_t$ ã‚’ã‚µãƒ³ãƒ—ãƒªãƒ³ã‚°ã§ãã‚‹ã“ã¨ãŒã‚ã‹ã‚Šã¾ã—ãŸã€‚ã‚ã¨ã¯ã€ã‚¹ãƒ†ãƒƒãƒ—ã”ã¨ã« $M_t$ ã¨ $B_t$ ã‚’æ›´æ–°ã—ã¦ã„ãå¿…è¦ãŒã‚ã‚Šã¾ã™ã€‚

$M_t$ ã¨ $B_t$ ã¯ä¸‹è¨˜ã®ã‚ˆã†ã«æ›´æ–°ã—ã¾ã™ã€‚

$M_t = M_{t-1} + σ^{−2}x_e x^{T}_e$

$B_t = B_{t_1} + x_e \mathbb{1}\{C_t=k\}$

æ“¬ä¼¼ã‚³ãƒ¼ãƒ‰ã¯ä¸‹è¨˜ã«ãªã‚Šã¾ã™ã€‚CascadeLinTSã®å…¨ä½“åƒãŒAlgorithm1ã«ãªã‚Šã€äº‹å¾Œåˆ†å¸ƒã®ãƒ‘ãƒ©ãƒ¡ãƒ¼ã‚¿æ›´æ–°éƒ¨åˆ†ãŒAlgorithm3ã§ã™ã€‚

f:id:abctail30:20220120010501p:plain — CascadeLinTSã®æ“¬ä¼¼ã‚³ãƒ¼ãƒ‰

f:id:abctail30:20220120010522p:plain — ãƒ‘ãƒ©ãƒ¡ãƒ¼ã‚¿æ›´æ–°ã®æ“¬ä¼¼ã‚³ãƒ¼ãƒ‰

å®Ÿè£…ã®è¦³ç‚¹ã§ã¯é€†è¡Œåˆ—ã®è¨ˆç®—ãŒé‡ãã†ã§ã™ã€‚ãã“ã§å®Ÿæˆ¦ã§ã¯ä¸‹è¨˜ã®æ›´æ–°å¼ã§ $M^{-1}_t$ ã‚’ç›´æŽ¥æ›´æ–°ã—ã¾ã™ã€‚

$M^{-1}_t = M^{-1}_{t-1} - \dfrac{M^{-1}_{t-1} x_e x^{T}_e M^{-1}_{t-1}}{x^{T}_e M^{-1}_{t-1} x_e + \sigma^2}$

ã“ã¡ã‚‰ã¯ã‚¦ãƒƒãƒ‰ãƒ™ãƒªãƒ¼ã®å…¬å¼ã‹ã‚‰å°Žã‘ã¾ã™ã€‚Pythonã«ã‚ˆã‚‹å®Ÿè£…ã®ãƒ•ã‚§ãƒ¼ã‚ºã§ã¯ã“ã¡ã‚‰ã®æ›´æ–°å¼ã‚’ä½¿ã„ã¾ã™ã€‚

CascadeLinTSã®Pythonå®Ÿè£…

ä»Šå›žã®å®Ÿè£…ã§ã¯ã€ã‚¢ã‚¤ãƒ†ãƒ ã®ç‰¹å¾´ãƒ™ã‚¯ãƒˆãƒ«ã‚’è¡¨ç¾ã™ã‚‹ãŸã‚ã«ã€æŠ€è¡“ãƒ–ãƒã‚°ã‚µã‚¤ãƒˆã®è¨˜äº‹ã‚’æŽ¨è–¦ã™ã‚‹æ–½ç–ã‚’ä»®å®šã—ã¾ã™ã€‚ãã‚Œãžã‚Œã®è¨˜äº‹ã«ã¯ã‚¿ã‚°ãŒ1~3å€‹ä»˜ä¸Žã•ã‚Œã€ã‚¿ã‚°ã«ã‚ˆã£ã¦ã‚¯ãƒªãƒƒã‚¯ã•ã‚Œã‚‹ç¢ºçŽ‡ãŒå¤‰ã‚ã‚Šã¾ã™ã€‚ä»Šå›žã¯ã‚¿ã‚°ã‚’ç‰¹å¾´é‡ã¨ã—ã¦CascadeLinTSã‚’å‹•ã‹ã—ã¾ã™ã€‚

ã¾ãšã¯ä»Šå›žã®ã‚·ãƒ¥ãƒŸãƒ¬ãƒ¼ã‚·ãƒ§ãƒ³ç”¨ã®è¨˜äº‹ã‚’ç”Ÿæˆã—ã¾ã™ã€‚ã‚¿ã‚°ãã‚Œãžã‚Œã®ã‚¯ãƒªãƒƒã‚¯çŽ‡ã®ç·šå½¢çµåˆã§å®Ÿéš›ã®ã‚¯ãƒªãƒƒã‚¯çŽ‡ã‚’è¨å®šã—ã¾ã™ã€‚ãã‚Œãžã‚Œã®ã‚¿ã‚°ã®ã‚¯ãƒªãƒƒã‚¯çŽ‡ã¯æ£è¦åˆ†å¸ƒã‹ã‚‰ã‚µãƒ³ãƒ—ãƒªãƒ³ã‚°ã—ã¾ã™ã€‚

def gen_items(tags: dict[str, float], L: int, sigma=0.01)-> pd.DataFrame:
  tag_ids = list(tags.keys())
  weights = []
  features = []
  for i in range(L):
    n = random.randint(1, 3)
    tag_samples = random.sample(tag_ids, n)

    w = 0
    one_hot = []
    for t in tag_ids:
      if t in tag_samples:
        w += random.gauss(tags[t], sigma)
        one_hot.append(1)
      else:
        one_hot.append(0)
      
    vec = np.array(one_hot)
    features.append(vec.reshape(len(vec),1))
    weights.append(w)

  df = pd.DataFrame({'id': list(range(len(weights))),
                      'weight' : weights,
                      'feature' : features})
  return  df

å®Ÿéš›ã«gen_itemsã‚’å‹•ã‹ã—ã¦ã¿ã¾ã™ã€‚

tags_with_weight = {
  'AWS': 0.03,
  'Docker': 0.2,
  'Elasticsearch': 0.15,
  'GCP': 0.08,
  'Git': 0.05,
  'NLP': 0.19,
  'Rust': 0.23,
  'Scala': 0.14,
  'æ©Ÿæ¢°å¦ç¿’': 0.15,
  'å¼·åŒ–å¦ç¿’': 0.20
}
df = gen_items(tags=tags_with_weight, L=10)
df.head(5)

çµæžœã€ä¸‹è¨˜ã®ã‚ˆã†ãªã‚¢ã‚¤ãƒ†ãƒ IDã€ã‚¯ãƒªãƒƒã‚¯çŽ‡ã€ç‰¹å¾´é‡ãƒ™ã‚¯ãƒˆãƒ«ãŒå‡ºæ¥ã¾ã™ã€‚ã‚¿ã‚°ã¯multi-hot encodingã—ã¦ã„ã¾ã™ã€‚ç‰¹å¾´é‡ã¯è«–æ–‡ã«åˆã‚ã›ã¦ $\mathbb{R}^{d×1}$ ã®å½¢ã§æŒã£ã¦ã„ã¾ã™ã€‚

f:id:abctail30:20220120010559p:plain — è¨˜äº‹IDã¨å®Ÿéš›ã®ã‚¢ã‚¤ãƒ†ãƒ é‡ã¿ã¨ç‰¹å¾´é‡

ç’°å¢ƒã®å®Ÿè£…ã¯CascadingModelEnvã¨åŒã˜ãªã®ã§ãã®ã¾ã¾åˆ©ç”¨ã—ã¾ã™ã€‚ç¶šã„ã¦CascadeLinTSAgentã‚’å®Ÿè£…ã—ã¾ã™ã€‚ç–‘ä¼¼ã‚³ãƒ¼ãƒ‰ã‚’å‚è€ƒã«å®Ÿè£…ã—ã¦ã„ãã¾ã™ã€‚

class CascadeLinTSAgent(Agent):
  def __init__(self, d: int, sigma: float, features: pd.DataFrame):
    self.sigma = sigma
    self.features = features
    self.InvM = np.eye(d)
    self.B = np.zeros(d).reshape(d, 1)

  def get_list(self, k: int) -> list[int]:
    before_theta = (self.sigma**-2) * self.InvM.dot(self.B)
    theta = np.random.multivariate_normal(mean=before_theta.ravel(), cov=self.InvM)
    weights = self.features['feature'].apply(lambda x: x.T.dot(theta)).to_list()
    return sorted(range(len(weights)), key=lambda i: weights[i], reverse=True)[:k]

  def is_click(self, click: int, k: int) -> int:
    return 1 if click == k else 0

  def observe(self, a: list[int], click : int) -> None:
    if click == -1:
      click = len(a)

    for i in range(min(len(a), click)):
      e = a[i]
      x = self.features[self.features['id']==e]['feature'].to_list()[0]

      self.InvM = self.InvM - ( self.InvM.dot(x).dot(x.T).dot(self.InvM) )/( x.T.dot(self.InvM).dot(x) + self.sigma**2 )
      if self.is_click(click, i+1):
        self.B = self.B + x

ã“ã®å®Ÿè£…ã§ã¯ $M^{-1}_t$ ã‚’ç›´æŽ¥æ›´æ–°ã—ã¦ã„ã‚‹ã“ã¨ã«æ³¨æ„ã—ã¦ãã ã•ã„ã€‚

ã§ã¯CascadeLinTSAgentã‚’å‹•ã‹ã—ã¦ã¿ã¾ã™ã€‚è«–æ–‡ã®å®Ÿé¨“ã«åˆã‚ã›ã¦ $\sigma=1$ ã€æŽ¨è–¦ã™ã‚‹ã‚¢ã‚¤ãƒ†ãƒ æ•° $K=4$ ã€ç‰¹å¾´é‡ã®æ¬¡å…ƒ $d=10$ ã§å®Ÿé¨“ã—ã¾ã™ã€‚å…¨ã‚¢ã‚¤ãƒ†ãƒ æ•° $L$ ã¯ $16,256,300$ ã§å®Ÿé¨“ã—ã¾ã™ã€‚ä»Šå›žã®å®Ÿé¨“ã§ã¯å…ˆã»ã©å®Ÿè£…ã—ãŸCascadeUCB1ã¨æ¯”è¼ƒã—ã¦ã„ãã¾ã™ã€‚

k=4
L=[16, 256, 3000]
steps=10000

tags_with_weight = {
  'AWS': 0.1,
  'Docker': 0.2,
  'Elasticsearch': 0.15,
  'GCP': 0.08,
  'Git': 0.05,
  'NLP': 0.23,
  'Rust': 0.3,
  'Scala': 0.18,
  'æ©Ÿæ¢°å¦ç¿’': 0.25,
  'å¼·åŒ–å¦ç¿’': 0.2,
}

fig = plt.figure(figsize=(13,4))
fig.suptitle('The n-steps regret of CascadeUCB1, CascadeLinTS')

for i, l in enumerate(L):
    df = gen_items(tags=tags_with_weight, L=l)
    E = df['weight'].to_list()

    env = CascadingModelEnv(E=E)

    cascadelints_agent = CascadeLinTSAgent(d=len(tags_with_weight), sigma=1, features=df.drop('weight', axis=1))
    cascadeucb_agent = CascadeUCB1Agent(E=E, p=0.2)

    cascadeucb1_regret_cumulative_history = simulate(agent=cascadeucb_agent, env=env, k=k, steps=steps)
    cascadelints_regret_cumulative_history = simulate(agent=cascadelints_agent, env=env, k=k, steps=steps)

    ax = fig.add_subplot(1,3, i+1)
    ax.set_title(f'L={l}, k=4')
    ax.plot(cascadeucb1_regret_cumulative_history, label='CascadeUCB1')
    ax.plot(cascadelints_regret_cumulative_history, label='CascadeLinTS')

fig.legend(['CascadeUCB1', 'CascadeLinTS'], loc='upper center', borderaxespad=0.1, title="Algorithm", bbox_to_anchor=(0.5, -0.02), ncol=2)
fig.tight_layout()
plt.show()

çµæžœã¯æ¬¡ã®ã‚ˆã†ã«ãªã‚Šã¾ã—ãŸã€‚

f:id:abctail30:20220120010708p:plain — CascadeUCB1ã¨CascadeLinTSã®æ¯”è¼ƒ

ã‚¢ã‚¤ãƒ†ãƒ ã®ç‰¹å¾´é‡ã‚’å–ã‚Šå…¥ã‚ŒãŸCascadeLinTSã®æ–¹ãŒãƒªã‚°ãƒ¬ãƒƒãƒˆãŒå°‘ãªã„ã“ã¨ãŒã‚ã‹ã‚Šã¾ã™ã€‚ç‰¹ã«LãŒå¤§ãã„ã»ã©CascadeUCB1ã®ãƒªã‚°ãƒ¬ãƒƒãƒˆãŒå¤§ããã€åŽæŸã—ãªã„çµæžœã‚’ç¢ºèªã§ãã¾ã™ã€‚

ã¡ãªã¿ã«10000stepã®é€Ÿåº¦ã¯ä¸‹è¨˜ã®ã‚ˆã†ã«ãªã‚Šã¾ã—ãŸã€‚

	CascadeUCB1	CascadeLinTS
$L=16$	0.00002ç§’	15ç§’
$L=256$	3ç§’	24ç§’
$L=3000$	28ç§’	4åˆ†46ç§’

å®Ÿè£…ã®ä¸‹æ‰‹ã•ã‚‚ã‚ã‚‹ã‹ã‚‚ã§ã™ãŒã€ã•ã™ãŒã«CascadeLinTSã®æ–¹ãŒé…ã„ã§ã™ã€‚ç§ã®æ–¹ã§èª¿æŸ»ã—ãŸã¨ã“ã‚ã€CascadeLinTSã®get_listã§100msã‚ªãƒ¼ãƒ€ãƒ¼ã®æ™‚é–“ãŒã‹ã‹ã£ã¦ã„ã¾ã—ãŸã€‚

ãŸã ã€CascadeLinTSãŒç›¸å¯¾çš„ã«é…ã„ã¨ã„ã£ã¦ã‚‚ $L=3000$ ã§1å›žã®stepãŒå¤§ä½“28msãã‚‰ã„ãªã®ã§ã€å……åˆ†ã‚ªãƒ³ãƒ©ã‚¤ãƒ³ã§å‹•ä½œã™ã‚‹ã‚¹ãƒ”ãƒ¼ãƒ‰ã§ã™ã€‚

ã¾ã¨ã‚

ä»Šå›žã¯Cascade Modelã«å¤šè…•ãƒãƒ³ãƒ‡ã‚£ãƒƒãƒˆã‚’é©ç”¨ã™ã‚‹ã‚¢ãƒ«ã‚´ãƒªã‚ºãƒ ã§ã‚ã‚‹CascadeUCB1ã¨CascadeLinTSã‚’ç´¹ä»‹ã—ã¾ã—ãŸã€‚

ã“ã“ã‹ã‚‰æ›´ã«ãƒ¦ãƒ¼ã‚¶ãƒ¼ã®ç‰¹å¾´é‡ã‚’è€ƒæ…®ã—ãŸãƒ‘ãƒ¼ã‚½ãƒŠãƒ©ã‚¤ã‚ºã‚’Cascade Modelä¸Šã§è¡Œã†ã‚¢ãƒ«ã‚´ãƒªã‚ºãƒ ã‚‚ã‚ã‚‹ã®ã§ã€ã‚‚ã—ä½™è£•ãŒã‚ã‚Œã°æ¬¡å›žä»¥é™ã®ãƒ–ãƒã‚°ã§å®Ÿè£…ã¨ã¨ã‚‚ã«ç´¹ä»‹ã—ã¾ã™ã€‚

We're hiring !!!

ã‚¨ãƒ ã‚¹ãƒªãƒ¼ã§ã¯æ¤œç´¢&æŽ¨è–¦åŸºç›¤ã®é–‹ç™º&æ”¹å–„ã‚’é€šã—ã¦åŒ»ç™‚ã‚’å‰é€²ã•ã›ã‚‹ã‚¨ãƒ³ã‚¸ãƒ‹ã‚¢ã‚’å‹Ÿé›†ã—ã¦ã„ã¾ã™ï¼ç¤¾å†…ã§ã¯æ—¥ã€…æ¤œç´¢ã‚„æŽ¨è–¦ã«ã¤ã„ã¦ã®è°è«–ãŒæ´»ç™ºã«è¡Œã‚ã‚Œã¦ã„ã¾ã™ã€‚å„é€±ã§æƒ…å ±/æŽ¨è–¦è«–æ–‡èªã¿ä¼šã‚‚é–‹å‚¬ã•ã‚Œã¦ã„ã¾ã™ã€‚

Reference

Dorota Glowacka. 2017. Bandit Algorithms in Interactive Information Retrieval. In Proceedings of the ACM SIGIR International Conference on Theory of Information Retrieval, ICTIR 2017, Amsterdam, The Netherlands, October 1-4, 2017, Jaap Kamps, Evangelos Kanoulas, Maarten de Rijke, Hui Fang, and Emine Yilmaz (Eds.). ACM, 327â€“328.↩
Craswell, N., O. Zoeter, M. Taylor, and B. Ramsey. 2008. â€œAn experimental comparison of click position-bias modelsâ€. In: Proceedings of the 2008 international conference on web search and data mining. ACM. 87â€“94.↩
Kveton, B., C. Szepesvari, Z. Wen, and A. Ashkan. 2015a. â€œCascading Bandits: Learning to Rank in the Cascade Modelâ€. In: Proceedings of the 32nd International Conference on Machine Learning (ICML-15). 767â€“776↩
Zong, S., H. Ni, K. Sung, N. R. Ke, Z. Wen, and B. Kveton. 2016. â€œCascading Bandits for Large-Scale Recommendation Problemsâ€. arXiv preprint arXiv:1603.05359 - Proc. UAI.↩
Thompson, W. R. 1933. â€œOn the likelihood that one unknown probability exceeds another in view of the evidence of two samplesâ€. Biometrika. 25(¾): 285â€“294.↩
Shipra Agrawal and Navin Goyal. Thompson sampling for contextual bandits with linear payoffs. In International Conference on Machine Learning, pages 127â€“135, 2013.↩

ã‚¨ãƒ ã‚¹ãƒªãƒ¼ãƒ†ãƒƒã‚¯ãƒ–ãƒã‚°

ã‚¨ãƒ ã‚¹ãƒªãƒ¼(m3)ã®ã‚¨ãƒ³ã‚¸ãƒ‹ã‚¢ãƒ»é–‹ç™ºãƒ¡ãƒ³ãƒãƒ¼ã«ã‚ˆã‚‹æŠ€è¡“ãƒ–ãƒã‚°ã§ã™

Introduction

äº‹å‰çŸ¥è˜

Cascade Model ã¨ã¯

Cascade Model ã«é©ç”¨ã™ã‚‹å¤šè…•ãƒãƒ³ãƒ‡ã‚£ãƒƒãƒˆ

Cascading Bandits

Pythonã«ã‚ˆã‚‹CascadeUCB1ã®å®Ÿè£…

Linear Cascading Bandits

CascadeLinTSã®Pythonå®Ÿè£…

ã¾ã¨ã‚

We're hiring !!!

Reference

Introduction

äº‹å‰çŸ¥è­˜

Cascade Model ã¨ã¯

Cascade Model ã«é©ç”¨ã™ã‚‹å¤šè…•ãƒãƒ³ãƒ‡ã‚£ãƒƒãƒˆ

Cascading Bandits

Pythonã«ã‚ˆã‚‹CascadeUCB1ã®å®Ÿè£…

Linear Cascading Bandits

CascadeLinTSã®Pythonå®Ÿè£…

ã¾ã¨ã‚

We're hiring !!!

Reference

äº‹å‰çŸ¥è˜

Cascade Model ã¨ã¯

Cascade Model ã«é©ç”¨ã™ã‚‹å¤šè…•ãƒãƒ³ãƒ‡ã‚£ãƒƒãƒˆ

Pythonã«ã‚ˆã‚‹CascadeUCB1ã®å®Ÿè£…

CascadeLinTSã®Pythonå®Ÿè£…

ã¾ã¨ã‚