エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
広告や推薦で使われるバンディットアルゴリズムの論文を読む際に死なないように調べた LinUCB を調べて... 広告や推薦で使われるバンディットアルゴリズムの論文を読む際に死なないように調べた LinUCB を調べて死んだ バンディットアルゴリズム 利得が確率的に決まるものは stochastic,利得が恣意的に決められてしまう(悪魔が決める)ものは adversarial というらしい また,腕を選ぶために専門家がいる場合(context 情報がある場合)は contextual,いない場合には non-contextual と呼ぶらしい*1 epsilon-greedy 確率 epsilon でランダムに腕を選ぶ 確率 1 - epsilon で利得最大の腕を選ぶ ucb(upper confidence bound) 利得と信頼の和が最大の腕を選ぶ 信頼は,その腕をなんども選ぶと小さくなるような項 exp4*2 各腕から得られる文脈情報(context)を利用して,腕を選ぶ 各腕から x の文