【DL輪読会】Spectral Normalisation for Deep Reinforcement Learning: An Optimisatio...Deep Learning JP
1. The document summarizes a paper on applying spectral normalization (SN) to deep reinforcement learning. SN improves stability and performance by constraining the width of parameter values.
2. Experiments on Atari games and MinAtar show that applying SN to intermediate layers of value functions outperforms baseline algorithms and expands the range of high-performing Adam hyperparameters.
3. The paper clarifies the relationship between SN and gradient calculation. Proposed methods that schedule learning rates or gradients based on parameter norms can achieve performance equivalent to SN without explicitly applying SN.
1) The document discusses recent advances in deep reinforcement learning algorithms for continuous control tasks. It examines factors like network architecture, reward scaling, random seeds, environments and codebases that impact reproducibility of deep RL results.
2) It analyzes the performance of algorithms like ACKTR, PPO, DDPG and TRPO on benchmarks like Hopper, HalfCheetah and identifies unstable behaviors and unfair comparisons.
3) Simpler approaches like nearest neighbor policies are explored as alternatives to deep networks for solving continuous control tasks, especially in sparse reward settings.
The document discusses the Expectation-Maximization (EM) algorithm and its applications to exponential families (e-models) and mixture models (m-models). It explains that EM iteratively performs an E-step, where the expected value of the latent variables is computed, and an M-step, where the model parameters are re-estimated to maximize the likelihood. For e-models, the E-step finds the distribution that minimizes the Kullback-Leibler divergence from the posterior, while the M-step directly maximizes the likelihood. For m-models, the E-step computes the posterior distribution over components, and the M-step re-estimates the model parameters.
The document discusses the Expectation-Maximization (EM) algorithm and its applications to exponential families (e-models) and mixture models (m-models). It explains that EM iteratively performs an E-step, where the expected value of the latent variables is computed, and an M-step, where the model parameters are re-estimated to maximize the likelihood. For e-models, the E-step finds the distribution that minimizes the Kullback-Leibler divergence from the posterior, while the M-step directly maximizes the likelihood. For m-models, the E-step computes the posterior distribution over components, and the M-step re-estimates the model parameters.
This document provides an introduction to brain profiles and understanding thinking preferences. It discusses:
1. The goals of understanding how individuals think and behave, and how their thinking impacts decisions and relationships, to help people and organizations achieve their full potential.
2. What a brain profile is - it tells your personal thinking preferences and learning/communication styles.
3. Basic brain anatomy facts - the three main parts and two hemispheres which are linked by nerve fibers.
4. A brief history of left/right brain research from the 1800s to present which helped establish cerebral dominance and brain preferences.
5. The triune model of the brain - intermediate, limbic, and rational/intellectual
4. 1. 情報検索の基礎
2. 言語モデル
I. unigramモデルとクエリ尤度ランキング
II. トピックモデル
i. Probabilistic Latent Semantic Analysis
ii. Latent Dirichlet Allocation
3. 情報検索のための機械学習
I. SVMの基礎
II. Learning to Rank
4. (情報検索の評価手法)
4
5. • クエリ,対象データ,ランキング関数,フレー
Q
ムワーク D Rank: Q x D -> R
クエリ システム
ランキングされたデータ 対象
デー
タ
ランキング関数
フレームワーク
Baeza-Yates, R. and Ribeiro-Neto, B. and others, Modern Information Retrieval より
注: 狭義です
5
18. • ランキング関数 = 適合文書である確率/不適合である確
率 P( R | d ) P(d | R)
~
P( NR | d ) P(d | NR )
P( w | R) (1 P( w | R))
w d w d
P( w | NR) (1 P( w | NR))
w d w d
• rw ≡ P(w|R), nw ≡ P(w|NR)として,
rw (1 rw )
w d w d rw (1 nw ) (1 rw )
dに不変
nw (1 nw ) w d nw (1 rw ) w (1 nw )
w d w d 18
19. • クエリ: {田中, 情報学}の場合
– P(q|R)は高そう
• P(田中|R)とP(情報学|R)は高そう
• P(田中|NR)とP(情報学|NR)は普通そう
– P(田中|NR) = (「田中」を含む文書数) / (全文書数)
• P(克己|R)とP(克己|NR)も普通そう (分母=分子.無視)
– 文書d:{田中,克己}のランキング関数値は…
rw (1 nw ) 0.5(1 df (田中) / N )
Rank(q, d )
w d nw (1 rw ) df (田中) / N (1 0.5)
N df (田中) N
1
df (田中) df (田中) idf!
19
21. 1. 情報検索の基礎
2. 言語モデル
I. unigramモデルとクエリ尤度ランキング
II. トピックモデル
i. Probabilistic Latent Semantic Analysis
ii. Latent Dirichlet Allocation
3. 情報検索のための機械学習
I. SVMの基礎
II. Learning to Rank
4. (情報検索の評価手法)
21
32. • n-gramモデル
– 単語は確率的に生成される
• トピックモデル
– 単語はトピックから生成される
• トピック = 単語の生成分布
トピック
Latent Dirichlet Allocation
David M. Blei, Andrew Y. Ng, Michael I. Jordan; JMLR, 3(Jan):993-1022,
2003.
32
43. 1. ランダムにトピックを語に割り当てる
2. For each word in the whole document
I. もう一度トピックサイコロを振り直す.た
だし,
• 他の全ての割り当てが正しいとする
• 対象としている語は観測されているとする
II. トピックを割り当てる
3. ひたすら2を繰り返す
田中克己 喜連川優 宇多田ヒカル 喜連川優
Mr. Children スピッツ Mr. Children 田中克己
田中克己 田中克己
43
44. • もう一度トピックを振り直すときにの確
率
P(zi,j|w, (z-{zi,j}))
– 全ての語wと注目している語のトピック以外
同じ語に何回トピックkが
のトピックが全てわかっているときにそのト
ピックの確率 割り当てられているか?
n (v, k ) v
P ( zi , j k | w, (z {zi , j })) (n(i, k ) k)
( n( r , k ) r )
r
同じ文書内で何回トピックk
全体で何回トピックkが
が
出ているか? 割り当てられているか?
44
46. 1. 情報検索の基礎
2. 言語モデル
I. unigramモデルとクエリ尤度ランキング
II. トピックモデル
i. Probabilistic Latent Semantic Analysis
ii. Latent Dirichlet Allocation
3. 情報検索のための機械学習
I. SVMの基礎
II. Learning to Rank
4. (情報検索の評価手法)
46
50. wTx + b = 0
• 有名な分類モデル wTx + b = +1 wTx + b = -1
• 訓練データ:
– X = {((1, 3), +1), ((3, 4), -1),
((4, 9), +1), ((0, 0), -1),}
• 分類境界: wTx + b = 0
– wTx + b > +1 なら +1
– wTx + b < -1 なら -1
50
51. wTx + b = 0 wTx + b = 0
wTx + b = +1 wTx + b = -1
どの境界面が
一番いい??
マージン最大化
51
52. • 以下の二次計画問題を解くことと等価
2
max マージン最大化
w w
T 訓練データは
s.t. yi (w x i b) 1 全て正しく分類
• ラグランジュの未定乗数法
n
1 T
L ( w , b, a ) w w ai yi w T x i b 1
2 i 1
n
w ai y i x i
i 1
n
1 n n
L' (a) ai ai a j yi y j xT x j
i
i 1 2i 1 j 1 サポートベクター
ai yi (w T x b) 1 0 ai 0 yi (w T x b) 1 52
53. Hang Li, Learning to Rank, ACL-IJCNLP 2009 Tutorial, Aug. 2, 2009 53
58. • SVM 2
max マージン最大化
w w
T 訓練データは
s.t. yi (w x i b) 1 全て正しく分類
• Ranking SVM
2
max
w w
T T
di > djなら
s.t. w xi w xj (di dj) wTxi > wTxj
s.t. yi (wT (xi x j ) 0) 0
yi 1 (d i d j ) otherwise 1
58
60. • 機械学習とは
– 教師あり学習
– 教師なし学習
• SVM
– マージン最大化
• Learning to Rank
– e.g. Ranking SVM
60
61. 1. 情報検索の基礎
2. 言語モデル
I. unigramモデルとクエリ尤度ランキング
II. トピックモデル
i. Probabilistic Latent Semantic Analysis
ii. Latent Dirichlet Allocation
3. 情報検索のための機械学習
I. SVMの基礎
II. Learning to Rank
4. (情報検索の評価手法)
61
66. • 目的の情報が1つ見つかればよいとき
に使う
• 正解情報が第r位に現れたとき逆順位
(RR)は タスク1 タスク2
1 正解
RR
r 正解
• 全タスクの平均を取って平均逆順位
(MRR)でシステムを評価
K RR=1/2 RR=1
1 1
MRR MRR=3/4
K i 1 ri
• とてもブレが大きい
– たくさんのタスクを用意しましょう
66
67. • 比較的再現率を重視する評
価で有効(らしい) 正解 1/2
• 第r位までの適合率をP(r)と
するとAPは
1 L
AP I (r ) P(r ) 正解 2/5
Rr1
– ただし,I(r)は第r位が正解の
とき1 正解 3/7
R=全正解数,L=システム出力
件数
正解 4/9
• 全タスクの平均を取って
MAPでシステムを評価 (よく 全正解数=10なら
AP = (1/2+2/5+3/7+4/9)/10
使われる) 67
68. • とってもメジャー
• Cumulative Gain (CG)
– 累積利得(右図参照)
L
CG( L) g (r )
r 1
• Discounted CG
– 1位に正解 > 2位に正解
L
g (r )
DCG( L)
r 1 log b ( r 1)
酒井哲也: よりよい検索システム実現のために: 正解の良し悪しを考慮した情報検索評価の動向, 情報処理 Vol.47, No.2, pp.147-
68