実社会・実環境におけるロボットの機械学習 ver. 2

高橋城志（Kuniyuki Takahashi）
Preferred Networks, Inc.
実社会・実環境におけるロボットの機械学習
ROS Japan UG #19 機械学習・AI勉強会
2017年12月7日(木)

自己紹介：高橋城志 (Kuniyuki Takahashi)
<経歴>
- 2007.4 - 2017.3
早稲田大学総合機械工学科 (B.S., M.S., Ph.D.)，菅野研究室＆尾形研究室
- 2015.2 - 2016.3, 2017.2-2017.3
ミュンヘン工科大学, ドイツ; (external Ph.D.)，Prof. Gordon
- 2017.4
Preferred Networks, Inc., リサーチャー
＜研究内容＞
- ロボットの運動生成のための機械学習（RNN, deep learning）
https://sites.google.com/site/kuniyukitakahashi/home
2

Preferred Networks, Inc. (PFN)
• 設立：2014年3月
• 所在地：東京都千代田区大手町（日本）、カリフォルニア州Berkeley（米国）
• 従業員数：100名（エンジニア＆リサーチャー）
• 出資者：NTT（2014年）, FANUC（2015年）, Toyota（2015, 2017年）
• ミッション：IoT時代に向けた新しいコンピュータを創造する
あらゆるモノに知能をもたせ、分散知能を実現する
• 事業内容：IoT (Internet of Things) + 分散機械学習
- 自動運転
- バイオヘルスケア
- 産業用ロボット
Deep learning Industrial IoT
Manufacturing
Automotive
Healthcare
We are hiring!
3

実社会・実環境ロボットにおける機械学習
- これまでのロボット制御
- 機械学習による認識を用いたロボット制御
- 機械学習を用いたロボットの運動生成
本日の内容
4

本日の内容
5

従来のロボット制御のプロセス
認識
計画実行
e.g. 工業用ロボット
軌道計画
逆運動学
…
実物
ロボットが
持つモデル
比較
センサ
引用：http://www.appraccel.com/blog/2017/1/4/freeing-up-humans-to-do-meaningful-work
引用：http://toyota.jp/mirai/grade/引用：http://toyota.jp/mirai/grade/
6

物体操作 & 自由度（Degree of Freedom (DOF)）
物体の位置を一意に決める情報:
物体の座標: x, y, z
物体の姿勢: α, β, γ
物体を操作するための
最小の自由度は６
*必要とされる自由度はタスクに依存
e.g. 書字: 3自由度
(q1, q2, q3, q4, q5, q6)
α
β
γ
x
y
z
X
Y
Z
O
O’
X’
Y’Z’
q1
q6
q3
q4
q5
q2
7

人間の腕の自由度
人間の腕の自由度はいくつか？
A. 7
肩: 3
肘: 2
手首: 2
必要最低限以上の自由度
= 冗長自由度
8

順運動学（Forward Kinematics）
x = L1cosθ1+ L2cos(θ1 + θ2)
y = L1sinθ1 + L2sin(θ1 + θ2)
L1
L2
θ1
θ2
(x, y)
三角関数により，一意に定まる
手先座標関節角度
(θ1, θ2) (x, y)
9

逆運動学（Inverse Kinematics）
L1
L2
(x, y)
θ1 , θ2:余弦定理で計算可能
複数解
θ1 = tan-1(y / x) + β
θ2 = π - α
(θ1, θ2) (x, y)
10

L1
L2
(x, y)
θ1 , θ2 , θ3 : ???
4自由度以上になると解析的に解くのは困難．
特に冗長自由度があると解は定まらない．
(θ1, θ2 , θ3)
L3
(x, y)
11

L1
L2
(x, y)L3
Obstacle
θ1 , θ2 , θ3 : ???
(θ1, θ2 , θ3)
(x, y)
4自由度以上になると解析的に解くのは困難．
特に冗長自由度があると解は定まらない．
12

逆運動学 -数値解析-
L1
L2
q1
q2
(x, y)
(r1, r2)
1. 順運動学の計算
r = f(q)
2. 目標とするrとの差分からqを更新
q’ = q - J(q)-1(r-rref)
J = ∂r / ∂q
↑ Jacobian:
qを微小量動かしたときのrへの影響量
3. rが小さくなるまで繰り返し
ダイナミクスを考え始めると…
13

従来のロボット制御の考え方
実世界の
ハードウェア
ロボットと環境の
“完璧”なモデル
モデルと現実の世界
との差異
14

ロボット分野の成功と失敗
https://www.youtube.com/watch?v=JzlsvFN_5HIhttps://www.youtube.com/watch?v=42MJg1W_B74
https://www.youtube.com/watch?v=0LTn4mFZITE https://www.youtube.com/watch?v=fpF-3orhnjg
15

従来のロボット制御による課題
速さ, 正確さ, コスト効率化…
< 課題 >
モデル化が困難なもの＆センサ情報をどのように扱うか
e.g. ) 不定形物体，高次元なセンサデータ
環境変化への対応が困難
< これまでの工業用ロボット > < これからのロボット >
環境のモデル化
複雑なモデル，少量多品種
環境のモデル化が困難なもの
センサ情報との融合
引用：http://www.appraccel.com/blog/2017/1/4/freeing-up-humans-to-do-meaningful-work
16

本日の内容
17

機械学習による認識を用いたロボット制御プロセス
認識
計画実行
e.g. ビンピッキング
軌道計画
逆運動学
…
センサ
経験による
把持箇所の獲得
18

認識部分の機械学習
Amazon Picking Challenge 2016, 7月 ICRA 2017, 6月
https://www.youtube.com/watch?v=w7NgejZMSsA
PFN PFN
19

認識部分の機械学習：複数の物体（モデル概要）
画像
- セグメンテーション
- (40)クラス分類
把持位置
各ピクセルに対してsoftmax
“End-to-End Learning of Object Grasp Poses in the Amazon Robotics Challenge, ” ICRA2017 workshop
20

Amazon Pick Test Results
Place
1
2
3
4
5
6
7
8
Team
Delft
PFN (Preferred Networks)
NimbRo Picking
MIT
Team K
ACRV
CMU-HARP
C^2M
Score
105
105
97
67
49
42
33
21
21

従来のロボット制御の考え方
実世界の
ハードウェア
ロボットと環境の
“完璧”なモデル
モデルと現実の世界
との差異
22

身体性人工知能（Embodied Artificial Intelligence）
環境
身体
モデル相互作用
モータ
センサ
センサ情報から
モデルの更新
順逆モデル
（Forward/inverse model）
身体と知能は
不可分
23

e.g. Roomba
単純化
モータ
センサ
Subsumption architecture[1] (行動規範型A. I.)
[1] R. Brooks, “A robust layered control system for a mobile robot,” 1986.
身体性人工知能（Embodied Artificial Intelligence）
Credit: iRobot Corporation
24

本日の内容
25

機械学習を用いたロボットの運動生成
研究事例紹介
- 機械学習をロボットに適応するときの課題とその対応
26

機械学習をロボットに適応するときの課題
- 方策を獲得するまでの試行回数の多さ
->実際のロボットで行うと時間がかかる or 壊れる
- シミュレーションと実機との差異
->シミュレーション後の再学習の必要性
- 未知な環境への低適応性
->再学習では即時対応が困難
27

Input
Output
...
Recovered
image
32 x 24 pixels
Input
Output
M(t-
W+1)
I(t-W+1)
M(t-1)
I(t-1)
・・・
M(t)
I(t)
M(t-
W+1)
I(t-W+1)
M(t-1)
I(t-1)
・・・
M(t)
I(t)
Joint angle
(8 dims)
12 layers
1140 dims
W = 30 steps
Image feature
(30 dims)
(a) (b)
・Deep Autoencoder ・・・ (a)
⇒画像特徴量の抽出
⇒画像特徴量から画像の復元
・Deep Time-Delay Autoencoder ・・・ (b)
⇒関節角度と画像特徴量の関係性の学習
...
......
深層学習を用いた動作生成（模倣学習）
28

＜実際の画像＞
＜予測画像＞
＜外部カメラからの画像＞
PR2を用いた実験結果
“深層学習を用いた多自由度ロボットによる柔軟物の折り畳み動作生成, ” IPSJ2016
“Repeatable Folding Task by Humanoid Robot Worker using Deep Learning, ” RA-L2017
https://www.youtube.com/watch?v=LU2nsiz6ISU&list=PLD1ZLEZBjjjPivyK7U-htnL37dqCSJq_b
29

シミュレーションと実世界との差異の低減
“Domain Randomization for Transferring Deep Neural Networks from Simulation to the Real World,” IROS2017
シミュレーション時に画像の色情報を
複数変更することで，実世界でも対応
課題：
環境との相互作用を行うようなもので
はシミュレーションとの差異が顕著に
出る
e.g. 把持，二足歩行
30

31
実機での試行回数の削減（シミュレーション＋実機）
“Using Simulation and Domain Adaptation to Improve Efficiency of Deep Robotic Grasping,” 2017
https://arxiv.org/abs/1709.07857
https://www.youtube.com/watch?v=-k0MdN7vW_M
実機とシミュレーションを学習
に使用することで，実機での
試行回数を削減

“Learning Complex Dexterous Manipulation with Deep Reinforcement Learning and Demonstrations,” 2017
試行回数の削減（教師あり＋強化学習）
人の実演データから次の動作
を真似るポリシーを学習し，そ
こから強化学習すると学習時
間と試行回数を大幅に削減
https://www.youtube.com/watch?v=jJtBll8l_OM
32

未知な環境への即時対応能力
"Map-based Multi-Policy Reinforcement Learning: Enhancing Adaptability of Robots by Deep Reinforcement Learning,” 2017,
Under review in ICRA2018
未知な環境，身体モデルの
変更で対して即時に対応
異なる方策を保存しておくことで実現
https://www.youtube.com/watch?v=qcCepAKL32U
PFN
33

まとめ
ソフトウェアとハードウェアは不可分（身体性）
- 認知部分に機械学習への適応（産業でのホットトピック）
- 制御部分に機械学習への適応（研究でのホットトピック）
- マルチモーダル学習（今後の展望）
e.g. 触覚，音，自然言語，．．． 34

今後の展望：マルチモーダル学習
"Interactively Picking Real-World Objects with Unconstrained Spoken Language Instructions,” 2017,
Under review in ICRA2018
e.g. 自然言語＋ロボット
曖昧な言語指示に対して，
聞き返しを行うアプローチ
https://www.youtube.com/watch?v=_Uyv1XIUqhk&t=19s
PFN
35

まとめ
ソフトウェアとハードウェアは不可分（身体性）
- 認知部分に機械学習への適応（産業でのホットトピック）
- 制御部分に機械学習への適応（研究でのホットトピック）
- マルチモーダル学習（今後の展望）
e.g. 触覚，音，自然言語，．．． Thank you!! 36

実社会・実環境におけるロボットの機械学習 ver. 2

More Related Content

実社会・実環境におけるロボットの機械学習 ver. 2