2015年9月11日金曜日

認知科学会サマースクールで登壇しました

2015/08/31に、箱根湯本富士屋ホテルで開催された、認知科学会のサマースクールで登壇しました。 内容は最近の自然言語処理関連の、深層学習に関するまとめです。 単語、文法、知識の3つのテーマに対して、埋め込みベクトル、構造の学習(recurrentとrecursive)、知識ベースの学習の3つに分けて話しました。 この1年位で作ったslideのまとめみたいな感じになっています。

Slideshareを見ていただくと分かる通り、ここ1年位は深層学習系の自然言語処理について調べています。 特に注目している理由が2つあって、1つは単語埋め込み(word2vec)の最近の成果があまりにも良かったこと、もう1つはLSTM-RNNの言語モデルがあまりにも良かったこと。 前者は、数百次元程度のベクトルであっても、あれだけの表現力がありえるということが衝撃で、今まで数万以上の次元があるのが普通と思っていたわけですが、それはベクトル空間のポテンシャルを全く引き出せていなかったと(より良い表現があるはずだという議論を、前職の先輩としていたのを思い出します)。 また後者は、既存のN-gram系言語モデルでは絶対に実現できない、入れ子構造(例えば開いた括弧がちゃんと閉じる)が学習できており、文の生成にかんして一歩進んだということを感じさせます。

一方で、スライドの途中にもある通り、言語モデルだけではやはり知的な応用を実現するのは難しく、次にどうしたら良いのかというのが最近思っていることです。 よく思うのは、LSTMは複雑な文の構造を再現する一方で、子供が扱えるような簡単な意味の取り扱いや推論もできません。 そのため、この半年くらい子供の言語獲得などを調べていて、今井むつみ先生の本などを読んでいたら本人がいらっしゃっていてドキドキしてしまった。

ことばの発達の謎を解く (ちくまプリマー新書)ことばの発達の謎を解く (ちくまプリマー新書)
今井 むつみ

筑摩書房 2013-01-09
売り上げランキング : 14595

Amazonで詳しく見る
by G-Tools
新・子どもたちの言語獲得新・子どもたちの言語獲得
小林 春美

大修館書店 2008-03
売り上げランキング : 89046

Amazonで詳しく見る
by G-Tools

こうしたことを考えると、記号接地問題をもっと本気で考えないといけないような気がしていて、分布仮説の延長で記号の中で閉じた議論を進めても進まなくなってしまうんではないかということをちょうど考えていました。 そういうことを考えていたら、ちょうどこのような機会を頂いて、誘っていただいた山川先生や、玉川大の岡田先生らに色々教えていただけたのは大変良かったです。

参加して印象的だったのは、大変議論が白熱していたことでした。 この辺りは、情報系の学会では見られないような光景だったので新鮮でした。 3日後にYANSを控えていたこともあって日帰りでしたが、夕食後もセッションが始まってすごいなぁと。 なるほど、イブニング・セッションという手があったのか・・・。

0 件のコメント:

コメントを投稿

'},ClipboardSwf:null,Version:'1.5.1'}};dp.SyntaxHighlighter=dp.sh;dp.sh.Toolbar.Commands={ExpandSource:{label:'+ expand source',check:function(highlighter){return highlighter.collapse;},func:function(sender,highlighter) {sender.parentNode.removeChild(sender);highlighter.div.className=highlighter.div.className.replace('collapsed','');}},ViewSource:{label:'view plain',func:function(sender,highlighter) {var code=dp.sh.Utils.FixForBlogger(highlighter.originalCode).replace(/'+code+'');wnd.document.close();}},CopyToClipboard:{label:'copy to clipboard',check:function(){return window.clipboardData!=null||dp.sh.ClipboardSwf!=null;},func:function(sender,highlighter) {var code=dp.sh.Utils.FixForBlogger(highlighter.originalCode).replace(/</g,'<').replace(/>/g,'>').replace(/&/g,'&');if(window.clipboardData) {window.clipboardData.setData('text',code);} else if(dp.sh.ClipboardSwf!=null) {var flashcopier=highlighter.flashCopier;if(flashcopier==null) {flashcopier=document.createElement('div');highlighter.flashCopier=flashcopier;highlighter.div.appendChild(flashcopier);} flashcopier.innerHTML='';} alert('The code is in your clipboard now');}},PrintSource:{label:'print',func:function(sender,highlighter) {var iframe=document.createElement('IFRAME');var doc=null;iframe.style.cssText='position:absolute;width:0px;height:0px;left:-500px;top:-500px;';document.body.appendChild(iframe);doc=iframe.contentWindow.document;dp.sh.Utils.CopyStyles(doc,window.document);doc.write('

'+highlighter.div.innerHTML+'

');doc.close();iframe.contentWindow.focus();iframe.contentWindow.print();alert('Printing...');document.body.removeChild(iframe);}},About:{label:'?',func:function(highlighter) {var wnd=window.open('','_blank','dialog,width=300,height=150,scrollbars=0');var doc=wnd.document;dp.sh.Utils.CopyStyles(doc,window.document);doc.write(dp.sh.Strings.AboutDialog.replace('{V}',dp.sh.Version));doc.close();wnd.focus();}}};dp.sh.Toolbar.Create=function(highlighter) {var div=document.createElement('DIV');div.className='tools';for(var name in dp.sh.Toolbar.Commands) {var cmd=dp.sh.Toolbar.Commands[name];if(cmd.check!=null&&!cmd.check(highlighter)) continue;div.innerHTML+=''+cmd.label+'';} return div;} dp.sh.Toolbar.Command=function(name,sender) {var n=sender;while(n!=null&&n.className.indexOf('dp-highlighter')==-1) n=n.parentNode;if(n!=null) dp.sh.Toolbar.Commands[name].func(sender,n.highlighter);} dp.sh.Utils.CopyStyles=function(destDoc,sourceDoc) {var links=sourceDoc.getElementsByTagName('link');for(var i=0;i');} dp.sh.Utils.FixForBlogger=function(str) {return(dp.sh.isBloggerMode==true)?str.replace(/
|<br\s*\/?>/gi,'\n'):str;} dp.sh.RegexLib={MultiLineCComments:new RegExp('/\\*[\\s\\S]*?\\*/','gm'),SingleLineCComments:new RegExp('//.*$','gm'),SingleLinePerlComments:new RegExp('#.*$','gm'),DoubleQuotedString:new RegExp('"(?:\\.|(\\\\\\")|[^\\""\\n])*"','g'),SingleQuotedString:new RegExp("'(?:\\.|(\\\\\\')|[^\\''\\n])*'",'g')};dp.sh.Match=function(value,index,css) {this.value=value;this.index=index;this.length=value.length;this.css=css;} dp.sh.Highlighter=function() {this.noGutter=false;this.addControls=true;this.collapse=false;this.tabsToSpaces=true;this.wrapColumn=80;this.showColumns=true;} dp.sh.Highlighter.SortCallback=function(m1,m2) {if(m1.indexm2.index) return 1;else {if(m1.lengthm2.length) return 1;} return 0;} dp.sh.Highlighter.prototype.CreateElement=function(name) {var result=document.createElement(name);result.highlighter=this;return result;} dp.sh.Highlighter.prototype.GetMatches=function(regex,css) {var index=0;var match=null;while((match=regex.exec(this.code))!=null) this.matches[this.matches.length]=new dp.sh.Match(match[0],match.index,css);} dp.sh.Highlighter.prototype.AddBit=function(str,css) {if(str==null||str.length==0) return;var span=this.CreateElement('SPAN');str=str.replace(/ /g,' ');str=str.replace(/');if(css!=null) {if((/br/gi).test(str)) {var lines=str.split(' 
');for(var i=0;ic.index)&&(match.index/gi,'\n');var lines=html.split('\n');if(this.addControls==true) this.bar.appendChild(dp.sh.Toolbar.Create(this));if(this.showColumns) {var div=this.CreateElement('div');var columns=this.CreateElement('div');var showEvery=10;var i=1;while(i<=150) {if(i%showEvery==0) {div.innerHTML+=i;i+=(i+'').length;} else {div.innerHTML+='·';i++;}} columns.className='columns';columns.appendChild(div);this.bar.appendChild(columns);} for(var i=0,lineIndex=this.firstLine;i0;i++) {if(Trim(lines[i]).length==0) continue;var matches=regex.exec(lines[i]);if(matches!=null&&matches.length>0) min=Math.min(matches[0].length,min);} if(min>0) for(var i=0;i