2010年11月7日日曜日

自然言語処理勉強会@東京に参加しました

@nokunoさん主催の自然言語処理勉強会@東京で「統計的係り受け解析入門」というタイトルで話をしてきました.資料はこちらにおいておきます.CKYアルゴリズムに関して質問が多かったので,説明を加筆しました.



内容は「入門」と銘打っておきながら,3rd order Eisnerまで紹介するアレな内容.どういう方が出席されるかわからなかったので,ちょっと最新の話題も入れてみたかったのでした.もともと社内セミナーで使った資料を半分流用しています.
Eisner法の理解の肝は,三角と台形がCFGにおける非終端記号に相当している,三角が三角と台形に分割されるというルールが,CFGにおける書き換え規則に相当している,という点が理解できれば後はCFGの知識で理解できます.この記法に慣れてくると,例えば3rd orderの論文はほとんど図を見るだけで理解できます :)
割愛しましたが,本当はこのあとスコアをどうやって学習するかという話しに行きます.log-linearにして,微分するとinside-outsideがでてきたり,周辺確率がinsideとoutsideの積で求まったりします.当然logsumexpもつかいますし,動的計画法のオンパレードです.

学会と違って,企業の方が多かったのもありますが,どうやって応用するのかという議論がいたるところでなされました.これは非常に良いことだと思います.学術的には興味を誘わない話題,特に強調した分野適応や辞書リソースの効率的な構築法などは応用上きわめて重要だと考えています.学生時代分野適応なんて,特許かWebデータに適応することだろくらいに高をくくっていましたが,実際には特定分野のお客様(例えば製造業,医療,法律,銀行)にいかに効率的に分野適応できるかが性能の鍵を握っています.こうした問題意識と研究テーマをもっと啓蒙していかないとと思っています.MeCab以来教師あり形態素解析が進んでいませんが,こうした部分でものすごく問題を抱えたまま放置されている気がします.まぁ,自分がやればいいんですけどね.

3 件のコメント:

  1. 気合いの入ったすごい良い資料でEisner系アルゴリズムの理解が深まりました。どうもです。

    引用に入ってなかっただけでご存知かなと思いますがEisnerアルゴリズムをCFGとしてとらえるのは私は以下の論文で勉強しました。
    "Transforming Projective Bilexical Dependency Grammars into efficiently-parsable CFGs with Unfold-Fold", M. Johnson, ACL06

    最近の係り受けの話ではEMNLP10でベストペーパーをとった以下の論文が気になります
    Dual Decomposition for Parsing with Non-Projective Head Automata
    ILPがexactで解け1文あたり数十msで解けていっきにILPが現実的になってきたような気がします(なにより実装が簡単そう)。ほかの構造学習にもいろいろ使えそうです。

    分野適応、辞書リソース、そしてルールベースの手法に関しては私も非常に重要と思っています。ビジネス系の人に聞くとみんなやっているのに表にでてこないので、もっとノウハウを体系化して共有していく必要があると思っています。

    返信削除
  2. はじめまして(自然言語処理勉強会@東京に参加していません)、資料いただきました。勉強させていただきます。

    どうでもいいことですが、Mac OS XのPDFビューアに資料を放り込むとクラッシュします。MacはOS側にPDFビューアがついているので、いたるところでクラッシュがおきます。Macのバグかも知れませんが、ご一報いたします。

    返信削除
  3. >hillbigさん
    情報どうもありがとうございます。Sandra Kublerの教科書にCFGからEisnerまで変形させる話が載ってるんですが、これですね。論文のほうは知らなかったです。記号として三角とかが最初に出てきたのはこれ?
    EMNLP2010のベストペーパーは、昨日shuyoさんの発表で聞いて、あわてて読んでます。20msとか・・・。

    ビジネス系の~というのは、同意しますね。こないだのYANSで、工藤さんたちとしゃべっていたときも、同じような感覚を受けました。あの時していた、回帰テストの話なんかもそうですよね。こうした話題の周辺で、どういう問題があるのか整理したいところです。

    > にーとさん
    マジですか。明日、別の形でアップします。ご報告ありがとうございます。

    返信削除

'},ClipboardSwf:null,Version:'1.5.1'}};dp.SyntaxHighlighter=dp.sh;dp.sh.Toolbar.Commands={ExpandSource:{label:'+ expand source',check:function(highlighter){return highlighter.collapse;},func:function(sender,highlighter) {sender.parentNode.removeChild(sender);highlighter.div.className=highlighter.div.className.replace('collapsed','');}},ViewSource:{label:'view plain',func:function(sender,highlighter) {var code=dp.sh.Utils.FixForBlogger(highlighter.originalCode).replace(/'+code+'');wnd.document.close();}},CopyToClipboard:{label:'copy to clipboard',check:function(){return window.clipboardData!=null||dp.sh.ClipboardSwf!=null;},func:function(sender,highlighter) {var code=dp.sh.Utils.FixForBlogger(highlighter.originalCode).replace(/</g,'<').replace(/>/g,'>').replace(/&/g,'&');if(window.clipboardData) {window.clipboardData.setData('text',code);} else if(dp.sh.ClipboardSwf!=null) {var flashcopier=highlighter.flashCopier;if(flashcopier==null) {flashcopier=document.createElement('div');highlighter.flashCopier=flashcopier;highlighter.div.appendChild(flashcopier);} flashcopier.innerHTML='';} alert('The code is in your clipboard now');}},PrintSource:{label:'print',func:function(sender,highlighter) {var iframe=document.createElement('IFRAME');var doc=null;iframe.style.cssText='position:absolute;width:0px;height:0px;left:-500px;top:-500px;';document.body.appendChild(iframe);doc=iframe.contentWindow.document;dp.sh.Utils.CopyStyles(doc,window.document);doc.write('

'+highlighter.div.innerHTML+'

');doc.close();iframe.contentWindow.focus();iframe.contentWindow.print();alert('Printing...');document.body.removeChild(iframe);}},About:{label:'?',func:function(highlighter) {var wnd=window.open('','_blank','dialog,width=300,height=150,scrollbars=0');var doc=wnd.document;dp.sh.Utils.CopyStyles(doc,window.document);doc.write(dp.sh.Strings.AboutDialog.replace('{V}',dp.sh.Version));doc.close();wnd.focus();}}};dp.sh.Toolbar.Create=function(highlighter) {var div=document.createElement('DIV');div.className='tools';for(var name in dp.sh.Toolbar.Commands) {var cmd=dp.sh.Toolbar.Commands[name];if(cmd.check!=null&&!cmd.check(highlighter)) continue;div.innerHTML+=''+cmd.label+'';} return div;} dp.sh.Toolbar.Command=function(name,sender) {var n=sender;while(n!=null&&n.className.indexOf('dp-highlighter')==-1) n=n.parentNode;if(n!=null) dp.sh.Toolbar.Commands[name].func(sender,n.highlighter);} dp.sh.Utils.CopyStyles=function(destDoc,sourceDoc) {var links=sourceDoc.getElementsByTagName('link');for(var i=0;i');} dp.sh.Utils.FixForBlogger=function(str) {return(dp.sh.isBloggerMode==true)?str.replace(/
|<br\s*\/?>/gi,'\n'):str;} dp.sh.RegexLib={MultiLineCComments:new RegExp('/\\*[\\s\\S]*?\\*/','gm'),SingleLineCComments:new RegExp('//.*$','gm'),SingleLinePerlComments:new RegExp('#.*$','gm'),DoubleQuotedString:new RegExp('"(?:\\.|(\\\\\\")|[^\\""\\n])*"','g'),SingleQuotedString:new RegExp("'(?:\\.|(\\\\\\')|[^\\''\\n])*'",'g')};dp.sh.Match=function(value,index,css) {this.value=value;this.index=index;this.length=value.length;this.css=css;} dp.sh.Highlighter=function() {this.noGutter=false;this.addControls=true;this.collapse=false;this.tabsToSpaces=true;this.wrapColumn=80;this.showColumns=true;} dp.sh.Highlighter.SortCallback=function(m1,m2) {if(m1.indexm2.index) return 1;else {if(m1.lengthm2.length) return 1;} return 0;} dp.sh.Highlighter.prototype.CreateElement=function(name) {var result=document.createElement(name);result.highlighter=this;return result;} dp.sh.Highlighter.prototype.GetMatches=function(regex,css) {var index=0;var match=null;while((match=regex.exec(this.code))!=null) this.matches[this.matches.length]=new dp.sh.Match(match[0],match.index,css);} dp.sh.Highlighter.prototype.AddBit=function(str,css) {if(str==null||str.length==0) return;var span=this.CreateElement('SPAN');str=str.replace(/ /g,' ');str=str.replace(/');if(css!=null) {if((/br/gi).test(str)) {var lines=str.split(' 
');for(var i=0;ic.index)&&(match.index/gi,'\n');var lines=html.split('\n');if(this.addControls==true) this.bar.appendChild(dp.sh.Toolbar.Create(this));if(this.showColumns) {var div=this.CreateElement('div');var columns=this.CreateElement('div');var showEvery=10;var i=1;while(i<=150) {if(i%showEvery==0) {div.innerHTML+=i;i+=(i+'').length;} else {div.innerHTML+='·';i++;}} columns.className='columns';columns.appendChild(div);this.bar.appendChild(columns);} for(var i=0,lineIndex=this.firstLine;i0;i++) {if(Trim(lines[i]).length==0) continue;var matches=regex.exec(lines[i]);if(matches!=null&&matches.length>0) min=Math.min(matches[0].length,min);} if(min>0) for(var i=0;i