SlideShare a Scribd company logo
⽂書要約⼊⾨


             NISHIKAWA Hitoshi



2011/09/10         TokyoNLP #7   1
ばくっとした⽂書要約のお話
• 字義の通り 機械(計算機)に⽂書を要
  字義の通り、機械(計算機)に⽂書を要
  約させること
• なんで計算機にそんなことさせるのか?
      – みんな忙しいので⻑い⽂書なんざ読んでいら
        れない(俗なところでは、「今北産業」)
      – 厳 いところでは安全保障上の要請
        厳ついところでは安全保障上の要請
             • アラブ⼈が悪さしてないかアメリカ⼈は知りたい
             • アラビア語で書かれた新聞記事を機械翻訳、英語
               にして⾃動要約 (TIDES program by DARPA)

2011/09/10                TokyoNLP #7             2
ばくっとした⽂書要約のお話
• ⾃然⾔語処理技術(計算機で⾃然⾔語(
  ⽇本語や英語)を扱う技術)の⼀種で、
  機械翻訳などと同様に応⽤側の技術
• 形態素解析など⾃然⾔語処理の様々な基
  礎技術の上に成⽴




2011/09/10   TokyoNLP #7   3
⽂書要約
• 情報のソ スを受け取り そこから内容を抽出し も
  情報のソースを受け取り、そこから内容を抽出し、もっ
  とも重要な内容をユーザに、簡約した形で、かつ、ユー
  ザやアプリケ ションの要求に応じた形で提⽰すること
  ザやアプリケーションの要求に応じた形で提⽰すること
  (Mani, 2001)


                            • 単⼀の、あるいは複
                              数のニュース記事の
                              要約
                            • 情報検索システムや
                              質問応答システムの
                              出⼒部

2011/09/10    TokyoNLP #7                 4
⽬次
• 導⼊
  – ⽂書要約の種類
             • 単 /複数 報知的/指⽰的 抽出的/⽣成的 クエリ⾮依存/クエリ
               単⼀/複数、報知的/指⽰的、抽出的/⽣成的、クエリ⾮依存/クエリ
               依存
      – ⽂書要約の要素技術
             • ⽂分割、⽂短縮、重要⽂抽出、⽂の順序付け
• 具体的な⼿法(重要⽂抽出を中⼼に)
  – ⽬的関数の設計、argmax操作の実⾏
• 要約の評価
  – ROUGE、DUC Linguistic Quality Test
• まとめ

2011/09/10                TokyoNLP #7             5
導⼊


2011/09/10   TokyoNLP #7   6
⽂書要約の種類 1/3
1. ⽬的:指⽰的要約/報知的要約
1 ⽬的 指⽰的要約/報知的要約
      – 指⽰的:原⽂書を読むべきか判断するための
        要約(e.g.新聞の⾒出し)
      – 報知的:原⽂書の代わりとする要約(e.g.
        ニュースの字幕)
2.
2 ⼊⼒:単⼀⽂書要約/複数⽂書要約
      – 単⼀:⼀つの⽂書を要約
      – 複数:⼀つ以上の⽂書を要約


2011/09/10       TokyoNLP #7    7
⽂書要約の種類 2/3
3. 内容:クエリ依存/クエリ⾮依存
3 内容 クエリ依存/クエリ⾮依存
      – クエリ依存:何らかのクエリ(特定の情報へ
        の要求)に対する要約(e.g.スニペット)
      – クエリ⾮依存:特定の情報に依らない要約
4. ⼿法:抽出的要約/⽣成的要約
      – 抽出的要約 原⽂書を⽂に分解し 要約とし
        抽出的要約:原⽂書を⽂に分解し、要約とし
        て相応しい⽂を選び(重要⽂抽出)、それら
        を繋げることで作る要約
        を繋げ  と 作 要約
      – ⽣成的要約:原⽂書にない表現を含む(新し
        い表現を⽣成する)要約
2011/09/10       TokyoNLP #7    8
⽂書要約の種類 3/3
• まとめると こんな感じ
  まとめると、こんな感じ
             1.目的    指示的               報知的
             2.入力     単一                複数
             3 内容
             3.内容   クエリ依存             クエリ非依存
             4.手法    抽出的               生成的

• 今回は「指⽰的」で「クエリ⾮依存」の
  「抽出的要約」の、⼊⼒が単⼀の場合と
  「抽出的要約」の ⼊⼒が単 の場合と
  複数の場合をざっくりとご紹介
2011/09/10              TokyoNLP #7            9
⽂書要約の要素技術 1/6

                      反政府派と大統領派が2日、激しく衝突し
                      多数の死傷者が出たエジプト・カイロは、
     ムバラク大統領に対する      一夜明け、双方で散発的に投石が行われ
                       夜明け 双方で散発的に投石が行われ
                      るなど、緊迫した状態が続いている。
     抗議デモが続くエジプトで、
                      エジプトで続く反政府デモは、2日から3日
     反体制派が4日に大規模
     デモを実施する。大統領
     デ を実施する 大統領      未明にかけて、反政府派と大統領支持派
                      未明にかけて 反政府派と大統領支持派
     に即時退陣を迫る構え。      の衝突に発展し、火炎瓶が建物や車に引
                      火し、至るところで火の手が上がり、黒煙
                      が立ち込めた。




2011/09/10           TokyoNLP #7             10
⽂書要約の要素技術:⽂分割 2/6
                         反政府派と大統領派が2日、激しく衝突し多
                         数の死傷者が出たエジプト・カイロは、一夜
                         明け、双方で散発的に投石が行われるな
      ムバラク大統領に対する        ど、緊迫した状態が続いている。
      抗議デモが続くエジプトで、      エジプトで続く反政府デモは、2日から3日
      反体制派が4日に大規模        未明にかけて、反政府派と大統領支持派
      デモを実施する。大統領        の衝突に発展し、火炎瓶が建物や車に引
      に即時退陣を迫る構え。
                         火し、至るところで火の手が上がり、黒煙が
                         立ち込めた。
                         立ち込めた


                   3. 反政府派と大統領派が2日、激しく衝突し多数の
  1. ムバラク大統領に対する      死傷者が出たエジプト・カイロは、一夜明け、双方
     抗議デモが続くエジプトで、    で散発的に投石が行われるなど、緊迫した状態が
     反体制派が4日に大規模      続いている。
                      続   る
     デモを実施する。      4. エジプトで続く反政府デモは、2日から3日未明に
  2. 大統領に即時退陣を迫る      かけて、反政府派と大統領支持派の衝突に発展し、
     構え。
     構え               火炎瓶が建物や車に引火し、至るところで火の手
                      火炎瓶が建物や車に引火し 至るところで火の手
                      が上がり、黒煙が立ち込めた。
2011/09/10            TokyoNLP #7           11
⽂書要約の要素技術:⽂短縮 3/6

                3a.反政府派と大統領派が2日、激しく衝突し
                   多数の死傷者が出たエジプト・カイロは、
3. 反政府派と大統領
                    夜明け、双方で散発的に投石が行われ
                   一夜明け、双方で散発的に投石が行われ
   派が2日、激しく衝
                   るなど、緊迫した状態が続いている。
   突し多数の死傷者
   が出たエジプト・カイ   3b.多数の死傷者が出たエジプト・カイロは、
                   多数 死傷者 出   ジ      、
   ロは、一夜明け、双
    は   夜明け 双
                   一夜明け、双方で散発的に投石が行われ
   方で散発的に投石        るなど、緊迫した状態が続いている。
   が行われるなど、緊
   迫した状態が続い     3c.エジプト・カイロは、一夜明け、双方で散発
   ている。
                   的に投石が行われるなど、緊迫した状態
                   が続いている。




2011/09/10      TokyoNLP #7           12
⽂書要約の要素技術:重要⽂抽出 4/6
                      3. 反政府派と大統領派が2日、激しく衝突し多
   1.
   1 ムバラク大統領に対する
                         数の死傷者が出たエジプト・カイロは、一夜
      抗議デモが続くエジプトで、
                         明け、双方で散発的に投石が行われるなど、
      反体制派が4日に大規模
                         緊迫した状態が続いている。
      デモを実施する。
      デモを実施する
                      4. エジプトで続く反政府デモは、2日から3日未
   2. 大統領に即時退陣を迫る
                         明にかけて、反政府派と大統領支持派の衝
      構え。
                         突に発展し、火炎瓶が建物や車に引火し、至
                         るところで火の手が上がり、黒煙が立ち込め
                                 が が     が
                         た。



   1. ムバラク大統領に対する     4. エジプトで続く反政府デモは、2日から3日未
      抗議デモが続くエジプトで、
      抗議デモが続くエジプトで       明にかけて、反政府派と大統領支持派の衝
                         明にかけて 反政府派と大統領支持派の衝
      反体制派が4日に大規模        突に発展し、火炎瓶が建物や車に引火し、至
      デモを実施する。           るところで火の手が上がり、黒煙が立ち込め
                         た。

2011/09/10            TokyoNLP #7           13
⽂書要約の要素技術:⽂の順序付け 5/6

    1.
    1 ムバラク大統領に対する      4. エジプトで続く反政府デモは、2日から3日未
                       4 エジプトで続く反政府デモは 2日から3日未
       抗議デモが続くエジプトで、      明にかけて、反政府派と大統領支持派の衝
       反体制派が4日に大規模        突に発展し、火炎瓶が建物や車に引火し、至
       デモを実施する。           るところで火の手が上がり、黒煙が立ち込め
                          た。



         4. エジプトで続く反政府デモは、2日から3日未
            明にかけて、反政府派と大統領支持派の衝
            突に発展し、火炎瓶が建物や車に引火し、至
                     が               ※単一文書
            るところで火の手が上がり、黒煙が立ち込め
            た。                       要約の場合
         1.
         1 ムバラク大統領に対する抗議デモが続くエジ      は不要
            プトで、反体制派が4日に大規模デモを実施
            する。


2011/09/10             TokyoNLP #7           14
⽂書要約の要素技術 6/6
• まとめ
     1. ⽂分割:⽂書を⽂に分割する
     2. ⽂短縮:修飾節を削除するなどして、原⽂よ
        り短い原⽂の「亜種」を作る
     3. 重要⽂抽出:要約に相応しい⽂を選び出す
     4. ⽂の順序付け:選んだ⽂を適切に並べる
     4 ⽂の順序付け 選んだ⽂を適切に並べる
• 今回は特に、重要⽂抽出を中⼼に解説


2011/09/10        TokyoNLP #7   15
具体的な⼿法


2011/09/10   TokyoNLP #7   16
⽂分割
• 句点などを⼿掛かりに⽂章を⽂に分割する
• 「ムバラク⼤統領に対する抗議デモが続くエジプトで、
  反体制派が4⽇に⼤規模デモを実施する。⼤統領に即時
  反体制派が4⽇に⼤規模デモを実施する ⼤統領に即時
  退陣を迫る構え。」
• 切る⽂章の種類によって難しさが変わる
      – 新聞記事は綺麗に書かれているので楽
      – ⽂体が雑になるにつれて⽂境界がよくわからなくなる
• 真⾯⽬にやると⼤変、抽出的要約の場合、⽂分割の性能
  が要約の読みやすさに⼤きく影響
      – 変なところで切ると訳のわからない要約が出来る



2011/09/10        TokyoNLP #7      17
⽂短縮
• ⽂を短くする(そのまま)
      – ⽂の中には⼤切なところと⼤切でないところ
        があるという発想
• 以下の2つの基準で⽂を短くする
      – 重要なところのみを残す
      – ⽂法性を保
        ⽂法性を保つ
• 要約システムに必ず必要というわけでは
  要約     必 必要
  ない

2011/09/10     TokyoNLP #7     18
⽂短縮
• 基本的なアプロ チ 構⽂⽊を枝刈り
  基本的なアプローチ:構⽂⽊を枝刈り
ムバラク大統領に     対する   抗議デモが             続く   エジプトで



               反体制派が         4日に          大規模デモを   実施する。


→○エジプトで反体制派が大規模デモを実施する。
   ジプ      が   デ
→×ムバラク大統領に続く大規模デモを実施する。
中間ノードを落とすと文法性が損なわれたり本来の文意が損なわれたりする
枝刈りされた木に対して言語尤度(文としての良さ)と内容に関するスコア(文が
持っている情報量)を与え良い木を選び出す
持 ている情報量)を与え良い木を選び出す
2011/09/10             TokyoNLP #7                         19
重要⽂抽出
• 要約なので 原⽂書より短くしたい
  要約なので、原⽂書より短くしたい
• どれくらい短くしたいかは外から与えら
  れるものとする
• 基本的には単位はバイト ⽂字数 ⽂数
  基本的には単位はバイト、⽂字数、⽂数




2011/09/10    TokyoNLP #7   20
重要⽂抽出
     文1:10文字   文2:30文字           文3:25字




                100文字


     • 問題としては単純で、制限サイズにうまく収まる
       問題    単純 、制限    う 収 る
       ように文を選ぶ
     • 文の選び方によって要約の良し悪しが決まる
2011/09/10         TokyoNLP #7            21
重要⽂抽出 1/2
• 式を書くと以下のようになる
        S = arg max{ f ( S ) : length( S ) ≤ K }
        ˆ
               S⊆D
• D:原⽂の集合 S:Dの部分集合
  f(S):fに何らかのスコアを与える関数
  length(S):Sの⻑さ K:要約の最⼤サイズ
• すなわち、何らかの⽬的関数fを最⼤化する、要
  約⻑K以内の、⽂の集合Sを探索(argmax)する
  約⻑K以内の ⽂の集合Sを探索(argmax)する
  問題として重要⽂抽出は定式化できる

2011/09/10               TokyoNLP #7               22
重要⽂抽出 2/2

        S = arg max{ f ( S ) : length ( S ) ≤ K }
        ˆ
               S⊆D

• そのため、問題は2つ
   1. ⽬的関数fの設計:いかなる⽂の集合に⾼い得
   1 ⽬的関数f 設計   かなる⽂ 集合に⾼ 得
      点を与えるか?
        1. モデル
        2. パラメタ推定
   2. argmax操作:⽬的関数fを最⼤化する、要約⻑
      以内の⽂集合Sをどう⾼速に探索するか?
2011/09/10                TokyoNLP #7               23
⽬的関数の設計
• まず⾮常に単純に考える
      – 要約のスコア:要約に含まれている⽂のスコ
        アの和
      – ⽂のスコア:⽂が含む内容語のスコア
                             内容語
    ムバラク大統領に対する              ムバラク
    抗議デモが続くエジプトで、            大統領
    反体制派が4日に大規模              対する
    デモを実施する。                 抗議




                              …
                              …
2011/09/10     TokyoNLP #7          24
⽬的関数の設計
                                       内容語    tf‐idf
        1.
        1 ムバラク大統領に対する                  ムバラク    20
           抗議デモが続くエジプトで、
           反体制派が4日に大規模                 大統領      5
           デモを実施する。                    抗議       7




                                        …




                                               …
• ⽂を内容語の集合(bag of words)として表現し、それら
          ( g          )
  の語それぞれに対してtf-idfなどで重みを定義し、⽂が
  含む単語の重みを⽂の重要度とする
    ˆ = arg max ⎧
    S
                                                  ⎫
                ⎨∑∑ tfidf ( w) : length ( S ) ≤ K ⎬
          S⊆D   ⎩ s∈S w∈s                         ⎭
  • s: ⽂、w: 内容語、 tfidf(w): 内容語wのtfidf値
  • 単⼀⽂書要約の場合はこれでよい
    単 ⽂書要約の場合はこれでよい
2011/09/10               TokyoNLP #7                   25
冗⻑性問題
• 複数⽂書要約の場合 「冗⻑性」を考慮
  複数⽂書要約の場合、「冗⻑性」を考慮
  する必要がある
• 複数⽂書要約の場合、⼊⼒中に類似した
  ⽂が含まれる場合がある
• 類似した⽂は類似した得点を与えられる
  ため、⼀⽅が要約に含まれた場合もう⼀
       が 約
  ⽅も要約に含まれる可能性が⾼い


2011/09/10    TokyoNLP #7   26
冗⻑性問題
      ムバラク大統領に対             エジプトではムバラク
      する抗議デモが続くエ            政権に対するデモが
      ジプトで、反体制派が
      ジプトで 反体制派が            続いている。
      4日に大規模デモを
      実施する。

   • 両⽅が要約に含まれた場合、無駄(冗⻑という⾔
     い⽅をする)
   • この冗⻑性を除去したい




2011/09/10         TokyoNLP #7           27
単純な解法
• 選択した⽂間に類似度を定義、これまで
  選択した⽂と類似した⽂が選ばれたらス
  コアが下がるようにする

 ˆ = arg max ⎧ score ( s ) −
                 ⎨∑
                                                               ⎫
S                                    ∑t )∈S
                                          similarity ( s , t ) ⎬
         S⊆D     ⎩ s∈ S      ( s , t :s ≠                      ⎭
s.t .length ( S ) ≤ K

• M i
  Maximum Marginal Relevance (MMR)
          M   i lR l
  という (Carbonell et al., 1998)
2011/09/10                    TokyoNLP #7                          28
argmax操作

        S = arg max{ f ( S ) : length ( S ) ≤ K }
        ˆ
               S⊆D




• 無事⽬的関数を作ることができたら次は
  argmax操作について考える
        操作に   考え



2011/09/10                TokyoNLP #7               29
argmax操作 1/3
                               文番号   重要度   長さ
                                1    20    30

• 要約⻑40とする
                                2    15    20
                                3    10    15
• 貪欲法                           4     4    6

      1. ⽂1を選ぶ(合計スコア20、⻑さ30)
      1 ⽂1を選ぶ(合計スコア20 ⻑さ30)
      2. ⽂4を選ぶ(合計スコア24、⻑さ36)
• しかし最適解に辿り着ける保証はない
      1. ⽂2を選ぶ(合計スコア15、⻑さ20)
      2. ⽂3を選ぶ(合計スコア25、⻑さ35)
• 最適解はどうすれば⾒つかるか?
2011/09/10       TokyoNLP #7                    30
argmax操作 2/3

• ⼀番網羅的な⽅法は「全ての組み合わせ
  を試す」こと
• 4つの⽂から2つ選ぶ問題ならば:4C2で6
  通り
• 100⽂から10⽂選ぶ問題なら?:100C10で
     ⽂から ⽂選ぶ問題なら
  1.73103095 × 1013通り
• 実⽤的な時間で求解不能

2011/09/10       TokyoNLP #7   31
argmax操作 3/3
• 「100⽂から10⽂選ぶ問題なら?」
• ある⽬的関数を最⼤化する⽂の組み合わ
  せを探索する問題となる
• 組み合わせ最適化の 種と⾒なすことが
  組み合わせ最適化の⼀種と⾒なすことが
  でき、組み合わせ最適化問題として解く
  ことができる
     が



2011/09/10       TokyoNLP #7   32
いろいろなアルゴリズム
• 貪欲法
      – スコアで⽂をソート、スコアが⾼いものから
        選んでいく
• 性能保証付き貪欲法
      – ⽂のスコアを⽂のコスト(⻑さ)で割ったも
        ので⽂をソート
        ので⽂をソ ト
      – スコアが⾼いものから選んでいく



2011/09/10       TokyoNLP #7   33
いろいろなアルゴリズム
• 動的計画法
      – 冗⻑性を考慮しない場合(スコア関数が単純
        な場合)⾼速に最適解を求めることができる
• 整数計画法
• 劣モジュラ最適化
      – 最適化しやすいように⽬的関数を⼯夫する
      – ⽬的関数が劣モジュラ性を持つ(劣モジュラ
        ⽬的関数が劣モジュラ性を持 (劣モジュラ
        関数)である場合、性能保証付き貪欲法など
        で最適解が得られる可能性が⾼
        で最適解が得られる可能性が⾼い
2011/09/10       TokyoNLP #7   34
⽂を並べる
• 無事 要約に⼊れる⽂を選んだら それ
  無事、要約に⼊れる⽂を選んだら、それ
  らを並べる
• 単⼀⽂書要約の場合は、元の⽂書と同じ
  順序で並べれば良い
      – 10⽂から3番めと7番⽬の⽂を選んだら、3番
        ⽬→7番⽬と並べれば良い
        ⽬ 7番⽬と並べれば良い
• 問題は複数⽂書要約の場合


2011/09/10      TokyoNLP #7   35
⽂を並べる
• S t
  Sentence ordering というタスク
             d i
• いくつかのアプローチがある
  いく かのアプロ チがある
• タイムスタンプ順
      – ⽂を選ん きた元⽂書 タイムスタンプ順に
        ⽂を選んできた元⽂書のタイムスタンプ順に
        並べる
      – 同じ⽂書から選ばれた⽂は⽂番号が⼩さい⽅
      – 新聞が対象の場合は問題ない



2011/09/10     TokyoNLP #7     36
• 統計モデルの導⼊
      – ⽂の間に連接コストを導⼊
                               • 文1は文2とより繋がりや
             2   文2              すい、といった統計量を計
                                 算
       文1
                               • それに従ってコストを最小
                 文3              化するように文を並 る
                                 化するように文を並べる
             3

      – グラフの探索に帰着(巡回セールスマン問題)
      – またもや計算量が多いので⼯夫が必要

2011/09/10       TokyoNLP #7                37
重要⽂抽出
• まとめ
      1. 重要⽂抽出は要約⻑以内の、⽬的関数を最⼤化する
         ⽂の集合を選ぶ問題とみなせる
      2. ⽬的関数は、単純にはtf-idfなどで単語に重みづけ
         し、その和を⽂の重要度とするなどできる
         し その和を⽂の重要度とするなどできる
      3. ⽬的関数を最⼤化する⽂の集合を効率的に選び出す
         ことは難しい(貪欲法などで素早く選べるが、⽬的
         ことは難しい(貪欲法などで素早く選べるが ⽬的
         関数を最⼤化するとは限らない)
      4. 重要⽂抽出は組み合わせ最適化問題とみなすことが
         できる


2011/09/10        TokyoNLP #7     38
要約の評価


2011/09/10   TokyoNLP #7   39
要約の評価
• 要約の評価は2種類に分かれる
      1. 内容的品質:原⽂書の内容を適切に反映し
         た要約になっているか?
      2. ⾔語的品質:読みやすい要約になっている
         か?




2011/09/10     TokyoNLP #7     40
内容的品質
• 内容的品質には⾃動評価尺度が存在
• ROUGE (Lin, 2004)
                                     人間による要約
      機械による要約
4. エジプトで続く反政府デモは、2                 ムバラク大統領に対する抗議デモ
   日から3日未明にかけて、反政
   日から3日未明にかけて 反政                  が続くエジプトで 2日から3日未明
                                   が続くエジプトで、2日から3日未明
   府派と大統領支持派の衝突に                   にかけて、反政府派と大統領支持
   発展し、火炎瓶が建物や車に引                  派の衝突が発生した。衝突の際に
   火し、至るところで火の手が上
   火し 至るところで火の手が上                  は、火炎瓶が建物や車に引火し、
   がり、黒煙が立ち込めた。                    至るところで火の手が上がり、黒煙
1. ムバラク大統領に対する抗議デ                  が立ち込めた。更に4日には、反体
   モが続くエジプトで、反体制派が
   モが続くエジプトで 反体制派が                 制派 大規模デ
                                   制派が大規模デモの実施を計画し
                                              実施を計画
   4日に大規模デモを実施する。                  ている。

• ⼈間による要約とのn-gram類似度を計算
  ⼈間による要約とのn gram類似度を計算
2011/09/10           TokyoNLP #7                   41
⾔語的品質
• ⾃動評価法はまだ確⽴されておらず ホ トな研究トピ
  ⾃動評価法はまだ確⽴されておらず、ホットな研究トピ
  ック
• ⼈⼿によって以下の5尺度を評価することが⼀般的
      1.     ⽂法性:⽂法的でない⽂が含まれていないか?
      2.     冗⻑性:全く同じ情報が繰り返されていないか?
      3.     照応・省略:先⾏詞のない指⽰詞が含まれていないか?
      4.     焦点:要約全体と無関係な情報が含まれていないか?
      5.     構造と結束性:接続詞を補ったり削除したりする必要のある箇
             所はないか?




2011/09/10             TokyoNLP #7      42
要約の評価
• まとめ
      1. 要約の評価は内容的品質と⾔語的品質に分
         かれる
      2. 内容的品質は⾃動評価尺度が存在する
      3. ⾔語的品質には⾃動評価尺度がなく、ホッ
         トな研究トピックである




2011/09/10     TokyoNLP #7     43
まとめ
• ⽂書要約とは、受け取った情報の最も重要な部
  分を簡約した形でユーザの要求に応じ提供する
  分を簡約した形   ザ 要求に応じ提供する
  ことである
• ⽂書要約の中⼼的なアプローチは重要⽂抽出で
  ある
• 重要⽂抽出は組み合わせ最適化問題とみなすこ
  とができる
• 要約の内容的品質については⾃動評価法が存在
  するが、⾔語的品質については⾃動評価はまだ
  確⽴されていない

2011/09/10   TokyoNLP #7   44
要約の⾯⽩さ
• ⽂より⼤きい単位(⽂章)を扱うこと
      – NLP タスクは⽂内に閉じたタスクが多い
      – ⽂より⼤きい単位を扱う⾯⽩さ
• ⽂章が出てくる
      – ⾃然⾔語の出⼒が出てくる⾯⽩さ
      – ただしその分評価は難しくなる
• 計算量との戦い


2011/09/10      TokyoNLP #7    45
御清聴ありがとうございました




2011/09/10         TokyoNLP #7   46
参考⽂献
• C b
  Carbonell, J i
           ll Jaime and G ld t i J d 1998 Th
                      d Goldstein, Jade. 1998. The
  use of MMR, diversity-based reranking for
  reordering documents and producing summaries
                                        summaries.
  In Proc. Of SIGIR.
• Lin, Chin-Yew. 2004. ROUGE: A Package for
       Chin Yew.
  Automatic Evaluation of Summaries. In Proc. of
  ACL Workshop on Text Summarization.
• Mani, Inderjeet. 2001. Automatic Summarization.
  John Benjamins Publishing Company.




2011/09/10             TokyoNLP #7                   47

More Related Content

Viewers also liked (20)

アメリカ大学院留学・ハーバード社会起業大会 報告会
アメリカ大学院留学・ハーバード社会起業大会 報告会アメリカ大学院留学・ハーバード社会起業大会 報告会
アメリカ大学院留学・ハーバード社会起業大会 報告会
YutakaTanabe
 
形態素列パターンマッチャーMIURAをつくりました @DSIRNLP#6
形態素列パターンマッチャーMIURAをつくりました @DSIRNLP#6形態素列パターンマッチャーMIURAをつくりました @DSIRNLP#6
形態素列パターンマッチャーMIURAをつくりました @DSIRNLP#6
Yuya Unno
 
Text Summarization
Text SummarizationText Summarization
Text Summarization
Prabhakar Bikkaneti
 
Automatic Summarizaton Tutorial
Automatic Summarizaton TutorialAutomatic Summarizaton Tutorial
Automatic Summarizaton Tutorial
Shilpa Subrahmanyam
 
Automatic Text Summarization
Automatic Text SummarizationAutomatic Text Summarization
Automatic Text Summarization
HimanshuPu
 
ヤフオク!と機械学習#yjdsw1
ヤフオク!と機械学習#yjdsw1ヤフオク!と機械学習#yjdsw1
ヤフオク!と機械学習#yjdsw1
Yahoo!デベロッパーネットワーク
 
SapporoR#6 初心者セッションスライド
SapporoR#6 初心者セッションスライドSapporoR#6 初心者セッションスライド
SapporoR#6 初心者セッションスライド
Hiroshi Shimizu
 
Java → Kotlin 変換 そのあとに。
Java → Kotlin 変換 そのあとに。Java → Kotlin 変換 そのあとに。
Java → Kotlin 変換 そのあとに。
Kenichi Tatsuhama
 
TEXT SUMMARIZATION
TEXT SUMMARIZATIONTEXT SUMMARIZATION
TEXT SUMMARIZATION
Aman Sadhwani
 
Rで学ぶ回帰分析と単位根検定
Rで学ぶ回帰分析と単位根検定Rで学ぶ回帰分析と単位根検定
Rで学ぶ回帰分析と単位根検定
Nagi Teramo
 
Automatic Document Summarization
Automatic Document SummarizationAutomatic Document Summarization
Automatic Document Summarization
Findwise
 
Response Summarizer: An Automatic Summarization System of Call Center Convers...
Response Summarizer: An Automatic Summarization System of Call Center Convers...Response Summarizer: An Automatic Summarization System of Call Center Convers...
Response Summarizer: An Automatic Summarization System of Call Center Convers...
Preferred Networks
 
ChainerによるRNN翻訳モデルの実装+@
ChainerによるRNN翻訳モデルの実装+@ChainerによるRNN翻訳モデルの実装+@
ChainerによるRNN翻訳モデルの実装+@
Yusuke Oda
 
Text Summarization
Text SummarizationText Summarization
Text Summarization
Carlos Castillo (ChaTo)
 
さくっとはじめるテキストマイニング(R言語)  スタートアップ編
さくっとはじめるテキストマイニング(R言語)  スタートアップ編さくっとはじめるテキストマイニング(R言語)  スタートアップ編
さくっとはじめるテキストマイニング(R言語)  スタートアップ編
Yutaka Shimada
 
Spark Streamingを使ってみた ~Twitterリアルタイムトレンドランキング~
Spark Streamingを使ってみた ~Twitterリアルタイムトレンドランキング~Spark Streamingを使ってみた ~Twitterリアルタイムトレンドランキング~
Spark Streamingを使ってみた ~Twitterリアルタイムトレンドランキング~
sugiyama koki
 
広告におけるビッグデータの分析事例
広告におけるビッグデータの分析事例広告におけるビッグデータの分析事例
広告におけるビッグデータの分析事例
Ken Takao
 
FIT2012招待講演「異常検知技術のビジネス応用最前線」
FIT2012招待講演「異常検知技術のビジネス応用最前線」FIT2012招待講演「異常検知技術のビジネス応用最前線」
FIT2012招待講演「異常検知技術のビジネス応用最前線」
Shohei Hido
 
アメリカ大学院留学・ハーバード社会起業大会 報告会
アメリカ大学院留学・ハーバード社会起業大会 報告会アメリカ大学院留学・ハーバード社会起業大会 報告会
アメリカ大学院留学・ハーバード社会起業大会 報告会
YutakaTanabe
 
形態素列パターンマッチャーMIURAをつくりました @DSIRNLP#6
形態素列パターンマッチャーMIURAをつくりました @DSIRNLP#6形態素列パターンマッチャーMIURAをつくりました @DSIRNLP#6
形態素列パターンマッチャーMIURAをつくりました @DSIRNLP#6
Yuya Unno
 
Automatic Text Summarization
Automatic Text SummarizationAutomatic Text Summarization
Automatic Text Summarization
HimanshuPu
 
SapporoR#6 初心者セッションスライド
SapporoR#6 初心者セッションスライドSapporoR#6 初心者セッションスライド
SapporoR#6 初心者セッションスライド
Hiroshi Shimizu
 
Java → Kotlin 変換 そのあとに。
Java → Kotlin 変換 そのあとに。Java → Kotlin 変換 そのあとに。
Java → Kotlin 変換 そのあとに。
Kenichi Tatsuhama
 
Rで学ぶ回帰分析と単位根検定
Rで学ぶ回帰分析と単位根検定Rで学ぶ回帰分析と単位根検定
Rで学ぶ回帰分析と単位根検定
Nagi Teramo
 
Automatic Document Summarization
Automatic Document SummarizationAutomatic Document Summarization
Automatic Document Summarization
Findwise
 
Response Summarizer: An Automatic Summarization System of Call Center Convers...
Response Summarizer: An Automatic Summarization System of Call Center Convers...Response Summarizer: An Automatic Summarization System of Call Center Convers...
Response Summarizer: An Automatic Summarization System of Call Center Convers...
Preferred Networks
 
ChainerによるRNN翻訳モデルの実装+@
ChainerによるRNN翻訳モデルの実装+@ChainerによるRNN翻訳モデルの実装+@
ChainerによるRNN翻訳モデルの実装+@
Yusuke Oda
 
さくっとはじめるテキストマイニング(R言語)  スタートアップ編
さくっとはじめるテキストマイニング(R言語)  スタートアップ編さくっとはじめるテキストマイニング(R言語)  スタートアップ編
さくっとはじめるテキストマイニング(R言語)  スタートアップ編
Yutaka Shimada
 
Spark Streamingを使ってみた ~Twitterリアルタイムトレンドランキング~
Spark Streamingを使ってみた ~Twitterリアルタイムトレンドランキング~Spark Streamingを使ってみた ~Twitterリアルタイムトレンドランキング~
Spark Streamingを使ってみた ~Twitterリアルタイムトレンドランキング~
sugiyama koki
 
広告におけるビッグデータの分析事例
広告におけるビッグデータの分析事例広告におけるビッグデータの分析事例
広告におけるビッグデータの分析事例
Ken Takao
 
FIT2012招待講演「異常検知技術のビジネス応用最前線」
FIT2012招待講演「異常検知技術のビジネス応用最前線」FIT2012招待講演「異常検知技術のビジネス応用最前線」
FIT2012招待講演「異常検知技術のビジネス応用最前線」
Shohei Hido
 

Recently uploaded (9)

ElasticsearchでSPLADEする [Search Engineering Tech Talk 2025 Winter]
ElasticsearchでSPLADEする [Search Engineering Tech Talk 2025 Winter]ElasticsearchでSPLADEする [Search Engineering Tech Talk 2025 Winter]
ElasticsearchでSPLADEする [Search Engineering Tech Talk 2025 Winter]
kota usuha
 
PostgreSQL最新動向 ~カラムナストアから生成AI連携まで~ (Open Source Conference 2025 Tokyo/Spring ...
PostgreSQL最新動向 ~カラムナストアから生成AI連携まで~ (Open Source Conference 2025 Tokyo/Spring ...PostgreSQL最新動向 ~カラムナストアから生成AI連携まで~ (Open Source Conference 2025 Tokyo/Spring ...
PostgreSQL最新動向 ~カラムナストアから生成AI連携まで~ (Open Source Conference 2025 Tokyo/Spring ...
NTT DATA Technology & Innovation
 
【修士論文】帝国議会および国会議事速記録における可能表現の長期的変遷に関する研究
【修士論文】帝国議会および国会議事速記録における可能表現の長期的変遷に関する研究【修士論文】帝国議会および国会議事速記録における可能表現の長期的変遷に関する研究
【修士論文】帝国議会および国会議事速記録における可能表現の長期的変遷に関する研究
harmonylab
 
IchiiRikisuke_理学療法士間の知識共有に向けた臨床推論テキストの構造化に関する研究.pdf
IchiiRikisuke_理学療法士間の知識共有に向けた臨床推論テキストの構造化に関する研究.pdfIchiiRikisuke_理学療法士間の知識共有に向けた臨床推論テキストの構造化に関する研究.pdf
IchiiRikisuke_理学療法士間の知識共有に向けた臨床推論テキストの構造化に関する研究.pdf
Matsushita Laboratory
 
IoT Devices Compliant with JC-STAR Using Linux as a Container OS
IoT Devices Compliant with JC-STAR Using Linux as a Container OSIoT Devices Compliant with JC-STAR Using Linux as a Container OS
IoT Devices Compliant with JC-STAR Using Linux as a Container OS
Tomohiro Saneyoshi
 
Apache Sparkに対するKubernetesのNUMAノードを意識したリソース割り当ての性能効果 (Open Source Conference ...
Apache Sparkに対するKubernetesのNUMAノードを意識したリソース割り当ての性能効果 (Open Source Conference ...Apache Sparkに対するKubernetesのNUMAノードを意識したリソース割り当ての性能効果 (Open Source Conference ...
Apache Sparkに対するKubernetesのNUMAノードを意識したリソース割り当ての性能効果 (Open Source Conference ...
NTT DATA Technology & Innovation
 
ドメインモデリング基本編①~全体の流れ2025_02_27社内向け開催.pptx
ドメインモデリング基本編①~全体の流れ2025_02_27社内向け開催.pptxドメインモデリング基本編①~全体の流れ2025_02_27社内向け開催.pptx
ドメインモデリング基本編①~全体の流れ2025_02_27社内向け開催.pptx
ssuserfcafd1
 
【修士論文】競輪における注目レース選定とLLMを用いたレース紹介記事生成に関する研究
【修士論文】競輪における注目レース選定とLLMを用いたレース紹介記事生成に関する研究【修士論文】競輪における注目レース選定とLLMを用いたレース紹介記事生成に関する研究
【修士論文】競輪における注目レース選定とLLMを用いたレース紹介記事生成に関する研究
harmonylab
 
20250222_neko_IoTLT_vol10_kitazaki_v1.pdf
20250222_neko_IoTLT_vol10_kitazaki_v1.pdf20250222_neko_IoTLT_vol10_kitazaki_v1.pdf
20250222_neko_IoTLT_vol10_kitazaki_v1.pdf
Ayachika Kitazaki
 
ElasticsearchでSPLADEする [Search Engineering Tech Talk 2025 Winter]
ElasticsearchでSPLADEする [Search Engineering Tech Talk 2025 Winter]ElasticsearchでSPLADEする [Search Engineering Tech Talk 2025 Winter]
ElasticsearchでSPLADEする [Search Engineering Tech Talk 2025 Winter]
kota usuha
 
PostgreSQL最新動向 ~カラムナストアから生成AI連携まで~ (Open Source Conference 2025 Tokyo/Spring ...
PostgreSQL最新動向 ~カラムナストアから生成AI連携まで~ (Open Source Conference 2025 Tokyo/Spring ...PostgreSQL最新動向 ~カラムナストアから生成AI連携まで~ (Open Source Conference 2025 Tokyo/Spring ...
PostgreSQL最新動向 ~カラムナストアから生成AI連携まで~ (Open Source Conference 2025 Tokyo/Spring ...
NTT DATA Technology & Innovation
 
【修士論文】帝国議会および国会議事速記録における可能表現の長期的変遷に関する研究
【修士論文】帝国議会および国会議事速記録における可能表現の長期的変遷に関する研究【修士論文】帝国議会および国会議事速記録における可能表現の長期的変遷に関する研究
【修士論文】帝国議会および国会議事速記録における可能表現の長期的変遷に関する研究
harmonylab
 
IchiiRikisuke_理学療法士間の知識共有に向けた臨床推論テキストの構造化に関する研究.pdf
IchiiRikisuke_理学療法士間の知識共有に向けた臨床推論テキストの構造化に関する研究.pdfIchiiRikisuke_理学療法士間の知識共有に向けた臨床推論テキストの構造化に関する研究.pdf
IchiiRikisuke_理学療法士間の知識共有に向けた臨床推論テキストの構造化に関する研究.pdf
Matsushita Laboratory
 
IoT Devices Compliant with JC-STAR Using Linux as a Container OS
IoT Devices Compliant with JC-STAR Using Linux as a Container OSIoT Devices Compliant with JC-STAR Using Linux as a Container OS
IoT Devices Compliant with JC-STAR Using Linux as a Container OS
Tomohiro Saneyoshi
 
Apache Sparkに対するKubernetesのNUMAノードを意識したリソース割り当ての性能効果 (Open Source Conference ...
Apache Sparkに対するKubernetesのNUMAノードを意識したリソース割り当ての性能効果 (Open Source Conference ...Apache Sparkに対するKubernetesのNUMAノードを意識したリソース割り当ての性能効果 (Open Source Conference ...
Apache Sparkに対するKubernetesのNUMAノードを意識したリソース割り当ての性能効果 (Open Source Conference ...
NTT DATA Technology & Innovation
 
ドメインモデリング基本編①~全体の流れ2025_02_27社内向け開催.pptx
ドメインモデリング基本編①~全体の流れ2025_02_27社内向け開催.pptxドメインモデリング基本編①~全体の流れ2025_02_27社内向け開催.pptx
ドメインモデリング基本編①~全体の流れ2025_02_27社内向け開催.pptx
ssuserfcafd1
 
【修士論文】競輪における注目レース選定とLLMを用いたレース紹介記事生成に関する研究
【修士論文】競輪における注目レース選定とLLMを用いたレース紹介記事生成に関する研究【修士論文】競輪における注目レース選定とLLMを用いたレース紹介記事生成に関する研究
【修士論文】競輪における注目レース選定とLLMを用いたレース紹介記事生成に関する研究
harmonylab
 
20250222_neko_IoTLT_vol10_kitazaki_v1.pdf
20250222_neko_IoTLT_vol10_kitazaki_v1.pdf20250222_neko_IoTLT_vol10_kitazaki_v1.pdf
20250222_neko_IoTLT_vol10_kitazaki_v1.pdf
Ayachika Kitazaki
 

Introduction to Automatic Summarization

  • 1. ⽂書要約⼊⾨ NISHIKAWA Hitoshi 2011/09/10 TokyoNLP #7 1
  • 2. ばくっとした⽂書要約のお話 • 字義の通り 機械(計算機)に⽂書を要 字義の通り、機械(計算機)に⽂書を要 約させること • なんで計算機にそんなことさせるのか? – みんな忙しいので⻑い⽂書なんざ読んでいら れない(俗なところでは、「今北産業」) – 厳 いところでは安全保障上の要請 厳ついところでは安全保障上の要請 • アラブ⼈が悪さしてないかアメリカ⼈は知りたい • アラビア語で書かれた新聞記事を機械翻訳、英語 にして⾃動要約 (TIDES program by DARPA) 2011/09/10 TokyoNLP #7 2
  • 3. ばくっとした⽂書要約のお話 • ⾃然⾔語処理技術(計算機で⾃然⾔語( ⽇本語や英語)を扱う技術)の⼀種で、 機械翻訳などと同様に応⽤側の技術 • 形態素解析など⾃然⾔語処理の様々な基 礎技術の上に成⽴ 2011/09/10 TokyoNLP #7 3
  • 4. ⽂書要約 • 情報のソ スを受け取り そこから内容を抽出し も 情報のソースを受け取り、そこから内容を抽出し、もっ とも重要な内容をユーザに、簡約した形で、かつ、ユー ザやアプリケ ションの要求に応じた形で提⽰すること ザやアプリケーションの要求に応じた形で提⽰すること (Mani, 2001) • 単⼀の、あるいは複 数のニュース記事の 要約 • 情報検索システムや 質問応答システムの 出⼒部 2011/09/10 TokyoNLP #7 4
  • 5. ⽬次 • 導⼊ – ⽂書要約の種類 • 単 /複数 報知的/指⽰的 抽出的/⽣成的 クエリ⾮依存/クエリ 単⼀/複数、報知的/指⽰的、抽出的/⽣成的、クエリ⾮依存/クエリ 依存 – ⽂書要約の要素技術 • ⽂分割、⽂短縮、重要⽂抽出、⽂の順序付け • 具体的な⼿法(重要⽂抽出を中⼼に) – ⽬的関数の設計、argmax操作の実⾏ • 要約の評価 – ROUGE、DUC Linguistic Quality Test • まとめ 2011/09/10 TokyoNLP #7 5
  • 6. 導⼊ 2011/09/10 TokyoNLP #7 6
  • 7. ⽂書要約の種類 1/3 1. ⽬的:指⽰的要約/報知的要約 1 ⽬的 指⽰的要約/報知的要約 – 指⽰的:原⽂書を読むべきか判断するための 要約(e.g.新聞の⾒出し) – 報知的:原⽂書の代わりとする要約(e.g. ニュースの字幕) 2. 2 ⼊⼒:単⼀⽂書要約/複数⽂書要約 – 単⼀:⼀つの⽂書を要約 – 複数:⼀つ以上の⽂書を要約 2011/09/10 TokyoNLP #7 7
  • 8. ⽂書要約の種類 2/3 3. 内容:クエリ依存/クエリ⾮依存 3 内容 クエリ依存/クエリ⾮依存 – クエリ依存:何らかのクエリ(特定の情報へ の要求)に対する要約(e.g.スニペット) – クエリ⾮依存:特定の情報に依らない要約 4. ⼿法:抽出的要約/⽣成的要約 – 抽出的要約 原⽂書を⽂に分解し 要約とし 抽出的要約:原⽂書を⽂に分解し、要約とし て相応しい⽂を選び(重要⽂抽出)、それら を繋げることで作る要約 を繋げ と 作 要約 – ⽣成的要約:原⽂書にない表現を含む(新し い表現を⽣成する)要約 2011/09/10 TokyoNLP #7 8
  • 9. ⽂書要約の種類 3/3 • まとめると こんな感じ まとめると、こんな感じ 1.目的 指示的 報知的 2.入力 単一 複数 3 内容 3.内容 クエリ依存 クエリ非依存 4.手法 抽出的 生成的 • 今回は「指⽰的」で「クエリ⾮依存」の 「抽出的要約」の、⼊⼒が単⼀の場合と 「抽出的要約」の ⼊⼒が単 の場合と 複数の場合をざっくりとご紹介 2011/09/10 TokyoNLP #7 9
  • 10. ⽂書要約の要素技術 1/6 反政府派と大統領派が2日、激しく衝突し 多数の死傷者が出たエジプト・カイロは、 ムバラク大統領に対する 一夜明け、双方で散発的に投石が行われ 夜明け 双方で散発的に投石が行われ るなど、緊迫した状態が続いている。 抗議デモが続くエジプトで、 エジプトで続く反政府デモは、2日から3日 反体制派が4日に大規模 デモを実施する。大統領 デ を実施する 大統領 未明にかけて、反政府派と大統領支持派 未明にかけて 反政府派と大統領支持派 に即時退陣を迫る構え。 の衝突に発展し、火炎瓶が建物や車に引 火し、至るところで火の手が上がり、黒煙 が立ち込めた。 2011/09/10 TokyoNLP #7 10
  • 11. ⽂書要約の要素技術:⽂分割 2/6 反政府派と大統領派が2日、激しく衝突し多 数の死傷者が出たエジプト・カイロは、一夜 明け、双方で散発的に投石が行われるな ムバラク大統領に対する ど、緊迫した状態が続いている。 抗議デモが続くエジプトで、 エジプトで続く反政府デモは、2日から3日 反体制派が4日に大規模 未明にかけて、反政府派と大統領支持派 デモを実施する。大統領 の衝突に発展し、火炎瓶が建物や車に引 に即時退陣を迫る構え。 火し、至るところで火の手が上がり、黒煙が 立ち込めた。 立ち込めた 3. 反政府派と大統領派が2日、激しく衝突し多数の 1. ムバラク大統領に対する 死傷者が出たエジプト・カイロは、一夜明け、双方 抗議デモが続くエジプトで、 で散発的に投石が行われるなど、緊迫した状態が 反体制派が4日に大規模 続いている。 続 る デモを実施する。 4. エジプトで続く反政府デモは、2日から3日未明に 2. 大統領に即時退陣を迫る かけて、反政府派と大統領支持派の衝突に発展し、 構え。 構え 火炎瓶が建物や車に引火し、至るところで火の手 火炎瓶が建物や車に引火し 至るところで火の手 が上がり、黒煙が立ち込めた。 2011/09/10 TokyoNLP #7 11
  • 12. ⽂書要約の要素技術:⽂短縮 3/6 3a.反政府派と大統領派が2日、激しく衝突し 多数の死傷者が出たエジプト・カイロは、 3. 反政府派と大統領 夜明け、双方で散発的に投石が行われ 一夜明け、双方で散発的に投石が行われ 派が2日、激しく衝 るなど、緊迫した状態が続いている。 突し多数の死傷者 が出たエジプト・カイ 3b.多数の死傷者が出たエジプト・カイロは、 多数 死傷者 出 ジ 、 ロは、一夜明け、双 は 夜明け 双 一夜明け、双方で散発的に投石が行われ 方で散発的に投石 るなど、緊迫した状態が続いている。 が行われるなど、緊 迫した状態が続い 3c.エジプト・カイロは、一夜明け、双方で散発 ている。 的に投石が行われるなど、緊迫した状態 が続いている。 2011/09/10 TokyoNLP #7 12
  • 13. ⽂書要約の要素技術:重要⽂抽出 4/6 3. 反政府派と大統領派が2日、激しく衝突し多 1. 1 ムバラク大統領に対する 数の死傷者が出たエジプト・カイロは、一夜 抗議デモが続くエジプトで、 明け、双方で散発的に投石が行われるなど、 反体制派が4日に大規模 緊迫した状態が続いている。 デモを実施する。 デモを実施する 4. エジプトで続く反政府デモは、2日から3日未 2. 大統領に即時退陣を迫る 明にかけて、反政府派と大統領支持派の衝 構え。 突に発展し、火炎瓶が建物や車に引火し、至 るところで火の手が上がり、黒煙が立ち込め が が が た。 1. ムバラク大統領に対する 4. エジプトで続く反政府デモは、2日から3日未 抗議デモが続くエジプトで、 抗議デモが続くエジプトで 明にかけて、反政府派と大統領支持派の衝 明にかけて 反政府派と大統領支持派の衝 反体制派が4日に大規模 突に発展し、火炎瓶が建物や車に引火し、至 デモを実施する。 るところで火の手が上がり、黒煙が立ち込め た。 2011/09/10 TokyoNLP #7 13
  • 14. ⽂書要約の要素技術:⽂の順序付け 5/6 1. 1 ムバラク大統領に対する 4. エジプトで続く反政府デモは、2日から3日未 4 エジプトで続く反政府デモは 2日から3日未 抗議デモが続くエジプトで、 明にかけて、反政府派と大統領支持派の衝 反体制派が4日に大規模 突に発展し、火炎瓶が建物や車に引火し、至 デモを実施する。 るところで火の手が上がり、黒煙が立ち込め た。 4. エジプトで続く反政府デモは、2日から3日未 明にかけて、反政府派と大統領支持派の衝 突に発展し、火炎瓶が建物や車に引火し、至 が ※単一文書 るところで火の手が上がり、黒煙が立ち込め た。 要約の場合 1. 1 ムバラク大統領に対する抗議デモが続くエジ は不要 プトで、反体制派が4日に大規模デモを実施 する。 2011/09/10 TokyoNLP #7 14
  • 15. ⽂書要約の要素技術 6/6 • まとめ 1. ⽂分割:⽂書を⽂に分割する 2. ⽂短縮:修飾節を削除するなどして、原⽂よ り短い原⽂の「亜種」を作る 3. 重要⽂抽出:要約に相応しい⽂を選び出す 4. ⽂の順序付け:選んだ⽂を適切に並べる 4 ⽂の順序付け 選んだ⽂を適切に並べる • 今回は特に、重要⽂抽出を中⼼に解説 2011/09/10 TokyoNLP #7 15
  • 16. 具体的な⼿法 2011/09/10 TokyoNLP #7 16
  • 17. ⽂分割 • 句点などを⼿掛かりに⽂章を⽂に分割する • 「ムバラク⼤統領に対する抗議デモが続くエジプトで、 反体制派が4⽇に⼤規模デモを実施する。⼤統領に即時 反体制派が4⽇に⼤規模デモを実施する ⼤統領に即時 退陣を迫る構え。」 • 切る⽂章の種類によって難しさが変わる – 新聞記事は綺麗に書かれているので楽 – ⽂体が雑になるにつれて⽂境界がよくわからなくなる • 真⾯⽬にやると⼤変、抽出的要約の場合、⽂分割の性能 が要約の読みやすさに⼤きく影響 – 変なところで切ると訳のわからない要約が出来る 2011/09/10 TokyoNLP #7 17
  • 18. ⽂短縮 • ⽂を短くする(そのまま) – ⽂の中には⼤切なところと⼤切でないところ があるという発想 • 以下の2つの基準で⽂を短くする – 重要なところのみを残す – ⽂法性を保 ⽂法性を保つ • 要約システムに必ず必要というわけでは 要約 必 必要 ない 2011/09/10 TokyoNLP #7 18
  • 19. ⽂短縮 • 基本的なアプロ チ 構⽂⽊を枝刈り 基本的なアプローチ:構⽂⽊を枝刈り ムバラク大統領に 対する 抗議デモが 続く エジプトで 反体制派が 4日に 大規模デモを 実施する。 →○エジプトで反体制派が大規模デモを実施する。 ジプ が デ →×ムバラク大統領に続く大規模デモを実施する。 中間ノードを落とすと文法性が損なわれたり本来の文意が損なわれたりする 枝刈りされた木に対して言語尤度(文としての良さ)と内容に関するスコア(文が 持っている情報量)を与え良い木を選び出す 持 ている情報量)を与え良い木を選び出す 2011/09/10 TokyoNLP #7 19
  • 20. 重要⽂抽出 • 要約なので 原⽂書より短くしたい 要約なので、原⽂書より短くしたい • どれくらい短くしたいかは外から与えら れるものとする • 基本的には単位はバイト ⽂字数 ⽂数 基本的には単位はバイト、⽂字数、⽂数 2011/09/10 TokyoNLP #7 20
  • 21. 重要⽂抽出 文1:10文字 文2:30文字 文3:25字 100文字 • 問題としては単純で、制限サイズにうまく収まる 問題 単純 、制限 う 収 る ように文を選ぶ • 文の選び方によって要約の良し悪しが決まる 2011/09/10 TokyoNLP #7 21
  • 22. 重要⽂抽出 1/2 • 式を書くと以下のようになる S = arg max{ f ( S ) : length( S ) ≤ K } ˆ S⊆D • D:原⽂の集合 S:Dの部分集合 f(S):fに何らかのスコアを与える関数 length(S):Sの⻑さ K:要約の最⼤サイズ • すなわち、何らかの⽬的関数fを最⼤化する、要 約⻑K以内の、⽂の集合Sを探索(argmax)する 約⻑K以内の ⽂の集合Sを探索(argmax)する 問題として重要⽂抽出は定式化できる 2011/09/10 TokyoNLP #7 22
  • 23. 重要⽂抽出 2/2 S = arg max{ f ( S ) : length ( S ) ≤ K } ˆ S⊆D • そのため、問題は2つ 1. ⽬的関数fの設計:いかなる⽂の集合に⾼い得 1 ⽬的関数f 設計 かなる⽂ 集合に⾼ 得 点を与えるか? 1. モデル 2. パラメタ推定 2. argmax操作:⽬的関数fを最⼤化する、要約⻑ 以内の⽂集合Sをどう⾼速に探索するか? 2011/09/10 TokyoNLP #7 23
  • 24. ⽬的関数の設計 • まず⾮常に単純に考える – 要約のスコア:要約に含まれている⽂のスコ アの和 – ⽂のスコア:⽂が含む内容語のスコア 内容語 ムバラク大統領に対する ムバラク 抗議デモが続くエジプトで、 大統領 反体制派が4日に大規模 対する デモを実施する。 抗議 … … 2011/09/10 TokyoNLP #7 24
  • 25. ⽬的関数の設計 内容語 tf‐idf 1. 1 ムバラク大統領に対する ムバラク 20 抗議デモが続くエジプトで、 反体制派が4日に大規模 大統領 5 デモを実施する。 抗議 7 … … • ⽂を内容語の集合(bag of words)として表現し、それら ( g ) の語それぞれに対してtf-idfなどで重みを定義し、⽂が 含む単語の重みを⽂の重要度とする ˆ = arg max ⎧ S ⎫ ⎨∑∑ tfidf ( w) : length ( S ) ≤ K ⎬ S⊆D ⎩ s∈S w∈s ⎭ • s: ⽂、w: 内容語、 tfidf(w): 内容語wのtfidf値 • 単⼀⽂書要約の場合はこれでよい 単 ⽂書要約の場合はこれでよい 2011/09/10 TokyoNLP #7 25
  • 26. 冗⻑性問題 • 複数⽂書要約の場合 「冗⻑性」を考慮 複数⽂書要約の場合、「冗⻑性」を考慮 する必要がある • 複数⽂書要約の場合、⼊⼒中に類似した ⽂が含まれる場合がある • 類似した⽂は類似した得点を与えられる ため、⼀⽅が要約に含まれた場合もう⼀ が 約 ⽅も要約に含まれる可能性が⾼い 2011/09/10 TokyoNLP #7 26
  • 27. 冗⻑性問題 ムバラク大統領に対 エジプトではムバラク する抗議デモが続くエ 政権に対するデモが ジプトで、反体制派が ジプトで 反体制派が 続いている。 4日に大規模デモを 実施する。 • 両⽅が要約に含まれた場合、無駄(冗⻑という⾔ い⽅をする) • この冗⻑性を除去したい 2011/09/10 TokyoNLP #7 27
  • 28. 単純な解法 • 選択した⽂間に類似度を定義、これまで 選択した⽂と類似した⽂が選ばれたらス コアが下がるようにする ˆ = arg max ⎧ score ( s ) − ⎨∑ ⎫ S ∑t )∈S similarity ( s , t ) ⎬ S⊆D ⎩ s∈ S ( s , t :s ≠ ⎭ s.t .length ( S ) ≤ K • M i Maximum Marginal Relevance (MMR) M i lR l という (Carbonell et al., 1998) 2011/09/10 TokyoNLP #7 28
  • 29. argmax操作 S = arg max{ f ( S ) : length ( S ) ≤ K } ˆ S⊆D • 無事⽬的関数を作ることができたら次は argmax操作について考える 操作に 考え 2011/09/10 TokyoNLP #7 29
  • 30. argmax操作 1/3 文番号 重要度 長さ 1 20 30 • 要約⻑40とする 2 15 20 3 10 15 • 貪欲法 4 4 6 1. ⽂1を選ぶ(合計スコア20、⻑さ30) 1 ⽂1を選ぶ(合計スコア20 ⻑さ30) 2. ⽂4を選ぶ(合計スコア24、⻑さ36) • しかし最適解に辿り着ける保証はない 1. ⽂2を選ぶ(合計スコア15、⻑さ20) 2. ⽂3を選ぶ(合計スコア25、⻑さ35) • 最適解はどうすれば⾒つかるか? 2011/09/10 TokyoNLP #7 30
  • 31. argmax操作 2/3 • ⼀番網羅的な⽅法は「全ての組み合わせ を試す」こと • 4つの⽂から2つ選ぶ問題ならば:4C2で6 通り • 100⽂から10⽂選ぶ問題なら?:100C10で ⽂から ⽂選ぶ問題なら 1.73103095 × 1013通り • 実⽤的な時間で求解不能 2011/09/10 TokyoNLP #7 31
  • 32. argmax操作 3/3 • 「100⽂から10⽂選ぶ問題なら?」 • ある⽬的関数を最⼤化する⽂の組み合わ せを探索する問題となる • 組み合わせ最適化の 種と⾒なすことが 組み合わせ最適化の⼀種と⾒なすことが でき、組み合わせ最適化問題として解く ことができる が 2011/09/10 TokyoNLP #7 32
  • 33. いろいろなアルゴリズム • 貪欲法 – スコアで⽂をソート、スコアが⾼いものから 選んでいく • 性能保証付き貪欲法 – ⽂のスコアを⽂のコスト(⻑さ)で割ったも ので⽂をソート ので⽂をソ ト – スコアが⾼いものから選んでいく 2011/09/10 TokyoNLP #7 33
  • 34. いろいろなアルゴリズム • 動的計画法 – 冗⻑性を考慮しない場合(スコア関数が単純 な場合)⾼速に最適解を求めることができる • 整数計画法 • 劣モジュラ最適化 – 最適化しやすいように⽬的関数を⼯夫する – ⽬的関数が劣モジュラ性を持つ(劣モジュラ ⽬的関数が劣モジュラ性を持 (劣モジュラ 関数)である場合、性能保証付き貪欲法など で最適解が得られる可能性が⾼ で最適解が得られる可能性が⾼い 2011/09/10 TokyoNLP #7 34
  • 35. ⽂を並べる • 無事 要約に⼊れる⽂を選んだら それ 無事、要約に⼊れる⽂を選んだら、それ らを並べる • 単⼀⽂書要約の場合は、元の⽂書と同じ 順序で並べれば良い – 10⽂から3番めと7番⽬の⽂を選んだら、3番 ⽬→7番⽬と並べれば良い ⽬ 7番⽬と並べれば良い • 問題は複数⽂書要約の場合 2011/09/10 TokyoNLP #7 35
  • 36. ⽂を並べる • S t Sentence ordering というタスク d i • いくつかのアプローチがある いく かのアプロ チがある • タイムスタンプ順 – ⽂を選ん きた元⽂書 タイムスタンプ順に ⽂を選んできた元⽂書のタイムスタンプ順に 並べる – 同じ⽂書から選ばれた⽂は⽂番号が⼩さい⽅ – 新聞が対象の場合は問題ない 2011/09/10 TokyoNLP #7 36
  • 37. • 統計モデルの導⼊ – ⽂の間に連接コストを導⼊ • 文1は文2とより繋がりや 2 文2 すい、といった統計量を計 算 文1 • それに従ってコストを最小 文3 化するように文を並 る 化するように文を並べる 3 – グラフの探索に帰着(巡回セールスマン問題) – またもや計算量が多いので⼯夫が必要 2011/09/10 TokyoNLP #7 37
  • 38. 重要⽂抽出 • まとめ 1. 重要⽂抽出は要約⻑以内の、⽬的関数を最⼤化する ⽂の集合を選ぶ問題とみなせる 2. ⽬的関数は、単純にはtf-idfなどで単語に重みづけ し、その和を⽂の重要度とするなどできる し その和を⽂の重要度とするなどできる 3. ⽬的関数を最⼤化する⽂の集合を効率的に選び出す ことは難しい(貪欲法などで素早く選べるが、⽬的 ことは難しい(貪欲法などで素早く選べるが ⽬的 関数を最⼤化するとは限らない) 4. 重要⽂抽出は組み合わせ最適化問題とみなすことが できる 2011/09/10 TokyoNLP #7 38
  • 39. 要約の評価 2011/09/10 TokyoNLP #7 39
  • 40. 要約の評価 • 要約の評価は2種類に分かれる 1. 内容的品質:原⽂書の内容を適切に反映し た要約になっているか? 2. ⾔語的品質:読みやすい要約になっている か? 2011/09/10 TokyoNLP #7 40
  • 41. 内容的品質 • 内容的品質には⾃動評価尺度が存在 • ROUGE (Lin, 2004) 人間による要約 機械による要約 4. エジプトで続く反政府デモは、2 ムバラク大統領に対する抗議デモ 日から3日未明にかけて、反政 日から3日未明にかけて 反政 が続くエジプトで 2日から3日未明 が続くエジプトで、2日から3日未明 府派と大統領支持派の衝突に にかけて、反政府派と大統領支持 発展し、火炎瓶が建物や車に引 派の衝突が発生した。衝突の際に 火し、至るところで火の手が上 火し 至るところで火の手が上 は、火炎瓶が建物や車に引火し、 がり、黒煙が立ち込めた。 至るところで火の手が上がり、黒煙 1. ムバラク大統領に対する抗議デ が立ち込めた。更に4日には、反体 モが続くエジプトで、反体制派が モが続くエジプトで 反体制派が 制派 大規模デ 制派が大規模デモの実施を計画し 実施を計画 4日に大規模デモを実施する。 ている。 • ⼈間による要約とのn-gram類似度を計算 ⼈間による要約とのn gram類似度を計算 2011/09/10 TokyoNLP #7 41
  • 42. ⾔語的品質 • ⾃動評価法はまだ確⽴されておらず ホ トな研究トピ ⾃動評価法はまだ確⽴されておらず、ホットな研究トピ ック • ⼈⼿によって以下の5尺度を評価することが⼀般的 1. ⽂法性:⽂法的でない⽂が含まれていないか? 2. 冗⻑性:全く同じ情報が繰り返されていないか? 3. 照応・省略:先⾏詞のない指⽰詞が含まれていないか? 4. 焦点:要約全体と無関係な情報が含まれていないか? 5. 構造と結束性:接続詞を補ったり削除したりする必要のある箇 所はないか? 2011/09/10 TokyoNLP #7 42
  • 43. 要約の評価 • まとめ 1. 要約の評価は内容的品質と⾔語的品質に分 かれる 2. 内容的品質は⾃動評価尺度が存在する 3. ⾔語的品質には⾃動評価尺度がなく、ホッ トな研究トピックである 2011/09/10 TokyoNLP #7 43
  • 44. まとめ • ⽂書要約とは、受け取った情報の最も重要な部 分を簡約した形でユーザの要求に応じ提供する 分を簡約した形 ザ 要求に応じ提供する ことである • ⽂書要約の中⼼的なアプローチは重要⽂抽出で ある • 重要⽂抽出は組み合わせ最適化問題とみなすこ とができる • 要約の内容的品質については⾃動評価法が存在 するが、⾔語的品質については⾃動評価はまだ 確⽴されていない 2011/09/10 TokyoNLP #7 44
  • 45. 要約の⾯⽩さ • ⽂より⼤きい単位(⽂章)を扱うこと – NLP タスクは⽂内に閉じたタスクが多い – ⽂より⼤きい単位を扱う⾯⽩さ • ⽂章が出てくる – ⾃然⾔語の出⼒が出てくる⾯⽩さ – ただしその分評価は難しくなる • 計算量との戦い 2011/09/10 TokyoNLP #7 45
  • 47. 参考⽂献 • C b Carbonell, J i ll Jaime and G ld t i J d 1998 Th d Goldstein, Jade. 1998. The use of MMR, diversity-based reranking for reordering documents and producing summaries summaries. In Proc. Of SIGIR. • Lin, Chin-Yew. 2004. ROUGE: A Package for Chin Yew. Automatic Evaluation of Summaries. In Proc. of ACL Workshop on Text Summarization. • Mani, Inderjeet. 2001. Automatic Summarization. John Benjamins Publishing Company. 2011/09/10 TokyoNLP #7 47