Introduction to Automatic Summarization

⽂書要約⼊⾨

NISHIKAWA Hitoshi

2011/09/10 TokyoNLP #7 1

ばくっとした⽂書要約のお話
• 字義の通り機械（計算機）に⽂書を要
字義の通り、機械（計算機）に⽂書を要
約させること
• なんで計算機にそんなことさせるのか？
– みんな忙しいので⻑い⽂書なんざ読んでいら
れない（俗なところでは、「今北産業」）
– 厳いところでは安全保障上の要請
厳ついところでは安全保障上の要請
• アラブ⼈が悪さしてないかアメリカ⼈は知りたい
• アラビア語で書かれた新聞記事を機械翻訳、英語
にして⾃動要約 (TIDES program by DARPA)

2011/09/10 TokyoNLP #7 2

ばくっとした⽂書要約のお話
• ⾃然⾔語処理技術（計算機で⾃然⾔語（
⽇本語や英語）を扱う技術）の⼀種で、
機械翻訳などと同様に応⽤側の技術
• 形態素解析など⾃然⾔語処理の様々な基
礎技術の上に成⽴

2011/09/10 TokyoNLP #7 3

⽂書要約
• 情報のソスを受け取りそこから内容を抽出しも
情報のソースを受け取り、そこから内容を抽出し、もっ
とも重要な内容をユーザに、簡約した形で、かつ、ユー
ザやアプリケションの要求に応じた形で提⽰すること
ザやアプリケーションの要求に応じた形で提⽰すること
(Mani, 2001)

• 単⼀の、あるいは複
数のニュース記事の
要約
• 情報検索システムや
質問応答システムの
出⼒部

2011/09/10 TokyoNLP #7 4

⽬次
• 導⼊
– ⽂書要約の種類
• 単 /複数報知的/指⽰的抽出的/⽣成的クエリ⾮依存/クエリ
単⼀/複数、報知的/指⽰的、抽出的/⽣成的、クエリ⾮依存/クエリ
依存
– ⽂書要約の要素技術
• ⽂分割、⽂短縮、重要⽂抽出、⽂の順序付け
• 具体的な⼿法（重要⽂抽出を中⼼に）
– ⽬的関数の設計、argmax操作の実⾏
• 要約の評価
– ROUGE、DUC Linguistic Quality Test
• まとめ

2011/09/10 TokyoNLP #7 5

導⼊

2011/09/10 TokyoNLP #7 6

⽂書要約の種類 1/3
1. ⽬的：指⽰的要約/報知的要約
1 ⽬的指⽰的要約/報知的要約
– 指⽰的：原⽂書を読むべきか判断するための
要約（e.g.新聞の⾒出し）
– 報知的：原⽂書の代わりとする要約（e.g.
ニュースの字幕）
2.
2 ⼊⼒：単⼀⽂書要約/複数⽂書要約
– 単⼀：⼀つの⽂書を要約
– 複数：⼀つ以上の⽂書を要約

2011/09/10 TokyoNLP #7 7

3. 内容：クエリ依存/クエリ⾮依存
3 内容クエリ依存/クエリ⾮依存
– クエリ依存：何らかのクエリ（特定の情報へ
の要求）に対する要約（e.g.スニペット）
– クエリ⾮依存：特定の情報に依らない要約
4. ⼿法：抽出的要約/⽣成的要約
– 抽出的要約原⽂書を⽂に分解し要約とし
抽出的要約：原⽂書を⽂に分解し、要約とし
て相応しい⽂を選び（重要⽂抽出）、それら
を繋げることで作る要約
を繋げと作要約
– ⽣成的要約：原⽂書にない表現を含む（新し
い表現を⽣成する）要約
2011/09/10 TokyoNLP #7 8

• まとめるとこんな感じ
まとめると、こんな感じ
1.目的指示的報知的
2.入力単一複数
3 内容
3.内容クエリ依存クエリ非依存
4.手法抽出的生成的

• 今回は「指⽰的」で「クエリ⾮依存」の
「抽出的要約」の、⼊⼒が単⼀の場合と
「抽出的要約」の⼊⼒が単の場合と
複数の場合をざっくりとご紹介
2011/09/10 TokyoNLP #7 9

⽂書要約の要素技術 1/6

反政府派と大統領派が2日、激しく衝突し
多数の死傷者が出たエジプト・カイロは、
ムバラク大統領に対する一夜明け、双方で散発的に投石が行われ
夜明け双方で散発的に投石が行われ
るなど、緊迫した状態が続いている。
抗議デモが続くエジプトで、
エジプトで続く反政府デモは、2日から3日
反体制派が４日に大規模
デモを実施する。大統領
デを実施する大統領未明にかけて、反政府派と大統領支持派
未明にかけて反政府派と大統領支持派
に即時退陣を迫る構え。の衝突に発展し、火炎瓶が建物や車に引
火し、至るところで火の手が上がり、黒煙
が立ち込めた。

2011/09/10 TokyoNLP #7 10

⽂書要約の要素技術：⽂分割 2/6
反政府派と大統領派が2日、激しく衝突し多
数の死傷者が出たエジプト・カイロは、一夜
明け、双方で散発的に投石が行われるな
ムバラク大統領に対するど、緊迫した状態が続いている。
抗議デモが続くエジプトで、エジプトで続く反政府デモは、2日から3日
反体制派が４日に大規模未明にかけて、反政府派と大統領支持派
デモを実施する。大統領の衝突に発展し、火炎瓶が建物や車に引
に即時退陣を迫る構え。
火し、至るところで火の手が上がり、黒煙が
立ち込めた。
立ち込めた

3. 反政府派と大統領派が2日、激しく衝突し多数の
1. ムバラク大統領に対する死傷者が出たエジプト・カイロは、一夜明け、双方
抗議デモが続くエジプトで、で散発的に投石が行われるなど、緊迫した状態が
反体制派が４日に大規模続いている。
続る
デモを実施する。 4. エジプトで続く反政府デモは、2日から3日未明に
2. 大統領に即時退陣を迫るかけて、反政府派と大統領支持派の衝突に発展し、
構え。
構え火炎瓶が建物や車に引火し、至るところで火の手
火炎瓶が建物や車に引火し至るところで火の手
が上がり、黒煙が立ち込めた。
2011/09/10 TokyoNLP #7 11

⽂書要約の要素技術：⽂短縮 3/6

3a.反政府派と大統領派が2日、激しく衝突し
多数の死傷者が出たエジプト・カイロは、
3. 反政府派と大統領
夜明け、双方で散発的に投石が行われ
一夜明け、双方で散発的に投石が行われ
派が2日、激しく衝
るなど、緊迫した状態が続いている。
突し多数の死傷者
が出たエジプト・カイ 3b.多数の死傷者が出たエジプト・カイロは、
多数死傷者出ジ、
ロは、一夜明け、双
は夜明け双
一夜明け、双方で散発的に投石が行われ
方で散発的に投石るなど、緊迫した状態が続いている。
が行われるなど、緊
迫した状態が続い 3c.エジプト・カイロは、一夜明け、双方で散発
ている。
的に投石が行われるなど、緊迫した状態
が続いている。

2011/09/10 TokyoNLP #7 12

⽂書要約の要素技術：重要⽂抽出 4/6
3. 反政府派と大統領派が2日、激しく衝突し多
1.
1 ムバラク大統領に対する
数の死傷者が出たエジプト・カイロは、一夜
明け、双方で散発的に投石が行われるなど、
反体制派が４日に大規模
緊迫した状態が続いている。
デモを実施する。
デモを実施する
4. エジプトで続く反政府デモは、2日から3日未
2. 大統領に即時退陣を迫る
明にかけて、反政府派と大統領支持派の衝
構え。
突に発展し、火炎瓶が建物や車に引火し、至
るところで火の手が上がり、黒煙が立ち込め
ががが
た。

1. ムバラク大統領に対する 4. エジプトで続く反政府デモは、2日から3日未
抗議デモが続くエジプトで明にかけて、反政府派と大統領支持派の衝
明にかけて反政府派と大統領支持派の衝
反体制派が４日に大規模突に発展し、火炎瓶が建物や車に引火し、至
デモを実施する。るところで火の手が上がり、黒煙が立ち込め
た。

2011/09/10 TokyoNLP #7 13

⽂書要約の要素技術：⽂の順序付け 5/6

1.
1 ムバラク大統領に対する 4. エジプトで続く反政府デモは、2日から3日未
4 エジプトで続く反政府デモは 2日から3日未
抗議デモが続くエジプトで、明にかけて、反政府派と大統領支持派の衝
反体制派が４日に大規模突に発展し、火炎瓶が建物や車に引火し、至
デモを実施する。るところで火の手が上がり、黒煙が立ち込め
た。

4. エジプトで続く反政府デモは、2日から3日未
明にかけて、反政府派と大統領支持派の衝
突に発展し、火炎瓶が建物や車に引火し、至
が ※単一文書
るところで火の手が上がり、黒煙が立ち込め
た。要約の場合
1.
1 ムバラク大統領に対する抗議デモが続くエジは不要
プトで、反体制派が４日に大規模デモを実施
する。

2011/09/10 TokyoNLP #7 14

⽂書要約の要素技術 6/6
• まとめ
1. ⽂分割：⽂書を⽂に分割する
2. ⽂短縮：修飾節を削除するなどして、原⽂よ
り短い原⽂の「亜種」を作る
3. 重要⽂抽出：要約に相応しい⽂を選び出す
4. ⽂の順序付け：選んだ⽂を適切に並べる
4 ⽂の順序付け選んだ⽂を適切に並べる
• 今回は特に、重要⽂抽出を中⼼に解説

2011/09/10 TokyoNLP #7 15

具体的な⼿法

2011/09/10 TokyoNLP #7 16

⽂分割
• 句点などを⼿掛かりに⽂章を⽂に分割する
• 「ムバラク⼤統領に対する抗議デモが続くエジプトで、
反体制派が４⽇に⼤規模デモを実施する。⼤統領に即時
反体制派が４⽇に⼤規模デモを実施する⼤統領に即時
退陣を迫る構え。」
• 切る⽂章の種類によって難しさが変わる
– 新聞記事は綺麗に書かれているので楽
– ⽂体が雑になるにつれて⽂境界がよくわからなくなる
• 真⾯⽬にやると⼤変、抽出的要約の場合、⽂分割の性能
が要約の読みやすさに⼤きく影響
– 変なところで切ると訳のわからない要約が出来る

2011/09/10 TokyoNLP #7 17

⽂短縮
• ⽂を短くする（そのまま）
– ⽂の中には⼤切なところと⼤切でないところ
があるという発想
• 以下の2つの基準で⽂を短くする
– 重要なところのみを残す
– ⽂法性を保
⽂法性を保つ
• 要約システムに必ず必要というわけでは
要約必必要
ない

2011/09/10 TokyoNLP #7 18

⽂短縮
• 基本的なアプロチ構⽂⽊を枝刈り
基本的なアプローチ：構⽂⽊を枝刈り
ムバラク大統領に対する抗議デモが続くエジプトで

反体制派が４日に大規模デモを実施する。

→○エジプトで反体制派が大規模デモを実施する。
ジプがデ
→×ムバラク大統領に続く大規模デモを実施する。
中間ノードを落とすと文法性が損なわれたり本来の文意が損なわれたりする
枝刈りされた木に対して言語尤度（文としての良さ）と内容に関するスコア（文が
持っている情報量）を与え良い木を選び出す
持ている情報量）を与え良い木を選び出す
2011/09/10 TokyoNLP #7 19

重要⽂抽出
• 要約なので原⽂書より短くしたい
要約なので、原⽂書より短くしたい
• どれくらい短くしたいかは外から与えら
れるものとする
• 基本的には単位はバイト⽂字数⽂数
基本的には単位はバイト、⽂字数、⽂数

2011/09/10 TokyoNLP #7 20

重要⽂抽出
文1:10文字文2:30文字文3:25字

100文字

• 問題としては単純で、制限サイズにうまく収まる
問題単純、制限う収る
ように文を選ぶ
• 文の選び方によって要約の良し悪しが決まる
2011/09/10 TokyoNLP #7 21

重要⽂抽出 1/2
• 式を書くと以下のようになる
S = arg max{ f ( S ) : length( S ) ≤ K }
ˆ
S⊆D
• D:原⽂の集合 S:Dの部分集合
f(S):fに何らかのスコアを与える関数
length(S):Sの⻑さ K:要約の最⼤サイズ
• すなわち、何らかの⽬的関数fを最⼤化する、要
約⻑K以内の、⽂の集合Sを探索(argmax)する
約⻑K以内の⽂の集合Sを探索(argmax)する
問題として重要⽂抽出は定式化できる

2011/09/10 TokyoNLP #7 22

重要⽂抽出 2/2

S = arg max{ f ( S ) : length ( S ) ≤ K }
ˆ
S⊆D

• そのため、問題は2つ
1. ⽬的関数fの設計：いかなる⽂の集合に⾼い得
1 ⽬的関数f 設計かなる⽂集合に⾼得
点を与えるか？
1. モデル
2. パラメタ推定
2. argmax操作：⽬的関数fを最⼤化する、要約⻑
以内の⽂集合Sをどう⾼速に探索するか？
2011/09/10 TokyoNLP #7 23

⽬的関数の設計
• まず⾮常に単純に考える
– 要約のスコア：要約に含まれている⽂のスコ
アの和
– ⽂のスコア：⽂が含む内容語のスコア
内容語
ムバラク大統領に対するムバラク
抗議デモが続くエジプトで、大統領
反体制派が４日に大規模対する
デモを実施する。抗議

…
…
2011/09/10 TokyoNLP #7 24

⽬的関数の設計
内容語 tf‐idf
1.
1 ムバラク大統領に対するムバラク 20
反体制派が４日に大規模大統領 5
デモを実施する。抗議 7

…

…
• ⽂を内容語の集合(bag of words)として表現し、それら
( g )
の語それぞれに対してtf-idfなどで重みを定義し、⽂が
含む単語の重みを⽂の重要度とする
ˆ = arg max ⎧
S
⎫
⎨∑∑ tfidf ( w) : length ( S ) ≤ K ⎬
S⊆D ⎩ s∈S w∈s ⎭
• s: ⽂、w: 内容語、 tfidf(w): 内容語wのtfidf値
• 単⼀⽂書要約の場合はこれでよい
単⽂書要約の場合はこれでよい
2011/09/10 TokyoNLP #7 25

冗⻑性問題
• 複数⽂書要約の場合「冗⻑性」を考慮
複数⽂書要約の場合、「冗⻑性」を考慮
する必要がある
• 複数⽂書要約の場合、⼊⼒中に類似した
⽂が含まれる場合がある
• 類似した⽂は類似した得点を与えられる
ため、⼀⽅が要約に含まれた場合もう⼀
が約
⽅も要約に含まれる可能性が⾼い

2011/09/10 TokyoNLP #7 26

冗⻑性問題
ムバラク大統領に対エジプトではムバラク
する抗議デモが続くエ政権に対するデモが
ジプトで、反体制派が
ジプトで反体制派が続いている。
４日に大規模デモを
実施する。

• 両⽅が要約に含まれた場合、無駄（冗⻑という⾔
い⽅をする）
• この冗⻑性を除去したい

2011/09/10 TokyoNLP #7 27

単純な解法
• 選択した⽂間に類似度を定義、これまで
選択した⽂と類似した⽂が選ばれたらス
コアが下がるようにする

ˆ = arg max ⎧ score ( s ) −
⎨∑
⎫
S ∑t )∈S
similarity ( s , t ) ⎬
S⊆D ⎩ s∈ S ( s , t :s ≠ ⎭
s.t .length ( S ) ≤ K

• M i
Maximum Marginal Relevance (MMR)
M i lR l
という (Carbonell et al., 1998)
2011/09/10 TokyoNLP #7 28

argmax操作

S = arg max{ f ( S ) : length ( S ) ≤ K }
ˆ
S⊆D

• 無事⽬的関数を作ることができたら次は
argmax操作について考える
操作に考え

2011/09/10 TokyoNLP #7 29

argmax操作 1/3
文番号重要度長さ
1 20 30

• 要約⻑40とする
2 15 20
3 10 15
• 貪欲法 4 4 6

1. ⽂1を選ぶ（合計スコア20、⻑さ30）
1 ⽂1を選ぶ（合計スコア20 ⻑さ30）
• しかし最適解に辿り着ける保証はない
• 最適解はどうすれば⾒つかるか？
2011/09/10 TokyoNLP #7 30

argmax操作 2/3

• ⼀番網羅的な⽅法は「全ての組み合わせ
を試す」こと
• 4つの⽂から2つ選ぶ問題ならば：4C2で6
通り
• 100⽂から10⽂選ぶ問題なら？：100C10で
⽂から⽂選ぶ問題なら
1.73103095 × 1013通り
• 実⽤的な時間で求解不能

2011/09/10 TokyoNLP #7 31

argmax操作 3/3
• 「100⽂から10⽂選ぶ問題なら？」
• ある⽬的関数を最⼤化する⽂の組み合わ
せを探索する問題となる
• 組み合わせ最適化の種と⾒なすことが
組み合わせ最適化の⼀種と⾒なすことが
でき、組み合わせ最適化問題として解く
ことができる
が

2011/09/10 TokyoNLP #7 32

いろいろなアルゴリズム
• 貪欲法
– スコアで⽂をソート、スコアが⾼いものから
選んでいく
• 性能保証付き貪欲法
– ⽂のスコアを⽂のコスト（⻑さ）で割ったも
ので⽂をソート
ので⽂をソト
– スコアが⾼いものから選んでいく

2011/09/10 TokyoNLP #7 33

いろいろなアルゴリズム
• 動的計画法
– 冗⻑性を考慮しない場合（スコア関数が単純
な場合）⾼速に最適解を求めることができる
• 整数計画法
• 劣モジュラ最適化
– 最適化しやすいように⽬的関数を⼯夫する
– ⽬的関数が劣モジュラ性を持つ（劣モジュラ
⽬的関数が劣モジュラ性を持（劣モジュラ
関数）である場合、性能保証付き貪欲法など
で最適解が得られる可能性が⾼
で最適解が得られる可能性が⾼い
2011/09/10 TokyoNLP #7 34

⽂を並べる
• 無事要約に⼊れる⽂を選んだらそれ
無事、要約に⼊れる⽂を選んだら、それ
らを並べる
• 単⼀⽂書要約の場合は、元の⽂書と同じ
順序で並べれば良い
– 10⽂から3番めと7番⽬の⽂を選んだら、3番
⽬→7番⽬と並べれば良い
⽬ 7番⽬と並べれば良い
• 問題は複数⽂書要約の場合

2011/09/10 TokyoNLP #7 35

⽂を並べる
• S t
Sentence ordering というタスク
d i
• いくつかのアプローチがある
いくかのアプロチがある
• タイムスタンプ順
– ⽂を選んきた元⽂書タイムスタンプ順に
⽂を選んできた元⽂書のタイムスタンプ順に
並べる
– 同じ⽂書から選ばれた⽂は⽂番号が⼩さい⽅
– 新聞が対象の場合は問題ない

2011/09/10 TokyoNLP #7 36

• 統計モデルの導⼊
– ⽂の間に連接コストを導⼊
• 文1は文2とより繋がりや
2 文2 すい、といった統計量を計
算
文1
• それに従ってコストを最小
文3 化するように文を並る
化するように文を並べる
3

– グラフの探索に帰着（巡回セールスマン問題）
– またもや計算量が多いので⼯夫が必要

2011/09/10 TokyoNLP #7 37

重要⽂抽出
• まとめ
1. 重要⽂抽出は要約⻑以内の、⽬的関数を最⼤化する
⽂の集合を選ぶ問題とみなせる
2. ⽬的関数は、単純にはtf-idfなどで単語に重みづけ
し、その和を⽂の重要度とするなどできる
しその和を⽂の重要度とするなどできる
3. ⽬的関数を最⼤化する⽂の集合を効率的に選び出す
ことは難しい（貪欲法などで素早く選べるが、⽬的
ことは難しい（貪欲法などで素早く選べるが⽬的
関数を最⼤化するとは限らない）
4. 重要⽂抽出は組み合わせ最適化問題とみなすことが
できる

2011/09/10 TokyoNLP #7 38

要約の評価

2011/09/10 TokyoNLP #7 39

要約の評価
• 要約の評価は2種類に分かれる
1. 内容的品質：原⽂書の内容を適切に反映し
た要約になっているか？
2. ⾔語的品質：読みやすい要約になっている
か？

2011/09/10 TokyoNLP #7 40

内容的品質
• 内容的品質には⾃動評価尺度が存在
• ROUGE (Lin, 2004)
人間による要約
機械による要約
4. エジプトで続く反政府デモは、2 ムバラク大統領に対する抗議デモ
日から3日未明にかけて、反政
日から3日未明にかけて反政が続くエジプトで 2日から3日未明
が続くエジプトで、2日から3日未明
府派と大統領支持派の衝突ににかけて、反政府派と大統領支持
発展し、火炎瓶が建物や車に引派の衝突が発生した。衝突の際に
火し、至るところで火の手が上
火し至るところで火の手が上は、火炎瓶が建物や車に引火し、
がり、黒煙が立ち込めた。至るところで火の手が上がり、黒煙
1. ムバラク大統領に対する抗議デが立ち込めた。更に4日には、反体
モが続くエジプトで、反体制派が
モが続くエジプトで反体制派が制派大規模デ
制派が大規模デモの実施を計画し
実施を計画
４日に大規模デモを実施する。ている。

• ⼈間による要約とのn-gram類似度を計算
⼈間による要約とのn gram類似度を計算
2011/09/10 TokyoNLP #7 41

⾔語的品質
• ⾃動評価法はまだ確⽴されておらずホトな研究トピ
⾃動評価法はまだ確⽴されておらず、ホットな研究トピ
ック
• ⼈⼿によって以下の5尺度を評価することが⼀般的
1. ⽂法性：⽂法的でない⽂が含まれていないか？
2. 冗⻑性：全く同じ情報が繰り返されていないか？
3. 照応・省略：先⾏詞のない指⽰詞が含まれていないか？
4. 焦点：要約全体と無関係な情報が含まれていないか？
5. 構造と結束性：接続詞を補ったり削除したりする必要のある箇
所はないか？

2011/09/10 TokyoNLP #7 42

要約の評価
• まとめ
1. 要約の評価は内容的品質と⾔語的品質に分
かれる
2. 内容的品質は⾃動評価尺度が存在する
3. ⾔語的品質には⾃動評価尺度がなく、ホッ
トな研究トピックである

2011/09/10 TokyoNLP #7 43

まとめ
• ⽂書要約とは、受け取った情報の最も重要な部
分を簡約した形でユーザの要求に応じ提供する
分を簡約した形ザ要求に応じ提供する
ことである
• ⽂書要約の中⼼的なアプローチは重要⽂抽出で
ある
• 重要⽂抽出は組み合わせ最適化問題とみなすこ
とができる
• 要約の内容的品質については⾃動評価法が存在
するが、⾔語的品質については⾃動評価はまだ
確⽴されていない

2011/09/10 TokyoNLP #7 44

要約の⾯⽩さ
• ⽂より⼤きい単位（⽂章）を扱うこと
– NLP タスクは⽂内に閉じたタスクが多い
– ⽂より⼤きい単位を扱う⾯⽩さ
• ⽂章が出てくる
– ⾃然⾔語の出⼒が出てくる⾯⽩さ
– ただしその分評価は難しくなる
• 計算量との戦い

2011/09/10 TokyoNLP #7 45

御清聴ありがとうございました

2011/09/10 TokyoNLP #7 46

参考⽂献
• C b
Carbonell, J i
ll Jaime and G ld t i J d 1998 Th
d Goldstein, Jade. 1998. The
use of MMR, diversity-based reranking for
reordering documents and producing summaries
summaries.
In Proc. Of SIGIR.
• Lin, Chin-Yew. 2004. ROUGE: A Package for
Chin Yew.
Automatic Evaluation of Summaries. In Proc. of
ACL Workshop on Text Summarization.
• Mani, Inderjeet. 2001. Automatic Summarization.
John Benjamins Publishing Company.

2011/09/10 TokyoNLP #7 47

Introduction to Automatic Summarization

Recommended

More Related Content

Viewers also liked (20)

Recently uploaded (9)

Introduction to Automatic Summarization