豪鬼メモ

MT車練習中

英熟語とKindle辞書

フリー英和辞書検索システムとそのKindle用辞書データにて、熟語の訳語を表示できるようにした話。英文読解をする上で熟語の理解は必須なので、その支援ができることは重要だ。しかし、熟語を選択して検索するのは難しい。そこで、中心となる単語を調べると、以下のように、その最後に重要熟語とその訳語が表示されるようにした。熟語の中でも特に重要な、句動詞と前置詞句が提示される。
f:id:fridaynight:20211204114816j:plain


まずは辞書検索システムのデモサイトをご覧頂きたい。基本語を検索すると、結果画面の下の方に関連する熟語とその訳が表示されるようになっている。そこそこのカバー率にはなっていると思う。
f:id:fridaynight:20211204122159p:plain

「give up」「look forward to」「set aside」といった、動詞の後に何かが付いて特殊な意味を持つようになった表現を句動詞(phrasal verb)という。受験英語では「熟語」または「イディオム」として扱われるものの一部だ。多くの句動詞の意味は我々非ネイティブ話者にとっては直感的とは言い難いので、予め知らないと面食らうことが多い。ネイティブ話者なら、「give」して「up」するんだから、「お手上げ」的なポーズをしている印象から、「諦める」という意味を自然に連想できるかもしれない。しかし、非ネイティブの我々は「give」の意味も「up」の意味も辞書や参考書にある語義説明程度の狭い範囲でしか知らないので、ネイティブ話者のような連想ができないことが多い。「get off on」なんて言われた日には、オフなのかオンなのかさっぱりだ。

英作文の際にも句動詞の理解は重要だ。例えば「compensate」(補償する、埋め合わせをする)は自動詞なので、目的語をつけて他動詞化する際には前置詞「for」が必要だ。同様に、「agree」(同意する)を他動詞的に使う際には、その対象によって「with (people)」「to (opinions)」「on (terms)」といった前置詞の使い分けが必要になる。狭義の句動詞の定義は元来の動詞の意味を大きく変えるものということなので、「compensate for」や「agree with」が句動詞かどうかは意見が分かれるところだろう。しかし、いずれにせよ、「compensate」や「agree」の用法を調べた際には、それらに関連する定番の「熟語」が表示されることが望ましい。

句動詞の厄介な点は、辞書で意味を調べにくいところだ。一般の英和辞書で「give」を調べると、基本語・多義語の語義は膨大にあるので、「give up」にたどり着くまでに延々と説明を読まなければならない。よって、基本の熟語については「熟語集」的な参考書を読んで暗記をしておくのが定番だ。しかし、参考書がカバーする範囲は受験の頻出語に限られてしまう。おそらく東大京大を受けるレベルの英語力でも、普通の英語の小説を読んだら知らない句動詞に出会いまくることだろう。

となると、未知の句動詞そのものを辞書で引きたくなるわけだが、それがまた簡単ではない。「get off on」という句動詞を知らなかったとして、「He'd get off on the big butt.」という文を読んだ際に、どこからどこまでが句動詞なのかすぐにはわからない。「get off」は降りるって意味だけど、「on」は乗っかるという意味だから、「降りて大きな尻に乗っかる」って意味だと考えるのが人情だ。それでは文脈上でおかしいので、「get off」に特殊な意味があるのかと思って辞書を引いても、「降りる」「送り出す」「免除する」といった意味しか書いていない。そこで初めて「get off on」って句動詞があるのかなと思いあたり、辞書を引いて「特殊な価値を見出す」という意味があると知るだろう。それでやっと「奴ならそのでかいケツに萌えるだろうね」という解釈に辿り着く。適切な句動詞を知らなければ、この文を読解するだけで何分も使うことになる。「get」「off」「on」という幼児でも知っている単語しか使われていないにもかかわらずだ。

また、Kindleなどの電子書籍端末のポップアップ辞書に特有の問題だが、目的語が間に挟まった句動詞は検索できない。「You'd better give her up.」とかいう文があって「give her up」を選択しても、「give up」は該当してくれないのだ。「副詞で終わる句動詞は目的語を副詞の前に挟むことができ、また目的語が代名詞の場合にはそうせねばならない」とかいう英文法のルールがあるので、この事態は頻出する。「see through」に副詞「right」が挿入されて「see right through」になるような場合もある。よって、ルールベースで曖昧検索をするにしても、なかなか手間がかかりそうだ。Kindleが早晩それを実装してくれることは期待できない。

これらの問題を緩和したい。句動詞の中心となる基本動詞を選択するだけで、その基本動詞を含む句動詞が検索できれば便利だ。上述の例で言えば、とりあえず読解に躓いた時に、その原因であろう「give」を引くだけて「give up」「give in」「give off」「give off on」などの重要句動詞が表示されるようにしたい。「get」などの基本動詞の場合、語義が多くて熟語まで辿り着くには画面のスクロールが必要になるだろうが、なるべく語義を完結に表記することで時短を図る。動詞を選択するだけで済むなら、どこまでが句動詞なのか判断する必要がなくなるし、間に目的語や副詞が挟まっても問題ない。Chrome拡張のポップアップ辞書検索でも、Kindleと同様に本文中の語句で検索をかけるので、熟語が結果に包括されるのは便利だ。

ついでに、「at home」「to date」「by mistake」「in vain」などの、前置詞に名詞やその他の語がついている熟語もよしなに扱いたい。この場合、中心となるのは前置詞でない方の語だ。それらを選択すると、関連する主要な前置詞句が表示されるようにする。


実装の話をしよう。英語の熟語は数限りなく存在するのだが、その中でも今回は句動詞と前置詞句にのみ着目する。学術的にはイディオム(idiom)というと、「devil's ear」(地獄耳)とか「ballpark figure」(概算)とかいった慣用句のことを指すらしいが、ここではそれらは扱わない。単純化のために、基本語の前後に前置詞または副詞がついた定型句のみをここでは扱う。

句動詞の文脈では、中心となる動詞以外の語は不変化詞(particle)と呼ばれる。主な不変化詞として以下の語を扱う。他にもキリがないくらいあるだろうが、実用的にはこれで問題ないだろう。

aback, about, above, abroad, across, after, against, ahead, along,
amid, among, apart, around, as, at, away, back, before, behind,
below, beneath, between, beside, beyond, by, despite, during, down,
except, for, forth, from, in, inside, into, near, of, off, on,
onto, out, outside, over, per, re, since, than, through, throughout,
till, to, together, toward, under, until, up, upon, with, within,
without, via,

不変化詞は動詞と結びつく副詞と前置詞の総称でもある。上述したように、副詞と前置詞の区別は英作文の際に重要となるので、その区別を辞書に載せるのが理想だ。しかし、今回は諦めた。字面だけではその区別はできないからだ。例えば「turn on」の「on」は副詞だけど、「call on」の「on」は前置詞だ。副詞の場合には目的語を間に挟んで「turn it on」とすることができるが、前置詞の場合にはそれができないので、「call on me」と書かねばならない。言語モデルで確率的に判別できる場合も多いだろうが、「get over」の「over」のように、意味によって前置詞としても副詞としても扱われる場合があるので、確実に判別することは不可能だ。

さて、ある単語を見出し語として辞書のエントリを作ることを考える。まずは言語モデルを使って、見出し語の出現確率を調べる。例えば「resign」の場合、0.050%である。それに対して、上記の不変化詞の各々を後置してみて、出現率を調べる。「resign from」は0.0093%、「resign as」は0.0050%である。元の語との比率をとれば、それぞれの不変化詞が後置する確率が求められる。「resign from」は19.6%、「regisn as」は9.9%だ。この値が一定を超えている場合には、句動詞とみなして良いだろう。「compensate」が「compensate for」になる確率は47%もある。

同じように、不変化詞が前置する確率を判定して、前置詞句を拾い上げる。この場合、前置詞のみを扱えばよいので、「aback」「away」「back」「forth」「together」などの副詞用法しかない語は除外すべきだが、確率フィルタでそれらは捨てられるので、同じ不変化詞のリストを用いる。「home」は0.74%で、「at home」は0.077%なので、「home」が「at home」になる確率は10.4%ということになる。「as a result」「to the death」「off the cuff」などのように冠詞が挟まる場合も考慮する。

動詞の前置を調べる場合、to不定詞の「to」の確率が水増しされる問題がある。よって、動詞の前に付く「to」には何らかのペナルティを与えたいが、ある語が動詞かどうかも字面だけからは判断できない。例えば「run」は名詞でも動詞でもある。そこで、「will」「can」「not」などの動詞を導く助動詞や副詞との接続確率から動詞としての用法の割合を推定してペナルティをかけることにした。なお、to不定詞のtoは歴とした前置詞であり、動詞の部分が不定詞だ。前置詞は主に名詞を伴うが、そうでない場合もあるということだ。だから、to不定詞句を前置詞句の一種として提示するのは文法的には整合している。ちなみに、中学で出てくる「以下の文におけるtoを不定詞と前置詞に見分けなさい」という文法問題はおかしい。toが不定詞なわけじゃない。そんな謎々みたいな問題を出すなら、せめて「前置詞toの後の語が動詞の不定詞か名詞(または動名詞)か見分けなさい」と書くべきだ。

話を戻す。「look up to」「get off on」などの3語以上の句を調べる場合にあたってはちょっとした最適化を入れた。50個の不変化詞の組み合わせは2500個になるが、それを各単語で全て調べるのは効率が悪い。よって、1段目の確率が一定以上の場合にのみ2段目を調べるという方法をとった。「look」が「look up」になる確率は2%で、「look up」が「look up to」になる確率は10%だ。

辞書上に句動詞を並べる際には、よく出る順番に並べるのがよい。「give」の場合、「give to : 与える」「give up : 断念する」「give up to : 引き渡す」「give in : 降参する」「give in to : 屈する」「give away : 贈る」「give away to : 与える」とかいった感じになる。「give」「give to」「give way to」が同じ「与える」という訳を共有しているが、実際そう訳せるのだから仕方ない。英作文の際には、意味が許容範囲のもので一番上のものを選べばよい。各々の熟語が辞書内の見出し語になっている場合、その熟語をクリックするとその語義説明に飛ぶことができる。各熟語には生成確率も付記して、語を選択する際に参考になるようにした。

熟語をKindle辞書に落とし込むにはどうすればよいか。Kindleの辞書では、二度引きができない。つまり、辞書の表示結果の中にわからない語があったとしても、その語を選択して検索することはできない。辞書の表示結果にハイパーリンクを張って別のページに飛ぶこともできない。なので、1つの見出し語の項目に必要な情報を全て詰め込まねばならない。従来は、見出し語、発音、訳語のリスト、WordNetの語義説明、語幹の英語と訳語のリスト、変化形や代替表現のリストという順に情報を表示していた。英文読解時に重要度が高いものを優先的に表示している。そこに熟語とその訳語のリストを挿入するわけだ。

調べた語自体の語義情報より先に熟語の情報が来るのは違和感があるので、語義説明より後に来るのは当然だ。語幹情報とは、例えばworkingに対するworkとか、doubtfulに対するdoubtとかのことを意味するが、それも別の語の情報であるから、外様度合いは熟語と同じくらいだ。そうすると、読解時に語幹と熟語のどっちが大事かという話になる。例えば「qualify」という語を引いた場合に、語幹である「quality : 品質」と、熟語である「qualify for : 資格を得る」のどちらが重要か。もちろんそれは利用者の意図によるので一概には言えないのだが、私なら語幹の方を先に知りたいことが多いだろう。語幹はその語の元来の意味を深く知るための情報であり、それを把握していた方が熟語の意味も理解しやすい。

しかし、結論としては、語義情報と語幹情報の間に熟語の情報を入れるのがよさそうだ。つまり、語幹情報より前に熟語を表示する。なぜかというと、ページのサイズがある程度長くなると、途中にあるより一番下にある方が見つけやすいからだ。それに、語幹とは別に派生語や語源情報も表示するのだが、語幹と派生語の間に熟語が入るのは違和感がある。とはいえ、語幹情報を持つような派生語が熟語を持つ頻度は多くないので、どちらが先でも実用上の問題はない。


まとめ。辞書データを改良して、英文読解にとって重要となる句動詞や前置詞句を調べやすくした。基本となる単語を入力または選択するだけで熟語が調べられるので、特にKindle辞書とChromeポップアップ辞書で熟語を探すのに便利だ。結果画面では言語モデルから取得した出現頻度をもとに選別と並び替えをしたので、よく使われるものを優先的に閲覧することができる。

英文読解の鬼門は前置詞句と句動詞だ。難しい単語は曖昧性が少ないので、辞書で単語を引けばすぐに意味がわかる。一方で、簡単な語の組み合わせからなる熟語こそが、非ネイティブ話者を苦しめる。読者のレベルに合わせて単語数を絞ったような文章ほど、「postpone」を「put off」に言い換えるなど、熟語に多く頼る傾向があって、我々は当惑する。この辞書がその攻略の一助になれば幸いだ。手前味噌だが、デフォルトの辞書にはもう戻れないほど便利に仕上がっている。