ビッグデータ時代の文学研究に何ができるのか?/Ted Underwood 『遠い地平線』序文「文学の地平線の弧」和訳

3/15(金)、一橋講堂(千代田区一ツ橋)にて、DHの国際シンポジウム「ビッグデータ時代の文学研究と研究基盤」が開催されます。そこで基調講演をしてくださるTed Underwood先生は、ビッグデータ時代の文学研究に正面から取り組む英文学者として活躍しておられ、2019年、その成果として「Distant Horizons: Digital Evidence and Literary Change」をシカゴ大学出版局から刊行されました。この本の序文は、大変興味深いものであり、膨大なデジタルテキストをにどのように取り組めばよいのか、そして、それによって、人がただ読むだけではうまく見えてこなかった文学の様々な側面、特に文学史やジャンルがどのようにして見えるようになるのか、ということについて、ラディカルな議論と一つの解決の方向性を提示しておられます。本の全体としてはその具体的な方法も示されていますが、それは本を読んでいただくことにして、ここでは序文の和訳を提示させていただきます。(今回の国際シンポジウム開催にあたり、和訳を公開する許可をいただきました。)といっても、一から全訳するパワーはないので、DeepLで訳したものに手を入れた形になります。一応、一文ずつ確認して必要に応じて修正をしましたが、誤訳などがありましたら当方の力不足ですのでご容赦いただけますと幸いです。(注:橋本健広先生よりいただいた訳の修正を反映しました。2024/1/24)

(この本もどなたか和訳出版してくださるとありがたいですね)

Ted Underwood 『遠い地平線』 序文「文学の地平線の弧」和訳

press.uchicago.edu

これは、文学史における最近の発見についての本である。発見という言葉は奇妙に聞こえるかもしれないが、文学史で重要なのは通常、議論であって発見ではないからだ。失われた写本が屋根裏部屋から発見されることはあるが、新たな証拠を発見することが文学研究の主な目的であることはほとんどない。その代わり、学者たちは過去のよく知られた概説(ロマン派、ヴィクトリア朝、近代)を再解釈し、テクスト同士の新たなつながりを引き出したり、周辺的なものを中心的な舞台へと移動させたりする。

10年前はそう思っていた。この10年間、私は文学の過去の大枠がかつて思っていたほどよく知られているという確信を次第に失ってきた。学者たちが一度に何千冊もの本を読み比べることを学ぶにつれ、教科書には書かれておらず、時代概念でも説明できないような、世紀をまたぐ大まかな傾向を偶然発見するようになった。私たちが文学史を個別の動きや時代の連続として叙述してきたのは、その大きさの塊が、一人の人間が一度に記憶し論じることができる程度の過去の出来事だったからだということが明らかになりつつある。どうやら、もっと長い変化の弧は、そのスケールの大きさによって私たちから隠されてきたようだ。ちょうど、山や政治的な境界線には気づいても、地球の湾曲に気づくことなく大陸を車で横断できるように。地上の一対の目では地平線のカーブを把握することはできないし、一人の読者の記憶に限定された議論では文学史の最大のパターンを明らかにすることはできない。

本書では、そうしたパターンのいくつかを探り、文学研究の新たなアプローチがそれらをどのように可視化しているかを説明する。そして、文学について広範な社会的問題を提起してきた他の多くの学者たちの足跡をたどっている。ここで述べる仕事は、20世紀の書物史、文体論、文学の社会学といったプロジェクトや、フランコ・モレッティが"distant reading "と呼ぶ、これらのプロジェクトの融合に負うところがある。学問的な系譜をたどることよりも、過去300年にわたる英文学の地図を塗り替えつつある具体的な発見について述べることに重きを置きたい。最初の4章は、それぞれ異なる歴史的発見-文学の言語、ジャンル、美的判断、ジェンダーの歴史-を中心に構成されている。

本書はまた、大規模な研究に必要な新しい方法について説明し、多くの人々が文学にコンピュータを応用することに感じている不安についても論じている。しかし私は、批評的伝統と "デジタル人文学 "と呼ばれる新たな技術的イニシアチブを対立させる闘争という、一般的な枠組みで語られるような問題にはアプローチしない。このような枠組みは、いくつかの理由から人気がある。それは、デジタル・コンピュータを現代の歴史における変革の主役と見なすおなじみの物語や、機械と文化との対立をめぐって組織されたさらに古い物語に合致しているからである。その種の使い古された物語には、馴染みのある一群の道徳的座標軸が付属しているため、観察者は変化そのものを詳しく研究することなく、「デジタル」というラベルを貼られた変化について意見を述べることが容易になる。

これは不運なことだ。というのも、大きな歴史的パターンを目に見えるものにした進歩は、コンピュータというよりも、モデリングや解釈に関する新しい考え方と関係があるからだ。結局のところ、コンピュータ自体はそれほど新しいものではなく、学者たちは50年以上前から文学の言語にコンピュータを応用してきた。文学史への新しいアプローチに必要なものがデジタル技術だけであったなら、本書はとっくに登場していただろう。しかし1970年代には、コンピュータを文学に応用しようとすると、文の長さやジョナサン・スウィフトの好きな言葉についての議論がしばしば生じていた。ほとんどの学者は、そうした言語的な細部を正確に測定するコンピュータの能力が、それ自体で文学的快楽の歴史を一変させることになるとは考えていなかった。私が思うに、彼らが疑念を抱くのは正しかった。スタンリー・フィッシュが指摘したように、スウィフトが接続語を多用していることを証明することと、その孤立した事実に文学的解釈を与えることは別のことなのだ。

では、この50年間で何が変わったのか? 確かに、規模はその一部である。1980年代までは、文学史の量的探求は比較的小規模なコレクションに基づく傾向があり、多くの場合、個々の作家に焦点が当てられていた。デジタル・ライブラリーの拡大により、幅広い歴史的問題を提起することが容易になり、歴史的な広がりが量的探求により優れた社会的基盤を与えている。(例えば本書は、とりわけハティトラスト・デジタル・ライブラリーに深く依存している)。しかし、規模の大きさは物語の一部に過ぎない。地平線のカーブは地球から少し離れた上空でしか見えないからだ。しかし、視野が広いだけでは、言語的な細部に文学的な意味を与えるには十分ではない。

数字が文学研究に役立つようになってきたのは、技術的な理由よりもむしろ理論的な理由による。コンピュータが速くなったとか、ディスクが大きくなったとかいうことではなく、私たちは最近、変数の数を数えることから文学的概念のモデルを構築することへと進んだのである。モデルとは変数間の関係を定義するものであるため、モデルを基礎とした探究様式は、孤立した事実ではなく、関係を研究することができる。量的文学研究は、例えば接続語の頻度から始めるのではなく、観客、ジャンル、キャラクター、ジェンダーなど、文学の読者が実際に関心を持つ事柄に関する社会的証拠から始めるようになった。それらの現象の文学的意味は、歴史的に根拠のある解釈の共同体からもたらされる。数字が登場するのは、歴史の外のどこかにある客観的な意味の基礎としてではなく、歴史的記録の異なる部分の間の比較関係を確立する方法として、である。

これは大雑把なスケッチであることは認めざるを得ない。モデルという言葉自体、文学研究ではまだ一般的ではないので、第1章では、文学的概念の統計的モデル(特に「予測モデル」)を構築することの意味を説明することに時間を割く。始めに述べておきたいのは、本書を可能にした進歩のほとんどが、計算能力の問題ではないということである。その代わりに、統計学から心理学に至るまで、現在分野を大きく変えつつあるモデル化、学習、解釈に関する議論に依存している。読者に最近の知的歴史における重要な展開を垣間見てもらうため、本書全体を通してこの議論に触れ、付録の「方法論」でさらに詳しく調査するつもりである。しかし結局のところ、本書は英文学史、とりわけ英米文学者に焦点を当てた本なのである。新しい方法を強調するのではなく、それが可能にする具体的な文学的洞察に焦点を当てる。各章は歴史的な議論として構成される。

第1章では、18世紀、19世紀、20世紀のフィクションにおけるよく知られた変化の多くが、ノンフィクションとの対立を通じてフィクションの主題、スタイル、ペースを決定づけた、ひとつの差別化プロセスの一部として理解できることを示唆している。私たちはこの物語の一部についてすでに知っている。18世紀フィクションの研究者たちは、見せかけの自伝の終焉について論じ、19世紀の研究者たちは、視覚的ディテールの強調について語り、モダニズムの研究者たちは、全知の語り手の衰退について論じてきた。時折、もっと物議を醸すのは、こうした変化のいくつかを、"語る "から "見せる "への広範な転換という旗印のもとに統一することができるのではないか、と指摘する批評家である。しかし、統一されたストーリーに説得力を持たせるのは難しい: 例えば、ヴィクトリア朝の人々やポストモダニストは、非人間的で限定的な語り手の台頭というモダニズムの勝利主義に並ぶことを拒むかもしれない。量的証拠によって可能になった広い視野によって、これらの変化をすべて、長い分化の過程の段階として見ることができるようになった。さまざまな芸術運動は、しばしば互いに対立し、ときに「普通の言葉」との和解を求めたと言われるが、実際にはすべて、フィクションをノンフィクションの言葉、テーマ、物語戦略から遠ざけてきた。

もちろん、「フィクション」はかなり広範なジャンルであり、文学者はゴシックや探偵小説のようなサブジャンルの歴史に関心を持つのが一般的である。第2章では、こうした概念を掘り下げ、新しい方法がジャンルへの視点的アプローチをどのようにサポートできるかを説明する。自然な文学の種類としてのジャンルというアリストテレス的な概念は、過去50年の間に、ジャンルを歴史的に偶発的な制度として扱う、より慎重なアプローチへと道を譲った。批評家たちは、SFに安定した定義を与えようとする代わりに、SFとはつまるところ、さまざまな歴史的主体が "SF "と呼んできた作品の緩やかなグループ分けに過ぎない、と提唱するようになっている。このことは、SFが時代によって異なる意味を持っていた可能性を示唆し、1920年代以前のSFについて語りたい批評家を、厄介な立場に追いやる。というのも、それらの文学的伝統のどれもが、元々の読者達にはSFと呼ばれていなかったからである。

時代とともに意味を変える人間の創造物はジャンルだけではない。ジャンル史に立ちはだかる解釈上の問題は、歴史そのものの視点的次元に根ざしたものであり、きれいに解決するにはあまりに深い。SFのような用語の意味は、常に観察者の立ち位置に依存する。しかし、本書の中心的な主張のひとつは、現代の量的手法が視点の問題を表現するのに非常に適しており、歴史のその次元を活用することができるということである。

遠近法の問題は、私たちが数学に出会うことを期待する最後の場所かもしれない。20世紀には、数字は主に物理的な測定(または人口統計学的なカウント)に使われ、観察者によって大きく異なることはなかった。このような連想から、アラビア数字はそれ自体が客観的であり、社会的文脈から独立したものであるかのような印象を多くの人々に与えてきた。しかし、現代の量的手法を改めて見直してみると、客観性への志向によって区別されていないことに気づくかもしれない。特に機械学習は、主観的な文脈に敏感すぎる傾向があるため、世間を騒がせている。

学者が明示的に概念を定義すれば、中立性を目指す定義を作ることができる。しかし、機械学習が作り出すモデルは、明確な定義に頼るのではなく、その代わりに、概念をもっぱら例示的な事例から学習する。例から学習することで、機械学習は柔軟性を持つが、同時に特定の証拠の選択に潜む仮定や偏見を拾い上げやすい。このことは、中立的な裁定者であることを期待されている機関にとっては大きな問題となっている。信用力に関する銀行の判断が、性別や人種に関する思い込みによって形作られることは避けたい。しかし、承認されたローンや却下されたローンの事例から信用力を学習するモデルは、そのローンを承認したり却下したりした人のバイアスを吸収してしまう可能性が非常に高い。不偏不党を目指す金融機関は、機械学習を避けることを選ぶかもしれない。一方、過去について推論する場合、私たちの目的は通常、バイアスを認識し探求することであり、バイアスを消し去ることではない。例えば、文学作品の特定の選択に暗黙的に含まれている主観的嗜好を理解することは、まさに私たちの研究の目標かもしれない。この種のプロジェクトにとって、機械学習が学習対象の証拠に潜在する仮定を吸収する傾向があることは、問題ではなく、プラスの利点である。さまざまな人が選んだ証拠でモデルを学習させることで、さまざまな社会的視点を結晶化させ、互いに厳密に比較することができる。

私が「視点のモデリング」と呼ぶこのアプローチは、ここ数年で具体化したものである。機械学習の他の使い方に慣れている読者は、いくつかの仮定を脇に置いておく必要があるかもしれない。本書で作成されるモデルは教師ありモデルである。つまり、常に人間の読者によってラベル付けされた証拠から出発する。しかし、匿名のテキストの真の作者を見抜こうとする教師ありモデルとは異なり、視点モデルは単に人間の判断を再現することを目的としていない。その代わりに、異なる観察者間の視差を測定するために使用される。

この戦略は、この後のページで多くの応用が利くだろう。たとえば第2章では、ジャンルの歴史についての疑問を投げかけるためにこの方法を用いる。場合によっては、異なる時代の観察者によって定義されたジャンルは、その名前から想像されるよりもうまく一致することが判明する。19世紀の「科学的ロマンス」を研究したモデルは、現代の「サイエンス・フィクション」を同じものとして認識することが容易である。たとえば、読者が「ゴシック」と呼ぶさまざまな伝統は、単一のモデルではうまく認識できない。このような証拠は、歴史家がひとくくりにしたり分割したりする不毛な議論を超えて、さまざまな曖昧さの度合いを持つ境界を認める、より柔軟な議論へと向かう助けとなるだろう。

第3章では、形式とジャンルの問題が、文学の生産と流通のより厳しい側面とどのように交錯しているかの説明で始まる。これにはテクストの書庫に社会的文脈を取り入れて価値を高める必要がある。たとえば、どの作品が商業的に成功したのか、あるいは批評家のお気に入りになったのかを知るためである。その証拠によって、学者たちは文学の流行が市場からの圧力や批評家の判断パターンの変化とどのように関係していたかを問うことができる。この調査によって、文学の隆盛を定義する基準が、長い期間にわたる変化の方向性と強く一致するという、驚くほど規則的なパターンが明らかになる。文学史の弧は長いが、(いわば)名声に向かって曲がっている。この時点で、私たちはもはや、見慣れた歴史の説明を、より長い視点でとらえるために単純にもう一度繰り返して変容させているのではない。美的判断の基準が何世紀にもわたって比較的安定したままであり、同じように長い時間軸の中で文学の変化を形作ってきたとすれば、私たちは、教科書や論文集で語られる急速な世代逆転の物語とは基本的に相反する文学史の説明を見ていることになる。

本書の最初の3章は、書物がほとんどの場合全体として議論されうる文学史の次元(受容やジャンルなど)について述べている。プロットやキャラクターのようなトピックは、長い時間軸を横断して追跡するのが難しい。なぜなら、アルゴリズム的に解明するのが困難な、書物のレベル以下の区分が必要だからである。しかし、コンピュータ科学者の協力があれば、これらのトピックをある程度進展させることも可能である。第4章では、特に、フィクションのキャラクターがジェンダーに関する暗黙の仮定によって形成される方法について、キャラクター設定の歴史を探る。繰り返しになるが、視点モデルは私の議論に決定的な力を与えてくれる。例えば、キャラクターの性格付けがどれほど強くジェンダー化されてきたかを問う一つの方法は、テクストの中で行われるものとして女性や男性が表現される事物のみを使って、フィクション上の女性を男性から区別するのがどれほど容易かを問うことである。ファーストネームや代名詞を外した場合であっても、モデルはキャラクターの文法上の性別を予測できるだろうか?もしそうなら、ジェンダーに対する見方は時代によってどのように異なるのだろうか?デビッド・バンマンが構築したツールを一部使用することで、1840年から現在に至るまで、キャラクターの暗黙の性別設定が着実に曖昧になっていることを示すことができた。もちろん、より興味深いのは、性別を示す具体的なディテールである。それは常に明白ではない。20世紀の中頃になると、突然、微笑むのは女性的だが、ニヤリと笑うのは男性的になる。おそらく最も興味深いのは、キャラクターの性別を予測する細部は極めて不安定であることが判明することだ。フィクションにおける性別は、1840年当時と今日では同じものではない。その過程で、作家の社会史におけるいくつかの直感に反する傾向につまずくことになる。特に、1850年から1970年の間に、女性によって書かれた英語小説の割合が50%減少していることが挙げられる。

私が上で概説した文学史へのアプローチは、控えめに言っても議論の余地がある。文学的な議論では通常、数字は用いられないし、人文学において数字が重要な役割を果たすことができるのか、多くの学者は疑問視している。本書の第5章では、こうした懸念に深く応答する。この論争を巻末に回したのは、この論争を、第一原理を唱えればあらかじめ決着がつくような、対立する哲学間の闘争だとは考えていないからである。大規模な量的研究の価値に対する疑念は、過去に対する新たな視点の本質的な面白さに対する疑念であり、そして、新たな視点が面白いかどうかは、それを探求してみなければわからないのである。本書の最後に、新たな記述の尺度を探求した後、私はその固有の面白さと、人文学者が視野を広げるために支払わなければならないかもしれない代償とを比較検討する。

確かに、すべての知識には対価が必要だ。しかし、この場合、その代償は哲学的というよりも制度的なものである。我々が見ているのは、構造主義とポスト構造主義の闘争のように、ある視点を捨てて別の視点を採用しなければならないような議論ではない。distant readingは、単なる新たな記述の尺度であって、手の解剖図が細胞内で起こっている化学反応と対立しないのと同じように、精読(close reading)と対立するものではない。これまでの文学的描写の尺度を置き換えるのではなく、distant readingは学問分野を拡大する可能性を秘めたものである。どちらかといえば、生化学が化学をより大規模な分析に広げたように。しかし、拡大にコストがかかることは否めない。新しい種類の鍛錬は学者の仕事を増やし、文学部の性格を変えてしまうかもしれない。そこで第5章では、人文学における量的研究に必要な気質と鍛錬について考察し、第1章から第4章までに展開された新しい視点が、関連する代償を払うに値するかどうかを読者に判断してもらうことにする。

しかし、コストと便益を天秤にかけることは、長い時間軸から見えてくるものをしてはじめて可能となる。序文で私ができることは、読者が最初に恐れるかもしれないいくつかの誤解を解くことである。特に、本書を開いてグラフを見た瞬間に、ある懸念が頭に浮かぶかもしれない。それは、量的手法は客観的な知識を生み出すために、人文学の解釈的な側面を取り除こうとしている、というものだ。この考え方は、人文学者と科学者の間のコミュニケーションの失敗から生まれたものだと私は考えている。長い話を短くまとめると、本質的には数字は言葉よりも客観的というわけではない。数字は、程度の問題を推論するために人間が作り出した記号に過ぎない。過去に関する他の議論と同様、統計モデルも証拠の暫定的な解釈である。モデルを数学的に表現することは、いくつかの仮定(特に量と程度に関する仮定を含む)を明示するという利点がある。しかし、数字には疑問を解決する特別な力はない。仮定や推論は依然として、慣れ親しんだ議論のプロセスを通じて打ち出されなければならない。さらに文学史においては、研究者はしばしば主観的な信念そのものである世界の側面をモデル化するために統計を用いることになる。例えば、ジャンルを探求する際、私は「1973年当時の特定の観察者グループが、これを探偵小説の一例だと考えた確率」のような変数をモデル化した。

言い換えれば、文学への量的アプローチは、文学史がマルクス主義やダーウィンの論理に支配されているという信念を前提とする必要はない。本書は、長い時間軸に渡る変化のパターンをスケッチする一方で、文学史が馴染み深い主流の物語によって説明できるという仮定には、基本的に抵抗する。本書の第1章は、二つの物語の詳細を探るという、文学の読者が多くの場合に始めるところから開始される。しかし、そうしているうちに、それらの細部は、他の多くの書物にも共通する、より大きなパターンへと整理されていく。そして、それらのパターンを理解しようとして、モデルと呼ばれる一般化を形成し始める。それらのモデルは、学者たちがこれまで説明できなかった大きなパターンを明らかにする。しかし、視点の違いや議論がなくなるわけではない。量的モデルは、他のどの歴史解釈よりも客観的なものというわけではない。それは、人類の過去の謎に取り組むためのもう一つの方法に過ぎず、より広い視野に立つために後退しても、複雑さや不可解さが軽減されるわけではない。

私が冒頭で取り上げたい2つ目の誤解は、フランコ・モレッティが約19年前に提唱したdistant readingの極論的な定義に関わるものである。私がdistant readingという言葉を採用したのは、それが適切であったからであり、また、過去の看板をかけかえることによって過去を否定し、同時にそれを正当化しようとする学問的傾向を警戒しているからである(distant readingがナイーブであったことは誰もが知っているが、私は批判的distant readingを発明した。それはまったくの別物である。) 終わりのない看板のかけかえはうんざりする。しかし、2019年、distant readingを評価する方法は、増えつつある研究者コミュニティによって最近生み出された結果を見ることであり、フランコ・モレッティが2000年に提唱したこのプロジェクトの思索的な根拠をめぐって論争を繰り広げることではない、と言う必要がある。

社会科学的手法とデジタルテキストを用いて文学の過去を探求することを提案した学者は、モレッティが初めてではない。コーパス言語学、社会学、書物史の影響を受けた同様のプロジェクトは、1980年代から1990年代にかけてすでに進行していた。今世紀に入り、大規模な研究をサポートする一連の社会的・概念的革新(例えばデジタルライブラリーや機械学習)に後押しされ、このプロジェクトは劇的に加速した。しかし、2000年当時、ほとんどの文学研究者にはこれらの要素はほとんど見えていなかった。それどころか、distant readingは当初、1990年代の古典を拡張し復興するプロジェクトの延長として理解されていた。そのため、この事業は、学者たちの注意を引くための道徳的な主張となった。もしあなたがdistant readingをしないなら、「文学の屠殺場」に忘れ去られた何千冊もの本の叫びを無視していることになる。

19年経った今でも、大規模な文学史プロジェクトは鮮明で適切であるという理由でしばしばdistant readingと呼ばれる。 しかし、このプロジェクトは、当初その名前に付随していた極論から脱却した。例えば、モレッティが回復の道義的緊急性を強調したことで、多くの懐疑論者は、デジタルライブラリー自体がいまだに、失われた、あるいは単にデジタル化されていない多くの蔵書を除外していると反論した。どんなに大規模なコレクションであっても、すべての作品を屠殺場から救うことはできない。これは事実である。また、通常、明確に限定されたサンプルを使っている現代のdistant readingに対する異論でもない。distant readingのポイントは、出版されたすべての作品の完全なアーカイブを回収することではなく、異なる時代や社会的文脈から引き出されたサンプル間の違いを理解することにある。

この他にも多くの点で、distant readingの担い手たちとその批評家たちは、しばしば互いを通り過ぎて話をしているに過ぎない。文学史への量的なアプローチは非常に生産的であったが、それらが生み出した結果は、最も悪名高いマニフェストが予測した結果ではない。例えば、古典と屠殺場の違いは、それほど大きくないことが判明している。著名な作家も無名の作家も、ほぼ同じ方向に進んでいることが多い。しかし、その分析範囲を拡大することで、distant readingの担い手たちは長い歴史的な弧につまずき、古典と無名作家の両グループについて私たちが知っていると思っていたことを変えてしまう。

今こそ、この会話に再び焦点を当てる時である。distant readingの担い手たちには、批評家たちが20年前に約束したことよりももっと興味深い、彼らが実際に行ったことへの反応を促すような、新しいマニフェストが必要なのだ。本書は、いくつかの可能な方法のひとつで、単なるアーカイブの網羅性から長いタイムラインの広がりへと重点を移すことで、会話の焦点を再定義する。

当然のことながら、これから述べる方法には限界がある。新しくて面白いからといっても、文学研究の隅々にまで数字を押し込むのは誤りである。一つの作品の良さを繊細に表現したい批評家にとっては、大抵の場合、統計は必要ない。 コンピュータやまことしやかな写真に熱中するあまり、例えばキャラクターのつながりを詳細に記したネットワークグラフによって一冊の本の理解にどれだけのことが付け加えられるかを、観察者たちは誇張してしまうことがある。テキストをコンピュータで分析することは、以前よりは柔軟になったが、人間の読解に比べればまだまだ粗雑である。主に役立つのは、証拠が大きすぎて一人の読者の記憶に収まらないような問題である。量的手法が特に長い期間の理解に貢献してきたのは、このような理由による。

一方、文学史の本は、地上3万フィートの上空ですべての時間を過ごすことはできない。文学は個性的なキャラクターと共鳴するディテールによって読者の心をつかむものであり、文学史にも同じことが必要である。現代の文学史には特にこのことがあてはまる。第1章と第3章で説明するように、具体的な特異性はこの300年の間に詩や小説にとって着実に重要性を増し、現在では文学ジャンルとノンフィクションを分ける主な文体の違いを構成している。大雑把な一般化に終始するような現代文学史では、その主題の重要な側面を伝えることができないだろう。そこで本書は、非常に広い歴史的視野を持ちつつも、個々の作家の事例研究や選択された箇所の精読にも踏み込んでいる。

このような尺度の並置によって生み出される修辞学的、美学的なひずみが、distant readingへの真の挑戦となる。量的な推論と人文主義的な解釈の間には、原理的には矛盾はないかもしれない。しかし、文学の学問が、科学において一般的な基準よりも厳しい美的基準を目指していることは事実である。それにもかかわらず、幅広い読者が興味を抱くのに十分詳細で、十分合理的で、十分生き生きとした量的文学史を、distant readingの担い手たちは描き出すことができるだろうか。もしできなければ、どんな議論も私たちを救うことはできないだろう。私たちのやっていることは重要かもしれないが、それは社会科学に属することになるだろう。私は数字が人文学にもなじむことを示したい。しかし、それを事前に証明することはできない。私にできるのは、統計モデルを使って幅広く人々の関心を引くサスペンスに満ちた物語を語る本を書くことによって、それを描き出そうとすることだけである。