と。

統計学は趣味、マーケティングは義務。

今年買った統計学の本を流し読みして消化した気になる

この記事は統計・機械学習の数理Advent Calendar21日めの記事です。

正直数理的な要素を詰める時間が全く取れず、それでもなにか記事を書かなければという使命感から、今年読んだ本の紹介をすることにしてお茶を濁そうと思います。

かねてより本は割と取捨選択をするタイプで、図書館や書店でよくよく吟味してから買うのですが、なんだかんだ統計学の書籍はノールック購入してしまうのは未だに癖として抜けません。 今回に至っては本当に今年購入したのかすら定かではありませんが、記憶と出版年から「多分今年買ったんだと思います」という積読本を選び取り、今年のうちに流し読みだけでもしておこう、という雑な記事になります。

どれも良い本です。モチベーションのある人は是非買ってみてください。

免責事項

3月から5月まで休職していたときにはほとんど統計学や機械学習に関する本を受け付けない状態であったのですが、運良く3ヶ月で済んだので、下半年で大量に購入した履歴が残っています。 大事なこととしてこれらの本は1冊に1年かけて読むようなものであるし、『第3版 ベイズデータ解析』に至っては懐にしまって致命傷を避けるために持っておくくらいの本だと思います*1。

したがって以降の紹介はほぼ流し読みで、正しい理解かどうかすら怪しいので、真偽の程は各自で確かめてほしいなあと思いました。責任転嫁。

『データ解析のための数理統計入門』

www.kyoritsu-pub.co.jp

統計検定1級を目指して勉強したことがある人は間違いなく存じているであろう、久保川達也先生の数理統計学の入門書です。「数理統計ってデータを解析するためにあるのでは?」とは思うのですが、これは「はじめに」の第1文を読むことで、著者の問題意識が明確になるでしょう

コンピュータとデータ解析ソフトなどの発展に伴いデータから有益な情報を引き出すことが容易になってきた昨今、データサイエンスという言葉が象徴するように、データの価値とデータ解析の有用性が認識されるようになってきた。一方で、データを科学する上で基本となる確率とその上に展開される数理統計学の考え方や方法論の基礎を一通り理解しておくことは、データを適切に解析できるようになる上でも、現実のデータ分析に相応しい新たな統計モデルと解析手法を創造していく上でも、大切である

確かにRやPython、SQLを使ったデータの集計・加工や基本的なモデルの「実装」については、その言語による文法を学べば十分に実装可能でしょうし、なんなら産業界であればGUIでこれらを実現するサービスは山程存在します。生成AIによるCopilot機能も無償版が出てくるようになってきた中、なぜわざわざ「数理」統計を学ぶ必要があるのか、という点は、この1文で十分に理解できると思います。

個人的にも、例えば回帰分析は「誰でもできる」手法となったものの、その推定プロセスとはどうなっているのかを理解しておかないと、出力された結果が信頼できるものであるのか、信頼できる場合実務課題に照らしてどのように解釈されるのか、あるいは信頼できない場合、データをどのように整理するべきかにあたりをつけられないといういくつかの問題が出てきます。
これらも大規模言語モデルに「聞いてしまえば」解決することもあると思います。仕事や研究で、関心の対象の理解のために道具として使っている人であればこれで構わない場面もありましょうが、私個人は統計手法の数理的な要素を理解することがライフワークなので、ここを理解して、自分なりに腹落ちさせることが人生の重要な要素を占めています。

本書の数学的な難易度は『現代数理統計学の基礎』と東大出版『統計学』の間に位置づけられますが、一般的なレベルで言えば「高い」方に位置づけられると思います。章立てや解説する内容はこれまでに数多く出版されている統計学の本と共通する要素は多いですが、個人的には「擬似相関」の問題の典型として取り上げられることの多い印象のあるシンプソンのパラドクスが、基本的な確率計算の例として提示されていたり、ベイズ統計に紙面を割いていたりと、本書ならではのとりあげ方があり、『現代数理統計学の基礎』が難しすぎて挫折した身としてはちょうどいい難易度であるなあと思った次第です。

『入門情報幾何 統計的モデルをひもとく微分幾何学』

www.kyoritsu-pub.co.jp

情報幾何学のモチベーションは、確率モデルを取り巻く様々な分野で独自に発展した理論や方法論を、微分幾何学の言葉で統一的に理解できないか?という試みであるらしい*2です。確かに情報理論や最適化理論でも確率・統計が活きているなあというか「ここはまだ理解できる」という概念が出てくるのですが、どうしても腹落ちができないなあというもどかしさは世界共通だったのか、という安心感があります。
ちなみに情報幾何は岩波書店から出ている甘利・長岡『情報幾何の方法』を過去読んだことがあるのですが無事に挫折しています。まず微分幾何学がわからないのでだめなんだな、という諦めを得ていますが、本書の「はじめに」には

第1章から第3章までに必要とする数学は微分積分と線形代数のみである

と記載されており、実際にほとんどは微分積分と線形代数の知識を持っていれば読み進める事ができそうです。反面、著者の専門が微分幾何学であることから、これらの知識を幾何学的に解説する結果、微分幾何学の概念が自然に導入されるような体裁担っています。
本書で助かるな、という感を持つのは、各節の第1段落で「これからこういう理由でこういう概念を導入する」という一文が挿入されていることにあります。数式だけを追っていると「なぜこれが必要なのか?」という疑問が先行してどうしても数式が頭に入らなくなるのですが、節単位で立ち戻る目的が明確になっているのは、数学の本としてありがたいなあと思います。

……という本の良さしか伝えないのもアレなのでこの本で私が理解したいと思っている概念の話を紹介します。
数理統計学の本で私が幾度となく挫折している概念に「フィッシャー情報量」という概念があり、これをどうにか理解したいというのが目的にあります。確率変数 Xとパラメータ \thetaを持つ確率関数 f(X | \theta)を考えたときに、対数尤度関数の1階微分 \frac{\partial}{\partial \theta}\log{f(X | \theta)}の分散として定義されるらしいのですがもうわからない。
ただ、このフィッシャー情報量や、その拡張であるフィッシャー情報行列が、微分幾何学の概念?であるところのリーマン計量?として理解できるらしいです。
更には情報理論やら最適化領域との共通言語として整備されているので、統計学の知識を軸に他領域に手を出す武器が手に入ったらいいなあと思ったりしている次第。でも難しい。正直いつ理解できるかはわかりません。

ちなみに、甘利俊一先生の『めくるめく数理の世界 ― 情報幾何学・人工知能・神経回路網理論』もおすすめです。これは甘利先生の自伝的な本であり、必ずしも「数理統計学の本」でもないので軽く紹介するにとどめますが、数式の出てくる自伝が書ける人はそうそういないし、自分の人生の2倍以上を研究にささげている著者の回顧は、大変読み応えがあります。この本の最後には甘利先生が著した論文・書籍の一覧がありますが、これを眺めるだけでいかにすごい人かはわかるでしょう。

『第3版 ベイズデータ解析』

www.morikita.co.jp

言わずとしれたBDA3。もはやこれは「流し読み」で何かを紹介できるわけがないボリュームなので、目次はググって読んでほしいって言いたい。それくらいのボリュームがあります。
訳者陣は数理統計学の専門性で企業を支援する株式会社Nospareで、書店で見かけたら「訳者まえがき」だけでも読んでその熱意を感じてほしいと思います。

ベイズ分析を実用面や実務的な場面で活かすためには、発展的な内容まで含めたベイズ分析の方法を包括的に把握することが重要であり、それを1冊で達成できる書籍として本書があると考えている

訳者らはベイズ統計学や関連した統計学分野の研究を行なっているが、国内においてベイズデータ分析の実応用での適切な利用に関して世界から遅れをとっていると感じ、その原因の1つとして、包括的に方法論を学べる機会の少なさがあると考えている。(…)このような現状に鑑みた結果、訳者らは本書のような書籍の翻訳が重要であると考えた。

ここだけでも、Nospare社が日本のベイズデータ解析の発展に資するために700ページ近くの書籍の翻訳を進めた覚悟がすごいなあと思いました。常に座右に置いて、ベイズ統計が求められる場面ですぐに引けるようにしています。

『主成分分析と因子分析 特異値分解を出発点として』

www.kyoritsu-pub.co.jp

統計クラスタでは有名?な「統計学One Point」シリーズ。焦点を当てるポイントが本当に「点」で、200ページ弱の中で徹底的に深く理解する事のできる大変面白い本です。

本書はタイトルの通り、主成分分析と因子分析について書かれています。因子分析に関しては今年のR Advent Calendarの記事にも記載しましたが、これらは100年以上前にそのアイデアが生まれている文字通りに「枯れた手法」ですが、実際は因子分析の行列分解による定式化は21世紀に入ってからのトピックであり、因子分析でよく議論される回転法にも2000年以降で検討がなされてきたとのことで、古い手法ながらその発展は未だに進んでいる面白い領域です。

主成分分析と因子分析の違いについては、応用面では良く分けられます。主成分分析は主に「膨大な変数を一定数の『主成分』としてまとめる」こと、因子分析は「膨大な変数が得られた仮定の背景にある『因子』を抽出する」こととして議論されることが多いと思います*3 本書は、これらの数理的な方法論には共通して特異値分解の応用であることから始まります。加えて、主成分分析の定式化には、応用面でよく用いられる変数の主成分への「要約」だけでなく、因子分析の概念に近い、主成分から各変数に重みをつけて配分されるアプローチも存在することが記述されています(2章)。そのうえで「じゃあ主成分分析と因子分析の違いはどこにあるんだ」という問いに答えてくれます(5章)。

大学の講義や実務での応用で、主成分分析も因子分析も使い分けができていたつもりだったのですが、数理的な違いについては自分の言葉で説明できていなかったので、枯れた手法だからといって「完全に理解した」と思い込まないようにしようと言う戒めも得ました。

潜在成長曲線モデル

www.kyoritsu-pub.co.jp

最後は「計量分析One Point」シリーズから。このシリーズも200ページ弱の書籍が多く、「統計学One Point」シリーズよりも実践的な話題が多いところが特徴です。
潜在成長曲線モデルは、構造方程式モデル(SEM)の応用で、同じ人を継続的に測定し続ける「パネルデータ」の分析アプローチです。
パネルデータを扱う分析の難しいポイントには個体間の異質性と個体内の異質性の制御にあります。
本書ではSEMの特定のモデル構造によって、関心の対象とする変数の影響の変化について、個体間の異質性と個体内の異質性をコントロールしながら推定する方法を紹介しています。
ここまで読むと「あれ、それってSEMを導入しなくてもマルチレベルモデルでも実現できない?」と考えた私は鋭くて、実際4章ではマルチレベルモデルによる導入と数学的な違いがないことが述べられており「ですよね」となりました*4。

終わりに

尻すぼみとかいうな。
これ以外にもいろいろな本を買ったり、ほしいものリストから送ってもらったりしていますが、中身を読み切れていないので、すんません。
とりあえずブログ記事に書くために流し読みできたので、以降の人生でちゃんと消化できるよう精進します。

*1:読了することが著者・翻訳者に対する誠意とは思いながら、700pを超える超大作はベイズ統計の実装に困ったときに手引きとして用いることを考えた方が良いでしょう。

*2:赤穂昭太郎 情報幾何入門

*3:「主成分分析と因子分析の違い」でググるとこんな感じで解説されていますが、大学生の頃の私は「でもやってることは同じだよな」と煮えきらない思いをしていました

*4:実際私の修論もパネルデータを用いた離散時間ロジットモデルがベースにあり、「潜在成長曲線モデル」のマルチレベルモデル的実装をしていたりします