と。

統計学は趣味、マーケティングは義務。

『データ駆動型回帰分析』を読む(お気持ち理解編)

背景

調子に乗りました。

著者に反応を受けたら、そりゃやらないといかん

というわけで『計量経済学』でも有名な末石直也先生が2024年4月に出版された 『データ駆動型回帰分析』を購入してから5ヶ月、途中休職を挟んだもののだいぶぶん投げっぱなしだったので、改めて読みます。

www.nippyo.co.jp

流し読んだ感想

ぶっちゃけちゃんと腹落ちして読めているのは1章だけで、2章以降はわからないことも多いので、とりあえず1章までで摂取できる栄養素を記述します。

対象読者が結構高レベル

「はしがき」を読むと「経済学をバックグラウンドとする人たちを主たるターゲット」としています。著者は機械学習関連の書籍の多くは経済学者の興味とは別に重点があり、計量経済学を学ぶ人向けに、計量経済学的手法の拡張として機械学習的手法も視野に入れた解説書になっています。

私は社会学とかマーケティングが基礎にあるので、計量経済学はかじっているものの、経済学を体系的には学んでいない(あまり興味がない)のですが「経済学の知識は特段必要としません」という著者の言葉を信じて読み進めました。なんとか読めていると思います。

前提知識は有斐閣の『計量経済学』レベルとのことですが、基本的に易しい本ではないことが明言されています。筆者の経験的にも「薄い学術書は難しいがち」というのがあるので、そのへんは半ばあきらめていきます。

問題意識がはっきりしている

計量経済学の標準的なトピックとして機械学習の手法が扱われるまでには至っていないのではないかと思います

いきなり本書のトピックの主軸ではないし、確かに標準的なトピックではないが、反実仮想機械学習については計量経済学のトピックとして注目されるだろうなと思いました。

【記事更新】私のブックマーク「反実仮想機械学習」(Counterfactual Machine Learning, CFML)

これについては同時期に関連書籍が出ているので、そこで十分に議論できれば良いでしょう。まだ一度も開いていませんが、なんか追いついたら記事にします。

反実仮想機械学習〜機械学習と因果推論の融合技術の理論と実践

なんだかんだ計量経済学自体の考え方も学びがある

多分計量経済学では基本のキだと思うんですが「構造型」と「記述型」の分析の違いについて記述があることは個人的にものすごく「他の領域でもあり得るな」という考えに至るものでした。

本書では、何かしらの決定メカニズムを背後に想定する分析を構造的な分析と呼ぶことにする(p. 1)

観測される情報のみから識別可能な変数間の関係の分析のことを記述的な分析と呼ぶことにする(p. 2)

私が戦場にするマーケティング領域では、実務上この構造的分析と記述的分析について、明確な区別をもって向き合っている人は多くないように思っています。

もちろん、マーケティングに置いても線形回帰モデルを使ったマーケティング効果の測定、あるいは期待値の推定を行うという応用があります。しかしながら実務上「現実は線形関数であるという仮定を飲めるほどシンプルではないのではないか」「これこれの要因をこのように考慮したほうがよいのではないか」というような懸念や不安の声を聴くことも多く、我々も「シンプルなモデルから得られる示唆がある」とか「費用対効果的にシンプルな方が良い」とか、色々打ち返す手を持ちますが、根本的にはマーケティング担当は「構造的分析」を強く意識しているように思います*1。

ここで、以下の記述が非常に刺さりました。

真の回帰関数が線形関数ではないとき、OLSは無意味であるかというと、必ずしもそうとは限らない。 (中略) 回帰関数が線形関数ではないときでも、OLS推定量は回帰関数を最もよく近似する線形関数を推定すると解釈する事ができる。(p11-12)

特にOLSを前提とした場合、線形回帰モデルは回帰関数が線形関数ではない場合だったとしても「線形関数として近似したときに最も良い近似を出す」ということで、回帰係数(線形射影係数)の解釈次第では有効であり、その解釈の1つは「限界効果」で、特定の変数の効果が、他の変数を固定したときにどの程度変化するのかを考慮するのであれば、線形回帰モデルによる分析は意味を持つという説得は、平易な表現で解釈し直す必要性はまだまだあるのですが、上記の打ち返しをより精緻にするような内容であるなと思いました。

本書の熱意:筋が通ったテーマ

1章だけでもすでに学びがある中、1.3節ではこの本の全体構成について記述があります。一貫して、次の3つの問題にどのように対処するのか、という部分に重きが置かれています。

  1. 回帰変数の選択が恣意的になりがち
  2. 回帰関数の線形性の仮定が不適切な場合がある
  3. 回帰変数の数が非常に多いとき、OLSの推定精度が低くなったり、そもそもOLSで推定する事ができない場合がある

本書は「データ駆動型回帰分析」という書名で、購入してから「どのあたりがデータ駆動であるのか」を読み解こうとして挫折しまくっていたのですが、仮定の適切さ・妥当性と変数選択の恣意性をどこまで手元にあるデータから判断できるかに挑戦しているのだという点は、2章以降の流し読みをしてみても、一本筋が通っていてかっこいいなと思っています。

終わりに

まだ全然読めていない本書ですが、楽しみな箇所が多くあります。曲がりながらに回帰分析で飯を食っていて、機械学習の回帰問題に関しても一定理解しているつもりではある一方、ノンパラメトリック、セミパラメトリックな手法は全く触れてこなかったので、既知と未知のバランスが非常に良い、というのも楽しみなところです

多分頑張れば読めるところ:2章、5章~7章

2章では目的変数の予測に際して適した変数選択を行うための方法や指標について、具体の計算方法や得られる示唆について記載がありますが、さらにその先にある「選択されたモデルのパラメータの『良さ』」について問題提起がなされています。確かに古典的な統計的推測は1つのモデルが、真のモデルを仮定したときにどの程度「真に迫っているか」を評価する方法論ですが、変数選択をするということは複数のモデルを比較してその中から最も真のモデルに迫るモデルを選び、そのパラメータの妥当性を評価することになります。1つのモデルではないので、2章で紹介されるような指標で考慮すると、限界効果の妥当性を見誤るリスクがある、と述べています。多分

5章から7章は機械学習でよく議論される決定木系のモデルや正則化法です。全く読めていないですが、正則化回帰は正則化項をつける以上、推定されたパラメータにはバイアスがつくものと思っています(LASSOは発展型に一致性を満たすようなモデルがあったはず)。これらをどのように取り扱うことができるのかを知るのは楽しみだなと思います。

何もわからない:3章、4章

何もわからないので楽しみです。

さいごに

表層だけ読んでいるので、末石先生が伝えたいことの1/3も受け止めきれていないです。

ただ間違いなく言えるのは、この本は計量経済学の解説書の中でもだいぶ「異端」だろうということです。お作法的に「こうしていいだろう」って思っていたことが実は厳密に見ると正しいとは言えないこと、それを慣習的に実践してしまっていることは、こと学術の領域ではその妥当性や信頼性を揺るがすことだと思います。多くの計量経済学の教科書的な本はもちろん良い本も多いですが、手元に本書をおいて、少しひねって使うときに「教科書通りで良いのか?」と疑う姿勢を持つきっかけにしたいなあと思いました。

蛇足

私生活で色々あって、否応なしにお金が必要なのですが、今の会社内の生存競争には負けそうなので、
記事の寄稿、書籍の出版や共同執筆など、お話があれば是非ご紹介ください。自分やれるんで。よろしくお願いします。

*1:例えば共分散構造分析のように、「構造的分析」を一部体現する分析手法がありますが、これでも現実をすべて反映できるわけではない