【統計に明るくない方用】財務省の不適切なデータ解析について
統計にお詳しい方は下記URLの解説を参照ください。
みなさんは、ニュースなどで「中央省庁が出したデータ」や「グラフ」を見たことがあるかもしれません。
そのデータから「政府の支出と国の成長には関係がない」という話をしているのですが、実はこのグラフの作り方(分析のしかた)に問題があるというお話です。
あくまでも事実に基づいた指摘を行っているものであり、陰謀論を助長する趣旨ではありません。根拠のない憶測や陰謀論には強く反対いたします。
※
このページでは統計に詳しくない方へ、わかりやすくかみ砕いて何が問題なのかを明らかにしていきます。
したがって、正確性を求める方は上記URL(財務省の不適切なデータ解析について)を参照願います。
1. はじめに
昨今、103万円の壁引き上げで財務省に対して 「積極財政をすべきだ」「緊縮財政をすべきだ」などの議論が盛んに行われています。
今回の問題はそこではありません。
財務省主計局が国際通貨基金(IMF)の一次データを用いて分析した際に、 適切な統計処理を行わないまま結論を導きだしました。
積極財政・緊縮財政を語る以前の不適切な問題です。
では、なぜこれがダメなのでしょうか。
理由は、誤った分析によって作られたデータやグラフからは、正確な結論を導けなくなるからです。
そして、データの可視化はやり方しだいで印象を操作することもできてしまいます。
こうした誤解を防ぐためには、
厳密な統計処理
なぜその解析方法を選択したのか
どのような背景や仮説があるのか
統計処理が正しい(有意)かどうかの検証
といった透明性と妥当性のあるプロセスが不可欠です。
統計に詳しくない人々は、
「権威あるところが言っているのだから間違いないだろう」
と受け止めがちです。
しかしこれは、そもそも統計処理が正しく行われ、さらにその手順が公平で隠し事がないことではじめて成り立つ信頼です。
この問題は、データを扱う上での倫理や責任が問われるとても重要な問題です。
さらに言えば、データを扱う組織や個人の分野・学部を問わず、誰もが気を付けなければいけないのです。
2. 不適切な解析について
2024年11月29日に、財務省から「令和7年度予算の編成等に関する建議」を受け取りました。と投稿がありました。
この文書には、数字を使った分析(統計解析)で「あれ?」と思うところがいくつかあります。
たとえば、GDPの成長率(国の経済がどれくらい大きくなるか)と、政府がどれだけお金を使ったか(政府支出)の関係が、12ページのグラフで説明されています。
けれども、ここで"外れ値(ほかの数字と大きく違うデータ)"があるように見えるのに、特に注意せず同じやり方(ピアソン相関)だけで分析しているかもしれないのです。
本当は、外れ値があるときは「この外れ値を外す」「外れ値があっても安心な方法(スピアマン相関)を使う」など、さまざまなの方法を検討します。
ところが、その検討をしていない可能性が高いのが問題だと考えられます。
また、グラフでは「相関係数(R)」を使っているのに、「回帰式」という数式まで出している点も「どうして?」と疑問です。
相関があるかどうかを確かめたいだけなら、相関係数やその確かさ(“p値”という数字)を見せれば分かりやすいはずなのに、どうも分析が中途半端に感じられます。
私たちは、こうした問題点をはっきり示して、多くの人たちに知ってもらいたいと考えています。
中央省庁が使う分析は、私たちの暮らしにかかわる大事なデータだからです。
3. 当方(+その他のデータサイエンティスト)による解析
3-1 ざっくり全体の流れ
IMFのデータを使って政府支出とGDP成長率の関係を調べた。
いろいろな国の「政府がどれだけお金を使ったか」と「1人あたりの経済成長率(GDP)」を集めた数字がありました。
散布図というグラフで、それぞれの国を点として表した。
その結果、財務省のグラフとほぼ同じものが作れました(図3~図6)。
つまり、「財務省が使ったデータはこのあたりだろう」と再現できました。
相関という、「2つの数字がどれくらい関係あるか」を調べる方法を使った。
“ピアソン相関”と“スピアマン相関”という2種類があります。
ピアソン相関 → 変わった数字(外れ値)に弱い。
スピアマン相関 → 変わった数字(外れ値)の影響を受けにくい。
実際に調べてみた
ピアソン相関は「はっきりした関係はない(統計的に意味がない)」という結果。でもスピアマン相関では「関係がある統計的に意味がある)」と出ました。
これは「外れ値があるか、ないか」で結果が大きく変わる可能性がある、ということです。
どの国が外れ値(すごく変わった数字)なのかをチェックした。
いろいろな計算方法で調べると、アイルランドなど、いくつかの国が「みんなの数字と大きくズレている」ことがわかりました。
外れ値(アイルランド)を外したら、ピアソン相関でも「明らかに関係がある」とわかった。
逆に外れ値を入れると、ピアソン相関では「はっきりしない」となってしまう。
どうしてアイルランドがそんなに変わっているのか(引用1を参考に)?
アイルランドは海外の企業や投資が急に増えたりしてGDPが大きく変わる特別な経済構造だったのです。
そのため、他の国と同じようにくらべるのは正しくない可能性が高いです。
結論
外れ値をそのままにするか、外すかで「政府支出とGDP成長率の関係」が変わります。
それをきちんと説明しないと、「本当はどうなの?」とわからなくなります。
だから、外れ値の扱いをしっかり決めた上で分析することが大事なのです。
3-2. もう少し詳しい説明
どうやって分析したの?
コンピュータのプログラム(Pythonという言語)を使って、IMFから取ってきた数字をグラフにしたり、相関を計算したりしました。ピアソン相関とスピアマン相関ってなに?
ピアソン相関:2つの数字に「直線の関係」があるかどうかを見ます。変な数字が1つ入るだけで結論が変わることがあります。
スピアマン相関:上下関係だけを見る方法です。たとえば「もっと政府が使うと、もっとGDPが伸びる」といった「増える・減るの流れ」を見ます。こちらは変な数字にあまり左右されにくいのが特徴です。
外れ値ってなに?
みんなの数字のまとまりから、1つだけすごく遠いところにある数字です。たとえば、大半の国は「政府支出がだいたい1~3%増えて、GDPの伸びも1~2%くらい」なのに、ある国だけ「政府支出が6%も増えている」とか、「GDPが7%も伸びている」となると、他と比べてかなり違うので“外れ値”と呼びます。アイルランドはなんで外れ値?
海外の企業が一気に集まったりする特殊なケースが多く、GDPが急に増えて見えることがあるから。他の国とは経済の仕組みがちがいすぎて、数字で比べるとズレやすいのです。だから何が問題?
財務省の資料を見ると、こういった外れ値を「そのままにしてピアソン相関だけで判断している」ように見えます。
それだと、「本当はあるかもしれない関係」が弱まって見えてしまう可能性があります。
ちゃんと外れ値がどの国なのかを確認し、その国を外した分析もしてみる、あるいは“スピアマン相関”など外れ値に強い方法を使うのが一般的だが、その説明が十分にされていません。
3-3. まとめ
同じデータなのに、分析のしかたで結果が変わるかもしれない。
アイルランドのように特別な数字がある国をどう扱うかが重要。
ただ「相関がないよ」と言うだけではなく、なぜそうなのかをきちんと見せる必要があります。
こういった流れで「外れ値をちゃんと考えずに結論を出すと、誤解を生むよ」というのが、今回の大きなポイントです。
政府などの公的な機関が出すデータは国民のみんなに関わるからこそ、より正確でわかりやすい説明が求められます。
相関係数やp値などの数値は下記(3-9. 当方の解析のまとめ)を参照ください。
ここではじめて、重回帰分析やベイズ解析といった高度な分析に移行できます。
4. 質問と財務省の回答
財務省主計局の質問にあたっては、浜田聡事務所の秘書である村上ゆかり(@yukarimurakami5)様を通じて行いました。村上様に深く感謝を申し上げます。
なお、質問及び回答はわかりやすく、かみ砕いて書き直しております。
4-1-1. 質問1
「明らかに“変わった数字”(外れ値)があるのに、スピアマン相関(外れ値に強い方法)ではなく、ピアソン相関(外れ値に弱い方法)だけを使ったのはなぜですか?」
4-1-2. 財務省回答1
「スピアマン相関は、ふつう序数や順位データ(何位とか)を扱うときに使う方法。ピアソン相関のほうが一般的なので使った。」
4-1-3. 当方の見解1
スピアマン相関は、実は実数データ(普通の数字)でも“外れ値”が混ざっているときなどに役立つ方法としてよく使われています。
しかし、財務省は「ピアソン相関は一般的だ」という説明だけで、“外れ値をどう扱ったか”には触れていません。
また、「外れ値を除いたら有意な相関(統計的に意味のある関係)が出た」ということにも答えていないため、不十分だと考えています。
4-2-1. 質問2
「資料I-3-11のグラフで、特に変わった数字に見える国(外れ値)はどこですか?」
4-2-2. 財務省回答2
本グラフにおける左上のマーカーはアイルランドです。
4-2-3. 当方の見解2
私たちの分析や、他のデータサイエンティストの作ったグラフでも同じ結果だったので、ここは問題ありません。
4-3-1. 質問3
「データを計算するとき、IMFの『World Economic Outlook (April 2024)』とPenn World Tableでは、どの列の数字を使いましたか?」
4-3-2. 財務省回答3
IMF “World Economic Outlook (April, 2024)”のGross domestic product per capita, constant prices、General government total expenditure、Gross domestic product, deflator
4-3-3. 当方の見解3
私たちが使ったデータとほぼ同じで、グラフも再現できました。これは妥当です。
4-4-1. 質問4
「政府支出の伸び」と「1人当たりGDP成長率」に相関(関係)があるかどうか、統計的な検定(p値など)をやった結果はどうなっていますか?
4-4-2. 財務省回答5
「仮説検定(p値を出すようなテスト)はやっていません。」
4-4-3. 当方の見解5
検定をしないまま「相関がない」と結論づけるのは、ちゃんとした統計の手順を踏んでいません。これは非常に問題だと思います。
4-5-1. 質問5
「私たちが試算したところ、外れ値を除くとピアソン相関が0.429(p=0.010)になったり、外れ値を含めてスピアマン相関を使うと0.377(p=0.024)になったりして、どちらも『統計的に意味のある相関』と判定できます。
それなのに、なぜ財務省は最終的に『相関がない』と結論づけたのですか?」
4-5-2. 財務省の回答5
「私たちのグラフは、各国を比べるために“機械的に”数字を当てはめたもので、特定の国を外れ値として外したりはしていません。だから、『相関は見られない』と書いたのです。」
4-5-3. 当方の見解5
「外れ値をまったく考慮しない」と、統計としては信頼性が下がります。
むしろ、外れ値がある場合はどうするか考えるのが一般的なやり方です。
財務省は、私たちが示した「統計的に意味のある相関」についてコメントしておらず、回答としては不十分だと思います。
4-6-1. 質問6
「相関係数(ピアソンやスピアマン)ではなく、回帰分析(単回帰)や決定係数(R²)を載せた意図は何ですか?」
4-6-2. 財務省回答6
「単回帰分析をしていて、決定係数(R²)の平方根をとると相関係数(R)になると認識しています。」
4-6-3. 当方の見解6
当方は教科書レベルのことを、わざわざ財務省に聞いているのではありません。
私たちが知りたいのは「なぜ回帰分析を見せたか」ですが、財務省からは直接その理由について答えがありませんでした。
相関を議論するときは、ふつうピアソンやスピアマンの相関係数と、その検定結果(p値)を示すほうがシンプルでわかりやすいです。
4-7-1. 質問7
「今回の計算は、財務省自らやったのですか? それとも外部に頼んだのですか?」
4-7-2. 財務省回答7
財務省主計局が行ったものです。
4-7-3. 当方の見解7
財務省をはじめとする中央省庁には、データアナリストが存在します。
統計データアナリストが5人、統計データアナリスト補が11人です。
中央省庁全体では、統計データアナリストが下記人数存在します。
人事3
内閣府3
総務16
財務5
文科2
厚労5
農水7
経産17
国交8
それだけ専門家がいるのに、外れ値への対処など正確な分析がされないまま結論づけているのは、残念だし疑問が残ります。
下記が財務省とのやり取りです。
5. 追加質問と再回答
私たちはさらに追加で、「外れ値をどう扱ったのか」や「検定をしないで『相関がない』と言い切る理由は?」などを質問しました。
しかし、財務省からは下記のような回答しかなく、個々の質問への細かい答えは得られませんでした。
5-1. 追加質問
外れ値(他のデータと明らかにずれた値)の扱いについて
一般的な外れ値の見つけ方(IQRやMAD法など)を使いましたか?
もし外れ値を見つけた場合、それを外したり、別の方法で分析したりしてみましたか?
外れ値を外して分析したとき、相関(関係の強さ)にどんな変化がありましたか?
「相関がない」と結論づける際の検定について
そもそも、p値を出すような“有意性検定”をしましたか?
検定をせずに「相関がない」と言っているなら、その理由は何ですか?
外れ値に強い統計手法(ロバスト分析)について
スピアマン相関やロバスト回帰など、外れ値があっても影響を受けにくい方法を試しましたか?
試した場合、その結果はどうでしたか?
結果の不確実性について
分析結果にどれくらい誤差があるのかを示す、信頼区間や標準誤差、p値などを提示しましたか?
提示していない場合、なぜかを理由を教えてください。
アイルランドのような特異な国に対する検証について
特別に数値が大きくずれている国(アイルランドなど)を含めて、どのように分析しましたか?
たとえば、Cookの距離などの外れ値診断手法は使いましたか?
もし使っていないなら、その理由は何でしょうか?
5-2. 財務省からの再回答
「経済データを見るときは、いろいろな解釈や手法があると理解している。今回のグラフはOECD各国をただ並べただけの“機械的な計算”なので、『相関はない』としている。」
5-3. 当方の見解
追加質問への具体的な回答は得られず、「機械的な計算だから」という理由が繰り返されるのみでした。
しかし、データを扱うときに「外れ値をどう考えるか」はとても重要で、ただの“機械的な処理”だけで結論を急ぐと、実情がゆがんで見えることがあります。
7.でも記述していますが「機械的な計算」を用いて結論を導き出してはいけません。
下記が財務省との再質問のやり取りです。
6. まとめ
私たちは、IMFが公開している元のデータを使って、財務省が作った散布図を再現しました。
そのうえで、独自の解析を行い、財務省のグラフや計算方法に「外れ値をどう扱ったか」など、統計的におかしな点があることを指摘しました。
「令和7年度予算の編成等に関する建議」の12ページにある分析について「不適切では?」と質問しましたが、財務省からは具体的な回答が得られず、残念だと感じています。
7. さいごに
私は減税派でも増税派でもありません(もちろん減税になれば嬉しいですが、必ずしも減税がすべて正解とは思っていません)。
ただの一人のデータサイエンティストです。
私は、国家の将来を左右する中央省庁がデータに基づいて意思決定を行う際には、適切にデータを処理し、なぜその解析に至ったかを国民に対して広く説明する責任があると考えています。
なぜなら、一次データから二次データへの加工や可視化は、そのやり方次第でいくらでも“誤解を誘うような操作”が可能だからです。
そうした事態を避けるためにも、厳密な統計的処理と、背景や理論の開示が不可欠だと思います。
統計に詳しくない方々は「財務省が言っているのだから間違いないだろう」と判断しがちですが、これは統計的処理を厳密に行い、透明性を確保してはじめて成り立つものです。
これは、データを取り扱う人間としての倫理観が問われる、極めて重要な問題です。
ただ機械的に統計処理した結果だけを示して断定するのは、上記の理由から避けるべきだと思います。
今回の財務省の一連の解析と回答は、不誠実極まりないものでした。
このような対応が続く限り、財務省が提示するデータの信頼性は低いままになってしまうでしょう。
巷では「財務省が恣意的にデータをつぎはぎしている」という“財務省陰謀論”すら取り沙汰されています。
私はそのような陰謀論は否定していますが、残念ながら、今回の財務省の回答からはそうした論を払拭するだけの材料が得られませんでした。
8. 謝辞
今回の解析にあたりデータサイエンティスト(鶴は千年@Crane1000years様、hrk@GtgbSg様)には多大なご助力をいただきました。ここに厚く御礼申し上げます。
また財務省主計局の質問にあたっては、NHK党の浜田聡(@satoshi_hamada)参議院議員および浜田聡事務所の秘書である村上ゆかり(@yukarimurakami5)様を通じてご尽力いただきましたことを、心より感謝申し上げます。