信頼できる数字:パラメータ推計で統計的な正確さを報告する手順

というNBER論文が上がっている(ungated版へのリンクがある著者の一人のページ)。原題は「Credible Numbers: A Procedure for Reporting Statistical Precision in Parameter Estimates」で、著者はNicolas Astier(パリ経済学校)、Frank A. Wolak(スタンフォード大)。
以下はその要旨。

Econometric software packages typically report a fixed number of decimal digits for coefficient estimates and their associated standard errors. This practice misses the opportunity to use rounding rules that convey statistical precision. Using insights from the testing statistical hypotheses of equivalence literature, we propose a methodology that only reports decimal digits in a parameter estimate that reject a hypothesis of statistical equivalence. Applying this methodology to all articles published in the American Economic Review between 2000 and 2022, we find that over 60% of the printed digits in coefficient estimates do not convey statistically meaningful information according to our definition of a significant digit. If one additional digit beyond the last significant digit is reported for each coefficient estimate, then approximately one-third of the printed digits in our sample would not be reported.
(拙訳)
計量経済学のソフトウェアパッケージは通常、係数の推計値とそれに付随する標準誤差について、返される数字の小数点以下の桁数が固定されている。この慣行は、統計的な正確さを伝える端数処理を使う機会を逸している。統計的な同等性の仮説の検定*1における洞察を用いて我々は、パラメータの推計において統計的な同等性の仮説を棄却するだけの桁数を報告する手法を提案する。2000年から2022年に掛けてアメリカン・エコノミック・レビューに掲載されたすべての論文にこの手法を適用したところ*2、係数の推計値の表記された数字のうち60%以上が、有意な桁数の我々の定義によれば、統計的に意味のある情報を伝えていないことが分かった。各係数推計値において有意な最後の桁からもう一桁追加で表記されたならば、我々のサンプルにおいて報告された数字のおよそ1/3が報告されなかったであろう*3。

導入部では、小数点以下3桁に固定された数字の弊害の例として、需要の価格弾力性の推計値が-1.136、標準誤差が0.342の場合と、推計値が-0.951、標準誤差が0.021の場合を挙げ、前者の統計的な正確性と経済的な内容は後者より大幅に劣る、としている(ともに需要曲線が価格について右下がりであることは分かるが、前者ではこの商品の需要が価格弾力的か非弾力的かを絶対値が1より大きいか否かによって判定できないため)。

以下は著者たちの提案する報告の改善例。

パネルaが現在の慣行で、パネルbが著者たちの提案、パネルcが著者たちの基準を(非有意な最初の一桁まで)少し緩めた例。


サンプルサイズが大きくなるとパネルbのように標準誤差の桁数がむしろ多くなるが、その場合はパネルcのように標準誤差を取っ払ってしまえ(∵係数を有意な桁数だけ報告していることで、係数に比べて標準誤差が小さいことを示すことの目的は果たされているので)、と著者たちは言う。


なお、推計値の計算結果がソフトウエアのパッケージによって違ってくる、という論文が最近上がったが、この論文ではそうした研究の原点とも言うべきMcCullough and Vinod (1999)*4を参照しつつ、今回の研究の経験によれば、少なくとも小数点以下3桁まではコンピュータの進歩によりその問題はかなり解消している、としている。

*1:cf. Equivalence test - Wikipedia、非劣性検定(等価検定)をRで試してみる - 渋谷駅前で働くデータサイエンティストのブログ、https://www.google.com/search?q=%E5%90%8C%E7%AD%89%E6%80%A7%E6%A4%9C%E5%AE%9A。

*2:サンプルサイズは9万に上ったとのこと。

*3:ここの文章は少し意味が取りづらいが、60%以上がNGになる基準を少し緩めても1/3がNGということ。

*4:cf. これ。