統計学・機械学習・深層学習

2024/12/29

Redmineは組織のナレッジ基盤として実現可能なのか~島津製作所の事例を読み解く #redmineT

redmine.tokyo #27では、@akahane92さんが島津製作所にRedmineを導入し組織のナレッジ基盤として長年運用して成功された事例を講演された。
資料を改めて読んでみて、気づきや疑問もあった。
きちんとまとめたいけど時間がないので、ラフにメモ書きして、疑問形をラフに散らかしている。

【参考】
株式会社島津製作所_研究開発(集団協業と知的生産)の現場を支える、OSS知識基盤システムの導入 - Speaker Deck

Kuniharu AKAHANEさん: 「発表資料 全スライド 85ページ版(SpeakerDeck)です。 Redmine東京#27、2024年11月9日@中野 #redmineT https://t.co/52DZPkJfz2 (URL, QRコード は変更なし) https://t.co/QWQYCePqGY」 / X

2024/11/10 第27回勉強会 - redmine.tokyo #redmineT - Togetter [トゥギャッター]

【1】Redmineを導入し成功した事例では、いつも下記のような2つの疑問が問われる。

【1-1】Redmineの機能と、会社として実現したい問題解決の間にあるフィットギャップ

いくらRedmineが有用だといっても、それぞれの会社で抱える問題は個別であり、他事例を安直に移植できない。
Redmineの標準機能で、会社特有の問題をどの範囲までどのレベルまで解決できるのか?

問題解決に対し、Redmineに不足した機能があるならば、どのような手段を使って解決を試みたのか?
それはどのレベルまで解決したのか?

【1-2】Redmineの運用推進を支えるための組織体制づくり
いくらRedmineが有用だといっても、ツールの機能にプロセスは埋め込まれているわけで、そう簡単にユーザに根付くものではない。
Redmineを日々運用して普及を支える組織体制はどのように工夫しているのか?
どのような運用ルールを組み込んでいるのか?

【2】Redmineの標準機能をどのように使っているのか?

ITSの内部構造:

ITSプロジェクト=PLM(対象装置、製品)毎に作成
ITSプロジェクト毎にメンバーと権限を付与
チケット=対象装置に関する解決すべき課題
Wiki=対象装置に関するメンバー間で共有する情報


ITSプロジェクトはどんな観点でどんな単位で割り当てているのか?
ITSプロジェクト=1製品
プロジェクトの期間は長い
製品が企画されて設計されて、その後製品が販売終了し保守も完全に終わるまで、プロジェクトは続くと推測
そう簡単にプロジェクトはCloseしない
1つの製品プロジェクトに、数年、数十年携わった試行錯誤のチケットが蓄積される
サブプロジェクトに「研究開発 第◯次」が含まれる

Redmineインスタンスは
「分析計測技術ITS」「分析計測事業部ITS Global」の2つ

「分析計測技術ITS」が元々運用されていた
企画部門・開発部門が中心になって、製品企画から開発まで

「分析計測事業部ITS Global」は製品開発後に、製品そのものの製造・販売・サービス保守などと連携するために作られたと推測
インスタンスをわざわざ分けた理由は何か?
製品企画や製品開発までと、設計が完了して量産化体制に入った製品の生産や販売や保守は、情報の観点や管理する観点、部門間の関連度合いも異なる
「情報流通の壁」
販売情報まで企画や設計も含む1つのRedmineに集約する必要はない

プロジェクト数が1千個まで増えている
たぶん、製品寿命は数年以上と長いのでプロジェクトの生存期間は長い
製品が増えればプロジェクトは単調増加する

とはいえ、プロジェクト数が増えても、アサインされるメンバや権限を制御できれば、実作業するメンバは担当プロジェクトしか表示されないので、困ることはない

チケットの対象は?
WBS作業単位から、要求・仕様のストーリー単位
チケットは作業よりも課題
チケットはIssueとみなす
ITSという本来の使い方

チケットの説明欄の文字数が増えている
その理由は明らか
作業レベルではなく、要求や課題の背景、課題解決の試行錯誤まで書き残す

チケットは共有できる研究開発ノート
「後任者の道しるべ」

ナレッジ基盤としてチケット駆動が活用できるメリット
チケット同士の相互リンク
Wikiに技術勉強会などの共有ナレッジを集約

チケットにSubversionの成果物が紐づく
チケットに成果物の履歴もリンクされる
1チケット=1クリアフォルダ

研究段階からチケットに記録されて、製品開発の担当者にも知見が共有される
試作した結果も研究者にフィードバックされる
研究や開発の相互の担当者にもメリットがある

チケットに添付ファイルを付ける
添付ファイル数が以前より2倍以上に増えている
製品開発に関わる画像やPDF資料が多いのではと推測
チケットにファイルを添付することで、課題の背景や試行錯誤をより説明しやすくなる

チケットの生存期間はどれくらいなのか?
毎週に週次の棚卸しを開催して、3ヶ月以上放置されたら積極的にCloseされている
チケットの生存期間は数週間レベルではないかと推測

チケットは年間で2万~3万件発行されるため、毎月2千件以上発行されると推測
チケット完了率が約80~90%と高いので、1ヶ月以上放置されることはあまりないと推測
チケットの内容が作業レベルよりも製品開発の課題であることから、チケットの難易度はそう簡単ではないと思われるため、チケット完了率の高さが驚き
チケットの作成や更新を担当するメンバーのモチベーションや意識が相当高いと推測


【2】Redmine運用を支えるための非機能要件は満たされているのか?
数千人、数十万チケット、数十テラバイトのデータを維持管理できるRedmine基盤を構築できるのか?

ITSの弱点は全文検索機能

問題点
ITS標準の検索機能はデータ量増加により性能要件を満たせない
検索できる範囲はせいぜいチケットとWikiくらいのみ
検索精度も文字列の一致だけで意味間まで見ていないので、有用な情報を検索できない
真の意味で、情報の追跡可能性を実現できていない

そこで
チケット、Subversion、添付ファイルを全文検索の対象範囲とする
GroongaとRedmineを連携させて全文検索させる

Groongaで Redmineを 高速全文検索 - Rabbit Slide Show

Redmineシステム内の文字列、添付ファイルやリポジトリまで全文検索を対象にしてくれる
スコアベース、畳み込み検索で高精度検索が可能
検索も高性能
元データは未加工、秘匿できている

おそらく、Groongaで定期的に検索対象データをクローリングし、索引を作って全文検索できる仕組みを提供しているはず
全文検索対象の記録文字のほとんどは、Subversionと添付ファイル
PDFやExcel、Word、パワポなどの資料が多いのではないか
それらを全文検索対象にしているはず
全文検索の基盤構築はそう簡単ではないと推測

情報の追跡可能性と非機能要件の確保を実現できたと言うが、3千ユーザ、数十万チケット、数十テラバイトのデータ類を鑑みると、インフラ基盤のチューニングは相当なノウハウが埋め込まれているのではないかと推測
そう簡単に実現できるレベルではない

【3】Redmineの運用推進を支えるための組織体制づくり

Redmineを社内全体に運用推進するための工夫は何か?
組織や体制はどんな構造にしているのか?

数千人の社内ユーザに説明して普及させるには、ITS事務局だけでは推進できない

週次ミーティングでチケット棚卸し
3ヶ月に1度、放置チケットを積極的にClose
問い合わせチケットは、常任モデレータを付けて「見つけてクローズ」

おそらくITS事務局の他に、各部門、各部署に専任のRedmine担当者を付けて、普及推進しているのでは?
そうでなければ、日々の細かな問合せ対応がITS事務局に集中してしまい、運用がパンクする
また、各部署へRedmine運用プロセス訂正通知や指示が流せない
組織をまたがるような指揮命令系統があるのではないか

今後の展望も興味深い
Redmineに蓄積されたデータをAI学習用データとして利活用できるか?

運用後まもなく、構成管理される成果物はDocumentsとSourcesで分類して運用されている
つまり、知識として確定したデータと経験で得られたデータを区別して管理されている
教師データとして使えるデータを区別できている

昨今成長著しいLLMを使えば、会社の事業領域に関する独自データを元に学習させて、学習モデルを作れるはず
過去に販売した製品、今研究中の製品について、AIに聞けば高精度の内容をすぐに回答できるはず
社内の生き字引みたいな人をAIが代用してくれる

こういう取り組みができるのも、Redmineに蓄積されたデータの品質が良いからだろう
チケットや成果物の記録内容の精度が低ければ、いくら学習させても使えない

【4】感想
島津製作所の事例では、@akahane92さんの講演を何度も聞いてきたが、やはりすごいなと思うし、自分もこういう運用をやりたかったなと思う。
Redmineの面白さや醍醐味は、実運用が定着すると、データが自然に蓄積されるので、そのデータを使えば定量的に分析できるし、実験データや研究データとしても使える。
有用なデータを蓄積できていれば、定量分析した内容も有意味になるはずで、いろんな利活用を膨らませることができる。

特に、機械学習などAI活用は全文検索の機能強化にも役立つ。
相互メリットを活かせば、今後も色んな研究に発展できると思う。


[商品価格に関しましては、リンクが作成された時点と現時点で情報が変更されている場合がございます。]

入門Redmine第6版 [ 石原佑季子 ]
価格:3,080円(税込、送料無料) (2024/12/29時点)


| | コメント (0)

2023/05/28

統計学の考え方をastahでまとめた

統計学の考え方を自分なりにastahでまとめた。
初心者のラフなメモ書き。

【参考】
計量経済学における統計上の根本問題: プログラマの思索

「推計学のすすめ」「経済数学の直観的方法~確率統計編」の感想: プログラマの思索

データ分析の課題はどこにあるのか: プログラマの思索

データ分析の面白さはどこにあるのか: プログラマの思索

経済学や心理学の実験で得られた理論は再現性があるのか?~内的妥当性と外的妥当性の問題点がある: プログラマの思索

経済学は信頼性革命や構造推定により大きく変貌している: プログラマの思索

統計学の考え方に関する感想: プログラマの思索

ランダム化比較試験はなぜ注目されて利用されるようになったのか: プログラマの思索

【1】統計学はいつも習得したいと思うのに、習得にすごく時間がかかる気がするのはなぜだろうか?
その理由は、統計学の考え方は独特な世界観があるからではないかと思う。

なぜ正規分布がそんなに重要なのか?
なぜならば、世界の物事のばらつきは最終的に正規分布に収まるから。
だから、観測や測定でデータを採取したら、まず正規分布を書いて、測定値がどこにプロットされるかイメージたらいい。

最小二乗法の基本思想は何か?
観測や調査で得られた測定値の誤差は正規分布に従う。
ゆえに、測定値のデータの背後にある正規分布の中心線を予測すること。
ガウスが誤差論から生み出した。

統計的仮説検定とは結局何なのか?
そのロジックは確率的な背理法。
だから、ややこしく感じる。

従来の数学や物理の理論や哲学と、昨今のビッグデータやAIなどの違いは何なのか?
従来の理論は演繹的にトップダウンで、世界を説明しようとする。
一方、昨今では、統計理論と強力なコンピューティングパワーで、ビジネスの副産物で得られた大量データを元に因果関係まで帰納的に推測してしまう。

【2】推測統計学の考え方

母集団のデータを全て調査できればよいが、実際はその中の一部のサンプルしか集められない場合が多い。
調査には時間もコストも掛かるから。

では、集めた測定値から母集団はどのような構造になるのか?
大数の定理より、サンプルから推測される母集団の背後にある正規分布を予測する。
そのためにt検定など色んなツールがある。

サンプルデータの抽出方法が上手くないと母集団のデータ構造を推測しにくい。
複数の標本を独立に選ぶことが大事。
つまり、マーケティングのセグメンテーションと同じ考え方。

母集団の平均・分散を既に知っているか、全く知らないか、で推測方法が変わってくる
母集団の平均・分散を既に知っていれば、推測する正規分布の精度は高くなるだろう。
しかし、一般には母集団の平均・分散は全く知らない場合が多いので、推測してもその分誤差は出る。

母集団が1個なのか、2つなのか、で推測方法が変わってくる。
母集団が1つなら、母集団の構造を知ることが重要。
測定したサンプルは母集団のどこにプロットされるのか、が重要なテーマになるだろう。
つまり、内的妥当性の問題になるだろう。

一方、母集団が2つなら、2つの母集団を比べて、優劣や評価を比較することになるだろう。
たとえば、補助金を与えた集団と、補助金なしの集団ではどんな行動の差があるのか、とか。
すると、その行動の差から得られた知見は、その他の母集団に適用できるか、という問題に発展するだろう。
たとえば、米国で得られた統計結果は、日本でも当てはまるのか?とか。
つまり、外的妥当性の問題になるだろう。

【3】正規分布ファミリーの全体像

正規分布には色んな種類がある。
Z分布、t分布、F分布、χ2乗分布とか。

これらの分布は、母集団の平均値や標準偏差を知っているかどうかで変わってくる。

【4】統計的仮説検定の9パターン

統計的仮説検定が理解しにくいと思う理由は、2つあると思う。
1つは、仮説的統計検定の基本思想が確率的背理法であること。
背理法の考え方でつまずきやすいのではないか。

もう一つは、推測したい母集団の平均値や標準偏差が既知なのか未知なのか、で手法が変わってくること。
たくさんの検定手法があって名前から手法の中身を推測しにくい。
前提条件をIF文で分岐処理して検定手法が確定するので、そのパターンをイメージしておかないといけない。

【5】統計検定2級は6年前に取得した。
その時に上記の考え方を自分のastahの中で色々書き込んでいた。
その時のメモを残しておいた。

これらをベースに機械学習がある。
分類(classification)、回帰(regression)、クラスタリング(clustering)、次元圧縮(dimensionality reduction)とか。
PythonのScikit-Learn のチートシートも公開されているので、またまとめておく。

Pandas Cheat Sheetのリンク: プログラマの思索

scikit-learn「アルゴリズム・チートシート」のリンク: プログラマの思索

| | コメント (0)

2023/04/08

ランダム化比較試験はなぜ注目されて利用されるようになったのか

RCT大全 | アンドリュー・リー」を読んで、ランダム化比較試験はなぜ注目されて利用されるようになったのか、考えてみた。
ラフなメモ書き。

【参考】
データ分析の課題はどこにあるのか: プログラマの思索

データ分析の面白さはどこにあるのか: プログラマの思索

経済学や心理学の実験で得られた理論は再現性があるのか?~内的妥当性と外的妥当性の問題点がある: プログラマの思索

経済学は信頼性革命や構造推定により大きく変貌している: プログラマの思索

統計学の考え方に関する感想: プログラマの思索

計量政治学と計量経済学の考え方の違い: プログラマの思索

計量経済学における統計上の根本問題: プログラマの思索

Rによる計量経済学/計量政治学を読んでいる: プログラマの思索

【1】「RCT大全 | アンドリュー・リー」は、ランダム化比較試験の事例集だ。
疫学、開発経済学、社会学、教育などの分野にランダム化比較試験を適用して、こんな効果がありました、をたくさん書いている。

興味深かったのは、貧しい人達に社会的に有益な行動を導こうとするには、有料で払わせるのがいいのか、無料がいいのか、補助金のようにお金を渡す方がいいのか、場面によって異なることだ。
何でもかんでも無料で渡す方が、貧しい人々の行動を誘導できるとは限らない。
時には、無料ではなくマイナス費用である現金を渡した方が良い場合もある一方、有料で払わせる方が良い場合もある。
人間のインセンティブをいかに刺激するか、が大事なのかもしれない。

そういう事例を読むと面白いのだが、ランダム化比較試験はどんな構造を持つのか、ランダム化比較試験はなぜ今頃になって注目されるのか、という疑問が湧いてくる。

【2】ランダム化比較試験は従来の理論と何が違うのか?

ランダム化比較試験は帰納的な理論を作れる手法だと思う。
データさえあれば、因果関係や理論が分からなくても、解決方法が得られるメリットがある。
いわゆる純粋数学や理論物理のように、シンプルな公理系から演繹的に数多くの定理や原理を導き出す手法とは異なる。

例えば、昨今では、コロナワクチン接種は世界中の人間を対象にランダム化比較試験された成功事例だろう。
コロナウイルスの症状の原因や根本療法は今でも分からない。
そして、mRNAコロナワクチンが本当に有効なのか、分からなかった。

しかし、コロナワクチンは直近3年間、全世界の人間、たぶん数十億人に注射されてその効果がわかった。
実際、数多くの人命が救われたし、予防効果もある。

僕が思うに、コロナワクチン接種の効果測定は、ランダム化比較試験しやすかったのだろうと思う。
街中でコロナ患者が溢れたら、サンプルとなる患者を集めるのも簡単だし、同質な2つの集団に分けることが容易だったからだ。

今ならマスクの効果測定もランダム化比較試験がやりやすいだろう。
コロナ感染防止にマスクは役立つ効果がある、ということはランダム化比較試験で十分に分かっているが、まだコロナ感染者がいる社会では、同質な2つの集団をランダムに作って実験することは容易い。

今では、コロナ感染者を数えなくなったので、下水道のサーベイランスでコロナ感染流行を測定する方法が有効と言われている。
この方法は、かつてのイギリスで、下水道のサーベイランスからコレラ流行を予測に役立てた事例を思い出させる。
コレラの原因が分からなくても、どうすればコレラ流行を防げるか、という解決方法は帰納的に導き出せる。

【3】ランダム化比較試験はなぜ、今頃になって注目されて利用されるようになったのだろうか?
ランダム化比較試験が有効と分かっているならば、もっと古くから有効活用されていたはずだ。
実際、統計学は200年前に生まれて1900年代前半には、t検定とかランダム化比較試験などの構造も十分に分かっていた。
なぜ、一般的に利用されていなかったのか?

その理由は3つあると思う。

【3-1】1つ目は、Inputの観点で、大量データが集まるようになったことだろう。
たぶん、インターネットとPCやスマホの普及のおかげだろう。
それ以前は、国勢調査のように、申請書を人手で仲介することでデータを集めていたから、相当なコストも時間もかかっていた。
たとえば、t検定が生まれた経緯も、いかに少ないサンプル数からあるべき正規分布を導き出すか、というモチベーションだった。
しかし、今なら、ECサイトやSaaSで簡単にログというデータを大量に集められる。
Webビジネスでは、データはビジネスの副産物として簡単に入手できるからこそ、それらを上手く利用すればいい。
日本でもようやくDXという活動を通じて、日本人の行動履歴をデータ収集できる基盤が揃ってきた。

【3-2】2つ目は、Processの観点で、大量データを強力な計算能力で一気に統計分析できるIT基盤が整ったことだろう。
たぶん、クラウドのおかげだろう。
過去は、少量データから推測する統計理論ばかりに注力されていた
当時は、コンピュータという計算基盤もないので、いくらサンプルが集まったとしても、それらを正規化して処理する手間がかかりすぎて、実現できなかったのだろう。
しかし、今なら、AmazonやGoogleのクラウド基盤を使えば、いくらでもデータ分析や統計分析できるようになった。
例えば、ABテストも簡単に実施して、GoogleAnalyticsで効果測定できて、仮説の結論を迅速に評価できる。

基本的な統計理論はもう揃っているので、後はいかに実装して自動化できる仕組みにするか、が問われているのだろう。

【3-3】3つ目は、Outputの観点で、単なる相関関係だけでなく因果関係を導けることだろう。
たとえば、主成分分析、多変量解析とか。
因果推論の分野は今もっとも注目を浴びている、という記事も読んだことがある。

特に経済学では、物理学を真似して理論を打ち立てるのが目標なので、因果推論ととても相性がいい。
最終的には、大量データで統計分析する実験手法と、従来の演繹機的な理論づくりの2つが相乗効果を発揮して、アウフヘーベンすることで、学問がより一層花開く、という好循環になっているのだろう。

【4】では、ランダム化比較試験がそんなに有効で使い勝手がいいならば、いつでもどこでも使えばいいのでは、と思うが、本当に使えるのか?
実際は、特に社会に絡む分野では、ランダム化比較試験を利用できないシーンはとても多い。
やはり人間集団を実験対象にするには、マーケティングのSTPみたいに、同質のセグメントの集団を作り、介在する集団と介在しない集団に分けるのが難しい。
つまり、ランダム化比較試験をいつでもどこでもすぐに利用できるわけではない。

しかし、ランダム化比較試験が使えないケースでも、自然実験である程度の確からしさを得られることも分かってきた。
そういう統計理論が最近になって揃ってきたこともある。
このあたりは、「データ分析の力 因果関係に迫る思考法」が詳しい。

【5】コロナ禍で分かったことは、統計理論や経済学、医療などの専門分野を理解しておかないと、真実を判別できない場面があるな、と分かったことだ。
人は噂話に簡単に騙される。

たとえば、Twitterで、コロナワクチンを打つと何%の人は死にます、だから危険だ、というニュースが流れたとする。
しかし、そのデータを見てみると、ランダム化比較試験して検証したわけでもないし、バイアスのかかったデータを集めているだけで、統計処理もされていないので、全く有効でなかったりする。
疫学や統計の専門家から見れば、素人が単に無意味な意見をばらまいているだけに過ぎない。
なのに、そういうニュースが人々を席巻し、陰謀論に巻き込まれる。

つまり、医療、疫学、統計理論を知らないTV評論家、Twitter評論家がいかに役立たないか、よく見えるようになった。
一方、最先端の経済学や金融工学とか知らないTV評論家も役立たないことが見えるようになった。
すなわち、専門家から認められない評論家の意見は無視していいことが分かってきた。

そんなことを考えると、統計学の基本的な考え方は知っておいた方がいいのだろうと思う。

| | コメント (0)

2023/04/02

ChatGPTで起きている事象の意味は何なのか

今年に入ってから、ChatGPTによるAIの進展が凄まじい。
ChatGPTで起きている事象の意味は何なのか。

今「深層学習の原理に迫る: 数学の挑戦 (岩波科学ライブラリー 303)」を読んでいる。
全て理解できていないが、気付きが色々あった。
ラフなメモ書き。

【1】ChatGPTのような大規模言語モデルの中身は物理学や数学と同じ。
つまり、過去の数学や物理学の理論をベースに作られている。
ChatGPTの仕組みを知ろうとするとそこまで深掘りすることになる。

【2】ChatGPTの仕組みは、演繹的なのか、帰納的なのか?

(引用開始)
パラメータ数を大きくすることで起きていることは、実はまだわかっていなくて、2つの可能性があるという。
一つ目なら今後"人類がこれまで言語その他の情報の形で書き溜めた知識の総体を学習し切ったところで性能向上は頭打ち"。

二つ目なら"当面は際限なく性能が向上するように見えるだろう。その場合、計算力に関する物理的な制約がクリティカル"で、センサーなどの身体性を持つことで壁を越えることになる。"人類のこれまでの知識の総体」を上限とする理由が無くなり、物理現象の時定数のみが制限として残る"
(引用終了)

僕の直感では、ベースは帰納的で、その後のロジックは演繹的だろうと思う。
大量の学習データを元に訓練して学習モデルを作ると、その後は、得られた特徴量や概念を元に膨大な計算エネルギーを駆使して、演繹的にロジカルに色んなアウトプットを導き出せる。
ちょうど、公理系から定理、系、命題がロジカルに大量に生み出されるのと同じ。

では、そのような大規模言語モデルは、人間のように「意識を持つ」のだろうか?
大規模言語モデルは自我という意識を持ち、数多くの意見を作り出し、行動を生み出すようになるのか?

【3】深層学習の発展は、理論物理学と実験物理学の2つの分野のアウフヘーベンに似ているように思える。

つまり、深層学習の原理にある数学や物理の理論と、実際にプログラムに実装して膨大なコンピューティングパワーを使って膨大な計算量をこなせるような大規模言語モデルを構築することの2つが相互に刺激しあって、より発展していく。

深層学習の原理に迫る: 数学の挑戦 (岩波科学ライブラリー 303)」を読むと、過去の数学の理論では、「深層学習は少ない層で十分な性能が出せる」という普遍近似定理、「膨大なパラメータ数は過剰適合をもたらす」などが既に知られている。
つまり、せいぜい2層程度で、パラメータ数もそんなに多くない深層学習で十分な性能や結果が得られるはず、と思われていた。

しかし、現実は違う。
実際に実装された大規模言語モデルでは、パラメータ数は数億、数兆とか、層も数千、数万とかかなり複雑。
つまり、コンピューティングパワーを使ってプログラムに実装して実験してみると、実験結果と数学の理論に乖離がある。

そういう理論と実験の繰り返しによって、深層学習はさらに進展している。

興味深いのは、過去の物理と今の深層学習の違いだ。
過去の物理学の歴史では、紙と鉛筆による理論と、望遠鏡やビーカーのような器具による実験の相互作用により発展してきた。
現代の深層学習では、物理や数学の理論と、クラウドをベースにした膨大な計算力を持つコンピューティング環境における実験によって進展している。

【4】ChatGPTのような大規模言語モデルはなぜ、ものすごい性能を出しているのか?

つまり、過去の数学の理論では、「深層学習は少ない層で十分な性能が出せる」という普遍近似定理、「膨大なパラメータ数は過剰適合をもたらす」と言っているのに、実際に実装したChatGPTでは、パラメータ数も層も相当に複雑になって、理論と実験に乖離がある。
その真因は何か?

深層学習の原理に迫る: 数学の挑戦 (岩波科学ライブラリー 303)」では、その理由の真因を明確に書いていない。
でも、ヒントは2つあるように感じた。

1つ目は、過去の数学の理論は微分可能な滑らかな関数を暗黙の前提にしていた一方、深層学習では尖った曲線のような非線形な曲線をベースに作られていること。

たとえば、層を増やす時に、シグモイド関数ではなく、ReLU関数のようなわざと非線形にした関数を用いることで、従来の学習モデルの性能劣化を解決した。
おそらく、我々人間が目の前に対処している問題のほとんどは、非線形の性質を持っているからこそ、そういう仕組みを持つ深層学習、つまり多層の深層学習を必要としているのではないか。

2つ目は、深層学習モデルのパラメータ数をあえて増やすことで、学習エネルギーの損失関数を極小化させることに成功したこと。

僕の直感では、複雑な曲線や曲面のくぼみの中で最小値を探すとき、そのままの次元では極小値を探しにくい。
そこで、パラメータ数をあえて数多く増やすと、複雑な曲線や曲面も次元が増えることによって、平坦な曲線や曲面の部分が非常に多くなる。
よって、平坦な部分を全て洗い出した後に、元の次元に戻してからそれぞれの最小値を求めることで、損失関数の真の極小値を導き出せる、と理解している。
つまり、あえて次元数を膨大に増やすことで、損失関数の極小値を計算する手間を省いているわけだ。

そんなことを考えると、膨大な計算力を持つAI基盤を実際に実装できたからこそ、実験して得られた知見を元に、理論へフィードバックされたのだろうと思う。

【5】「深層学習の原理に迫る: 数学の挑戦 (岩波科学ライブラリー 303)」を読んで気づいたのは、我々人間が視覚、聴覚、触覚などの五感で得られた情報は、全て多次元ベクトルに置き換えられること。

これにより、人間が持つすべての情報や概念は、多次元空間の中にあるベクトルという点であり、ベクトル同士の距離を計算することで、似通った意味である判定、特徴量の抽出などにつながっているわけだ。

何となく、ソシュールが言う言語の概念、フッサール現象学に出てくる自我や他我の概念に似ている気がする。

RDRAをAIに載せるために格闘されているツイートを読むと、まさにその考え方と同じ。

(1) akipiiさんはTwitterを使っています: 「なるほど、要件をグラフ構造にすれば行列に置換できるから深層学習に乗せられるわけか。この発想は、他のユースケースきも使えそう」 / Twitter

【6】ChatGPTで起きている事象の意味は何なのか?

ビジネスモデルの観点では、今起きている事象はAI革命の真っ只中であることだ。
そして、AI革命を主導する人たちは、世界最高レベルの科学者やエンジニアを膨大に持ち、クラウドやデータセンターを膨大に持つ米国と米国の一部の巨大IT企業、つまりGAFAMなのだろう。

akipiiさんはTwitterを使っています: 「昨今のAIの急速な発展を目にすると、次の10年も主役は米国の巨大IT企業だと言わざるをえない。AI開発には、世界最高レベルの科学者やエンジニアといったタレント、膨大な計算リソースが必要であり、それを有しているのは米国と米国の一部の巨大企業だけである https://t.co/Y2bXSdOCYR」 / Twitter

AI革命の中で生きている一人の凡人の観点では、「AIは時代の津波」だということ。
99%の人は、東日本大震災の津波のように巻き込まれて、職を失い、生きる意義を見失い、命の危険にさらされるかもしれない。
だからこそ、AI革命の行き先を最後まで見届ける必要がある。

(引用開始)
私はAIは時代の津波だと思ってる。津波だからもちろん止められない。ごく少数はこの時代の津波に乗れるかもしれないけど、殆どの人は飲み込まれる。

今はいかに高台の登るか、いかに泳ぎを極めるか、いかに頑丈ないかだを作るかに集中すべき。つまり生き残るすべを必死に探して身につけるのだ。「AI?よく分かんない。関係ないっしょ」なんて言ってる人はほぼ確実に溺れる。
このレターを見て私はさらに危機感を持った。私は溺れたくない。まずは出来るだけ使ってみる事。そこが第一歩。
(引用終了)



| | コメント (0)

2023/01/09

過学習に陥った人間や社会の事例は何があるのか

深層学習、機械学習では過学習という罠の事例がある。
では、過学習に陥った人間や社会の事例は何があるのか?
ラフなメモ。

【参考】
学習データに最適化されすぎて本来の目的が達成できなくなる「過学習」と同様の現象はAIだけでなく社会全体で起こっているという主張 - GIGAZINE

失敗の本質―日本軍の組織論的研究の感想: プログラマの思索

なぜ米国企業は90年代に蘇ったのか~日本の手の内は完全に読み取られた~V字回復の経営の感想: プログラマの思索

(引用開始)
Sohl-Dickstein氏は、グッドハートの法則の強力なバージョンは機械学習を超え、社会経済的な問題にも適用できると主張しています。グッドハートの法則の強力なバージョンが当てはまる例として、Sohl-Dickstein氏は以下のものを挙げています。

ゴール:子どもたちをよりよく教育する
プロキシ:標準化されたテストによる成績測定
結果:学校はテストで測りたい基礎的な学問スキルの教育を犠牲にして、「テストに正しく答えるスキル」の教育を進める

ゴール:科学の進歩
プロキシ:科学論文の出版に対してボーナスを支払う
結果:不正確または微妙な成果の公開、査読者と著者の共謀が広まる

ゴール:よい生活
プロキシ:脳内の報酬経路の最大化
結果:薬物やギャンブル中毒になったり、Twitterに時間を費やしたりする

ゴール:国民の利益のために行動するリーダーの選出
プロキシ:投票で最も支持されるリーダーの選出
結果:世論操作のうまいリーダーの選出

ゴール:社会のニーズに基づく労働力と資源の分配
プロキシ:資本主義
結果:貧富の格差の増大
(引用終了)

過学習は人間や社会の方が罠にはまりやすいのではないか。
なぜならば、一度成功すれば、その成功事例や成功パターンに囚われてしまって、成功バイアスから逃げにくくなるから。
成功してしまうと、あえてリスクを選択して、別のやり方を取らなくても成功できると勘違いしてしまうから。

過学習の罠は特に平成時代の日本人や日本社会にすごくよく当てはまるだろう。
昭和の時代に日本が経済No.1になってしまったために、その時の製造業の成功パターンに囚われてしまって、95年から始まったIT革命に乗り遅れてしまって、現在はWebはおろか、クラウド、スマホ、IOT、AIには到底追いついていない。

日本人は「失敗の本質」に書かれているように、第二次世界大戦でも日清戦争・日露戦争の成功体験に囚われすぎて国を破滅してしまったという前科がある。
この前科も過学習という観点で考えれば、とてもフィットするのではないか。

過学習の話で面白いのは、過学習から逃れる手順も既に分かっているいることだ。
具体的には、学習が成功しないようにあえてランダム化して、失敗をある程度許容して、頑健なプロセスを確立することだ。

たとえば、受験勉強に過学習でハマりすぎて、過去問のパターンだけに適合してしまって、新しいテーマの問題に対応できない人であれば、わざと別のテーマを勉強したり、別の分野へ広げるとか。

ある既存ビジネスで成功しすぎた企業であれば、新規事業の種をわざと社内に残し、新規事業を起こせる人たちやチームが活動できるような組織文化をあえて作るとか。

でも、過学習はイノベーションのジレンマと同じタイプの罠かもしれない。
一度成功したやり方でどんどん成功してしまうと、他のやり方を試す事自体がコストがかかるし、現在の成功した状況を危うくしてしまうリスクが大きいからだ。

自分自身も過学習やイノベーションのジレンマに陥っていないか、定期的にふりかえって、我が身を見直すことが大切なのかもしれない。

| | コメント (0)

2022/10/02

計量政治学と計量経済学の考え方の違い

経済セミナー2022年10・11月号 通巻728号【特集】いま、政治の問題を考えるを読んでいたら、計量政治学と計量経済学の考え方の違いの記事が面白かった。
以下はラフなメモ書き。

機械学習で反実仮想や自然実験が作れる: プログラマの思索

Pythonで微分積分や統計の基礎を理解しよう: プログラマの思索

経済学は信頼性革命や構造推定により大きく変貌している: プログラマの思索

経済学や心理学の実験で得られた理論は再現性があるのか?~内的妥当性と外的妥当性の問題点がある: プログラマの思索

Rによる計量経済学/計量政治学を読んでいる: プログラマの思索

【1】計量政治学と計量経済学の考え方の違い

政治学の方が特定地域のこだわりがある。
たとえば、NPO法人や政治家にインタビューするために、現地言語を習得したり、その国の文化に慣れる必要がある。
経済学はそこまでこだわらない。

一方、政治学は理論と計量をそこまで区別しない。
政治学は定性データを重視するし、時事問題を重視する。
たとえば、リーマン危機、ウクライナ戦争など。
しかし、経済学では、理論と計量を区別し、過去に蓄積してきた理論を使って、計量データを用いて、政策の効果を測定したりする。
だから、経済学では、理論の人は計量の論文を読め、計量の人は理論の論文を読め、と言われるらしい。

【2】計量政治学から得られた経験則

独裁者は暴力行使の利益とコストを勘案して多様な手法で大衆を制御しようとする。
ここに独裁者のジレンマがある。
権威主義的な国の選挙は実行がすごく難しい
選挙の不正がなければ、野党や反体制の人達がのさばり、自分たちの権力を脅かそうとする。
一方、選挙で不正を実施しすぎると、本当の支持率が分からないし、どこの地域が支持率が高く、どこの地域に反体制の人達が実は多いのか、分からない。
つまり、自発的な支持が得られないので、実は権力基盤が脆い事実を国民の皆が知っている。
だから、権威主義国の独裁者は実は裸の王様。
だから、独裁者は、自分の支持率はじつは高いのだ、というシグナルを国民に知らせる必要があり、あの手この手を使っている。

また、農業主体の国は人々が散在しており、組織化しにくい。
つまり、一体化して反抗しにくい傾向があるらしい。
すなわち、都市化した国の方が、民衆が組織化しやすく、一致団結しやすいので、民主化しやすい傾向があるらしい。

この話を読んで、フランス革命は実はパリ革命だった、という話を思い出した。
なぜなら、フランスは中央集権の王権国家であり、パリに人民も富も集中していたので、パリで体制変革されると全土にその余波が行き渡っていたから。

【3】民主化はいつどのように起きるのか?

色んな国の統計データを調査すると、与党と野党の間に、権力基盤の合意がある前提があるらしい。
つまり、信憑性のあるコミットメントが存在している。
だから、クーデターや内戦のような暴力行為による政権交代は必要なくなる。
たとえば、韓国や台湾、南アフリカなどがその事例に相当するだろう。

【4】計量政治学に機械学習や深層学習を用いて得られたノウハウ

権威主義国では統計データを不正に操作しているので信頼性が低い。
だが、夜間の光量データから経済活動の活発さを見る、という手法を取ることもできる。
その場合、衛星からの画像データをCNNに食わせて、計測アルゴリズムを作り出す、というやり方も取れる。

すると試行錯誤による発見的予測アルゴリズムの成果はどうだったのか?
4つある。

1つ目は、本来のアルゴリズムは藪の中。
真の因果関係を表すアルゴリズムは不明だった。
特に、深層学習の場合は、予測できたとしても説明可能性は低い。
正しいモデルアルゴリズムにこだわるのは不毛なことがある。

2つ目は万能なアルゴリズムは存在しないこと。

3つ目は、次元の恵みを活用せよ。
説明変数の次元が増えるほど、必要なデータ量は指数関数的に増えて計算できなくなる。
つまり、次元の呪いが発生する。

そこで、次元の呪いを解決するために、予測に必要な説明変数を絞り込む変数選択、過学習を防ぐ正則化などを用いる。
しかし、予測に使える変数は全て投入して、次元の恵みを最大限活用する方法もあるのでは、と。

4つ目は、予測可能性と説明可能性のジレンマがある。
深層学習は、予測性は高いが理屈は複雑で説明しにくい。
一方、線形回帰や決定木は、予測は微妙だが説明しやすく、因果関係を明確にしやすい。
そういうトレードオフがある。
つまり、政策介入の因果関係としての効果を測定することと、機械学習による予測は完全に調和しないのだ。

僕はこのトレードオフは、実際の政策を実行する上で、ハードルが高くなるリスクがあると思う。
たとえば、財政出動や補助金をばらまく政策を実行する時に、これだけの効果を予測できます、とアナウンスすることで、国民や利害関係者を納得させたいが、その効果の因果関係を説明できなければ、本当に効果があるのかと疑問に思う人も増えて、その制作に反対する人が増えてしまい、せっかく期待していた効果が実行しても得られないリスクが出てくるからだ。

経済学のルーカス批判のように、政治学でも自己予言的なリスクがあるのかもしれない。

| | コメント (0)

2022/06/29

メトリクス分析のコツは良いIssueを見つけること

メトリクス分析のコツは良いIssueを見つけることと思う。
ラフなメモ。

【参考】
DXの本丸は「データ」にあり 「問い」からはじめるデータ分析とその活用法 - ログミーBiz

データ分析から導き出す「強い野球チーム」のつくり方 映画『マネーボール』で学ぶデータサイエンス - ログミーBiz

akipiiさんはTwitterを使っています: 「ソフトウェア工学のメトリクス分析の考え方にも適用できるので参考にする。データ分析から導き出す「強い野球チーム」のつくり方 映画『マネーボール』で学ぶデータサイエンス - ログミーBiz https://t.co/ZmCzuVEIUy」 / Twitter

akipiiさんはTwitterを使っています: 「データ駆動はイシュー駆動。良い問いが解決策を生み出す。メトリクス分析も同じだな。DXの本丸は「データ」にあり 「問い」からはじめるデータ分析とその活用法 - ログミーBiz https://t.co/XRe7ceo6u0」 / Twitter

【1】問題解決を図るときに、定量データを扱うのは有効だ。
最近は、Webログやスマホ履歴のようにビジネスの副産物として簡単にデータを集められる。
すると、溜まったデータをいかに活用するか、が大事になる。

『マネーボール』という映画では、貧乏球団が強いチームを形成するのに必要な問題は、「出塁率の最大化」だった。
そこに問いの価値がある。
選手の人間性、選手の組み合わせ、とかそんな観点の問題ではなかった。
問いを「出塁率の最大化問題だ」と立てられたら、あとは、バッター個人のデータを分析して、確率論に持ち込めばいい。

つまり、良い問い(Issue)を把握するのが大事。
良いIssueは数字で答えたくなる。

良いIssueを探るには何が必要なのか?

顧客行動の理解ならカスタマージャーニーを使う。
お客さんがその商品を購入したいと思うタイミングとか、ファンになるまでのステップごとに定量データを集めて分析する。
そうすれば、どこでユーザが離脱するのか、どこでユーザの満足度が低いのか、が浮き彫りになってくる。
これを業務システム開発に置き換えれば、一連の全体の業務フローを描いて、それぞれのステップごとに分解することになるだろう。

次はこれをどうやって定量化していくか?

KPIツリーによる指標分解を使う。
売上=客数x客単価。
顧客数を=認知人数×購入率、みたいに分解していく。

掛け算か足し算で異なる。
掛け算では、2つの指標を独立だとみなす。
足し算はセグメントに分ける。

基本は、カスタマージャーニーマップのステップごとにKPIツリーで分解していく。
この辺りのプロセスは、ECサイトの分析であるAARRRの手法と全く同じ。

【2】ソフトウェア開発プロセスのメトリクス分析でも、同じような考え方を適用できる。

たとえば、WF型開発のPJであれば、工程ごとにゲートがある。
各ゲートに着目してQCDの観点でメトリクスを作ることはできる。

では良いIssueとは何なのか?
Issueをどうやって解決するのか?

良いIssueを見つけるのが大事。
イシューから始めよ」の通り、質よりも量で頑張ると、生産性が非常に悪い。
大量にアウトプットを出しても、正解にたどり着くルートはせいぜいそのうち5%ぐらいしかない。
そうならば、事前に本来のIssueを絞り込んで、生産性を高めるべき。

メトリクス分析では、良いIssueを立てて、そこからKPIツリーで分解した各要素のどこにインパクトがあるのか、を見るのが大事。

| | コメント (0)

2022/06/14

「完全独習 統計学入門」は良い本らしい

ある勉強会で、「完全独習 統計学入門」は統計学の初心者に良い本だ、と勧められた。
「t検定の原理を理解して使いこなせれば、統計学の免許皆伝だ」と言われるらしい。

【参考】
統計学挫折者にオススメという「完全独習 統計学入門」を読んでみた | ゆとって生きたい。

統計学をはじめて学ぶ方におすすめ:完全独習 統計学入門: 教育機関向けソフトウェア アカデミック・ソフト・プラス

(引用開始)
▽本書は、
●統計学を初めて学ぶ人
●統計学を改めて学び直したいという人
●何度も挫折して、いまだに身についてない(と感じている)人
●今まさに落ちこぼれつつある人
に向けた、統計学の超入門書です。

(1)「これ以上何かを削ったら、統計学にならない」という、最小限の道具立て(ツール)と簡単さで書かれた「超入門書」

(2)確率の知識はほとんど使わない。微分積分もシグマも全く使わない。使う数学は、中学の数学(ルートと1次不等式)までだから、高校数学がわからなくても(忘れてしまっていても)大丈夫

(3)毎講に穴埋め式の簡単な練習問題がついているので、独習に最適

(4)第1部では初歩の初歩からスタートしながらも、「検定」や「区間推定」という統計学の最重要のゴールに最短時間で到達することを目指す

(5)第2部では、第1部の内容に厚みをつけ、統計学での免許皆伝でともいえるt分布を使った小標本の検定・区間推定に最も効率的にたどりつく。基本が理解できれば、相当なところまで理解できる

(6)標準偏差の意味が「体でわかる」よう、簡単な計算問題や具体例で徹底的に解説する

(7)株や投資信託などへの投資のリスクを、統計学から理解して金融商品にも強くなってもらう

▽本書は、「これ以上何かを削ったら、統計学にならない」というギリギリの道具立てと簡単さで書かれた「超入門書」です。

本書は2部構成となっています。第1部では初歩の初歩からスタートしながらも、「検定」や「区間推定」という統計学の最重要項目のゴールに最短時間で到達することを目指します。

▽「統計学」を効率よく、1ステップずつ理解するために、本書のスタンスは以下のようになっています。

●本書では、標準偏差(S.D.)を最も重要視する
●本書では「確率」をほとんど扱わない
●「95パーセント予言的中区間」を用いて説明
●数学記号も数学公式もほとんど使わない(出てくるのは中学数学だけ)
●穴埋め式の簡単な練習問題で独習できる
(引用終了)

完全独習 統計学入門」がお勧めの本と言われる理由は3つあるらしい。
一つ目は、中学生の数学レベルなので、微積分を知らなくても計算できる。
2つ目は、t検定で出てくる「区間推定」や「信頼区間」などを詳しく解説してくれていること。
3つ目は、穴埋め式の練習問題が豊富なこと。これが一番重要らしい。

先生曰く、統計学を習得するときには3段階ある。
最初は、統計学の概念を理解する。
次に、数多くの例を実際に手を動かして計算して習得する。
最後に、実践の場で統計学を使ってみる。

しかし、統計学を習得しようとする人を見ると、概念を理解するために理論的な本を読んで挫折したり分かった気になったりしている。
実際に具体例で手を動かしていないから使えない。

あるいは、いきなり実践の場で必要になったので、とにかく現場で使いまくるが、基礎が分かっていないので、正しくない結果を出したり、導かれた結果から結局何が言えるのか説明できない。

つまり、いずれも、実際に手を動かして計算して、統計学のコツを掴むのが重要ですよ、と言われた。

そんなわけで、この本をじっくり読んでみたいと思う。

| | コメント (0)

2022/06/04

経済学や心理学の実験で得られた理論は再現性があるのか?~内的妥当性と外的妥当性の問題点がある

経済セミナー2022年6・7月号 通巻726号【特集】経済学と再現性問題 | 日本評論社 を読んで、経済学や心理学の実験で得られた理論は再現性があるのか?という特集号が面白かった。
再現性の根本問題は、内的妥当性と外的妥当性の問題点があると思う。

経済学が理解できるようになってから、図書館から経済セミナーを借りて読む時が増えたけど、政治や経済、社会のニュースと直結しているので面白い。

ラフなメモ書き。

【1】Twitterのごく一部で話題になっていた「再現性問題」が経済セミナーの最新号に掲載されていたので斜め読みした。
「再現性問題」とは、心理学や行動経済学ですでに知られていた実験結果や通説が実は再現性がほとんどないぞ、という指摘。
プロスペクト理論の損失回避性、ナッジ政策も実は再現性がないと言う。
ナッジ政策が再現されないとなると、ナッジ政策を推進する政府の公共政策には意味がない、税金の無駄遣いということだから影響は大きい。

【2】再現性の根本問題には、内的妥当性と外的妥当性の2つの観点がある。

僕の理解では、内的妥当性とは、母集団の中のサンプルをランダムに採取したときに、どのサンプルも同じ傾向の統計データが取れて、同じ結論が出ること。
自然科学の実験であれば、これは当たり前。
しかし、心理学や経済学では、母集団の中のサンプルでは、個人の属性のばらつきが大きいので、同質な属性を持つ集団を抽出する方法が難しい。
心理学ならば個人にバイアスがかかってしまって、そもそも客観的なテストができているか疑問がある。
何度も同じようなテストをすれば、個人も学習してしまって、過去と違う結果を返すかもしれない。

一方、外的妥当性とは、ある母集団で得られた統計データの傾向や結果が、他の母集団にも適用して、同じような統計データや結果が得られること。
自然科学の実験であれば、米国であろうが日本であろうが場所に関係しないし、現代でも100年前でも同じ結果が出る。
しかし、心理学や経済学では、欧米と日本では文化や価値観が異なる部分は多いし、100年前の人間集団と現代の人間集団では価値観も行動も全く異なるから、同じ統計データが得られるとは限らない。

つまり、内的妥当性は同じ母集団の中で採取したサンプルが同質であるか、外的妥当性は異なる母集団にも同質性を適用できるか、という問題点だと思う。

【3】「内的妥当性の再現性問題」の問題点は、仮説統計検定のp値に関する論点だろう。
p値が5%の基準で、仮説を棄却したり、棄却できないと判断する場合、4.9%と5.1%ではどんな違いがあるのか?
5%前後の僅かな差が、統計的有意であるかどうか決めるのであれば、その基準はそもそも妥当なのか?
pハッキングという話につながるらしい。

この仮説統計検定が使えなくなると、心理学の実験がすごくやりにくくなるだろう。
心理学で主張した意見の根拠をどこに求めればよいのか、大きな論点になるだろう。

【4】「外的妥当性の再現性問題」の問題点は、たとえば、欧米では大量データで実験して正しいと得られた通説が、日本では通用しないのでは、という点だろう。

経済学であれ他の学問でも、欧米で得られた統計データがすごく多い。
そこで得られた知見は、欧米人という母集団で得られた統計データに過ぎず、日本人という母集団に適用して、その真理が通用するのか?
この外的妥当性が通用しないとなると、経済学の理論は使い物にならなくなる。
経済学は規範的学問であるから、こういうエビデンスがあるから時の政府はこういう経済政策を打ち出すべきだ、という指針を提供できなければ、学問としての意義がないだろう。

経済セミナー2022年6・7月号 通巻726号【特集】経済学と再現性問題 | 日本評論社 を読むと、他の母集団に適用すると再現できなかったら、再現できない原因を探る方がより生産的な議論になる、という話があって、なるほどという気付きがあった。
再現できない差異要因が見つかれば、その要因をさらに分析することで、経済学の理論を補強することもできるだろう。

【5】内的妥当性、外的妥当性の話は、「データ分析の力 因果関係に迫る思考法」にも紹介されていたが理解できていなかった。
経済セミナー2022年6・7月号 通巻726号【特集】経済学と再現性問題 | 日本評論社 を読んで、やっと言わんとすることが理解できた気がする。

データ分析の課題はどこにあるのか: プログラマの思索

データ分析の面白さはどこにあるのか: プログラマの思索

【6】こういう話を読むと、人文・社会科学の真理を追求するために、客観的な妥当性を説明できる理論的根拠をいかに作り出すか、が論点なのだろうと思う。
自然科学と違って、心理学や経済学などの人間や社会に関する学問は、学問として成り立つ正当性を説明しようと努力して四苦八苦しているんだな、といつも思う。

そして、過去の優れた哲学者は、その正当性に関する議論を自分たちの脳内だけで色々試行錯誤してきたが、現代ではITやプログラミングという技術があり、それを使えば相当の内容を深く議論できるようになった点が大きく異なる。
過去の優れた哲学者の活動そのものを我々は検証できる道具を持っている点がすごく重要だと思う。

以前も、そんなことを考えていた。

計量経済学における統計上の根本問題: プログラマの思索

Rによる計量経済学/計量政治学を読んでいる: プログラマの思索

経済セミナーが面白いと思う理由は、最新のIT技術を使うことで色んな実験ができることだろう。
ITと統計学が融合している学際的な場所になっている。
プログラミングさえできれば、統計学の理論、経済学の理論は、実際に動かしながら後から理解すればいいと思う。

機械学習で反実仮想や自然実験が作れる: プログラマの思索

| | コメント (0)

2022/04/23

Rによる計量経済学/計量政治学を読んでいる

「Rによる計量経済学/計量政治学」という書籍があったので読んでいる。
Rによる計量経済学 第2版」「Rによる計量経済分析」「Rによる計量政治学」「Stataによる計量政治学」の本だ。
門外漢なのでラフなメモ。

【1】計量経済学という学問の存在は「統計学が最強の学問である」で知ったが、計量「政治」学という学問があるとは知らなかった。
でも考えてみれば、ITと統計学を駆使して、あらゆる人文科学を自然科学の基盤の上に打ち立てようとする方向性は納得できるし、そういう事が可能になった時代なので、ちょっと才能がある人が一攫千金を求めて大量流入しているのだろうと思う。

「計量経済学」「計量政治学」という学問で最も興味があるのは、これらの学問の根本問題は何なのか、これらの学問の前提となる武器について制約条件はあるのか、という点だ。


【2】「Rによる計量経済学 第2版」を読んで、計量経済学では、最小二乗法が自然科学のようにそのまま扱えない問題があり、その問題を解決するために色んな統計理論を編み出して、経済学を分析するツールを整備している、という印象を持っている。
その内容は以前書いた。

計量経済学における統計上の根本問題: プログラマの思索

データ分析の面白さはどこにあるのか: プログラマの思索

データ分析の課題はどこにあるのか: プログラマの思索

結局、母集団が正規分布になっているという直感を元に普通の理論は打ち立てるわけだが、現実はそうとは限らないので、色々苦労している、ということなのだろう。

様々な確率分布は正規分布のバリエーションに過ぎない: プログラマの思索

【3】「Rによる計量政治学」「Stataによる計量政治学」では、政治学を自然科学のような実証科学の基盤として打ち立てるために、計量政治学の正当性を書籍の冒頭に述べている。
この部分が非常に素晴らしいと思った。

政治学を含む社会科学では3つの問題がある。

【3-1】1つ目は実証的問題。
つまり、定量データを収集し「事実から真実を語らせる」。
「経済の発展は民主化を促進するか」「国民は民主党を指示しているか」など。
実証的問題では、価値判断を行わず、事実に語らせる。
だから「良いと思う」「悪いと思う」「すべきである」という感想を付け加えるときもあるが、そういう結果は出せない。

【3-2】2つ目は規範的問題。
いわゆる「べき論」。
研究者の価値判断に依存しており、規範哲学や政策議論で一般的に見られる。
「死刑は廃止すべきか」「民主主義は裁量の政治形態か」「中絶は認められるべきか」など。
価値判断というバイアスが入るために、客観性に疑問が残る。
しかし、規範的問題を実証的問題に変換することで、間接的に科学的証拠で根拠を示すことは可能らしい。

規範的問題を実証的問題に変換する仕組みはこんな感じだ。
1つは参照枠組み(frame of reference)を変える。
「今の日本は美しい国か?」という問題は規範的問題だが、「日本国民は、今の日本を美しい国と考えているか」という問題に置き換えれば、実証的問題として検証できる。
実際、世論調査を行えばいいだけの話だ。
つまり、問題のフレームを実証的問題に変換してしまえばいい。

もう1つは、規範的問題の背後にある前提条件に注目すること。
例えば「消費税を減らすべきだ」という規範的問題に対し、その背景にはいくつかの前提条件が隠れている。
つまり、「消費税を減らせば、経済を刺激して消費が伸びる」「消費が伸びれば雇用が増えて好景気になる」「好景気になれば税収が増える」という因果関係が隠れている。
これらの実証的問題に変換して、個人の価値判断なしにその真偽を検証すればいい。
つまり、「消費税を減らせば、経済を刺激して消費が伸びるのか?」「消費が伸びれば雇用が増えて好景気になるのか?」「好景気になれば税収が増えるのか?」という実証的問題に変換すればいい。

3つ目は分析的問題。
現実に起こっている事実よりも抽象度の高い命題の妥当性を検討する。
数学の証明問題に近い。

【4】「パズルを探す」というアイデアは、計量政治学だけでなく、一般の自然科学にも使えると思った。
「パズルを探す」とは、「常識的にはAなのに、Bになっている」という不思議な現象を指す。
たとえば、欧米の民主主義国では、地方選挙よりも国政選挙の投票率が高いのに、日本では逆になっている。
また、アジア各国の国家予算に占める軍事費率を時系列的に見ると、殆どの国では外圧要因によって割合が上下するのに、日本では1%以内にとどまり一定である。
それらはなぜなのか?
そういう研究が色々あるらしく、面白い。

【5】「Rによる計量政治学」「Stataによる計量政治学」では「理論と仮説」という説明がある。
内容は、実証分析を行うためにはきちんとしたリサーチデザイン(研究設計)が必要であるという主張だ。
リサーチデザインのプロセスはこんな感じ。

パズルを見つける。
パズルを説明するための複数の前提条件を使って理論を作る。
理論から作業仮説を作る。
作業仮説を検証するためのデータを集める。
データを使って作業仮説を検証し、理論の妥当性を確かめる。

理論とは「原因と結果についての一般的な記述」である。
理論を作るためには、前提条件、つまり、本当かどうか分からないがとりあえず本当と考えることをいくつか想定する必要がある。
つまり、理論とは、「複数の前提条件の束」である。
理論構築という作業は複数の「もし」という仮定、前提条件のもとに成り立つ。
だから、説得力のある前提条件を設定する能力が必要になってくる。

良い理論の条件は、4つある。
誤りの可能性があること。
観察可能な予測が多いこと。
具体的であること。
単純であること。
これらは下記のように言い換えられる。

理論はその誤りを指摘され、反証されながら修正されて頑健になること。
つまり、反証可能性が高い理論の方が良い。

観察可能な予測が多いほど、反証可能性は高い。
予測が具体的であるほど、観察可能な予測が多くなり、反証可能性が高くなる。
社会現象を単純な因果関係にまとめることで、反証可能性が高くなり、良い理論の条件を満たす。

科学的には理論と仮説に違いはない。
ほとんどの理論は、とりあえず受け入れられた仮説である。
作業仮説とは、理論を検証するために理論から引き出された、特定の変数に関する論述である。
「もしこの理論が正しければ~のはず」と記述される。
作業仮説は理論よりも具体的で、理論から引き出される観察可能な予測について述べている。

作業仮説を作る作業化とは、理論の中の変数を計量かつ観察可能なより具体的な変数に置き換えること。
作業化において大切なことは、理論で使われている説明変数と応答変数にできる限り近く、それぞれの概念を適切に測定知る変数を選ぶこと。

【6】上記の内容を読んで思うのは、政治学や経済学のような本来は規範的問題を解決する学問をいかに実証科学に近づけようと苦労しているなあ、と思う。
確か、以前読んだ哲学入門の本で、「規範的問題はザイン(存在)からザルレン(あるべき)は出て来ない、規範的問題はザルレンから出発すべきだ」という一節を読んだことがある。

いくら、実証データで規範的問題を解こうとしても、人文科学では、時代と地域に依存する真理しか見いだせないと思う。
そういう数多くの困難な状況の中で、何とか規範的問題を実証的問題に変換して、ITと統計学を駆使して実証科学ぽく真理を見出そうとしているのだろう、と思っている。

実際、統計処理によって因果関係を真理として見出す技術も直近30年くらいで出てきているようなので、そういう技術を使って、計量なんとかという学問をどんどん生み出しているのだろうと思う。

機械学習で反実仮想や自然実験が作れる: プログラマの思索

経済学は信頼性革命や構造推定により大きく変貌している: プログラマの思索

| | コメント (0)

より以前の記事一覧