質的データの分析方法は統計処理が全盛の今でも使える
「情報生産者になる (ちくま新書) | 上野千鶴子」を読んだらとても良かった。
卒論や修論を書く人にとっては論文の書き方を学ぶことができる。
それ以外に、プログラミング言語を使ったデータマイニングという量的データ分析ではなく、KJ法による質的データ分析の解説も非常に興味深かった。
気づきをメモ。
【1】社会科学の論文を書くには、アンケートや経済データなどで、大量データを統計処理する分析手法が流行りだ。
今なら、色んなプログラミング言語で統計処理ライブラリを使えば、いろんな観点で分析できる。
ビジネスの副産物として発生する大量データをクラウドのML基盤に乗せて、機械学習や深層学習をさせればいい。
しかし、「情報生産者になる (ちくま新書) | 上野千鶴子」では、そういう量的データ分析ではなく質的データ分析を好む、という一節があり、興味深かった。曰く。
第1に、質的データ分析は、相対的に少ないデータ量で数多くの発見が得られるから。
第2に、質的データ分析による帰納的データ分析の結果は、仮説を裏切る発見に至る確率が高いから、と。
量的データ分析では、平均の範囲に含まれないデータは外れ値として除外されてしまう。
しかし、質的データ分析では、外れ値や逸脱した現象は、他の大多数の類型を説明できる重要な対照サンプルになる。
この対照サンプルは、平均値である大多数の類型の特殊性を照らし出す意義がある。
この意見は面白かった。
サンプル数が少なくても、質的データ分析では意味ある仮説、主張を生み出せるわけだ。
【2】質的データ分析には、KJ法を使う。
僕は、「情報生産者になる (ちくま新書) | 上野千鶴子」を読んで、初めてKJ法の凄さを理解できた気がした。
質的データ分析の対象データでは、インタビュー記録、フィールドノートに書かれた観察データ、などの主観が入った文章だ。
まず、この文章データを、言説、つまり意味ある文体にばらす。
これを情報ユニット(単位)と呼んでいる。
情報ユニットはKJカードに1枚ずつ書き込む。
例えば、1時間のインタビュー記録で、情報ユニットのKJカードが100枚ぐらい作られるイメージ。
インタビュー記録に沿って作られたKJカード群は、その時系列に従って並べて写真かコピーを撮っておく。
後で比較するためだ。
次に、情報ユニットを脱文脈化するために、KJカードをばらばらにして、カテゴリ化する。
どうやらカテゴリはメタ情報であり、何らかの価値観に従って分類する。
このカテゴリが、たとえばユングの心理的類型みたいなものと思う。
このカテゴリ、メタ情報の名前付けが重要。
次に、集めたメタ情報(カテゴリ)を似ている、近い、遠いなどでKJカードで配置する。
マッピングと呼ぶらしい。
マッピングが終われば、チャートにする。
要因連関図というらしい。
メタ情報でグルーピングされた一次情報、メタ情報のKJカード同士で、因果関係、対立関係、相関関係で関係付ける。
このチャートを作ることで、メタ情報のストーリーを認識できる。
ここで、他と繋がりのない単独のメタ情報が生まれる時がある。
これを離れ小島、離れザルと呼ぶらしい。
KJ法は京都学派の霊長類学者がよく使っていたので、こういう概念が生まれたらしい。
ここまでで、1次情報の情報ユニット、2次情報のメタ情報が整理できた。
このチャートをもとに、ストーリーを組み立てる。
つまり物語化。
チャートの中に論理関係が含まれているので、それらの情報を元にした物語を作り、その物語が論文の本論部分になる。
【3】このやり方ですごいと思ったのは、質的データ分析にKJ法を使った論文では、論文の本論部分に1次情報である情報ユニットを下線部で引くと、ほとんどが引用された状況になっている点だ。
つまり、本論で示された事実や主張は、1次データから引用されているので、信憑性が高いことになる。
量的データ分析とは異なるが、こうやってKJ法を使って論文を書くのだ、という点は参考になった。
【4】「情報生産者になる (ちくま新書) | 上野千鶴子」ではKJ法の結果をさらに使い倒す。
基本はマトリクス分析だ。
たとえば、インタビューで何度も使われる同じ質問と、メタ情報のマトリクスを作る。
縦軸が、質問つまりケース。
横軸がメタ情報つまりコード。
ケースとコードのマトリクスを作る。
ケースとコードのマトリクスで表すと、特定の事例には出てくるが、他の一般事例には出てこないコードが出てくる。
この解釈には3つあると言う。
第1は、1次情報が不完全だった。
これは、もう一度1次情報を採集すればいい。
第2は、論理的にありえない。
第3は、論理的にはあり得るが経験的に登場しない。
ここで重要なのは第3のケースだ。
フーコーは、ある言説空間の中で、特定の言語は生産されるが、そうでない言説は原理的にありうるが登場しない可能性を示唆した。
つまり、あるテーマの現象に対し、その言説空間の歪みや傾向は、今までにない新しい仮説を生み出す可能性が高い。
他に、ケース分析、コード分析も行い、最後に報告会で分析結果を報告した時に、メンバーからコメントをもらう。
そのコメントという1次情報をKJカードで分類し、同じように分析する。
これはメタメタ情報と呼ぶらしい。
この内容が結論や主張に出てくる内容になりやすい。
【4-1】「第3は、論理的にはあり得るが経験的に登場しない」ケースは何か?
これが統計データの平均範囲に収まらない外れ値に相当する。
この外れ値という例外ケースを深く突き詰めると、新たな知見が得られる。
「情報生産者になる (ちくま新書) | 上野千鶴子」ではこんな例があった。
医療現場の看護婦である研究者が、生体肝移植の成功可否とドナーの満足度について研究した考察がある。
医者は生体肝移植の手術しか興味はないし、患者以上に長く生きるドナーのその後の観察はない。
しかし、長期に渡る患者とドナーの関わりをたどると、自分の生きた臓器を提供したドナーの側に実は様々な問題が残っている、ということが分かったらしい。
マトリクス分析すると、生体肝移植が成功してドナーも肯定的なケース、生体肝移植が失敗してドナーも否定的なケースは想像可能な当たり前のケースだ。
一方、生体肝移植が失敗したけれど、ドナーは肯定的に捉えたケースがあったという。
さらに、生体肝移植が成功したけれども、ドナーは否定的というレアケースもあったという。
これらのケースがまさに「第3は、論理的にはあり得るが経験的に登場しない」ケースに相当する。
著書にはこれ以上書かれてないけど、想像すると、生体肝移植が失敗したけれどドナーは肯定的に捉えたケースは、自分はよくやった、尽くしたかった、というドナーがいたのだろう。
一方、生体肝移植が成功したけれども、ドナーは否定的というレアケースでは、ドナーの方が体調を崩し、自分の寿命を縮めてしまって否定的に捉えた、とか、患者とドナーの関係が著しく損なわれた、ということが推察される。
そういうケースがなぜ発生したのか、インタビューを元にKJ法を洗い出してくれるわけだ。
【5】ここまで来たら、後はこの分析結果を元に、きみは何を言いたいのか?をまとめる。
ここが研究の醍醐味だろう。
研究者は、データに語らせる、としばしば呼ぶが、本来は、データに代弁させるように使わなければならない。
【6】以上が質的データ分析のやり方だが、質的データの分析方法は統計処理が全盛の今でも使えると思う。
特に、インタビューや観察データが1次情報の場合に有効だろうと思う。
この使い方についてもいろいろ考えてみたいと思う。
| 固定リンク
「ソフトウェア工学」カテゴリの記事
- チームトポロジーの感想~大規模アジャイル開発でも組織構造は大きく変化する(2025.01.01)
- Redmineは組織のナレッジ基盤として実現可能なのか~島津製作所の事例を読み解く #redmineT(2024.12.29)
- アーキテクチャ設計はベストプラクティスを参照するプロセスに過ぎないのか?~Software Processes are Software, Too(ソフトウェアプロセスもまたソフトウェアである)(2024.09.22)
- 「システムアーキテクチャ構築の原理」の感想part2~非機能要件がシステムのアーキテクチャに影響を与える観点をプロセス化する(2024.05.06)
- 「システムアーキテクチャ構築の原理」の感想(2024.05.06)
「統計学・機械学習・深層学習」カテゴリの記事
- Redmineは組織のナレッジ基盤として実現可能なのか~島津製作所の事例を読み解く #redmineT(2024.12.29)
- 統計学の考え方をastahでまとめた(2023.05.28)
- ランダム化比較試験はなぜ注目されて利用されるようになったのか(2023.04.08)
- ChatGPTで起きている事象の意味は何なのか(2023.04.02)
- 過学習に陥った人間や社会の事例は何があるのか(2023.01.09)
コメント