ヘルスデータサイエンス
―健康科学のための統計解析―
医療や公衆衛生をはじめとする健康科学全般へのデータサイエンスによるアプローチであるヘルスデータサイエンスが脚光を浴びつつある。本書は、ヘルスデータサイエンスの中でも中心的な位置を占める統計的分析法について、事例をもとにわかりやすく解説している。
統計学の基本事項から始まり、連続データおよびカテゴリカルデータの分析に関する基礎および応用例、そして近年話題の統計的因果推論や機械学習の諸手法などの幅広いトピックを扱う。中でもヘルスデータの分析法として多用されている重回帰分析やロジスティック回帰には、多くのページを費やして丁寧に説明されている。また、ヘルスデータに特有な、裾の重い分布や特定の値のデータが極端に多いような混合分析などの事例も含まれている。
医療や公衆衛生に関連する学生・大学院生および社会人を読者に想定し、数式をほとんど用いずに、実例とその分析結果を中心に説明している。大学初年級の確率・統計の基礎は前提としているものの、重要な概念やモデルについては直感的でわかりやすい丁寧な説明が付されている。
本書は、米国ワシントン大学の公衆衛生学部の大学院で実際に行われている授業に基づいて執筆されており、その意味でこの分野のグローバルスタンダードを体現していると同時に、米国でのヘルスデータサイエンス教育において、大学院生がどのような内容を学んでいるかを知ることができる。
[原著:Statistics for Health Data Science: An Organic Approach, Springer, 2020]
1.1 はじめに
1.2 統計学と有機的統計学
1.3 統計的手法とモデル
1.4 ヘルスケアデータ
1.4.1 医療費請求
1.4.2 診断記録
1.4.3 健康調査
1.4.4 疾患レジストリ
1.5 本書の概要
1.6 ソフトウェアとデータ
参考文献
第2章 統計学の基礎事項
2.1 標本と母集団
2.2 統計学の基礎
2.2.1 確率変数
2.2.2 従属変数と独立変数
2.2.3 確率分布とその特徴
2.2.4 パラメータとモデル
2.2.5 推定と推測
2.2.6 変動と標準誤差
2.2.7 条件付き平均と周辺平均
2.2.8 同時分布と混合分布
2.2.9 変数変換
2.3 一般的な確率分布と概念
2.3.1 2値変数に対するベルヌーイ分布と二項分布
2.3.2 カテゴリカル変数と多項分布
2.3.3 カウントデータに対するポアソン分布と負の二項分布
2.3.4 連続データに対する正規分布
2.3.5 右に歪んだ分布に対するガンマ分布と対数正規分布
2.4 仮説検定と統計的推測
2.5 ソフトウェアとデータ
参考文献
第3章 回帰分析
3.1 はじめに
3.2 米国におけるBMIの年次推移
3.3 回帰分析の概要
3.3.1 関連性の定量化のための回帰分析
3.3.2 変動の説明のための回帰分析
3.3.3 介入効果の推定のための回帰分析
3.3.4 予測のための回帰分析
3.4 回帰分析の有機的視点
3.5 線形回帰式とその前提条件
3.6 線形回帰式の推定と解釈
3.6.1 回帰係数の推定
3.6.2 回帰係数の解釈
3.6.3 交絡
3.6.4 変容と交互作用
3.7 モデル選択と仮説検定
3.8 ランダム項の仮定の確認
3.9 モデルの良さの評価:適合度とモデルの妥当性
3.10 分位点回帰
3.11 ノンパラメトリック回帰
3.12 ソフトウェアとデータ
参考文献
第4章 2値およびカテゴリカル結果変数
4.1 はじめに
4.2 2値の結果変数
4.2.1 二元表
4.3 2値結果変数の線形回帰
4.4 ロジスティック回帰
4.5 ロジスティック回帰の解釈
4.5.1 2値共変量が1つの場合
4.5.2 一般のケース
4.6 確率尺度での解釈
4.6.1 確率の推定
4.6.2 周辺効果
4.7 モデルの構築と評価
4.7.1 モデルの比較:AICとBIC
4.7.2 モデルの較正:Hosmer-Lemeshow検定
4.7.3 モデルによる予測:ROCとAUC
4.8 多項回帰
4.8.1 ロジスティック回帰の拡張
4.8.2 周辺効果
4.8.3 順序付き多項回帰
4.9 ソフトウェアとデータ
参考文献
第5章 カウントデータ
5.1 カウントデータ
5.2 ポアソン分布
5.3 カウントデータの回帰モデル例
5.3.1 ヘルスケア利用のモデル化
5.3.2 がん登録における死亡率のモデル化
5.4 個人レベルでのカウントのためのポアソン回帰
5.4.1 乗法効果と加法効果に関する注意点
5.4.2 曝露期間の考慮
5.5 集団レベルでのカウントのためのポアソン回帰
5.6 過分散:負の二項モデルとゼロ過剰モデル
5.6.1 負の二項回帰
5.6.2 ゼロ過剰カウントデータ回帰
5.7 一般化線形モデル
5.8 ソフトウェアとデータ
参考文献
第6章 医療費の分布
6.1 医療費の定義と測定
6.2 医療利用実態と医療費に関するMEPSデータ
6.3 対数医療費モデルと対数正規分布
6.4 右に歪んだ分布に対するガンマモデル
6.5 ゼロ度数を考慮した2パートモデル
6.6 平均医療費を超えて
6.7 ソフトウェアとデータ
参考文献
第7章 ブートストラップ法
7.1 統計モデルにおける不確実性と推論
7.2 分散推定のためのブートストラップ法
7.3 ブートストラップ信頼区間
7.4 仮説検定
7.5 まとめ
7.6 ソフトウェアとデータ
参考文献
第8章 因果推論
8.1 はじめに
8.2 シンプソンのパラドックス
8.3 因果グラフ
8.3.1 交絡因子
8.3.2 媒介因子
8.3.3 合流因子
8.4 因果グラフの構築
8.5 因果効果の推定
8.5.1 層別化
8.5.2 マッチング
8.5.3 重み付け
8.6 傾向スコア
8.7 媒介分析
8.8 潜在的結果変数
8.9 ソフトウェアとデータ
参考文献
第9章 調査データの分析
9.1 はじめに
9.2 健康調査の概要
9.3 国民健康調査
9.4 調査デザインの基本要素
9.5 層化抽出
9.5.1 層化抽出法と分散
9.5.2 層化と重み付け
9.6 クラスター抽出
9.7 複雑な調査における分散推定と重み付け
9.8 調査データの分析:糖尿病にかかわる費用
9.9 ソフトウェアとデータ
参考文献
第10章 予測
10.1 「推論」と「予測」の違い
10.2 過学習とバイアス/分散のトレードオフ
10.3 予測性能の評価
10.4 クロスバリデーション
10.5 正則化回帰
10.5.1 年齢とBMIの例
10.5.2 多くの予測因子を用いた正則化回帰
10.6 ツリーベースの手法
10.6.1 年齢とBMIの例
10.6.2 多くの予測変数を持つ回帰木
10.6.3 分類木
10.7 アンサンブル法:ランダムフォレスト
10.8 まとめ
10.9 ソフトウェアとデータ
参考文献
訳者補遺
A.1 日本のデータベース
A.2 数理的な補足
参考文献
索 引
関連書籍
-
ローゼンバウム 統計的因果推論入門
価格:5,280円(税込)
-
電子カルテデータ解析
価格:3,520円(税込)
-
医薬データ解析のためのベイズ統計学
価格:9,900円(税込)