サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
CES 2025
dropout009.hatenablog.com
はじめに Partial Dependence 特徴量が独立の場合 数式による確認 PDの実装 特徴量が相関する場合 PDがうまく機能しない原因 Marginal Plot Marginal Plotの数式 Marginal Plotのアルゴリズム Maginal Plotの実装 Accumulated Local Effects ALEのアイデア ALEはうまく機能するのか ALEのアルゴリズム ALEの実装 ALEの数式 まとめ Appendix:線形回帰モデルの場合 参考文献 この記事をベースにした発表資料です! speakerdeck.com はじめに Random Forestやディープラーニングなどのブラックボックスモデルは、予測性能が高い一方で解釈性が低いというトレードオフを抱えています。 これを克服するために、ブラックボックスモデルに後から解釈性を与える「機械学習の解釈手法
はじめに 多重共線性とOLS推定量の信頼度 線形回帰モデルの導入 OLS推定量 Annihilator Matrix OLS推定量の別表現 補助回帰 OLS推定量の分散を解釈する シミュレーションによる信頼度の確認 シミュレーションの設定 多重共線性とOLS推定量の信頼度 サンプルサイズとOLS推定量の信頼度 リッジ推定量で推定量の信頼性を高める リッジ推定量の導入 リッジ推定量の性質 変換行列の準備 リッジ推定量の期待値 リッジ推定量の分散 シミュレーションによる確認 まとめ 参考文献 はじめに 先日、多重共線性に関する @hizakayuさんや@M123Takahashiさんのコメントを目にしました。 多重共線性の問題は,どの説明変数に強い相関があるかにより変わります.たとえば,y=b0+b1x1+b2x2+b3x3で,x1からyへの効果b1に興味があり,x2とx3は交絡因子とします.
はじめに パッケージ シミュレーション1 データ モデル DALEXによる解釈 変数重要度 PDP シミュレーション2 データの作成 DALEXによる解釈 PDP ICE Plot Conditional PDP clusterd ICE Plot まとめ 参考文献 ※この記事をベースにした2020年1月25日に行われた第83回Japan.Rでの発表資料は以下になります。 speakerdeck.com ※この記事で紹介するSHAPを含んだ、機械学習の解釈手法に関する本を書きました! 機械学習を解釈する技術〜予測力と説明力を両立する実践テクニック 作者:森下 光之助技術評論社Amazon はじめに 本記事では、tidymodelsを用いて機械学習モデルを作成し、それをDALEXを用いて解釈する方法をまとめています。 DALEXは Collection of tools for Visual
はじめに この記事で書いていること、書いていないこと アルバイトゲームとShapley Value 機械学習モデルへの応用 参考文献 はじめに ブラックボックスモデルを解釈する手法として、協力ゲーム理論のShapley Valueを応用したSHAP(SHapley Additive exPlanations)が非常に注目されています。SHAPは各インスタンスの予測値の解釈に使えるだけでなく、Partial Dependence Plotのように予測値と変数の関係をみることができ、さらに変数重要度としても解釈が可能であるなど、ミクロ的な解釈からマクロ的な解釈までを一貫して行える点で非常に優れた解釈手法です。 SHAPの論文の作者によって使いやすいPythonパッケージが開発されていることもあり、実際にパッケージを使った実用例はたくさん見かけるので、本記事では協力ゲーム理論の具体例、Shapl
はじめに XGBoost論文 目的関数の設定 勾配ブースティング まとめ 参考文献 はじめに 今更ですが、XGboostの論文を読んだので、2章GBDT部分のまとめ記事を書こうと思います。*1 この記事を書くにあたって、できるだけ数式の解釈を書くように心がけました。数式の意味をひとつひとつ追っていくことは、実際にXGBoost(またはLightGBMやCatBoostなどのGBDT実装)を使う際にも役立つと考えています。たとえばハイパーパラメータがどこに効いているかを理解することでチューニングを効率化したり、モデルを理解することでよりモデルに合った特徴量のエンジニアリングができるのではないかと思います。 また、この記事に限りませんが、記述に間違いや不十分な点などあればご指摘頂ければ嬉しいです。 XGBoost論文 目的関数の設定 一般的な状況として、サンプルサイズがで特徴量の数がのデータに
私は探索的にデータを見てく段階では、可視化に加えて複数の回帰モデルを作成して比較をする、ということをよくやっています。 モデルの数が少ない場合は個別にモデルを作成してsummary()で見ていく事もできますが、モデルの数が増えるにつれてそのやり方では管理が難しくなってきます。 そこで、本記事では、purrrのmap()とbroomのtidy(), glance()を用いて複数の回帰モデルを効率的に扱う方法を紹介したいと思います。 まずはライブラリを読み込みます。tidyverseはおなじみのデータハンドリングと可視化のためのパッケージ群です。tidymodelsはモデリングをtidyなやり方で統一的に扱えるようにするパッケージ群になります。今回はbroomのみ用いますが、後日他のパッケージの紹介記事も書ければと思っています。 library(tidyverse) library(tidym
はじめに 前処理 Cross Validation ハイパーパラメータのサーチ まとめ 参考 はじめに 本記事ではtidymodelsを用いたCross Validationとハイパーパラメータのチューニングについて紹介したいと思います。 なお、tidymodelsの基本的な操作方法については以下の記事をご覧下さい。 dropout009.hatenablog.com 前処理 まずは前回の記事と同様、訓練/テストデータの分割と前処理を行います。なお、例によってデータはdiamondsを用います。 # パッケージ library(tidyverse) library(tidymodels) set.seed(42) # 分割 df_split = initial_split(diamonds, p = 0.8) df_train = training(df_split) df_test =
目次 目次 はじめに tidyな機械学習フロー 訓練データとテストデータの分割 特徴量エンジニアリング モデルの学習 モデルの精度評価 まとめ 参考文献 ※この記事をベースにした2019年12月7日に行われたJapan.R 2019での発表資料は以下になります。 tidymodelsによるtidyな機械学習 - Speaker Deck はじめに 本記事ではtidymodelsを用いたtidyな機械学習フローを紹介したいと思います。 tidyverseはデータハンドリングと可視化のためのメタパッケージでしたが、tidymodelsはtydyverseにフィットするやり方で統計モデリング/機械学習をするためのメタパッケージになります。 tidymodels配下のパッケージは量が多く使い所が限られているパッケージも多いため、一度に全ては紹介できません。 ですので、今回は典型的な 訓練データとテ
はじめに モデルの学習 変数重要度 Partial Dependence Plot まとめ 参考 はじめに RF/GBDT/NNなどの機械学習モデルは古典的な線形回帰モデルよりも高い予測精度が得られる一方で、インプットとアウトプットの関係がよくわからないという解釈性の問題を抱えています。 この予測精度と解釈性のトレードオフでどちらに重点を置くかは解くべきタスクによって変わってくると思いますが、私が仕事で行うデータ分析はクライアントの意思決定に繋げる必要があり、解釈性に重きを置いていることが多いです。 とはいえ機械学習モデルの高い予測精度は惜しく、悩ましかったのですが、学習アルゴリズムによらずモデルに解釈性を与えられる手法が注目され始めました。 本記事では変数重要度とPDP/ICE Plot (Partial Dependence/Individual Conditional Expecta
このページを最初にブックマークしてみませんか?
『dropout009.hatenablog.com』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く