サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
2024年ランキング
rmizutaa.hatenablog.com
はじめに 書籍に関連する情報を用いてその潜在表現をうまく獲得することで、 以下のようなことができないかなーと考えています。 自身の読書済みの本と照らし合わせて カテゴリごとの網羅率の算出 本を読んだ時に得られる情報量の算出 該当の本の完読可能性の推定 本を読むための事前知識の十分性確認 今回のスコープ 書籍に関する情報の1つであるレビュー情報を用いて潜在表現を作成し、 クラスタリングを行うことでその有効性の確認を行います。 潜在表現の作成は以下の2通りの方法で行いました。 1.TFIDF+LDA 2.Sentence-BERT 実施したこと ブクログの2020年の登録者数の多い1000冊に対しレビューを取得、そこから30件以上レビューがある429冊に絞り30579件のレビューを元に書籍の潜在表現を生成しクラスタリングを行いました。 1.TFIDF+LDA TFIDFで単語の出現頻度を元にし
はじめに 多次元時系列データのクラスタリングがしたいと思って探していたところ、 ちょうどこちらのブログの題材が台風軌道のクラスタリングという、多次元時系列かつ系列長の異なるデータをクラスタリングするというものだったので、理解を兼ねて同じ内容をpythonで実施してみたのが今回の内容になります。 参考資料 題材と内容を参考にさせていただいたブログ https://y-uti.hatenablog.jp/entry/2016/01/07/154258 DTWについてのわかりやすい資料 http://sinhrks.hatenablog.com/entry/2014/11/14/232603 気象庁の台風データ http://www.data.jma.go.jp/fcd/yoho/typhoon/position_table/ tsleanのドキュメント https://tslearn.read
はじめに データを眺めていると、ある分布に対してそれが正規分布に従うのか、対数正規分布か、それともガンマ分布の方が近いのか?、というようにどの分布の当てはまりがよいかが気になることがあると思います。 これを確認する方法を探してみたところ、scipy.statsを使えばできそうだったのと、fitterというライブラリもあったので、それらを試してみた結果を記述します。 実験 scipyを使う 実装はnumpy - Fitting empirical distribution to theoretical ones with Scipy (Python)? - Stack Overflowを少しだけ修正したものです。入力に対してscipy.statsに登録されているすべての確率分布のパラメータを最尤推定した結果の平均二乗誤差を比較することで最もあてはまりのよい分布を求めます。 scipyには80
※この記事で使用している多重代入法のパッケージは正式な多重代入法の枠組みとは異なりますのでご注意願います。 はじめに 最近多重代入法という欠損値補完の手法があることを知りました。 統計学の界隈では欠損値補完は多重代入法を使用するのがベターのようですが、 機械学習の文脈ではあまりその手法が使用されている形跡がなかったので、 なぜそうなのか調査・実験した結果を記述します。 参考資料 欠測データ処理: Rによる単一代入法と多重代入法 欠損値について 欠損には大きく以下の3種類があります。 ・MCAR(Missing Completely At Random):完全にランダムに欠損 ・MAR(Missing At Random):観測データに依存する欠損 ・MNAR(Missing Not At Random):欠損データに依存する欠損 多くの学習器は欠損値を入力できないので欠損値に対応する必要が
はじめに RCTが使えない場合の因果推論の手法として傾向スコアを使う方法があります。 傾向スコアの算出はロジスティック回帰を用いるのが一般的ですが、この部分は別にlightgbmとか機械学習的な手法でやってもいいのでは?と思っていましたが既にやっている記事がありました。 統計的因果推論(3): 傾向スコア算出を機械学習に置き換えてみると - 六本木で働くデータサイエンティストのブログ 統計的因果推論(4): 機械学習分類器による傾向スコアを調整してみる - 六本木で働くデータサイエンティストのブログ 機械学習系の手法で算出した傾向スコアの値は、どうやら実際の確率とはずれが生じるようで、calibrationを行った方がよいということでした。 この部分について、実際にそうなのかが気になったので試してみることにしました。 実装 データは上記記事と同様に岩波データサイエンスvol3のものを使用し
はじめに 機械学習を現実の問題に適用する場合、そのモデルに説明性が求められることが少なからず存在すると思います。 その場合、精度を犠牲にして線形回帰を実施するでしょうか?木系モデルの重要度を頑張って説明するでしょうか?それともSHAPやLIMEなど線形近似モデルを利用するでしょうか?(まあ銀の弾丸はないんですが) 今回実験を行う一般化加法モデル(GAM)は、線形モデルの利点(説明性)を保ちつつ精度を高められるモデルであるといわれているもので、実際のところどれくらいの感じになるか確認するための実験を行いました。 参考文献 平滑化スプラインと加法モデル | Logics of Blue pyGAM : Getting Started with Generalized Additive Models in Python GAMについて GAMは式としては以下のようになります。 fが全て線形な場合
はじめに AtCoderは競技プログラミングのサイトです。ほぼ毎週のようにコンテストが開催され、参加者が複数の問題を解き、解いた問題数とその早さから順位がつきます。また各参加者はレーティングを持っていて、そのレーティングが順位によって変化するというシステムになっています。 コンテストの問題には100,200,300などの得点がついており、これが難易度の目安となるのですが、同じ400点の問題でもこれは簡単すぎでは?というときから絶対無理…となるときもあるので、実質の難易度は得点とは少しずれが生じていると考えられます。 特にAGC(AtCoder Grand Contest)や企業コンテストは通常のABC(Atcoder Beginner Contest)やARC(Atcoder Regular Contest)と同じ得点でも難易度が結構異なるように感じます。 今回はこのテーマに対し、項目反応
はじめに 前回 は、ゼロ過剰ポアソンを用いてCM視聴がゲームのプレイ時間に与える効果の測定を行いました。 ゲームのプレイの有無に与える効果の部分はうまく推定できましたが、 ゲームをプレイする時間に与える効果はポアソン分布ではうまく推定することができませんでした。 この部分もうまく推定できるよう、階層ベイズやゼロ過剰負の二項分布等を試してみましたが、そちらはうまくいかず、最終的にゲームのプレイ時間をスケールすると普通の負の二項分布に当てはまりが良くなったので、その結果を書いていきます。 負の二項分布について 負の二項分布については下記の資料がわかりやすかったです。 https://www.slideshare.net/simizu706/ss-50994149 負の二項分布は、下記のようなある成功率pで、r回正解するまでに必要な失敗回数を示す分布で、過分散対策としてよく使われるようです。 (
はじめに 最近は統計モデリングについて学んでいますが、具体的にこういうケースでは統計モデルを使うべきだというケースが自分の中で定まっていません。そのあたりをつけるために実験を行なっていきたいと思います。 データセット 今回は こちらの岩波データサイエンスvol.3のデータを使用しました。 このデータセットは市場調査のデータで、ユーザごとの年齢や性別などのデモグラ情報、CM視聴の有無とCMを実施したゲームのプレイ時間などが入っています。 CM視聴がゲームのプレイ時間に与える効果を推定したいのですが、 CM視聴者にバイアスがかかっているために集計や通常の回帰ではおかしな結果がでます。 そのため上記の本では傾向スコア等の因果推論の枠組みを用いて効果の推定を行なっています。 このデータセットに対する取組はこちらでも詳しく書かれています。 https://tjo.hatenablog.com/ent
はじめに 時系列解析を行う上で、状態空間モデルが現状使用できる手法の中で優れているのではと自分の中で話題だったので、 使ってみることにしました。 状態空間モデルを使うことの目的 時系列解析を行う上でもモデルの種類は無数にあるのですが、 どういう場合に状態空間モデルを使うのでしょうか? この部分については以下のサイトに詳しく書かれていました。 https://logics-of-blue.com/%E3%81%AA%E3%81%9C%E7%8A%B6%E6%85%8B%E7%A9%BA%E9%96%93%E3%83%A2%E3%83%87%E3%83%AB%E3%82%92%E4%BD%BF%E3%81%86%E3%81%AE%E3%81%8B/ 状態空間モデルはデータが得られるプロセスとは何か?を重視したモデルであり、 回帰分析よりも各要因の影響が納得性の高い形で見ることができ、またその構
はじめに スポーツの世界においては「勢いがある」、「流れが来ている」等の表現がよくされると思うのですが、これらはオカルトではなく実際に存在するものなのでしょうか?この分野ではバスケのホットハンドの話が有名で、色々な方が研究されているのようなのですが、気になったので自分でも検証してみることにしました。 今回対象とするのは大相撲です。 もし勢いや流れというものが存在するのであれば、連勝中の力士はそうでない場合と比較して勝利する確率が上がり、連敗中の力士は敗北する確率が高くなると考えられます。今回は、過去の取組結果のデータを用いてこの仮説が正しいかどうかの検証を行います。 ちなみに大相撲についてはあまり詳しくないです。 データの取得 ヤフーの大相撲のサイトに、年・場所毎の勝敗表がありましたので、そちらから2014-2018年の5年分の各場所の幕内と十両の勝敗表をスクレイピングで取得しました。 取
はじめに 箱根駅伝は好きで割と毎年見ているのですが、 マラソン系の競技ってパフォーマンスの分散が対人競技と比較すると小さくなるため、実は事前の情報から結果を予測することが比較的容易なんじゃないか?という疑問が浮かんだので、各大学が優勝する確率を出してみることにしました。 方針としては、箱根駅伝に出場する各校のトップ10人の10000m平均タイムより箱根駅伝の予測タイムの分布を算出し、 算出した予測分布を用いて各校が優勝する確率を予測します。 データの収集・確認 各年の10000mのタイムと箱根駅伝の総合タイムについては以下のサイト参考にさせていただきました。 http://www13.plala.or.jp/jwmiurat/index.html http://www.hakone-ekiden.jp/data/data_index.php 上記のサイトより2013-2018年の過去5年分
このページを最初にブックマークしてみませんか?
『rmizutaa.hatenablog.com』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く