機械学習

書籍レビューを用いた潜在表現の獲得とクラスタリングの実施

はじめに 書籍に関連する情報を用いてその潜在表現をうまく獲得することで、 以下のようなことができないかなーと考えています。 自身の読書済みの本と照らし合わせて カテゴリごとの網羅率の算出 本を読んだ時に得られる情報量の算出 該当の本の完読可能性…

類似本検索システムを作りたい

ということで、本を検索すると類似している本のリストを出力するサイトを試作してみました。 https://bookrecommendst.herokuapp.com/ (herokuを他の用途で使うまではアクセス可能な予定です。) youtu.be こんな感じで、ある検索した本に対して類似度の高い…

推論時の入力に未知の欠損値がある場合のlightgbmの挙動の確認

はじめに 以前にlightgbmは入力に欠損値があってもうまく学習してくれるという記事を書いたのですが、 これは学習時に欠損が存在している場合の話でした。 現実の問題を考えると、学習時とそのモデルを使った推論時では時系列の違いや環境変化の影響 により…

テニスにおける疲労度の影響の定量化(spoana5の内容+α)

はじめに 「プロテニスにおいて疲れが勝敗に与える影響を定量化してみる」 という題目で下記イベントでLTしてきました。 spoana.connpass.com 使用した資料は以下になります。 プロテニスにおいて疲れが勝敗に与える影響を定量化してみる - Speaker Deck 内…

機械学習における欠損値補完について考える

※この記事で使用している多重代入法のパッケージは正式な多重代入法の枠組みとは異なりますのでご注意願います。 はじめに 最近多重代入法という欠損値補完の手法があることを知りました。 統計学の界隈では欠損値補完は多重代入法を使用するのがベターのよ…

傾向スコアと機械学習とprobability calibrationの話

はじめに RCTが使えない場合の因果推論の手法として傾向スコアを使う方法があります。 傾向スコアの算出はロジスティック回帰を用いるのが一般的ですが、この部分は別にlightgbmとか機械学習的な手法でやってもいいのでは?と思っていましたが既にやっている…

一般化加法モデル(GAM)について考える

はじめに 機械学習を現実の問題に適用する場合、そのモデルに説明性が求められることが少なからず存在すると思います。 その場合、精度を犠牲にして線形回帰を実施するでしょうか?木系モデルの重要度を頑張って説明するでしょうか?それともSHAPやLIMEなど…

AtCoderの問題難易度を推定する(機械学習編)

はじめに 以前に、AtCoderの問題難易度の推定を項目反応理論を用いて行いました。 これは統計モデリングを使った方法だったのですが、同様のことを機械学習でできないこともないな、 と思い今回は機械学習を用いて問題難易度の推定を行うことにしました。 手…