はてなブックマークアプリ

サクサク読めて、
アプリ限定の機能も多数!

アプリで開く

はてなブックマーク

  • はてなブックマークって?
  • アプリ・拡張の紹介
  • ユーザー登録
  • ログイン
  • Hatena
  • Hatena

    はてなブックマーク

    トップへ戻る

    • 総合
      • 人気
      • 新着
      • IT
      • 最新ガジェット
      • 自然科学
      • 経済・金融
      • おもしろ
      • マンガ
      • ゲーム
      • はてなブログ(総合)
    • 一般
      • 人気
      • 新着
      • 社会ニュース
      • 地域
      • 国際
      • 天気
      • グルメ
      • 映画・音楽
      • スポーツ
      • はてな匿名ダイアリー
      • はてなブログ(一般)
    • 世の中
      • 人気
      • 新着
      • 新型コロナウイルス
      • 働き方
      • 生き方
      • 地域
      • 医療・ヘルス
      • 教育
      • はてな匿名ダイアリー
      • はてなブログ(世の中)
    • 政治と経済
      • 人気
      • 新着
      • 政治
      • 経済・金融
      • 企業
      • 仕事・就職
      • マーケット
      • 国際
      • はてなブログ(政治と経済)
    • 暮らし
      • 人気
      • 新着
      • カルチャー・ライフスタイル
      • ファッション
      • 運動・エクササイズ
      • 結婚・子育て
      • 住まい
      • グルメ
      • 相続
      • はてなブログ(暮らし)
      • 掃除・整理整頓
      • 雑貨
      • 買ってよかったもの
      • 旅行
      • アウトドア
      • 趣味
    • 学び
      • 人気
      • 新着
      • 人文科学
      • 社会科学
      • 自然科学
      • 語学
      • ビジネス・経営学
      • デザイン
      • 法律
      • 本・書評
      • 将棋・囲碁
      • はてなブログ(学び)
    • テクノロジー
      • 人気
      • 新着
      • IT
      • セキュリティ技術
      • はてなブログ(テクノロジー)
      • AI・機械学習
      • プログラミング
      • エンジニア
    • おもしろ
      • 人気
      • 新着
      • まとめ
      • ネタ
      • おもしろ
      • これはすごい
      • かわいい
      • 雑学
      • 癒やし
      • はてなブログ(おもしろ)
    • エンタメ
      • 人気
      • 新着
      • スポーツ
      • 映画
      • 音楽
      • アイドル
      • 芸能
      • お笑い
      • サッカー
      • 話題の動画
      • はてなブログ(エンタメ)
    • アニメとゲーム
      • 人気
      • 新着
      • マンガ
      • Webマンガ
      • ゲーム
      • 任天堂
      • PlayStation
      • アニメ
      • バーチャルYouTuber
      • オタクカルチャー
      • はてなブログ(アニメとゲーム)
      • はてなブログ(ゲーム)
    • おすすめ

      WWDC25

    『rmizutaa.hatenablog.com』

    • 人気
    • 新着
    • すべて
    • 書籍レビューを用いた潜在表現の獲得とクラスタリングの実施 - rmizutaの日記

      3 users

      rmizutaa.hatenablog.com

      はじめに 書籍に関連する情報を用いてその潜在表現をうまく獲得することで、 以下のようなことができないかなーと考えています。 自身の読書済みの本と照らし合わせて カテゴリごとの網羅率の算出 本を読んだ時に得られる情報量の算出 該当の本の完読可能性の推定 本を読むための事前知識の十分性確認 今回のスコープ 書籍に関する情報の1つであるレビュー情報を用いて潜在表現を作成し、 クラスタリングを行うことでその有効性の確認を行います。 潜在表現の作成は以下の2通りの方法で行いました。 1.TFIDF+LDA 2.Sentence-BERT 実施したこと ブクログの2020年の登録者数の多い1000冊に対しレビューを取得、そこから30件以上レビューがある429冊に絞り30579件のレビューを元に書籍の潜在表現を生成しクラスタリングを行いました。 1.TFIDF+LDA TFIDFで単語の出現頻度を元にし

      • テクノロジー
      • 2021/05/12 00:18
      • DTW(Dynamic Time Warping)で台風軌道をクラスタリングする - rmizutaの日記

        5 users

        rmizutaa.hatenablog.com

        はじめに 多次元時系列データのクラスタリングがしたいと思って探していたところ、 ちょうどこちらのブログの題材が台風軌道のクラスタリングという、多次元時系列かつ系列長の異なるデータをクラスタリングするというものだったので、理解を兼ねて同じ内容をpythonで実施してみたのが今回の内容になります。 参考資料 題材と内容を参考にさせていただいたブログ https://y-uti.hatenablog.jp/entry/2016/01/07/154258 DTWについてのわかりやすい資料 http://sinhrks.hatenablog.com/entry/2014/11/14/232603 気象庁の台風データ http://www.data.jma.go.jp/fcd/yoho/typhoon/position_table/ tsleanのドキュメント https://tslearn.read

        • テクノロジー
        • 2020/09/26 12:24
        • あとで読む
        • Whooshで検索機能の向上を図る - rmizutaの日記

          3 users

          rmizutaa.hatenablog.com

          はじめに 前に類似本検索システムを作成したのですが、その中で数万ある本の候補の中から探したい本の検索する部分があります。 そのときは入力された単語に対し検索を全書籍に対して行う、という最も単純な手法を実装したのですが、 もう少しいいやり方がないかなーといくつか資料を読んで改善を実施したのでその過程を記述します。 参考資料 図書館情報学オタクと学ぶ 検索エンジニア入門 検索技術勉強会の資料 Whoosh公式 Sudachi公式 現状の問題点 複数のワードを入力することができず、OR検索やNOT検索もできない 登録されている書籍を全検索しているので、件数が増えた場合に検索時間が線形に増える。 検索が一致した後のリストの返し方に何も優先順位をつけていない 解決方法 pythonで利用できる全文検索パッケージのwhooshを使います。商用ではサーバ機能を併せ持つElasticsearch等が使われ

          • テクノロジー
          • 2020/08/12 10:55
          • あとで読む
          • あてはまりのよい確率分布を探したい - rmizutaの日記

            4 users

            rmizutaa.hatenablog.com

            はじめに データを眺めていると、ある分布に対してそれが正規分布に従うのか、対数正規分布か、それともガンマ分布の方が近いのか?、というようにどの分布の当てはまりがよいかが気になることがあると思います。 これを確認する方法を探してみたところ、scipy.statsを使えばできそうだったのと、fitterというライブラリもあったので、それらを試してみた結果を記述します。 実験 scipyを使う 実装はnumpy - Fitting empirical distribution to theoretical ones with Scipy (Python)? - Stack Overflowを少しだけ修正したものです。入力に対してscipy.statsに登録されているすべての確率分布のパラメータを最尤推定した結果の平均二乗誤差を比較することで最もあてはまりのよい分布を求めます。 scipyには80

            • 世の中
            • 2020/02/25 21:57
            • 機械学習における欠損値補完について考える - rmizutaの日記

              41 users

              rmizutaa.hatenablog.com

              ※この記事で使用している多重代入法のパッケージは正式な多重代入法の枠組みとは異なりますのでご注意願います。 はじめに 最近多重代入法という欠損値補完の手法があることを知りました。 統計学の界隈では欠損値補完は多重代入法を使用するのがベターのようですが、 機械学習の文脈ではあまりその手法が使用されている形跡がなかったので、 なぜそうなのか調査・実験した結果を記述します。 参考資料 欠測データ処理: Rによる単一代入法と多重代入法 欠損値について 欠損には大きく以下の3種類があります。 ・MCAR(Missing Completely At Random):完全にランダムに欠損 ・MAR(Missing At Random):観測データに依存する欠損 ・MNAR(Missing Not At Random):欠損データに依存する欠損 多くの学習器は欠損値を入力できないので欠損値に対応する必要が

              • テクノロジー
              • 2019/07/01 02:19
              • 機械学習
              • あとで読む
              • python
              • web
              • 欠損値
              • 傾向スコアと機械学習とprobability calibrationの話 - rmizutaの日記

                57 users

                rmizutaa.hatenablog.com

                はじめに RCTが使えない場合の因果推論の手法として傾向スコアを使う方法があります。 傾向スコアの算出はロジスティック回帰を用いるのが一般的ですが、この部分は別にlightgbmとか機械学習的な手法でやってもいいのでは?と思っていましたが既にやっている記事がありました。 統計的因果推論(3): 傾向スコア算出を機械学習に置き換えてみると - 六本木で働くデータサイエンティストのブログ 統計的因果推論(4): 機械学習分類器による傾向スコアを調整してみる - 六本木で働くデータサイエンティストのブログ 機械学習系の手法で算出した傾向スコアの値は、どうやら実際の確率とはずれが生じるようで、calibrationを行った方がよいということでした。 この部分について、実際にそうなのかが気になったので試してみることにしました。 実装 データは上記記事と同様に岩波データサイエンスvol3のものを使用し

                • テクノロジー
                • 2019/03/31 11:32
                • 傾向スコア
                • あとで読む
                • ML
                • 一般化加法モデル(GAM)について考える - rmizutaの日記

                  4 users

                  rmizutaa.hatenablog.com

                  はじめに 機械学習を現実の問題に適用する場合、そのモデルに説明性が求められることが少なからず存在すると思います。 その場合、精度を犠牲にして線形回帰を実施するでしょうか?木系モデルの重要度を頑張って説明するでしょうか?それともSHAPやLIMEなど線形近似モデルを利用するでしょうか?(まあ銀の弾丸はないんですが) 今回実験を行う一般化加法モデル(GAM)は、線形モデルの利点(説明性)を保ちつつ精度を高められるモデルであるといわれているもので、実際のところどれくらいの感じになるか確認するための実験を行いました。 参考文献 平滑化スプラインと加法モデル | Logics of Blue pyGAM : Getting Started with Generalized Additive Models in Python GAMについて GAMは式としては以下のようになります。 fが全て線形な場合

                  • テクノロジー
                  • 2019/03/24 22:38
                  • ML
                  • AtCoderの問題難易度を項目反応理論を用いて推定する - rmizutaの日記

                    5 users

                    rmizutaa.hatenablog.com

                    はじめに AtCoderは競技プログラミングのサイトです。ほぼ毎週のようにコンテストが開催され、参加者が複数の問題を解き、解いた問題数とその早さから順位がつきます。また各参加者はレーティングを持っていて、そのレーティングが順位によって変化するというシステムになっています。 コンテストの問題には100,200,300などの得点がついており、これが難易度の目安となるのですが、同じ400点の問題でもこれは簡単すぎでは?というときから絶対無理…となるときもあるので、実質の難易度は得点とは少しずれが生じていると考えられます。 特にAGC(AtCoder Grand Contest)や企業コンテストは通常のABC(Atcoder Beginner Contest)やARC(Atcoder Regular Contest)と同じ得点でも難易度が結構異なるように感じます。 今回はこのテーマに対し、項目反応

                    • テクノロジー
                    • 2019/03/08 07:53
                    • 統計
                    • CM視聴の効果を推定する(負の二項分布編) - rmizutaの日記

                      3 users

                      rmizutaa.hatenablog.com

                      はじめに 前回 は、ゼロ過剰ポアソンを用いてCM視聴がゲームのプレイ時間に与える効果の測定を行いました。 ゲームのプレイの有無に与える効果の部分はうまく推定できましたが、 ゲームをプレイする時間に与える効果はポアソン分布ではうまく推定することができませんでした。 この部分もうまく推定できるよう、階層ベイズやゼロ過剰負の二項分布等を試してみましたが、そちらはうまくいかず、最終的にゲームのプレイ時間をスケールすると普通の負の二項分布に当てはまりが良くなったので、その結果を書いていきます。 負の二項分布について 負の二項分布については下記の資料がわかりやすかったです。 https://www.slideshare.net/simizu706/ss-50994149 負の二項分布は、下記のようなある成功率pで、r回正解するまでに必要な失敗回数を示す分布で、過分散対策としてよく使われるようです。 (

                      • テクノロジー
                      • 2019/02/23 16:06
                      • 広告
                      • CM視聴の効果を推定する(ゼロ過剰ポアソン編) - rmizutaの日記

                        5 users

                        rmizutaa.hatenablog.com

                        はじめに 最近は統計モデリングについて学んでいますが、具体的にこういうケースでは統計モデルを使うべきだというケースが自分の中で定まっていません。そのあたりをつけるために実験を行なっていきたいと思います。 データセット 今回は こちらの岩波データサイエンスvol.3のデータを使用しました。 このデータセットは市場調査のデータで、ユーザごとの年齢や性別などのデモグラ情報、CM視聴の有無とCMを実施したゲームのプレイ時間などが入っています。 CM視聴がゲームのプレイ時間に与える効果を推定したいのですが、 CM視聴者にバイアスがかかっているために集計や通常の回帰ではおかしな結果がでます。 そのため上記の本では傾向スコア等の因果推論の枠組みを用いて効果の推定を行なっています。 このデータセットに対する取組はこちらでも詳しく書かれています。 https://tjo.hatenablog.com/ent

                        • テクノロジー
                        • 2019/02/10 23:43
                        • 状態空間モデルのれんしゅう(レストランの来客予測) - rmizutaの日記

                          9 users

                          rmizutaa.hatenablog.com

                          はじめに 時系列解析を行う上で、状態空間モデルが現状使用できる手法の中で優れているのではと自分の中で話題だったので、 使ってみることにしました。 状態空間モデルを使うことの目的 時系列解析を行う上でもモデルの種類は無数にあるのですが、 どういう場合に状態空間モデルを使うのでしょうか? この部分については以下のサイトに詳しく書かれていました。 https://logics-of-blue.com/%E3%81%AA%E3%81%9C%E7%8A%B6%E6%85%8B%E7%A9%BA%E9%96%93%E3%83%A2%E3%83%87%E3%83%AB%E3%82%92%E4%BD%BF%E3%81%86%E3%81%AE%E3%81%8B/ 状態空間モデルはデータが得られるプロセスとは何か?を重視したモデルであり、 回帰分析よりも各要因の影響が納得性の高い形で見ることができ、またその構

                          • テクノロジー
                          • 2019/01/31 21:26
                          • モデル
                          • Python
                          • business
                          • 「勢い」が存在するかを統計的に確認する(大相撲編) - rmizutaの日記

                            29 users

                            rmizutaa.hatenablog.com

                            はじめに スポーツの世界においては「勢いがある」、「流れが来ている」等の表現がよくされると思うのですが、これらはオカルトではなく実際に存在するものなのでしょうか?この分野ではバスケのホットハンドの話が有名で、色々な方が研究されているのようなのですが、気になったので自分でも検証してみることにしました。 今回対象とするのは大相撲です。 もし勢いや流れというものが存在するのであれば、連勝中の力士はそうでない場合と比較して勝利する確率が上がり、連敗中の力士は敗北する確率が高くなると考えられます。今回は、過去の取組結果のデータを用いてこの仮説が正しいかどうかの検証を行います。 ちなみに大相撲についてはあまり詳しくないです。 データの取得 ヤフーの大相撲のサイトに、年・場所毎の勝敗表がありましたので、そちらから2014-2018年の5年分の各場所の幕内と十両の勝敗表をスクレイピングで取得しました。 取

                            • エンタメ
                            • 2019/01/21 07:41
                            • 相撲
                            • あとで読む
                            • 統計
                            • Sports
                            • スポーツ
                            • ネタ
                            • 箱根駅伝で優勝する確率をエントリー時のタイムを用いて予測してみる - rmizutaの日記

                              44 users

                              rmizutaa.hatenablog.com

                              はじめに 箱根駅伝は好きで割と毎年見ているのですが、 マラソン系の競技ってパフォーマンスの分散が対人競技と比較すると小さくなるため、実は事前の情報から結果を予測することが比較的容易なんじゃないか?という疑問が浮かんだので、各大学が優勝する確率を出してみることにしました。 方針としては、箱根駅伝に出場する各校のトップ10人の10000m平均タイムより箱根駅伝の予測タイムの分布を算出し、 算出した予測分布を用いて各校が優勝する確率を予測します。 データの収集・確認 各年の10000mのタイムと箱根駅伝の総合タイムについては以下のサイト参考にさせていただきました。 http://www13.plala.or.jp/jwmiurat/index.html http://www.hakone-ekiden.jp/data/data_index.php 上記のサイトより2013-2018年の過去5年分

                              • テクノロジー
                              • 2019/01/09 16:25
                              • 統計
                              • あとで読む
                              • 機械学習
                              • スポーツ
                              • IT

                              このページはまだ
                              ブックマークされていません

                              このページを最初にブックマークしてみませんか?

                              『rmizutaa.hatenablog.com』の新着エントリーを見る

                              キーボードショートカット一覧

                              j次のブックマーク

                              k前のブックマーク

                              lあとで読む

                              eコメント一覧を開く

                              oページを開く

                              はてなブックマーク

                              • 総合
                              • 一般
                              • 世の中
                              • 政治と経済
                              • 暮らし
                              • 学び
                              • テクノロジー
                              • エンタメ
                              • アニメとゲーム
                              • おもしろ
                              • アプリ・拡張機能
                              • 開発ブログ
                              • ヘルプ
                              • お問い合わせ
                              • ガイドライン
                              • 利用規約
                              • プライバシーポリシー
                              • 利用者情報の外部送信について
                              • ガイドライン
                              • 利用規約
                              • プライバシーポリシー
                              • 利用者情報の外部送信について

                              公式Twitter

                              • 公式アカウント
                              • ホットエントリー

                              はてなのサービス

                              • はてなブログ
                              • はてなブログPro
                              • 人力検索はてな
                              • はてなブログ タグ
                              • はてなニュース
                              • ソレドコ
                              • App Storeからダウンロード
                              • Google Playで手に入れよう
                              Copyright © 2005-2025 Hatena. All Rights Reserved.
                              設定を変更しましたx