サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
大そうじへの備え
socinuit.hatenablog.com
この記事は R Advent Calendar 202211日目の記事です。 10日目の記事にはしょこさんの記事ですね。 Twitterでは個人的に「動くグラフ」をたくさん作っているすごい人、という認識でいるのですが、今回は rtweet パッケージを使ってTwitterの画像を集めて、 それをアニメーションにしているようです。すごい。 まだ読んでいない?ぜひ行ってきてください。この記事はとても長いので。 お久しぶりです 結局月1投稿すらままならなかったですが、元気にやっています。 アドカレの記事でいうこともないのですが、以下のご報告をします。 結婚しました PC買いました 統計検定はダメでした CTF始めました 転職します 来年もよろしくお願いします 内容 仕事と個人的な道楽を兼ねて一時期勉強していたMarketing Mixed Modelについて、 そのコンセプトとMeta社の実装で
統計学はやはり人類には早いと思う 仕事で数理統計学を勉強していて、趣味で統計検定1級を取ろうとしているのですが、 今日は統計的検定の話をしようと思っています。 というのも、これが僕の無知によるものなのか、それとも世間一般に言われる誤解なのかはわからないんですが、 統計的検定ってそもそも一体何であるのかについて、よく理解できた形で 議論をしている場面に出会ったことがあまりないと思ったからです。 この記事ではどうにか「検定するには母集団に対する仮説を持つことが重要ですよ」とか「仮説がふんわりしたところで検定すると危ないですよ」とか話しますが、 具体的に「母集団に対する仮説を雑に決めたことで大きな損失を得た事例」をよく知らないので、 説得力に欠ける話になっています。大きな損失を得た事例持ってる方いたら教えてくだし。 どこまでを話すか? 実際、統計的検定や、その結果の判断軸などについては完成した合
quantumblackって名前がかっこいい 以前quantumblack社がオープンソースで開発しているkedroを紹介しました。 socinuit.hatenablog.com これ、kedro開発者にも見つかっていろいろと反応をいただいて大変光栄でした。 今回は同社が同様にオープンソースで開発しているcausalnexを使ってみます。 理由は単純。 ロゴが、かっこいい。 まだチュートリアル段階ですが、これだけでも十分に実用に足るんじゃなかろうか、 というくらいには強い。仕事のOSがUbuntuなら完全に優勝していた。 githubはこちら github.com 基本的には公式チュートリアルに沿ってやっていきます。 進捗的には因果グラフをつくるところまで。 チュートリアルではベイジアンネットワークの作成ができていますが、 そこまで追いついていないので一旦保留。 下準備 causalne
今月まだ1個も書いてないので書きます。 こんなツイートをみました。 【急募】多重共線性が発生してないことを調べる方法 VIF>10の説明変数は除いたが、これらの変数で回帰しても多重共線性が発生してない保証はないよね...— 必要の用 (@chunozyou) 2020年6月22日 回帰分析ではよく耳にする問題「多重共線性」です。 「説明変数同士の相関が強いと、回帰係数の推定が不安定になってしまう」という問題ですね*1。 とはいえ、「ぶっちゃけどれくらい相関が強いとヤバいんだ?」みたいなものはあまりしられていません。 VIFなどの指標が10くらい、というのはありつつ、そもそも「多重共線性が起きている」としていい場合というのはあまり議論されることが多くないように思われます。 今回は説明変数同士の相関がどの程度あると多重共線性が起きたっぽい、というところの判別がつくのか、考えてみます。 ソース
「パイプラインって何?」 仕事でも機械学習の案件がちょっと増えてきたというのと、 kaggleもベースラインくらいは自動的にsubmitできるところまで持っていきたいって思ったので、 pipelineを作ろうと言うことになりました。 ただ、私はエンジニアリング畑ではないので、ゼロから作れる自信がありません。 困ったなー困ったなーと思っていたところに、こんなQiitaを見かけました。 qiita.com なるほど、いろいろあるんだな、となりました。 この中から今回はKedroを導入しとりあえず触ってみたのでレポします。 【2020年2月9日追記】 この記事を書いたら下のQiitaを書いたMinamiさんがこんなことをおっしゃいまして @yetudada It would be nice to add this as a Japanese resource. https://t.co/edAo
この記事こそが! R Advent Calendar 22日目の記事です! このノリがわからない人は前の記事を読んでください。 この前の記事が知る人ぞ知るRおじさんのAtsusyさんなのでこの記事では上がったハードルをくぐっていきます。 皆さん読んできました?省略できちゃうんですよ……これでRとPythonでのギャップが埋まり、世界はデータドリブンに動きますね…… しかも明日はSendaiRの運営をされてる茶畑さん、 あさってはがspoanaの運営をされてるtsuyuponさんの投稿です。 誰? みなさんご存知きぬいとさんです。 私は学生時代からRを使ってかれこれ8年になりますが、その人生の大半を線形回帰モデルに費やしてきました。 例えば学部時代にはDobsonの一般化線形モデル入門を読んだり、 ベイズモデリングに入門したり、 Stanの可能性に触れたりと、統計モデルの理論を学び、Rで実装
この記事も! R Advent Calendar 22日目の記事ではありません! 記事は書いてます!読後メモも書いてます!でもしょうがない。問題にぶち当たったので。 どんな問題? Rのglmnet::cv.glmnet()関数で実行するL1正則化回帰(Lasso)において、 set.seed()でシード値を固めても、選択される変数にばらつきが生じる 原因は? Rではset.seed()の効力は同時実行に限られる。 つまりset.seed()とglmnet::cv.glmnet()が同時に実行されるような実装をしないと、 変数選択の結果がぶれます……かなしい…… 結果は? githubにあげました♨ github.com 問題設定 下記のようにダミーデータを作ります。 諸事情で説明変数も目的変数も2値のデータでを設定します。 Lassoの変数選択 Lassoは皆さんご存知の通り、ざっくり言え
はじめに kaggle APIはローカルPCのターミナル(コマンドプロンプト)からshellコマンドでkaggleの環境を操作することができる呪文.Pythonで実装されている xonshはPythonで実装されている(?)shell kaggle APIをxonshで動かせばxonsh人口もkaggle API人口も増えて幸せなのではないか? というわけでkaggle APIをxonshから使ってみましょう. ただ,1から書いていくとアレなので主に xonshからkaggle APIへのアクセス xonshからkaggle APIを通してkernelにPush の部分を記録します.kaggle APIやxonshの導入については以下を参照してください. また,installationには日本語の記事もありますので参照してください*1 xonsh xon.sh 日本語による紹介記事 vaa
先月は,良くも悪くも社会学が騒がしかったです. 社会学をバカにするな,とか,「社会学者嫌い」が文句言っている,とか. 気になる方は以下のTogetterを御覧ください. togetter.com togetter.com 個人的な印象や偏見で物を言うことは良くないと思うんですが,このブログは基本的にTwitterに書くには物量が多すぎるし途中でふざけるわけにいかないような問題についてのらりくらりと書いていく方針なので,独断や偏見まみれでやっていこうと思います. 1.社会学の「自浄力」の弱さ まず,社会学と一般社会の対比を考えます. 我々は「今はこういう社会だから……」という感じに,「社会学」を知らない人も割と,社会について語れる「ような気」がします. ワイドショーではコメンテーターが「現代日本では云々」と述べたり,インターネットでは「ジェンダーが差別がオタクが犯罪が」とフォロワー数が5桁く
このページを最初にブックマークしてみませんか?
『socinuit.hatenablog.com』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く