サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
今年の「#文学」
naotaka1128.hatenadiary.jp
これは何? いわゆる退職エントリです。タイトルの通り、今月末でメルカリを退職することになりました。 一度の離脱を挟んで足掛け5年勤務し、今日がメルカリの最終出社日でした。大変お世話になった会社なので、感謝の意を込めて個人的な振り返りを書き残しておこうと思います。 注記:ネガティブな内容はほぼ出てきません。「退職」という文字を見てネガティブな内容を期待されて記事を開かれた皆さま、ご期待に添えず申し訳ありません🙇 おまえ誰? ML_Bear と申します。最近は機械学習エンジニアを名乗りつつ生成AI驚き屋も行わせていただいております。 メルカリ入社当初はデジタルマーケター兼データサイエンティストでした。後述の通り、メルカリ在籍中に機械学習エンジニアへのキャリアチェンジの機会をいただきました。 メルカリで何をしてたの? ざっくりいうと、前半はデジタルマーケター兼データサイエンティストとして、後半
これは何? この記事は Kaggle Advent Calendar 2021 の7日目の記事です。 pandasはデータ分析ライブラリとして非常に便利ですが、書き方を間違えると簡単に処理が遅くなってしまうという欠点があります。そこで、この記事では遅くならない書き方をするために気をつけたいポイントをいくつかご紹介したいと思います。 この Colab Notebookの実行結果をエクスポートした上で、不要な部分を一部削って記事にしています。colab notebook をコピーして実行してもらえれば再現することが可能なはずです。(colabにコメント等をいただいても返すことはできないと思います、すみません。) 前提条件 この記事ではあくまで「遅くない(なりづらい)書き方を紹介する」ことに努めます。よって、以下のような改善点はあるが一旦考慮の外におくものとして話を進めます。 並列化ライブラリ
これは何? '20/10-'21/01にKaggleで開催されていた Riiid! Answer Correctness Predictionの参加記録です public 51st (0.801) → private 52nd (0.802) と順位は奮いませんでしたが、現実世界での予測タスクに即したコンペの設計(後述)や、1億行を超える豊富なデータを扱えるといった内容が非常に勉強になるコンペでした。 Discussionに投下した内容と被りますが、自身の備忘録(と解法の供養) のためにまとめておきます。 コンペ概要 ざっくり言うと TOEIC勉強アプリでのユーザーの正答確率を予測するコンペ Code Competition (コードを提出する形式のコンペ) trainデータは約1億、testデータは約250万。 ただし次項で述べるようにtestデータは見ることができない SANTA TO
はじめに 自分は元々pandasが苦手でKaggleコンペ参加時は基本的にBigQuery上のSQLで特徴量を作り、最低限のpandas操作でデータ処理をしていました。 しかし、あるコードコンペティションに参加することになり、pythonで軽快にデータ処理をこなす必要が出てきたので勉強しました。 そこで、当時の勉強メモをもとに「これだけ知っていればKaggleでそこそこ戦えるかな」と思っているpandasの主要機能をまとめました。 注記 実戦入門 のつもりが ほぼ辞書 になってしまいました orz pandasとはなんぞや的な内容は書いていません (import pandasやDataFrameとは何かなど) pandas1.0系でも動くように書いたつもりですが間違ってたらすみません 目次 はじめに 注記 目次 Options DaraFrame 読み書き CSVファイル 読み込み 書き出
編集履歴 '20/01/28: 3rd solutionを追加 これはなに? Kaggleで10/24-1/23に開催されたData Science Bowl 2019コンペの上位解法まとめです。 1/27時点で公開されている10位以内の解法をまとめてみました。 Shake-up/downの激しいコンペでしたが、上位入賞されている方の解法には学ぶところが多く、上位に入るべくして入った方が多い印象でした。 流し読みしてまとめたので、間違っているところとかお気づきの点あればご指摘ください。 金メダル圏内のものがあと4つぐらい公開されていたので後で足そうと思います。 1st 1st place solution Stats private 0.568 / public 0.563 要約 LightGBMのシングルモデル(!) Foldごとにシードを変えた5Fold 詳細 Validation L
これはなに? Kaggleで10/24-1/23に開催されたData Science Bowl 2019コンペの参加記録です 子供向けの教育アプリのログデータを元に、子供たちが課題をどれくらいの精度で解くことができるかを推定するタスクでした。 優勝賞金10万ドルの大盤振る舞いなコンペで、個人で最高5位まで順位が上がったときにはなかなかいい夢を見ることができました。 ただ、評価指標の特性及びpublicLB(暫定順位)の算出に利用するデータ数不足などから、暫定順位(publicLB)と最終順位(privateLB)が激しく入れ替わるコンペでした。 評価指標に振り回されてアタフタした挙げ句、public 17thからprivate 56thと大きく順位を下げるというあまりよろしくない結果に終わってしまったのですが、反省も込めてやったことのメモを残しておきます。 いい夢見ていたときのツイート 捨
これはなに? Kaggle Days Tokyo 2日目に開催されたオフラインコンペの参加記録です。 参加88チーム中 25位(ソロ)と微妙な順位でしたが、これまでのkaggle参加の経験がとても活きて嬉しかったのと、コンペ後の懇親会が非常に楽しかったので、記録を書き留めておきます。 どんなコンペだった? NIKKEI電子版のサイト閲覧ログを元に、ユーザーの年齢を推定するというお題でした。 与えられたデータの種類は以下の2つでした。(情報はざっくりで書いてます) ユーザーの記事閲覧ログ 記事ID / user_id 読了率/閲覧時間 接続元情報(地域/法人IP等) 接続デバイス/OS/ブラウザ/通信 記事データ 記事ID カテゴリ/ジャンル/ラベル/キーワード タイトル/本文/文字数 ユーザー別に記事閲覧ログを集約して、そのデータをモデルに突っ込むというのが基本戦略になります。 イベントロ
これはなに? kaggle本を読んで血肉になった/したい点をなぐり書きにしたただの個人用メモです。ちゃんとした書評を書こうと思い続けてはや半月以上経過したので一旦書きました。 この箇条書きの記事だけ読んでも多分内容わからないと思うので、気になった点があればぜひ購入しましょう!読後すぐに書いた推薦ツイートは以下のとおりです。 kaggle本読み終わりました。初心者にも良い本だと思いますが、ExpertやMasterなりたての人が最も恩恵を得られそうだなと感じました。自分の今までのコンペ経験を思い返しつつ、その中では経験できなかった内容を学ぶことができ「賢者は歴史に学ぶ」が可能になった感があります。著者の方々に感謝です!— ML_Bear (@MLBear2) October 23, 2019 リンク Chap. 2 - タスクと評価指標 「しきい値の最適化」という概念 正例か負例のラベルを提
ざっくりいうと JupyterNotebookで広告効果を見るための簡易的なダッシュボードを作って、Slackに毎日投げるようにして簡単に見れるようにした話です。 こんな感じです もちろんnotebookの中身は仮のものですw 課題 広告運用実績は(GoogleAdsの)出稿データとアプリ内行動データをBigQuery上で結合し、グラフやテーブルを生成して見える化する必要がありました。 しかし、キャンペーンがXX個(たくさん)あるのでBIツールでいくつもグラフを作るのが面倒でした。。 解決策 そこで、グラフを JupyterNotebook 上のPythonでループを回して作り、その結果をSlackに飛ばしてケータイでも気軽に見れるようにしました。 流れ JupyterNotebook でデータ取得→データ加工→可視化 JupyterNotebookをバッチ実行してHTMLを生成 HTML
これはなに? Kaggleのテーブルデータコンペに参加するときに役立つ(と思う)Tipsを Kaggle Coursera の授業メモに色々追記する形でまとめたものです 自分で理解できている内容を中心にまとめました。各種資料の内容はまだまだ理解できていない内容が多く、今後も随時更新していきます(随時更新できるように勉強します)。 この記事に書いてあるTipsをどのように活かしたかはKaggle参戦記に書いたので、併せてどうぞ。 参考文献 主として以下の資料の内容をピックアップさせていただきました。引用を明記していない部分は(ほぼ100%) Kaggle Coursera の内容です。 Kaggle Coursera kaggle_memo by nejumiさん Kaggleで世界11位になったデータ解析手法〜Sansan高際睦起の模範コードに学ぶ Kaggle TalkingData F
これはなに? デジタルマーケター 兼 プロダクトマネージャー 兼 データアナリスト (肩書長い…) の私が Kaggle に挑戦した約半年間の記録です。現時点で2つのコンペに真面目に取り組んで2つの銀メダル(入賞)を獲得出来ています。 Kaggle挑戦期間を通して、有識者の素晴らしい資料に助けられたのでとても感謝しています。同じような志を持つ方に自分の記録が少しでも役に立てばと思い、有用な資料のリンク集に私のKaggle参戦記ポエムをつけてまとめてみました。 自分の得意領域で勝負しようと思ってテーブルデータのコンペばかり選んでいるのでDeepLearning系の話は全然ないです、すみません。 目次 プロローグ Kaggleへの興味の芽生え 初参戦 → 即撤退 ガチ参戦に向けた修行 初ガチコンペデビュー 初ガチコンペ…、のはずが。 初ガチコンペ参戦 ベースモデル作成 特徴量エンジニアリング
これはなに? MalwareコンペはKernelやDiscussionから学ぶべき点が非常に多いコンペで、個人的にとてもコミュニティに感謝していました。(おかげさまでソロ銀メダルも取れました) なので、終わったらコミュニティに恩返ししようと思ってKaggleのDiscussionに投下するべく Malware コンペの解法や工夫していた点をサラッと箇条書きにしていました。 が、コンペの最終結果がKaggleの歴史的に見ても大荒れの結果(参考)になってしまって、真面目に英訳するのが面倒になったのでブログにサクッと起こしたものです。 これから肉付けしたり加筆しようと思ってたものをほぼそのまま出したのでヌケモレ多数あります笑 Malwareコンペのきっかけ Malwareの前はEloコンペをやっていましたが、1月下旬ごろからコンペに飽きていました。(その後raddar神が降臨して面白くなるのです
この記事は Product Manager Advent Calendar 2018 の10日目の記事として書かれました。 まえがき プロダクトマネージャの職責は比較的曖昧で、そのため「プロダクトマネージャーとは何か」という議論は混迷を極めます (その曖昧さがPMの本質だ、という話もあります) と参考記事にもあるように、会社によってプロダクトマネージャーに求める職責に若干の差はあるものの、プロダクトマネジメントの業務は基本的には多岐に及びます。 その実務においては広範な知識が必要ですが、知的生産の基礎体力がない状態ではせっかく身につけた知識もフル活用できないでしょう。野球に例えると、良いバットを持っていても、それを使いこなすカラダが出来ていないとホームランが打てないようなものかと。 そこで今回は、プロダクトマネージャーを志す人におすすめしたい、知的生産の基礎体力を養成するための本をまとめて
この記事は Product Manager Advent Calendar 2018 の5日目の記事として書かれました。 "たった3つ" のポイント 最近、仕事で久しぶりにLPやメルマガをがっつり書く機会がありました。 何を作るのか決めるのがプロダクトマネージャーの仕事ではありますが、作ったものの価値をユーザーに分かりやすく伝えるように文章を書く機会がしばしばある方も沢山いらっしゃるかと思います。 文章を書くのって大変ですよね。最近はそうじゃないものの、WEBの仕事を始めたばかり頃はLPの構成を決めたり、文章を書いたりするのがとても苦手でした。 そんなときに教えてもらったのが、3つのNOTを越えろ というライティングのフレームワークです。このフレームワークに沿って文章を構成すれば 70点ぐらいのクオリティ を量産することができます。 トライ・アンド・エラーが比較的容易なWEBの業界では、1
このページを最初にブックマークしてみませんか?
『ML_BearのKaggleな日常』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く