はじめに
こんにちは、Data meetup!事務局の斉藤・田口です。
リクルートのデータ推進室では定期的にオンラインイベントを開催しており、2024年11月には初の「Kaggleふりかえり会」を開催しました。
今回の記事では、本イベント開催に至るまでの経緯や準備内容、当日の様子等をご紹介します。気になる方はぜひご一読ください!
本記事は、データ推進室 Advent Calendar 2024 5日目の記事です
1. 開催のきっかけ
当社では、データ推進室で一緒に働いていただけるメンバーを新卒・キャリア入社問わず積極採用中です。少しでも仕事のイメージや雰囲気をつかんでいただけるよう、定期的にオンラインイベントを開催しています。
いろいろと紹介したい事例などたくさんあるのですが、今回は、Kaggle Competitionに参加し、金メダルを獲得した2チームがあり、それぞれブログを公開しましたがもっと詳しく知りたい人もいるかもしれない!と思い、ふりかえり会を開催することとなりました。
2. イベント概要
今回のイベントでは、データ推進室について簡単に紹介した後に各チームの解法についてお話ししました。
本記事では、イベントのポイントを絞ってご紹介します。当日の資料もぜひみてください!
資料はこちら
2-1. データ推進室の紹介
データ推進室は各事業領域のデータ戦略立案を担当する特化型ユニットと、領域横断型の専門職ユニットが交差するマトリックス型組織で構成されています。現在、約370名が所属し、多岐にわたるデータ活用プロジェクトを推進しています。
なお、今回のイベントでは、HR領域に特化したメンバーと横断組織に所属するメンバーが登壇しています。
※登壇メンバーの詳細はこちら。
https://recruit-event.connpass.com/event/327716/
また、特筆すべき制度として「クラウド利用支援制度」を紹介しました。この制度では、月最大8万円の補助が受けられ、クラウド環境を用いた自己研鑽やプロジェクトでの計算資源利用を支援しています。
本イベントで発表された金メダルチームも、この制度を活用してGeminiのAPIを叩いています。
制度の詳細はこちら:
個人のクラウド利用を支援する制度を立ち上げた話
2-2. LLM 20 Questions
コンペの背景と目的
「LLM 20 Questions」は、AIモデルが人間と同等の言語的推論力を発揮できるかどうかを問う試みです。今回は、お互いのチームが限られたヒントを基に正しい答えを導き出すモデルで対戦形式のコンペでした。
Guesserは質問から得られる情報を蓄積し、統計的手法や学習アルゴリズムを活用して正解を予測します。一方、Answererは質問の意図を理解し、文脈に応じた正確な回答を生成します。Guesserは効率的な情報取得が求められ、Answererは言語理解と生成の精度が鍵です。両者の性能を最大化するため、事前学習モデルの応用や回答精度を高める調整をしています。
詳しい解法については、以下ブログで紹介しておりますので、こちらをご参照ください。
https://blog.recruit.co.jp/data/articles/kaggle-llm-20-questions-majimekun/
今回のコンペでは、二分探索を用いたチームが上位にきており、特にGuesser側のキーワード網羅率と質問回数が性能を決めていたことがわかりました。
本チームのエージェントは、キーワードを厳選しきれておらず、単純な二分探索しか行っていませんでした。そのため、他の金メダルを取っていたチームと比べて質問回数が多くなってしまっていたことから、もっと二分探索の改善に取り組めばよかったという反省がありました。
2-3. ISIC 2024(医療画像分析コンペ)
コンペの背景と目的
ISIC(International Skin Imaging Collaboration)は、皮膚画像を対象にしたAI研究を推進する取り組みです。
2024年のコンペティションは、特に皮膚がんの早期発見を目指し、AIによる高精度な画像分類モデルの開発を目的としています。皮膚がんは、早期発見により生存率が大幅に向上するため、正確な診断技術が求められているのです。
コンペティションの内容
参加者は、膨大な皮膚画像データセットを使用して、以下のようなタスクに挑みました:
- 画像分類:異なる病変タイプ(良性・悪性)の判別。
- 領域検出:画像内の異常箇所を正確に特定。
- 多クラス分類:複数の疾患カテゴリ間での分類精度の向上。
リクルートチームの取り組み
今回のコンペの4人がどういった形で取り組んで行ったのか、進め方について共有した後に、具体的な解法について説明しました。
詳しい解法については、以下ブログで紹介しておりますので、こちらをご参照ください。
https://blog.recruit.co.jp/data/articles/kaggle_isic2024/
最後に
今回のイベントでは入社年次が近いメンバーや普段の業務で関わるメンバーでチーム編成されていましたが、各自が業務の合間に学習をしながらKaggleにチャレンジしていることがわかりました。
今回のイベントでは全員が集まって、机を囲んで配信したことから、仲良さそうな雰囲気も伝わったのではないでしょうか・・!?
データ推進室のData Meetup! は今後も開催をしていきます。今回の登壇メンバーとも今後のコンペでも良い結果が残せたら、また開催したいと思っておりますので、楽しみにお待ちください!
connpassページの案内: https://recruit-event.connpass.com/
人事・スタッフ
斉藤 由莉
職種横断で採用ブランディングを担当。イベント・記事制作・広告などを企画/運営しています。
スタッフ
田口 香織
組織活性イベント等の企画・運営や採用ブランディングを担当しています!