こんにちは。2024/11/04~11/07に開催された統計・機械学習系の学会、第27回情報論的学習理論ワークショップ(IBIS2024)に、弊社データサイエンティストチームでオフライン&オンラインで参加してきました。
2024年は、人工ニューラルネットワークによる機械学習を可能にした基礎的発見と発明に対する業績により、AI/MLの分野がノーベル物理学賞を受賞したこともあり、特別企画として貴重な講演を聞くことができました。
また、2024年のIBISは「開かれたIBIS」として総勢1134名もの参加者が集まり、多くの研究者や企業の方々と交流することができ、チュートリアルや企画セッションを始め、応用物理、ロボティクス、HCI、ビジネス応用、セキュリティなど、様々な分野の研究・応用事例が紹介されていました。
本記事ではその中から、気になった講演をいくつか紹介していきます。
チュートリアル
はじめに
DELISH KITCHENでデータサイエンティストをやっている古濵です。 私からはチュートリアル3:反実仮想学習の基礎と実応用について報告します。
講演: 反実仮想学習の基礎と実応用
講演者:齋藤 優太 様(Cornell University)
反実仮想学習については簡単に紹介し、反実仮想学習の裏側にある定式化や目的関数、推定量設計などの思想や感覚を紹介するという趣旨の講演でした。
前半は一般的な教師あり学習と反実仮想学習の違いを丁寧に説明されていました。
教師あり学習は、トレーニングデータをもとに特徴量xと目的変数yの対応関係を明らかにし、新たな特徴量の目的変数を正確に予測する問題であり、反実仮想学習は、トレーニングデータをもとに特徴量xと行動a, 報酬rの対応関係を明らかにし、新たな特徴量に対してより良い行動を選択する問題として説明されていました。
機械学習応用の多くは良い意思決定を目指しているのにも関わらず、意思決定そのものは教師あり学習に含まれていないという指摘があり、反実仮想学習の重要性が強調されていました。
予測すること自体は機械学習で解く問題として任せ、意思決定はその予測結果に基づいて決めるという状態よりも、意思決定そのものを問題として扱う方がアプローチとして自然という流れは、納得感がありました。
後半は、簡単なケース問題を反実仮想学習のアプローチで解くという内容で、自分でも考えながら理解を深められる内容でした。
サブスクサービスにおける動画のトップページ推薦するケースを例に、「推薦枠で発生する視聴時間最大化」をKPIとして設定し、一般的な教師あり学習と反実仮想学習を用いて最適な推薦枠の設定を行うという内容でした。
前半パートの復習のような内容で、予測関数から視聴時間を予測して最も試聴時間が長い動画を推薦するよりも、意思決定関数から動画の期待視聴時間を最大化するような推薦を行う方が、より効果的であるということが示されていました。
しかし、後半はここから本番で、そもそもKPIが「推薦枠で発生する視聴時間最大化」で良いのかという提起がされました。
もしKPIが「システム全体で発生する視聴時間最大化」であれば、「推薦枠で発生する視聴時間最大化」というアプローチは適切でないという指摘があり、個人的にはこの部分への言及があったのは非常に興味深かったです。
「推薦枠で発生する視聴時間最大化」をKPIにしてしまうと、推薦せずと視聴していた動画を推薦する可能性があります。
「システム全体で発生する視聴時間最大化」をKPIにすると、推薦せずと視聴していた動画を推薦はあえて推薦しない方が良いということが理解できました。
もちろん、その結果ニッチな動画を推薦することになったり、本来トップページからすぐ見れた動画をわざわざユーザが探すといった手間が発生するなど、UX観点で問題があるかもしれません。
これも結局サービスとして、何を機械学習で最大化したいかのKPI次第であることが改めて理解できた内容だったと思います。
企画セッション1:サイエンスと機械学習
はじめに
DELISH KITCHENでデータサイエンティストをやっている山西です。
私からは企画セッション1: サイエンスと機械学習について報告します。
このセッションでは、「機械学習の異分野連携」をテーマに、諸自然科学分野への機械学習の適用事例、およびその課題感や展望に関する講演が行われました。
選んだ理由
私の関心領域が「データサイエンス領域を社会課題の解決に活用し、新たな発展の可能性を探索する」取り組みにあるためです。
自分自身、食・健康分野のデータ活用を、社内の管理栄養士と協力しながら推進するなど、実務でも分野横断的な取り組みを行なっております。
そのため、研究の一線で活躍されている先生方の視座をぜひ吸収したいと感じました。
講演: 一人の手法研究者から見た科学応用研究
講演者:奥野 彰文 様(統計数理研究所)
この講演では、天文学分野への統計手法の活用事例が紹介されました。
その中では、
統計学者が「応用側が何を実現したいのか」を正確に把握することの重要性
対象案件のドメイン知識のキャッチアップの際に生じる困難
が指摘されていました。
これらはビジネスシーンにおけるデータサイエンス手法の活用にも通ずる部分が多々あると感じました。
特に、
相手の言っていることを理解するまでで大半の時間が消費される
最初のコミュニケーションコストは高いものの、それが一度わかってしまえば、案外シンプルな問題に落とし込める
解析手法のすごさ≠応用のニーズ(常に数理的に難しい手法が応用側に刺さるわけではなく、案外シンプルな問題で解決できるケースもある)
「特定の統計的手法が使える問題」を探るよりも、ある問題に使える問題を持ってくる方が易しい
等のトピックは、自身の経験とも重なり頷けるところばかりでした。
また、「まず分野横断で組む相手側との関係性構築から始まり、少しずつ知り合いを広げ、何度も議論を重ねながら徐々に芽を出していく。こうした互いに歩み寄る相互理解が、学際的な連携を成功に導く鍵である」という主張にも強く共感しました。
弊社の事例の紹介にはなりますが、現在、食×データの取り組みとして、DELISH KITCHENのレシピを支えるフードスタイリスト(管理栄養士)とデータチーム側とで、会話を増やす試みを始めています。
食のプロとしての知識と、データ利活用側の視点を相乗効果的に融合しつつ、これまでの枠を超えた価値創出の機会を狙う位置付けの試みです。
今回の講演は、こうした私たちの活動に改めて指針を与え、一層のヒントを与えてくれる内容でした。
セッション全体の所感
今回は全て紹介しきれませんでしたが、同セッション内の他の講演では、応用物理学やロボットといった分野での取り組みも紹介されており、それぞれに異分野の専門性が活かされている点が非常に印象的で、大いに刺激を受けました。
また、各先生方が取り組む分析や応用事例の手法は目を見張るものがあり、異分野の課題に対して統計、機械学習的手法が見事にはまる様子には感銘を受けました。
データサイエンス分野の持つ可能性を再認識させられる内容でした。
対象ドメインに対して適切な手法を見極めるためには、各種手法を手札として多く備え、ここぞという時にカードを切る力を養うことが大事だと日々感じております。
自身の課題感の話にはなりますが、日々の分析業務の中で、自分が採用した手法がベストプラクティスかどうか自問自答する場面も少なくありません。
これは、普段事業会社でデータ関連業務を行う中、データの収集、加工のコスト等々の制約に起因して思い切った分析ができなかったり、時には短期的な事業成果を求められる中で既存の手法から幅を伸ばせなかったり等々に起因します。
しかし、常に綺麗な問題設定、データばかりでない状況下でも適切なカードを切る場面を見極め、価値を発揮できるのがプロの仕事であると感じます。
そのため、その重要性を再認識するにあたった本セッションはとても良い刺激の場となりました。
異分野連携によるデータサイエンス分野の社会応用を広げつつ、その片棒をプロとして担えるよう引き続き精進したいと感じました。