エムスリーテックブログ

エムスリー(m3)のエンジニア・開発メンバーによる技術ブログです

NeurIPS2024が開催中なので、エムスリー AI・機械学習チームの推し論文を勝手に紹介するぜ!

こんにちは。エンジニアリンググループのAI・機械学習チームに所属している鴨田 です。

このブログはエムスリーアドベントカレンダー14日目の記事です。

弊チームでは毎週1時間の技術共有会を実施しており、各自が担当するプロダクトの技術や、最近読んだ論文を紹介しています。今週はNeurIPS2024が開催されていることもあり、同学会の論文読み会となりました。1セッション1名の担当で、各自がセッション内で気になった論文の詳細を解説します。本ブログではその一部として、セッションごとの「推し論文」を紹介します。

DALL-E 3で生成した「機械学習エンジニアが勉強会でお気に入りの記事について楽しそうに雑談している様子」

You Only Cache Once: Decoder-Decoder Architectures for Language Models

  • セッション: 6D: Deep Learning Architecture, Infrastructure
  • 著者: Yutao Sun, Li Dong, Yi Zhu, Shaohan Huang, Wenhui Wang, Shuming Ma, Quanlu Zhang, Jianyong Wang, Furu Wei
  • 論文リンク: https://arxiv.org/pdf/2405.05254

  • 紹介者: 高橋 (機械学習エンジニア)

推しポイント

図は論文のFigure 2より引用。

LLM全盛の昨今ではTransformerの推論速度や要するHBMメモリの削減が運用コストにクリティカルに効いてきます。技術トレンドとしてもAttention機構に関わる部分の研究は多く、例えばGPUアーキテクチャの性質に適したFlashAttentionであったり、Attentionが系列長Nに対してO(N2)の計算コストを要するところO(N)にするアーキテクチャが数多く提案されています。

今回選んだYou Only Cache One (YOCO)ではdecoder-decoderとよばれるアーキテクチャを提案し、同規模のTransformerと比べてスループットの10倍近い高速化を達成しています。

肝となるのはkey-value cache (KV cache)をレイヤーごとではなく、モデルで1つのみのKV cacheを生成する (global KV cache)という点です。論文のFigure 2のとおり、アーキテクチャ全体としては前半のself-decoderと後半のcross-decoderから構成されます。self-decoderではRetentive Networksを採用してO(N)の計算コストで global KV Cacheを生成します。cross-decoderではglobal KV cacheを利用して通常のTransformerのAttention機構と同様の計算をします。

気になるのはLLMとしての性能ですが、language modeling, needle-in-a-haystack (長文からの情報抽出タスク), question asnweringといった複数のタスクで同規模のTransformerと同程度かやや上回るパフォーマンスを達成しており非常に効果的なアーキテクチャであることが示されています。

AIチームではLLMを扱うタスクが増えてきており、特に推論時のスループットやコストは実際にプロダクトでLLMを活用する際に重要なため、こうした技術を抑えておくことは大事だと思い推薦しました。

Decompose, Analyze and Rethink: Solving Intricate Problems with Human-like Reasoning Cycle

推しポイント

論文のFig1

この論文では、LLMで複雑な質問への推論性能を上げる目的で、問題文を分解、推論、評価、再構築というステップで解いていく、DeAR (Decompose-Analyze-Rethink)というフレームワークを提案しています。既存手法である、Chain-of-ThoughtやTree-of-Thoughtでも問題文を分解して途中問題を解いたり、推論結果を評価して良さそうなものを深堀りしたりできましたが、途中問題の推論間違いを訂正できないという弱点がありました。DeARでは、LLM自身でセルフチェックをしたり、再構築のステップでどの部分問題の回答を使うべきかをLLMに判断させたりして、この課題を解消しています。

結果はもちろんSoTAで、既存のChain-of-ThoughtやTree-of-Thoughtよりも性能が上がっていると説明しています。人間の推論方法を模倣して、問題文を分解・再構築することで性能が上がるというアイディアが面白いし、再現もしやすいのでインパクトのある論文かなと考えました。

ただ、論文では評価にはGPT-3.5を使用しており、GPT4の場合は、より難度の高い問題で差が出ると主張しています。たしかに論文で示されたLLMで解くのが難しいとされる問題文を試しにGPT4*1に入れてみると、0-shotプロンプトにも関わらず正解してしまっていました。LLM自身の進化もよく見れる面白いpaperだなと感じました。

RG-SAN: Rule-Guided Spatial Awareness Network for End-to-End 3D Referring Expression Segmentation

  • セッション: 1B: Human-AI Interaction
  • 著者: Changli Wu, Qi Chen, Jiayi Ji, Haowei Wang , Yiwei Ma, You Huang, Gen Luo, Hao Fei , Xiaoshuai Sun , Rongrong Ji
  • 論文リンク: https://arxiv.org/pdf/2412.02402
  • 紹介者: 鴨田 (機械学習エンジニア)

推しポイント

図は論文のFigure 2より引用。
3D Referring Expression Segmentation はテキストによる参照表現に基づいて点群データ内の3D物体をセグメンテーションする研究分野で、自律型ロボットや自動運転への応用が期待されています。

今回選んだRG-SANでは、既存研究で課題だったインスタンス間の空間的な位置関係の考慮を改善し、複数の同種オブジェクトが存在する複雑なシーンでの性能向上を実現しています。

この論文のキーポイントはテキストに登場する物体の3D空間での位置を特定・更新するText-driven Localization Module(TLM)とターゲットオブジェクトの位置情報のみで学習可能とするRule-guided Weak Supervision(RWS)の導入です。TLMによって物体間の空間的関係性をより正確に理解でき、RWSによって限られた教師データを最大限に活用しながら効率的かつ効果的な学習を可能にしています。

課題に対して効果的にアプローチする点と、特徴の次元射影をStep-by-stepで実施しているのがモデルの複雑性に合わせた施策で良いなと思い推薦しました。

GIC: Gaussian-Informed Continuum for Physical Property Identification and Simulation

  • セッション: 4D: Machine Vision
  • 著者: Junhao Cai, Yuji Yang, Weihao Yuan, Yisheng He, Zilong Dong, Liefeng Bo, Hui Cheng, Qifeng Chen
  • 論文リンク: https://arxiv.org/pdf/2406.14927
  • 紹介者: 大垣 (機械学習エンジニア)

推しポイント

論文Fig.1より

人間は一度物が落下して衝突するビデオを見れば、その物がどのような特性を持つか予想できる

Gaussian Splattingによる3D復元の拡張として、物理特性も含めた3D復元をするのがモチベーション。特にポイントなのは、学習可能なパラメタにするために、物理特性を、”変形の予測”として定式化している点。ある物体の連続した動画を、移動と変形のパラメタで記述し、再現された動画と実際の動画の距離が近くなるように学習する (b)。また、実際の動画自体も、2Dに射影して距離を取るのではなく、そこから3D復元したものとの距離を取ることで問題を一段階解きやすくしてる (a)。

そうすることで、推論時には、動画の一部を入れればその後の変形が予測できたり、ロボットアームで保持して力を入れた状態での変形が予測できたりというもの。 Gaussian SplattingやNeRFなど、物体を点群ではなく場として捉えるという研究が賢くて好きなので、物理特性も変形という場の拡張を導入するアイディアが美しいと思います。 今後よりreal-worldのデータから計測できるようになったり、2stageじゃなくend-to-endになったり、今後の発展の可能性も大きいと感じます。

Convolutional Differentiable Logic Gate Networks

  • セッション: 5C: Machine Vision
  • 著者: Felix Petersen, Hilde Kuehne, Christian Borgelt, Julian Welzel, Stefano Ermon
  • 論文リンク: https://arxiv.org/pdf/2411.04732

  • 紹介者: 中村伊吹 (ソフトウェアエンジニア)

推しポイント

図は論文のFigure 3より引用。
機械学習モデルの効率的な推論を実現するための新しいアプローチとして、Convolutional Differentiable Logic Gate Networks (LogicTreeNet)を提案しています。ロジックゲートネットワークを直接学習する手法を開発し、畳み込み演算やプーリング、残差接続の概念をロジックゲートネットワークに導入しています。

今はソフトウェアエンジニアとしてAIチームで働いていますが、学生時代はエッジデバイスにおける深層学習モデルについて研究していました。この論文ではシンプルな発想で理解しやすく、かつ精度も高いモデルが実現されています。エッジにおいて効率的に動く深層学習モデルに応用できそうな研究だなと思い、めちゃくちゃワクワクしました。

Unlocking the Capabilities of Thought: A Reasoning Boundary Framework to Quantify and Optimize Chain-of-Thought

  • セッション: 3B: Natural Language Processing
  • 著者: Qiguang Chen, Libo Qin, Jiaqi Wang, Jinxuan Zhou, Wanxiang Che
  • 論文リンク: https://arxiv.org/abs/2410.05695
  • 紹介者: 氏家 (機械学習エンジニア)

推しポイント

図は論文のFigure 3より引用。
近年LLMの推論精度を上げる目的として、思考過程を出力させ段階的に推論させるChain-of-Thoughtという手法が提案されています。

この論文では、Chain-of-Thought(CoT)を定量評価し最適化するため、Reasoning Boundary (RB; LLMにとってのタスクの難易度のようなもの)というフレームワークを提案しています。CoTによりタスクを分解した際に、元のタスクのRBを分解後のタスクのRBの重み付き調和平均に分解することで、CoTを理論的に説明付けようとしています。

この論文に限らず、新たな手法が出て、後から理論的な研究が進むのは工学的でとても好きなので推薦しました。CoTなどLLMを取り巻く研究は普段使いするLLMのプロンプトにも応用できるものもありますし、定期的にウォッチしていきたいです。

Guiding a Diffusion Model with a Bad Version of Itself

  • セッション: 4B: Diffusion-based Models
  • 著者: Tero Karras, Miika Aittala, Tuomas Kynkäänniemi, Jaakko Lehtinen, Timo Aila, Samuli Laine
  • 論文リンク: https://arxiv.org/abs/2406.02507
  • 紹介者: 農見 (機械学習エンジニア)

推しポイント

CFGは強くしすぎるとプロンプトには忠実なもののシンプルすぎる画像になってしまうがautoguidanceだと強めても品質の良い画像が得られている

画像生成AIで広く用いられている「Classifier-Free Guidance (CFG)」は、プロンプト(指示)ありの画像とプロンプトなしの画像の差分を強調することで、指示内容に忠実で高品質な画像を生成する技術です。

この論文では、CFGがなぜ高品質な画像を生成できるのか、そのメカニズムを明らかにしました。具体的には、CFGは、条件付きモデル(プロンプトあり)という比較的品質の高いモデルの出力と、条件なしモデル(プロンプトなし)という学習難易度が高く品質が低いモデルの出力の差分に着目し、その差分を使い高品質なモデル側に寄せていくことで、生成画像の品質を向上させています。この論文では、CFGの仕組みをさらに発展させ、最終学習を終えた高品質なモデルと、学習途中やパラメータ数の少ない比較的品質の低いモデルとの差分を利用する「autoguidance」という新たな手法を提案しました。autoguidanceを用いることで、CFGが抱えていた課題、すなわちプロンプトに忠実すぎるあまり画像が単純化してしまう傾向を緩和し、より多様性のある画像を生成できるようになりました。

とはいえ欠点もあり、今の大規模画像生成モデルは段階的に学習されることが多く出力の分布が似ている弱いモデルを得られないという話はありました。ですが、今まで広く使われてるCFGの仕組みを明らかにし、より良い改善方法を作った点が面白いなと思いました。

We are hiring !!

NeurIPSの論文の面白さにワクワクする皆さん、エムスリーAI・機械学習チームで一緒に機械学習エンジニアやりましょう! また、学生の皆さん向けには機械学習・MLOpsインターンも募集してます。ぜひ一緒に論文を読みサービス開発していきましょう。

エムスリーでは、コンピュータビジョン・機械学習はもちろん、最新技術へのアンテナが高い仲間を歓迎しています。新卒・中途それぞれの採用、カジュアル面談やインターンも常時募集しています!

エンジニア採用ページはこちら

jobs.m3.com

カジュアル面談もお気軽にどうぞ

jobs.m3.com

インターンも常時募集しています

open.talentio.com

*1:OpenAI o1シリーズには内部的にChain-of-Thoughtが採用されているようです。https://platform.openai.com/docs/guides/reasoning