About
arXivに掲載されたcs.AIの論文を検索し、一部をリスト化したものです。
※AIによってAbstractを日本語に翻訳しており、内容に誤りがある可能性があります。
リスト件数: 69件
リストから抽出されたキーワード: Trajectory Prediction, Reinforcement Learning, Multimodal Integration
ASTRA: A Scene-aware TRAnsformer-based model for trajectory prediction
http://arxiv.org/abs/2501.09878v1
Izzeddin Teeti, Aniket Thomas, Munish Monga, Sachin Kumar, Uddeshya Singh, Andrew Bradley, Biplab Banerjee, Fabio Cuzzolin
Oxford Brookes University, Indian Institute of Technology Bombay
私たちは、シーンに基づいたトランスフォーマーモデルであるASTRA(A Scene-aware TRAnsformer-based model for trajectory prediction)を紹介します。これは、シーンコンテキスト、空間ダイナミクス、エージェント間の社会的相互作用、時間の進行を統合して、精度の高い予測を行う軽量な歩行者の軌道予測モデルです。私たちは、潜在ベクタ表現を通じてシーン表現をキャプチャするためにU-Netベースの特徴抽出器を利用し、社会的相互作用を捉えるためのグラフ対応トランスフォーマーエンコーダを使用しています。これらのコンポーネントは、エージェントとシーンに気づいた埋め込みを学習するために統合され、モデルが空間ダイナミクスを学習し、歩行者の未来の軌道を予測できるようにしています。モデルは、決定論的および確率的な結果の両方を生成できるように設計されており、確率的な予測は条件付き変分オートエンコーダ(CVAE)を取り入れることによって生成されます。ASTRAはまた、さまざまな最先端の決定論的および生成モデルを上回る予測を生み出すのに役立つシンプルで効果的な重み付きペナルティ損失関数を提案しています。ASTRAは、ETH-UCYデータセットの決定論的/確率的設定で平均27%/10%の改善を示し、PIEデータセットでは26%の改善を達成しました。また、既存の最先端モデルと比べてパラメータ数が7倍少ないという特徴も持っています(図1を参照)。さらに、このモデルの汎用性により、鳥瞰図(BEV)や自車視点(EVV)などのさまざまな視点にわたって一般化することができます。
2025-01-16T23:28:30
From Explainability to Interpretability: Interpretable Policies in Reinforcement Learning Via Model Explanation
http://arxiv.org/abs/2501.09858v1
Peilang Li, Umer Siddique, Yongcan Cao
深層強化学習(RL)は複雑な領域において顕著な成功を収めていますが、深層ニューラルネットワークポリシーの固有のブラックボックス的性質は、意思決定プロセスを理解し信頼する上で重大な課題を引き起こします。既存の説明可能なRL手法は局所的な洞察を提供しますが、特に高リスクなアプリケーションにおいてモデルの全体的な理解を提供することができません。この限界を克服するために、私たちはShapley値を活用して複雑な深層RLポリシーを透明な表現に変換することで、説明性と解釈性の間のギャップを埋める新しいモデル非依存型アプローチを提案します。提案するアプローチは、二つの重要な貢献を提供します:局所的な説明を超えたポリシー解釈にShapley値を使用する新しい方法と、オフポリシーおよびオンポリシーアルゴリズムに適用可能な一般的なフレームワークです。私たちは、3つの既存の深層RLアルゴリズムを用いてアプローチを評価し、2つの古典的な制御環境におけるその性能を検証します。結果は、私たちのアプローチが元のモデルのパフォーマンスを維持するだけでなく、より安定した解釈可能なポリシーを生成することを示しています。
2025-01-16T22:11:03
CrossModalityDiffusion: Multi-Modal Novel View Synthesis with Unified Intermediate Representation
http://arxiv.org/abs/2501.09838v1
Alex Berian, Daniel Brignac, JhihYang Wu, Natnael Daba, Abhijit Mahalanobis
University of Arizona
地理空間イメージングは、地上ドローンから衛星ビューまでのさまざまなセンサー方式、例えば地球観測(EO)、合成開口レーダー(SAR)、およびライダー(LiDAR)からのデータを活用しています。これらの異種の入力はシーン理解に対して重要な機会を提供しますが、特に正確な地上真実データがない場合には、幾何学を正しく解釈することにおいて課題があります。これに対処するために、私たちはCrossModalityDiffusionを提案します。これは、シーンの幾何学についての事前知識がなくても、異なるモダリティや視点から画像を生成するために設計されたモジュラーフレームワークです。CrossModalityDiffusionは、複数の入力画像を受け取り、入力カメラの位置に対するシーン構造をエンコードした幾何学に配慮した特徴ボリュームを生成するモダリティ固有のエンコーダーを使用します。特徴ボリュームが置かれるスペースは、入力モダリティを統合するための共通の基盤として機能します。これらの特徴ボリュームは重なり合い、新たな視点からボリュメトリックレンダリング技術を使用して特徴画像としてレンダリングされます。レンダリングされた特徴画像は、目的の出力モダリティに対して新しい画像を合成するためのモダリティ固有の拡散モデルへの条件付け入力として使用されます。この論文では、異なるモジュールを共同でトレーニングすることで、フレームワーク内のすべてのモダリティにわたる一貫した幾何学的理解が保証されることを示します。私たちは、合成ShapeNet自動車データセット上でCrossModalityDiffusionの能力を検証し、複数のイメージングモダリティと視点にわたる正確で一貫した新しいビューの生成におけるその効果を実証します。
2025-01-16T20:56:32
Bridging Language Barriers in Healthcare: A Study on Arabic LLMs
http://arxiv.org/abs/2501.09825v1
Nada Saadi, Tathagata Raha, Clément Christophe, Marco AF Pimentel, Ronnie Rajan, Praveen K Kanithi
本論文では、多言語理解と医療知識に熟達した大規模言語モデル(LLMs)を開発する上での課題を調査します。単に医療データを翻訳するだけでは、対象言語での臨床タスクで強力なパフォーマンスを保証するものではないことを示します。我々の実験では、トレーニングデータにおける最適な言語混合比は、異なる医療タスクごとに大きく異なることが明らかになりました。慎重にキャリブレーションされた言語比を持つ大規模モデルが、母国語の臨床タスクで優れたパフォーマンスを達成することがわかりました。さらに、我々の結果は、ファインチューニングのみを頼りにすることは、LLMsに新しい言語知識を組み込む最も効果的なアプローチではない可能性があることを示唆しています。むしろ、データと計算集約型の前処理方法が、多言語医療環境における最適なパフォーマンスを達成するために依然として必要であるかもしれません。これらの発見は、多様な言語コミュニティに対して効果的で包括的な医療AIシステムを構築するための貴重な指針を提供します。
2025-01-16T20:24:56
Generalized Single-Image-Based Morphing Attack Detection Using Deep Representations from Vision Transformer
http://arxiv.org/abs/2501.09817v1
Haoyu Zhang, Raghavendra Ramachandra, Kiran Raja, Christoph Busch
Norwegian University of Science and Technology, Darmstadt University of Applied Sciences
フェイスモーフィング攻撃は、国境管理やパスポート発行の使用ケースで運用される顔認識システム(FRS)に対して重大な脅威をもたらしています。それに対応して、こうした攻撃に対抗するためのモーフィング攻撃検出アルゴリズム(MAD)が必要です。MADアプローチは、攻撃がさまざまなモーフィング生成アルゴリズム、後処理、プリンター/スキャナーの多様性から発生するオープンセットシナリオにおいて、未知の攻撃に対処できるだけの堅牢性を備えている必要があります。特に、検出が単一の疑わしい画像に基づいて行われる場合、一般化の問題はさらに顕著になります。本稿では、Vision Transformer(ViT)アーキテクチャからのエンコーディングを学習することにより、一般化された単一画像ベースのMAD(S-MAD)アルゴリズムを提案します。CNNベースのアーキテクチャと比較して、ViTモデルは局所情報と全体情報を統合する利点があるため、顔領域に広く分布したモーフィングの痕跡を検出するのに適しています。公に利用可能なFRGC顔データセットを用いて生成されたフェイスモーフィングデータセットに対して広範な実験が実施されました。公に評価された代表的なものを含むいくつかの最先端(SOTA)MADアルゴリズムが選定され、私たちのViTベースのアプローチとベンチマークが行われました。得られた結果は、異なるデータがトレーニングとテストに使用されるインターデータセットテストにおいて提案したS-MAD手法の検出性能が向上し、同じデータがトレーニングとテストに使用されるイントラデータセットテストにおいて比較可能な性能を示すことを証明しています。
2025-01-16T20:09:19
Enhancing Generalization in Chain of Thought Reasoning for Smaller Models
http://arxiv.org/abs/2501.09804v1
Maxwell J. Yin, Dingyi Jiang, Yongbing Chen, Boyu Wang, Charles Ling
Western University, Wenzhou Academy of Agricultural Sciences
小型言語モデルにおける連鎖思考(CoT)推論は、自然言語処理の難しい問題でありながら、多くの実際のアプリケーションで非常に望まれています。既存のCoT知識蒸留法は、大型言語モデル(LLM)の小型版において過度に保守的な暗記に悩まされ、一般化の信頼性が低下することが多いです。教師モデルのCoT能力を完全に保持することは不可能であるため、私たちは、対抗的なCoTファインチューニングが、堅牢なCoT一般化を持つ小型LLMの開発にとって重要であると仮定します。この目的のために、私たちは、さまざまなCoTドメインを統合した原則的なファインチューニングフレームワークである「PRompt-Assisted Domain-Adversarial fine-tuning」(PRADA)を提案します。具体的には、PRADAは小型LLMにおける二つのCoT改善を先駆けます:(1)通常は蒸留中に失われるドメイン不変特徴の洞察を、ドメイン対抗ファインチューニングを通じて回復すること;(2)ドメイン対抗アプローチを用いることにより、CoTプロンプトエンジニアリングのドメイン適応性を強化することです。私たちは理論的に私たちのアプローチの効果を示し、幅広いタスクにおいて従来の最先端技術を大きく上回ることを実証します。さらに、私たちの実証的な発見は、PRADAを利用することで小型LLMがドメイン知識と密接に整合し、その結果、私たちのアプローチの説明可能性が向上することを明らかにしています。
2025-01-16T19:23:11
Learnings from Scaling Visual Tokenizers for Reconstruction and Generation
http://arxiv.org/abs/2501.09755v1
Philippe Hansen-Estruch, David Yan, Ching-Yao Chung, Orr Zohar, Jialiang Wang, Tingbo Hou, Tao Xu, Sriram Vishwanath, Peter Vajda, Xinlei Chen
University of Texas, None
視覚トークン化はオートエンコーディングを通じて、ピクセルを潜在空間に圧縮することで、最先端の画像およびビデオ生成モデルを強化します。トランスフォーマーベースのジェネレーターのスケーリングは最近の進展の中心である一方で、トークナイザーコンポーネント自体はほとんどスケーリングされておらず、オートエンコーダーの設計選択が再構築の目的と下流の生成性能にどのように影響するかについての疑問が残っています。本研究は、オートエンコーダーのスケーリングを探求し、この空白を埋めることを目指しています。この探求を促進するために、典型的な畳み込みバックボーンを強化されたビジョントランスフォーマーアーキテクチャであるトークン化のためのViTokに置き換えました。ViTokを大規模な画像およびビデオデータセットで訓練し、ImageNet-1Kをはるかに超えるデータセットでトークナイザーのスケーリングに対するデータの制約を取り除きました。最初に、オートエンコーダーのボトleneckのスケーリングが再構築と生成に与える影響を研究し、再構築と非常に相関している一方で、生成との関係はより複雑であることを発見しました。次に、オートエンコーダーのエンコーダーとデコーダーを別々にスケーリングした場合の再構築と生成性能への影響を調べました。重要なことに、エンコーダーのスケーリングは再構築または生成のいずれに対しても最小限の利益しかもたらさないのに対し、デコーダーのスケーリングは再構築を向上させるが、生成に対する利益は混合的であることがわかりました。私たちの探求を基に、ViTokを軽量オートエンコーダーとして設計し、ImageNet-1KおよびCOCOの再構築タスク(256pおよび512p)で最先端のオートエンコーダーと競争力のある性能を達成し、16フレーム128pのUCF-101ビデオ再構築で既存のオートエンコーダーを上回る結果を得ながら、2-5倍少ないFLOPで実現しました。Diffusion Transformersと統合すると、ViTokはImageNet-1Kの画像生成で競争力のある性能を示し、UCF-101のクラス条件付きビデオ生成において新しい最先端のベンチマークを設定します。
2025-01-16T18:59:04
OmniThink: Expanding Knowledge Boundaries in Machine Writing through Thinking
http://arxiv.org/abs/2501.09751v1
Zekun Xi, Wenbiao Yin, Jizhan Fang, Jialong Wu, Runnan Fang, Ningyu Zhang, Jiang Yong, Pengjun Xie, Fei Huang, Huajun Chen
機械による執筆は、大規模言語モデルを用いたリトリーバル強化生成に依存することがよくあります。しかし、これらのアプローチはモデルの事前定義された範囲内に制限されており、豊かな情報を持つコンテンツの生成が制約されています。具体的には、通常のリトリーブされた情報は深さや有用性に欠け、冗長性が生じるため、生成された記事の質に悪影響を及ぼし、浅く、反復的で、独創性に欠ける出力につながります。これらの問題を解決するために、私たちはOmniThinkという機械執筆フレームワークを提案します。これは、人間のような反復的拡張と反省のプロセスを模倣するものです。OmniThinkの根本的なアイデアは、学習者の認知行動をシミュレートし、トピックに関する知識を徐々に深めていくことにあります。実験結果は、OmniThinkが生成された記事の知識密度を向上させることを示しており、整合性や深さといった指標を損なうことなく達成されています。人間による評価と専門家のフィードバックは、長編記事の生成における実世界の課題を解決するためのOmniThinkの可能性をさらに強調しています。
2025-01-16T18:58:06
KU AIGEN ICL EDI@BC8 Track 3: Advancing Phenotype Named Entity Recognition and Normalization for Dysmorphology Physical Examination Reports
http://arxiv.org/abs/2501.09744v1
Hajung Kim, Chanhwi Kim, Jiwoong Sohn, Tim Beck, Marek Rei, Sunkyu Kim, T Ian Simpson, Joram M Posma, Antoine Lain, Mujeen Sung, Jaewoo Kang
BioCreative8 Track 3の目的は、EHRテキストに埋め込まれた表現型に関する重要な医療発見を抽出し、これらの発見をヒト表現型オントロジー(HPO)の用語に正規化することです。しかし、表現型の発見にさまざまな表現形式が存在するため、それらを正確に正しいHPO用語に正規化することは難しいです。この課題に対処するために、さまざまな命名された実体認識モデルを探索し、同義語のマージナリゼーションなどのデータ拡張技術を実装して、正規化ステップを強化しました。私たちのパイプラインは、抽出と正規化のF1スコアが挑戦に対して受け取ったすべての提出物の平均スコアよりも2.6%高くなる結果をもたらしました。さらに、正規化F1スコアに関しては、私たちのアプローチは平均のパフォーマンスを1.9%上回りました。これらの発見は、自動医療データの抽出と正規化技術の進展に寄与し、バイオメディカルドメインでの将来の研究と応用の可能性を示しています。
2025-01-16T18:53:32
Parallel multi-objective metaheuristics for smart communications in vehicular networks
http://arxiv.org/abs/2501.09725v1
Jamal Toutouh, Enrique Alba
この記事では、車両ネットワークのためのAd hoc On-Demand Vectorルーティングプロトコルの高品質な設定を自動的に検索するために、2つの並列マルチオブジェクティブソフトコンピューティングアルゴリズムの使用を分析しています。これらの手法は、進化的アルゴリズムと群知能アプローチに基づいています。実験分析は、私たちの最適化アルゴリズムによって計算された構成が、他の最新の最適化されたものを上回ることを示しています。その結果、すべての並列バージョンによる計算効率は87%を超えています。したがって、この記事で紹介されている作業の流れは、車両通信を改善するための効率的なフレームワークを提示しています。
2025-01-16T18:16:34
A Simple Aerial Detection Baseline of Multimodal Language Models
http://arxiv.org/abs/2501.09720v1
Qingyun Li, Yushi Chen, Xinya Shu, Dong Chen, Xin He, Yi Yu, Xue Yang
Harbin Institute of Technology, Southeast University, Shanghai Jiao Tong University
生成的事前学習トランスフォーマーに基づく多モーダル言語モデル(MLM)は、さまざまなドメインやタスクを統一するための強力な候補と見なされています。遠隔センシング(RS)用に開発されたMLMは、視覚的質問応答や視覚的基盤など、複数のタスクで優れた性能を示しています。指定された指示に対応する特定の物体を検出する視覚的基盤に加えて、複数のカテゴリのすべての物体を検出する航空検出は、RS基盤モデルにとっても価値があり挑戦的なタスクです。しかし、航空検出は、MLMの自回帰予測メカニズムが検出出力とは大きく異なるため、既存のRS MLMによっては探求されていません。この論文では、航空検出にMLMを初めて適用するためのシンプルなベースライン、LMMRotateを提案します。具体的には、まず検出出力をテキスト出力に変換し、MLMフレームワークと互換性を持たせる正規化手法を導入します。その後、MLMと従来の物体検出モデルとの公平な比較を保証する評価手法を提案します。オープンソースの汎用MLMをファインチューニングすることによってベースラインを構築し、従来の検出器に匹敵する印象的な検出性能を達成しました。このベースラインが、将来のMLM開発のための参考となり、RS画像を理解するためのより包括的な能力を可能にすることを期待しています。コードはhttps://github.com/Li-Qingyun/mllm-mmrotateで入手可能です。
2025-01-16T18:09:22
CyberMentor: AI Powered Learning Tool Platform to Address Diverse Student Needs in Cybersecurity Education
http://arxiv.org/abs/2501.09709v1
Tianyu Wang, Nianjun Zhou, Zhixiong Chen
Mercy University, IBM Research AI, T.J. Watson Research Center
サイバーセキュリティプログラムの多くの非伝統的な学生は、同輩、家族、教授からのアドバイスへのアクセスが不足しており、これが彼らの教育経験を妨げる可能性があります。さらに、これらの学生は、コンテンツの関連性、アドバイスの地域性、最低限の専門知識、タイミングなどの問題により、さまざまなLLMを活用したAIアシスタントから十分に恩恵を受けられないかもしれません。本論文では、これらの課題に対処するために、学生のニーズに合わせた知識、スキル、およびキャリア準備に関する質問に答える包括的なサポートを提供するアプリケーションを紹介します。私たちは、サイバーセキュリティ専攻の学生の多様なニーズと痛点に対処するための学習ツールプラットフォーム「CyberMentor」を開発しました。エージェンティックワークフローと生成的巨大言語モデル(LLM)を利用し、プラットフォームは検索拡張生成(RAG)を活用して、正確で文脈に即した情報検索を実現し、アクセシビリティとパーソナライズを向上させます。私たちは、このシステムがサイバーセキュリティ教育における知識要件に対処し、キャリア市場性におけるスキル要件の取り組み、分析およびプログラミング課題に関するサポートを提供し、リアルタイムでの学習支援を提供する上での価値を実証しました。三つの使用シナリオを通じて、CyberMentorが知識取得やキャリア準備を促進し、シームレスなスキルベースのガイダンスとサポートを提供する様子を示しました。また、LangChainのプロンプトベースの評価手法を使ってプラットフォームの影響を評価し、有用性、正確性、完全性において高いパフォーマンスを確認しました。これらの結果は、システムが実践的なサイバーセキュリティスキルの開発を支援し、高等教育における公平性と持続可能性を向上させる能力を強調しています。さらに、CyberMentorのオープンソース設計は、他の学問分野への適応を可能にし、教育革新を促進し、その潜在的な影響を広げることができます。
2025-01-16T18:00:06
The Goofus & Gallant Story Corpus for Practical Value Alignment
http://arxiv.org/abs/2501.09707v1
Md Sultan Al Nahian, Tasmia Tasrin, Spencer Frazier, Mark Riedl, Brent Harrison
University of Kentucky, Georgia Institute of Technology
価値観や原則は、人間社会の重要な要素であり、人々が社会秩序を維持するために受け入れられた社会的ルールの標準に従って行動し機能するように影響を与えます。AIシステムが人間社会に普及するにつれて、これらの規範や価値に違反し、潜在的に害を及ぼす可能性があることが大きな懸念となっています。したがって、意図的または意図しない害を防ぐために、AIシステムはこれらの原則に合致した行動をとることが期待されています。このような行動を示すようにトレーニングすることは難しく、しばしば専門的なデータセットを必要とします。この研究は、自然言語と芸術的画像を通じて説明された現実の状況における規範的および非規範的行動を示すマルチモーダルデータセットを提示します。このトレーニングセットは、若い子供たちに社会的原則を教えるために設計されたキュレーションされた画像のセットを含んでいます。この事実を考慮すると、これは社会的に規範的なエージェントをトレーニングするための理想的なデータセットであると主張します。
2025-01-16T17:58:58
Practical Continual Forgetting for Pre-trained Vision Models
http://arxiv.org/abs/2501.09705v1
Hongbo Zhao, Fei Zhu, Bolin Ni, Feng Zhu, Gaofeng Meng, Zhaoxiang Zhang
State Key Laboratory of Multimodal Artificial Intelligence Systems, Institute of Automation, Chinese Academy of Sciences, University of Chinese Academy of Sciences, Centre for Artificial Intelligence and Robotics, Hong Kong Institute of Science & Innovation, SenseTime Research
プライバシーとセキュリティの懸念から、事前訓練されたビジョンモデルから不要な情報を消去する必要性が、近年明らかになっています。現実のシナリオでは、消去リクエストはユーザーやモデルの所有者からいつでも発生し、これらのリクエストは通常、一連のものになります。このような設定の下では、残りの部分を維持しながら、選択的な情報が継続的に事前訓練されたモデルから削除されることが期待されます。この問題を連続的忘却(Continual Forgetting)と定義し、三つの重要な課題を特定します。(i) 不要な知識に対して、効率的で効果的な削除が重要です。(ii) 残った知識に対して、忘却プロセスによってもたらされる影響は最小限であるべきです。(iii) 現実のシナリオでは、忘却プロセスの間、訓練サンプルが不足していたり部分的に欠落している場合があります。それらに取り組むために、最初にグループスパースLoRA(GS-LoRA)を提案します。具体的には、(i) に向けて、各忘却タスクに対してTransformerブロック内のFFN層を微調整するためにLoRAモジュールを導入し、(ii) に向けて、特定のLoRAグループを自動的に選択し、他のグループをゼロにするシンプルなグループスパース正則化を採用します。GS-LoRAをより実用的なシナリオに拡張するために、プロトタイプ情報を追加の監視として取り入れ、より実用的なアプローチであるGS-LoRA++を導入します。忘却される各クラスについて、ロジットをその元のプロトタイプから遠ざけます。残りのクラスについては、ロジットをそれぞれのプロトタイプに近づけます。顔認識、物体検出、画像分類に関する広範な実験を行い、私たちの方法が他のクラスへの影響を最小限に抑えながら特定のクラスを忘れることができることを示します。コードは https://github.com/bjzhb666/GS-LoRA に公開されています。
2025-01-16T17:57:53
Cueless EEG imagined speech for subject identification: dataset and benchmarks
http://arxiv.org/abs/2501.09700v1
Ali Derakhshesh, Zahra Dehghanian, Reza Ebrahimpour, Hamid R. Rabiee
Sharif University of Technology, Institute for Convergence Science and Technology (ICST)
脳波計(EEG)信号は、生体認証の有望なモダリティとして浮上しています。これまでの研究では、意味的に有意義な単語を用いた想像されたスピーチによる被験者の識別が探求されてきましたが、ほとんどは追加の視覚的または聴覚的手がかりに依存していました。本研究では、外部の手がかりなしに意味的に有意義な単語の発音を想像するという、手がかりのないEEGベースの想像されたスピーチパラダイムを紹介します。この革新的なアプローチは、被験者が事前に定義されたリストから単語を自然に選択し、想像することを要求することで、従来の方法の限界に対処しています。データセットは、5回のセッションにわたり11人の被験者からの4,350以上のトライアルで構成されています。我々は、サポートベクターマシン(SVM)やXGBoostのような従来の機械学習技術に加えて、EEG分類専用に設計された時系列基盤モデルや深層学習アーキテクチャ(EEG ConformerやShallowConvNetなど)を含むさまざまな分類方法を評価します。信頼性のある評価を確保し、データリークを防ぐために、セッションベースのホールドアウト検証戦略が採用されました。我々の結果は、97.93%という優れた分類精度を示しています。これらの成果は、脳-コンピュータインターフェース(BCI)などの実世界のアプリケーションにおける安全で信頼性のある被験者識別のための手がかりのないEEGパラダイムの可能性を強調しています。
2025-01-16T17:54:56
Towards Large Reasoning Models: A Survey on Scaling LLM Reasoning Capabilities
http://arxiv.org/abs/2501.09686v2
Fengli Xu, Qianyue Hao, Zefang Zong, Jingwei Wang, Yunke Zhang, Jingyi Wang, Xiaochong Lan, Jiahui Gong, Tianjian Ouyang, Fanjin Meng, Chenyang Shao, Yuwei Yan, Qinglong Yang, Yiwen Song, Sijian Ren, Xinyuan Hu, Yu Li, Jie Feng, Chen Gao, Yong Li
Tsinghua University, HKUST (GZ), Emory University
言語は人間の推論にとって不可欠なツールとして長い間考えられてきました。大規模言語モデル(LLM)の革新は、これらのモデルを活用して複雑な推論タスクに取り組むことへの重要な研究関心を呼び起こしました。研究者たちは、自動回帰トークン生成の単純な手法を超え、「思考」という概念を導入しました。これは、推論過程における中間ステップを表すトークンのシーケンスです。この革新的なパラダイムにより、LLMは木検索や反射的思考など、複雑な人間の推論プロセスを模倣できるようになります。最近、推論を学習する新たな傾向が強化学習(RL)を適用して、LLMを訓練し推論プロセスを習得させることが行われています。このアプローチにより、試行錯誤の検索アルゴリズムを通じて高品質な推論軌跡を自動生成でき、十分に多くのトレーニングデータを提供することでLLMの推論能力が大幅に拡大されます。さらに、最近の研究では、テスト時推論中にLLMがより多くのトークンで「考える」ことを奨励することで、推論の精度をさらに大幅に向上させることができることが示されています。したがって、トレーニング時とテスト時のスケーリングを組み合わせることで、新たな研究の最前線が示されました──大規模推論モデルへの道です。OpenAIのo1シリーズの導入は、この研究の方向性において重要なマイルストーンを示しています。本調査では、LLM推論に関する最近の進展の包括的なレビューを提供します。まず、LLMの基礎的な背景を紹介し、その後、大規模推論モデルの開発を推進する主要な技術要素を探ります。自動データ構築、学習推論技術、テスト時スケーリングに焦点を当てます。また、大規模推論モデルの構築における人気のオープンソースプロジェクトを分析し、最後にオープンな課題と今後の研究方向について結論づけます。
2025-01-16T17:37:58
Reward-Guided Controlled Generation for Inference-Time Alignment in Diffusion Models: Tutorial and Review
http://arxiv.org/abs/2501.09685v1
Masatoshi Uehara, Yulai Zhao, Chenyu Wang, Xiner Li, Aviv Regev, Sergey Levine, Tommaso Biancalani
このチュートリアルでは、拡散モデルにおけるダウンストリーム報酬関数の最適化のための推論時ガイダンスと整合性手法についての詳細なガイドを提供します。拡散モデルは生成モデルとしての能力で有名ですが、生物学などの分野での実用的な応用には、特定の指標(例:安定性、タンパク質の親和性、ターゲット構造との近接性)を最大化するサンプル生成がしばしば必要です。このような状況では、拡散モデルは現実的なサンプルを生成するだけでなく、ファインチューニングせずに推論時に明示的に望ましい指標を最大化するように適応できます。このチュートリアルでは、そのような推論時アルゴリズムの基本的な側面を探ります。私たちはこれらの手法を統一的な視点からレビューし、現在の技術(例:逐次モンテカルロ(SMC)に基づくガイダンス、価値に基づくサンプリング、分類器ガイダンス)が、事前に学習されたデノイジングプロセスと、途中の状態から最終的な報酬を予測するルックアヘッド関数として機能する価値関数を組み合わせたソフト最適デノイジングプロセス(強化学習におけるポリシーとも呼ばれる)を近似しようとしていることを示します。この枠組みの中で、まだ文献には載っていないいくつかの新しいアルゴリズムを紹介します。さらに、(1)推論時テクニックと組み合わせたファインチューニング手法、(2)現行の研究であまり注目されていないモンテカルロツリーサーチなどの探索アルゴリズムに基づく推論時アルゴリズム、(3)言語モデルと拡散モデルにおける推論時アルゴリズムの関連についても議論します。このタンパク質設計に関するチュートリアルのコードは、https://github.com/masa-ue/AlignInversePro で利用可能です。
2025-01-16T17:37:35
Incorporating Quantum Advantage in Quantum Circuit Generation through Genetic Programming
http://arxiv.org/abs/2501.09682v1
Christoph Stein, Michael Färber
Karlsruhe Institute of Technology, TUD Dresden University of Technology
量子コンピュータの優位性を活用した効率的な量子回路の設計は、古典的なコンピュータと比較してますます重要性を増しています。遺伝的アルゴリズムは、人工進化を通じてそのような回路を生成する可能性を示しています。しかし、これらのアルゴリズムのフィットネス関数に量子の優位性を統合することは未踏の領域です。本論文では、遺伝的アルゴリズムのフィットネス関数に量子の優位性指標を組み込むための二つの新しいアプローチを提案して、量子回路設計の効率を向上させることを目的とします。1私たちは、ベルンシュタイン‐バジラニ問題と非構造データベース探索問題をテストケースとして使い、私たちのアプローチを評価します。結果は、私たちのアプローチが遺伝的アルゴリズムの収束速度を向上させるだけでなく、専門家が設計したソリューションに匹敵する回路を生成することを示しています。我々の発見は、量子の優位性の測定を組み込んだ遺伝的アルゴリズムを用いた自動量子回路設計が、量子アルゴリズムの開発を加速させる有望なアプローチであることを示唆しています。
2025-01-16T17:34:34
Authenticated Delegation and Authorized AI Agents
http://arxiv.org/abs/2501.09674v1
Tobin South, Samuele Marro, Thomas Hardjono, Robert Mahari, Cedric Deslandes Whitney, Dazza Greenwood, Alan Chan, Alex Pentland
自律型AIエージェントの迅速な展開は、デジタル空間における認可、責任、およびアクセス管理に関する緊急の課題を生み出しています。AIエージェントが誰のために行動しているかを知り、適切に利用するための新しい基準が必要です。これは、タスクの委任から自律エージェントの価値を引き出しつつ、オンライン空間を保護することを目的としています。我々は、AIエージェントへの認証、権限付与、および監査可能な権限委任のための新しいフレームワークを紹介します。このフレームワークでは、人間のユーザーが安全にエージェントの権限と範囲を委任し制限できる一方で、責任の明確な連鎖を維持します。このフレームワークは、既存のID管理とアクセス管理プロトコルに基づいて構築されており、エージェント特有の認証情報とメタデータを用いてOAuth 2.0とOpenID Connectを拡張し、確立された認証およびウェブインフラとの互換性を維持します。さらに、柔軟で自然言語による権限を監査可能なアクセス制御構成に変換するためのフレームワークを提案し、さまざまなインタラクションモダリティにおけるAIエージェントの能力のロバストなスコープ設定を可能にします。これらを総合すると、この実用的なアプローチは、AIエージェントの迅速な展開を促進しつつ、主要なセキュリティと責任の懸念に対処し、エージェンティックなAIシステムが適切な行動のみを実行し、デジタルサービス提供者がスケーラブルなインタラクションによる危害をリスクなくエージェントの相互作用を可能にするためのツールを提供することを目指します。
2025-01-16T17:11:21
Robin: a Suite of Multi-Scale Vision-Language Models and the CHIRP Evaluation Benchmark
http://arxiv.org/abs/2501.09672v1
Alexis Roger, Prateek Humane, Daniel Z. Kaplan, Kshitij Gupta, Qi Sun, George Adamopoulos, Jonathan Siu Chi Lim, Quentin Anthony, Edwin Fennell, Irina Rish
Mila - Quebec AI Institute, Université de Montréal, realiz.ai, Tokyo Institute of Technology, McGill University, EleutherAI, University College London
ここ数年におけるビジョン・ランゲージモデル(VLM)の急増は、厳密で包括的な評価手法とベンチマークの必要性を呼び起こしています。本研究では、既存のVLM評価技術、すなわち自動化されたメトリクス、AIベースの評価、さまざまなタスクにおける人間の評価を分析します。まず、複数のスケールで大規模言語モデル(LLM)と視覚エンコーダー(VE)を組み合わせて構築した新しいVLMスイート「Robin」を紹介し、Robinを使用して異なるスケールにおける現在の評価アプローチの欠点を特定します。次に、特定された制約を克服するために、より頑健で包括的なVLM評価のために開発した新しい長文応答ベンチマーク「CHIRP」を紹介します。再現性を促進し、VLM研究を進めるために、Robinのトレーニングコード、モデルスイート、およびCHIRPベンチマークへのオープンアクセスを提供します。
2025-01-16T17:08:12
The Heap: A Contamination-Free Multilingual Code Dataset for Evaluating Large Language Models
http://arxiv.org/abs/2501.09653v1
Jonathan Katzy, Razvan Mihai Popescu, Arie van Deursen, Maliheh Izadi
Delft University of Technology
最近、大規模言語モデルの人気の高まりは、これらを訓練するために必要な大規模なコードデータセットの開発を促進しました。このため、特定の動作の調査や、大規模言語モデルの評価に使用されるコードの収集に限界が生じ、データの汚染を避けることが難しくなっています。この問題を解決するために、私たちは「The Heap」を公開します。これは、57のプログラミング言語を網羅した大規模な多言語データセットであり、他のオープンコードデータセットに対して重複を排除しています。このため、研究者は大規模言語モデルの公正な評価を行うことができ、重要なデータクリーニングの手間を省くことができます。
2025-01-16T16:48:41
Monte Carlo Tree Search with Velocity Obstacles for safe and efficient motion planning in dynamic environments
http://arxiv.org/abs/2501.09649v1
Lorenzo Bonanni, Daniele Meli, Alberto Castellini, Alessandro Farinelli
univr.it
オンラインモーションプランニングは、動的な障害物(例:人混み)が存在する密な環境で移動するインテリジェントロボットにとって困難な問題です。本研究では、動的障害物に関する最小限の情報を使って、最適かつ安全なオンラインモーションプランニングの新しいアプローチを提案します。具体的には、私たちのアプローチでは、障害物の現在の位置と最大速度のみを必要とし、彼らの正確な軌道や動的モデルに関する情報は必要ありません。提案された方法論は、モデルシミュレーションを通じてオンラインで最適プランニングを行うモンテカルロ木探索(MCTS)と、障害物回避のための速度障害物(VO)を組み合わせています。私たちは、壁のある混雑したシミュレート環境で実験を行い、最大40個の動的障害物がランダムな速度と方向で移動します。アブレーションスタディにより、MCTSの効率を向上させ、安全で報酬の高いアクションをシミュレーションツリーから選択する上でのVOの重要な貢献を示します。さらに、我々の方法論が衝突率、計算性能、タスク性能の観点で最新のプランナー(非線形モデル予測制御(NMPC)を含む)に対して優れていることを示します。
2025-01-16T16:45:08
NS-Gym: Open-Source Simulation Environments and Benchmarks for Non-Stationary Markov Decision Processes
http://arxiv.org/abs/2501.09646v1
Nathaniel S. Keplinger, Baiting Luo, Iliyas Bektas, Yunuo Zhang, Kyle Hollins Wray, Aron Laszka, Abhishek Dubey, Ayan Mukhopadhyay
Vanderbilt University, Pennsylvania State University, University of Massachusetts Amherst
多くの実世界のアプリケーションでは、エージェントは外因的要素により条件が変化する環境の中で連続的な意思決定を行う必要があります。これらの非定常環境は、通常は定常的な動力学を前提とする伝統的な意思決定モデルに対して重大な課題をもたらします。非定常マルコフ決定過程(NS-MDP)は、そのような変化する条件下での意思決定問題をモデル化し解決するためのフレームワークを提供します。しかし、標準化されたベンチマークやシミュレーションツールの不足が、この分野の体系的評価と進展を妨げてきました。そこで、我々はNS-MDPのために明示的に設計された最初のシミュレーションツールキットNS-Gymを、人気のあるGymnasiumフレームワーク内に統合して提供します。NS-Gymでは、非定常性を特徴付ける環境パラメータの進化をエージェントの意思決定モジュールから分離し、動的環境へのモジュラーで柔軟な適応を可能にしています。この領域における先行研究をレビューし、NS-MDPにおける主要な問題の特性とタイプをカプセル化したツールキットを提示します。このツールキットは、非定常条件下でのアルゴリズムの一貫性と再現性のある評価を可能にするための標準化されたインターフェースとベンチマーク問題を開発する初めての試みです。また、NS-Gymを使用して、NS-MDPに関する先行研究からの6つのアルゴリズムアプローチをベンチマークします。我々のビジョンは、NS-Gymが研究者が非定常条件に対する意思決定アルゴリズムの適応性と強靭性を評価することを可能にすることです。
2025-01-16T16:38:33
CarMem: Enhancing Long-Term Memory in LLM Voice Assistants through Category-Bounding
http://arxiv.org/abs/2501.09645v1
Johannes Kirmayr, Lukas Stappen, Phillip Schneider, Florian Matthes, Elisabeth André
BMW Group Research and Technology, University of Augsburg, Technical University of Munich
今日のアシスタントの環境では、パーソナライズがインタラクションを強化し、長期的な関係を育み、エンゲージメントを深めています。しかし、多くのシステムはユーザーの好みを保持することに苦労しており、その結果、ユーザーからのリクエストが繰り返され、ユーザーの関与が薄れてしまいます。さらに、業界アプリケーションにおけるユーザーの好みを不正にかつ不透明に抽出することは、特にヨーロッパのような厳しい規制がある地域で、プライバシーと信頼に関する重大な懸念を引き起こします。これらの課題に対処するために、我々は音声アシスタントのための長期記憶システムを提案します。このシステムは、事前に定義されたカテゴリに基づいて構築されています。このアプローチは、大規模言語モデルを活用して、これらのカテゴリ内で好みを効率的に抽出、保存、取得し、パーソナライズと透明性の両方を確保します。また、実際の業界データに基づいた合成のマルチターン、マルチセッション会話データセット(CarMem)を導入しており、車内の音声アシスタント設定に特化しています。このデータセットでベンチマークされた我々のシステムは、カテゴリの詳細度に応じて、好み抽出においてF1スコア0.78から0.95を達成します。我々のメンテナンス戦略は、冗長な好みを95%、矛盾する好みを92%削減し、最適な取得の精度は0.87です。総じて、これらの結果はシステムが産業アプリケーションに適していることを示しています。
2025-01-16T16:37:33
Electronic Health Records: Towards Digital Twins in Healthcare
http://arxiv.org/abs/2501.09640v1
Muhammet Alkan, Hester Huijsdens, Yola Jones, Fani Deligianni
University of Glasgow
従来の紙ベースの記録から高度な電子健康記録(EHR)への重要な移行は、患者データの体系的な収集と分析を可能にし、記述統計を通じて患者集団のパターンやトレンドへの洞察を提供しました。この進化は、予測分析へと進み、医療提供者が患者の結果や潜在的な合併症を事前に予測できるようにしました。基本的なデジタル記録管理から高度な予測モデルおよびデジタルツインへと進展するこの流れは、データ駆動の洞察と個別化されたケア提供を組み合わせた、より統合された患者中心のアプローチへの医療の広範な進化を反映しています。この章では、英国と米国でのEHRの実施を検討しながら、医療情報システムの進化と重要性を探ります。また、国際疾病分類(ICD)システムの包括的な概要を提供し、ICD-9からICD-10への進化を追跡します。この議論の中心には、MIMIC-IIIデータベースがあり、医療データの共有における画期的な業績であり、世界中の研究者に無料で提供されている最も包括的な集中治療データベースと言えます。MIMIC-IIIは高品質な医療データへのアクセスを民主化し、研究と分析の前例のない機会を提供しています。章では、その構造、臨床結果分析機能、症例研究を通じた実用的な応用について説明し、特に死亡率や入院期間の指標、バイタルサインの抽出、ICDコーディングに焦点を当てています。詳細なエンティティ・リレーションシップダイアグラムと実用例を通じて、MIMICの複雑なデータ構造を示し、異なるクエリアプローチが微妙に異なる結果を導くことがあることを示し、正確なデータ抽出のためにデータベースのアーキテクチャを理解することの重要性を強調します。
2025-01-16T16:30:02
Platform-Aware Mission Planning
http://arxiv.org/abs/2501.09632v1
Stefan Panjkovic, Alessandro Cimatti, Andrea Micheli, Stefano Tonetta
自律システムの計画には、異なる抽象レベルのモデルを用いた推論と、システムと外部環境との相互作用に関する高水準のミッション目標と、サブシステムの整合性及び正しい相互作用を保つことを目的とした低水準のプラットフォーム制約という、2つの競合する目標を調和させることが必要です。これら2つのモデルの複雑な相互作用により、特にロバストネス保証を持つ計画を見つけることを目的とする場合、システム全体を論理的に考えることは非常に困難です。これは、システムの下層が非決定的な動作を考慮する必要があるためです。本論文では、プラットフォームに配慮したミッション計画(PAMP)の問題を導入し、時間的持続行動の設定で取り扱います。PAMP問題は、その存在-全ての性質により、標準的な時間計画とは異なります:ミッション目標を扱う高水準の計画は、プラットフォームと環境の低水準モデルのすべての可能な非決定的実行に対して、安全性と実行可能性の制約を満たす必要があります。私たちはPAMPを解決するための2つのアプローチを提案します。第一の基準アプローチは、ミッションレベルとプラットフォームレベルを統合しますが、第二のアプローチは、プランナーと検証エンジンの組み合わせを活用した抽象化-精緻化ループに基づいています。私たちは提案したアプローチの健全性と完全性を証明し、実験的にそれらを検証し、異種モデル化の重要性と抽象化-精緻化に基づく技術の優位性を示します。
2025-01-16T16:20:37
Artificial Intelligence-Driven Clinical Decision Support Systems
http://arxiv.org/abs/2501.09628v1
Muhammet Alkan, Idris Zakariyya, Samuel Leighton, Kaushik Bhargav Sivangi, Christos Anagnostopoulos, Fani Deligianni
University of Glasgow
人工知能(AI)が医療提供にますます組み込まれる中で、本章では信頼性が高く倫理的な臨床意思決定支援システム(CDSS)を開発するための重要な側面を探ります。従来の統計モデルから高度な機械学習アプローチへの基本的な移行から始まり、この作業では厳密な検証戦略やパフォーマンス評価手法、モデルのキャリブレーションや意思決定曲線分析の重要な役割を含む方法を検討します。本章は、医療における信頼できるAIシステムの構築には技術的な正確さだけではなく、公平性、説明可能性、プライバシーへの慎重な配慮が求められることを強調しています。AIによる公平な医療提供を確保するという課題が強調され、臨床予測モデルにおけるバイアスを特定し緩和する方法が論じられます。次に、本章では人間中心のCDSSの基礎としての説明可能性に深く掘り下げます。このフォーカスは、医療専門家がAIの推奨を信じるだけでなく、その背後にある理由を理解する必要があるという認識を反映しています。議論は、医療AIシステムにおけるプライバシーの脆弱性の分析へと進みます。データ漏洩や深層学習モデルに対する洗練された攻撃を含むモデルの説明に対する脅威が取り上げられます。テキストは、差分プライバシーやフェデレーテッドラーニングといったプライバシー保護戦略を探求し、プライバシー保護とモデルのパフォーマンスの間の固有のトレードオフを認識します。この進行は、技術的検証から倫理的配慮への移行を示し、患者ケアとデータ保護の最高基準を維持しながら、日常の臨床実践にシームレスかつ信頼性をもって統合できるAIシステムの開発における多面的な課題を反映しています。
2025-01-16T16:17:39
Beyond Reward Hacking: Causal Rewards for Large Language Model Alignment
http://arxiv.org/abs/2501.09620v1
Chaoqi Wang, Zhuokai Zhao, Yibo Jiang, Zhaorun Chen, Chen Zhu, Yuxin Chen, Jiayi Liu, Lizhu Zhang, Xiangjun Fan, Hao Ma, Sinong Wang
University of Chicago, Meta
最近の大規模言語モデル(LLM)の進展は、複雑なタスクを実行する上での顕著な進歩を示しています。人間のフィードバックからの強化学習(RLHF)は、LLMを人間の好みに調整するのに効果的ですが、報酬モデリングにおける虚偽の相関に脆弱です。その結果、長さバイアス、迎合、概念バイアス、差別的バイアスなどのバイアスを引き起こし、モデルが真の因果関係を捉える能力を妨げることがよくあります。これに対処するために、私は虚偽の相関を軽減するために因果推論を統合した新しい因果報酬モデリングアプローチを提案します。私たちの手法は反実仮想的不変性を強制し、無関係な変数が変更されたときに報酬予測が一貫性を保つことを確保します。合成データセットと実世界のデータセットの両方での実験を通じて、私たちのアプローチはさまざまな種類の虚偽の相関を効果的に軽減し、LLMを人間の好みにより信頼性が高く公平に調整する結果となります。既存のRLHFワークフローへのドロップイン型の強化として、私たちの因果報酬モデリングは、LLMのファインチューニングの信頼性と公平性を向上させる実用的な方法を提供します。
2025-01-16T16:00:37
Metric Learning with Progressive Self-Distillation for Audio-Visual Embedding Learning
http://arxiv.org/abs/2501.09608v1
Donghuo Zeng, Kazushi Ikeda
KDDI Research, Inc.
メトリック学習プロジェクトは、埋め込み空間にサンプルをマッピングし、類似性と非類似性を学習された表現に基づいて定量化します。しかし、既存の手法はしばしばラベルに基づく表現学習に依存しており、音声データや視覚データなど異なるモダリティの表現が注釈付きラベルに基づいて整列されます。このアプローチは、ラベルに直接結びついていない音声データと視覚データの分布に固有の潜在的な複雑な特徴や関係を十分に活用しきれない傾向があり、音声-視覚埋め込み学習のパフォーマンスが最適ではなくなります。この問題を解決するために、私たちはクロスモーダルトリプレット損失と進歩的自己蒸留を統合した新しいアーキテクチャを提案します。我々の手法は、固有の分布を活用し、明示的なラベルを超えた固有の関係を捉える音声と視覚データ間の確率的整合性であるソフト音声-視覚整合性を動的に洗練させることで、表現学習を強化します。具体的には、モデルは各バッチのサブセットにおける注釈付きラベルから音声-視覚分布に基づく知識を蒸留します。この自己蒸留された知識は、次のステップで使用されます。
2025-01-16T15:32:41
Managed-Retention Memory: A New Class of Memory for the AI Era
http://arxiv.org/abs/2501.09605v1
Sergey Legtchenko, Ioan Stefanovici, Richard Black, Antony Rowstron, Junyi Liu, Paolo Costa, Burcu Canakci, Dushyanth Narayanan, Xingbo Wu
Microsoft Research
今日のAIクラスタは、高帯域幅メモリ(HBM)の主要な用途の一つです。しかし、HBMはAIワークロードに対していくつかの理由で最適ではありません。分析によれば、HBMは書き込みパフォーマンスにおいて過剰供給されていますが、密度と読み取り帯域幅において不足しており、ビット当たりのエネルギーコストも大きいです。また、製造の複雑さから、DRAMよりも歩留まりが低いため、高価でもあります。私たちは、新しいメモリクラス「マネージド・リテンション・メモリ(MRM)」を提案します。これは、AI推論ワークロードのための主要なデータ構造をより最適に保存するためのものです。MRMは、元々ストレージクラスメモリ(SCM)をサポートするために提案された技術に対して、実行可能な道を提供する可能性があると信じています。これらの技術は伝統的に長期的な永続性(10年以上)を提供しますが、IOパフォーマンスや耐久性が不十分でした。MRMは異なるトレードオフを行い、ワークロードのIOパターンを理解することによって、長期的なデータ保持や書き込みパフォーマンスを犠牲にし、これらのワークロードにとって重要な指標でより良いパフォーマンスを発揮します。
2025-01-16T15:25:44
Reducing the Sensitivity of Neural Physics Simulators to Mesh Topology via Pretraining
http://arxiv.org/abs/2501.09597v1
Nathan Vaska, Justin Goodwin, Robin Walters, Rajmonda S. Caceres
MIT Lincoln Laboratory, Northeastern University
メッシュは、レーダー感知や空気力学などのさまざまな分野で、高忠実度の物理シミュレーターにおいて複雑なオブジェクトを表現するために使用されます。物理シミュレーションを加速するためにニューラルネットワークを使用することへの関心が高まっており、また、非規則メッシュデータに直接ニューラルネットワークを適用する研究も増えています。複数のメッシュトポロジーが同じオブジェクトを表現できるため、ニューラルネットワークのトレーニング時にはトポロジカルな変動に対処するためにメッシュの拡張が通常必要です。物理シミュレーターはメッシュ形状の小さな変化に敏感であるため、ニューラルネットワークベースの物理シミュレーターをトレーニングする際にこれらの拡張を使用することは困難です。本研究では、メッシュトポロジーの変動がニューラルネットワークシミュレーターの性能を大幅に低下させることを示します。この問題に対処するためにプレトレーニングが使用できるかどうかを評価し、グラフ埋め込みモデルを用いた確立されたオートエンコーダープレトレーニング技術を採用することで、メッシュトポロジーの変動に対するニューラルネットワークシミュレーターの感度が低下することを発見しました。最後に、メッシュトポロジーに対するニューラルシミュレーターの感度をさらに低下させる可能性のある今後の研究方向を強調します。
2025-01-16T15:21:18
IFRA: a machine learning-based Instrumented Fall Risk Assessment Scale derived from Instrumented Timed Up and Go test in stroke patients
http://arxiv.org/abs/2501.09595v1
Simone Macciò, Alessandro Carfì, Alessio Capitanelli, Peppino Tropea, Massimo Corbo, Fulvio Mastrogiovanni, Michela Picardi
有効な転倒リスク評価は、脳卒中後の患者にとって極めて重要です。本研究は、従来の臨床スケールが捉えきれない多くの移動能力指標を取り入れた、計装されたTimed Up and Go(ITUG)テストデータに基づく新しいデータ駆動型の転倒リスク評価方法を提案します。IFRA(Instrumented Fall Risk Assessment)は、二段階プロセスを用いて開発されました。まず、ITUGテストで収集されたデータの中から、最も予測力が高い特徴が機械学習技術を用いて特定されました。次に、低、中、高リスクの層に患者を階層化する戦略が提案されました。私たちの分析に使用したデータセットは142人の参加者で構成されており、93人(うち15人は合成生成されたデータ)は訓練に使用され、17人は検証、32人は結果的なIFRAスケールのテスト(22人は非転倒者、10人は転倒者)に使用されました。IFRAスケールで考慮された特徴には、歩行速度、座位から歩行への移行中の垂直加速度、回転角速度が含まれており、これは神経学的患者の転倒リスクに関する既存の文献とよく一致します。従来のTimed Up & GoやMini-BESTestなどの従来の臨床スケールとの比較において、IFRAは競争力のあるパフォーマンスを示し、転倒者の過半数を高リスク層に正しく割り当てた唯一のスケールです(フィッシャーの正確性検定 p = 0.004)。データセットのサイズは限られていますが、これは今後の連続的な患者モニタリングと転倒予防のためのIFRAツールの使用に関する証拠を提供するための最初の概念実証研究です。これは臨床における脳卒中リハビリテーションおよび退院後の自宅での使用の両方において重要です。
2025-01-16T15:20:22
MatrixNet: Learning over symmetry groups using learned group representations
http://arxiv.org/abs/2501.09571v1
Lucas Laird, Circe Hsu, Asilata Bapat, Robin Walters
Northeastern University, Australian National University
群論は、ロボット工学からタンパク質モデリングに至るまでのタスクにおいて、既知の対称変換を取り入れるための理論的に基づいたアプローチを提供するために、機械学習で使用されています。これらのアプリケーションでは、エクイバリアントニューラルネットワークが既知の対称群と事前定義された表現を用いて、幾何学的な入力データを学習します。我々は、MatrixNetというニューラルネットワークアーキテクチャを提案します。これは、事前定義された表現を使用するのではなく、群要素入力の行列表現を学習します。MatrixNetは、いくつかの有限群およびアルチンブレイド群における予測タスクで、標準的なベースラインに対してより高いサンプル効率と一般化を達成します。また、MatrixNetが群の関係を尊重し、トレーニングセットよりも長い単語長の群要素への一般化を可能にすることも示します。
2025-01-16T14:45:12
Text-driven Adaptation of Foundation Models for Few-shot Surgical Workflow Analysis
http://arxiv.org/abs/2501.09555v1
Tingxuan Chen, Kun Yuan, Vinkle Srivastav, Nassir Navab, Nicolas Padoy
University of Strasbourg, CNRS, IHU Strasbourg, Technische Universität München
目的:外科手術のワークフロー分析は、外科手術の効率と安全性を向上させるために重要です。しかし、従来の研究は大規模な注釈付きデータセットに大きく依存しており、コスト、スケーラビリティ、および専門家の注釈への依存に課題があります。これに対処するために、我々はSurg-FTDA(Few-shot Text-driven Adaptation)を提案します。この手法は、最小限のペア画像-ラベルデータでさまざまな外科的ワークフロー分析タスクに対応するように設計されています。 方法:我々のアプローチには2つの重要なコンポーネントがあります。第一に、Few-shot選択に基づくモダリティアライメントが小さな画像のサブセットを選択し、それらの埋め込みを下流タスクからのテキスト埋め込みに整合させ、モダリティギャップを橋渡しします。第二に、テキスト駆動型適応は、ペア画像-テキストデータの必要がないデコーダを訓練するためにテキストデータのみを利用します。このデコーダは、整合された画像埋め込みに適用され、明示的な画像-テキストペアなしで画像関連のタスクを実施できるようにします。 結果:我々は生成タスク(画像キャプショニング)および識別タスク(三重認識とフェーズ認識)に対して我々のアプローチを評価しました。結果は、Surg-FTDAがベースラインを上回り、下流タスク全体にわたって良好な一般化を示すことを示しています。 結論:我々は、モダリティギャップを軽減し、外科手術のワークフロー分析において複数の下流タスクを処理するテキスト駆動型適応アプローチを提案します。これは、大規模な注釈付きデータセットへの依存を最小限に抑えています。コードとデータセットは、https://github.com/TingxuanSix/Surg-FTDA で公開される予定です。
2025-01-16T14:18:06
AI in Support of Diversity and Inclusion
http://arxiv.org/abs/2501.09534v1
Çiçek Güven, Afra Alishahi, Henry Brighton, Gonzalo Nápoles, Juan Sebastian Olier, Marie Šafář, Eric Postma, Dimitar Shterionov, Mirella De Sisto, Eva Vanmassenhove
本論文では、AIが多様性と包括性を支援する方法について詳述し、その方向性で行われた研究プロジェクトの例を挙げます。まず、大規模言語モデル(LLM)をより透明で包括的、そして社会的バイアスに敏感にするための課題と進展を考察します。ChatGPTのようなLLMは印象的な能力を持っていますが、異なる文化的文脈を理解したり、意味のある人間らしい会話を行ったりするのに苦労しています。一つの重要な問題は、特に機械翻訳における言語処理のバイアスが不平等を強化する可能性があることです。これらのバイアスに対処するには、多様性、公平性、包括性を促進するための学際的アプローチが必要です。また、メディアにおけるバイアスのあるコンテンツを特定するAIの役割も強調し、これは表現の改善に重要です。社会的グループの不平等な描写を検出することで、AIはステレオタイプに挑戦し、より包括的なテクノロジーの創出に貢献します。自らの決定を明確に説明する透明なAIアルゴリズムは、信頼を構築しAIシステムのバイアスを軽減するために不可欠です。また、AIシステムには多様で包括的なトレーニングデータが必要であることも強調します。子どもの成長モニターのようなプロジェクトは、幅広いデータを利用することで栄養失調や貧困といった実世界の問題に効果的に対処できることを示しています。さらに、AIがLGBTQ+コミュニティに関する誤情報の拡散における検索エンジンの役割を監視する方法を示すプロジェクトについても紹介します。加えて、SignONプロジェクトについても言及し、耳の聞こえる人々と聴覚障害者とのコミュニケーションのギャップを埋める技術の例を示し、包括的なAIを開発する上での協力と相互の信頼の重要性を強調します。総じて、本論文では、効果的であるだけでなく社会的責任を持つAIシステムを提唱し、人間と機械間の公正で包括的な相互作用を促進します。
2025-01-16T13:36:24
Class Incremental Fault Diagnosis under Limited Fault Data via Supervised Contrastive Knowledge Distillation
http://arxiv.org/abs/2501.09525v1
Hanrong Zhang, Yifei Yao, Zixuan Wang, Jiayuan Su, Mengxuan Li, Peng Peng, Hongwei Wang
Zhejiang University, ZJU-UIUC Joint Institute, ZJU-UoE Institute, College of Biomedical Engineering and Instrument Science, College of Computer Science and Technology
クラス逐次的な故障診断は、新しい故障クラスに適応しながら以前の知識を保持するモデルを必要とします。しかし、アンバランスでロングテールのデータに関する研究は限られています。少数ショットの故障データから識別的特徴を抽出することは難しく、新しい故障クラスを追加することはしばしば高コストなモデル再訓練を要求します。さらに、既存の方法の逐次トレーニングは壊滅的な忘却のリスクがあり、深刻なクラス不均衡はモデルの決定を正常クラスに偏らせる可能性があります。これらの問題に対処するために、クラス逐次的故障診断のための教師あり対比知識蒸留(SCLIFD)フレームワークを提案し、改善された表現学習能力と忘却を減らすための教師あり対比知識蒸留、新たな優先サンプル選択方法で壊滅的な忘却を軽減するサンプルリプレイ手法、クラス不均衡に対処するためのランダムフォレスト分類器を導入します。さまざまな不均衡比率にわたるシミュレーションおよび実世界の産業データセットに対する広範な実験により、SCLIFDの既存のアプローチに対する優位性が示されました。私たちのコードは https://github.com/Zhang-Henry/SCLIFD_TII で見つけることができます。
2025-01-16T13:20:29
MonoSOWA: Scalable monocular 3D Object detector Without human Annotations
http://arxiv.org/abs/2501.09481v1
Jan Skvrna, Lukas Neumann
Czech Technical University
単一のRGBカメラを使用して物体の三次元的な位置と方向を検出することは、コンピュータビジョンにおける基礎的なタスクであり、多くの重要な応用があります。従来、3D物体検出方法は完全に監視された設定で学習されるため、大量の人的アノテーションが必要であり、これは手間がかかり、高価であり、増え続けるデータ量に対してスケーラビリティが良くありません。本論文では、ドメイン固有の人間のアノテーションなしで単眼RGBカメラ用の3D物体検出器を訓練するための初めての方法を提案します。これにより、訓練に利用できるデータが桁違いに増えます。新たに提案された標準的なオブジェクト空間のおかげで、この方法はさまざまなデータセットとカメラセットアップ全体のデータを活用して単一の3D検出器を訓練できるだけでなく、従来の研究とは異なり、未見のカメラセットアップでもそのまま機能します。これは、データとカメラが非常に異質である実際の応用にとって重要です。この方法は、2Dの人間アノテーションに依存している従来の研究よりも優れている標準的な自律運転データセット2つで評価されました。
2025-01-16T11:35:22
Predicting Air Temperature from Volumetric Urban Morphology with Machine Learning
http://arxiv.org/abs/2501.09469v1
Berk Kıvılcım, Patrick Erik Bradley
本研究では、まず、CityGMLデータをボクセルに変換する方法を紹介します。この方法は、都市のような大規模データセットに対して、高解像度でも効率的かつ迅速に動作しますが、以前のボクセル化手法の制約を克服するために、おおよその建物の詳細を犠牲にしています。これら以前の方法は、大規模な都市地域を高解像度のボクセル表現に変換する際に、計算負荷が高く効率的ではありませんでした。複数の都市からのボクセル化された3D都市データと対応する気温データを用いて、機械学習モデルを開発します。モデルのトレーニング前に、入力データにガウスぼかしを適用して空間関係を考慮し、その結果、気温と体積的建物形態との相関率もガウスぼかし後に増加します。モデルのトレーニング後、予測結果は、平均二乗誤差(MSE)だけでなく、構造類似度インデックス測度(SSIM)や学習された知覚画像パッチ類似度(LPIPS)などの画像類似度指標でも評価され、評価プロセス中に空間関係を検出し考慮できるようになっています。このトレーニングされたモデルは、対応するピクセルの建物体積情報を入力として用いることで、気温の空間分布を予測する能力を持っています。このようにして、本研究は都市計画者が環境パラメータを計画戦略に組み込むのを助け、より持続可能で住みやすい都市環境を促進することを目指しています。
2025-01-16T11:10:38
RE-POSE: Synergizing Reinforcement Learning-Based Partitioning and Offloading for Edge Object Detection
http://arxiv.org/abs/2501.09465v1
Jianrui Shi, Yong Zhao, Zeyang Cui, Xiaoming Shen, Minhang Zeng, Xiaojie Liu
The Hong Kong Polytechnic University, Pengcheng Laboratory
物体検出は、スマートビデオ分析において重要な役割を果たしており、自動運転、セキュリティ、スマートシティなど、多岐にわたる応用があります。しかし、エッジデバイス上でリアルタイムの物体検出を実現することは、限られた計算リソースと、高解像度ビデオを処理する際の深層ニューラルネットワーク(DNN)ベースの検出モデルの高い要求によって、大きな課題となります。従来の戦略、例えば入力のダウンサンプリングやネットワークのアップスケーリングは、より高速なパフォーマンスを得るために検出精度を犠牲にしたり、推論の遅延を増加させたりすることがあります。これらの問題に対処するために、本論文ではRE-POSEを紹介します。これは、リソース制約のあるエッジ環境における精度と遅延のトレードオフを最適化するために設計された、強化学習(RL)駆動のパーティショニングおよびエッジオフローディングフレームワークです。私たちのアプローチは、物体の分布とDNNの計算特性に基づいて、ビデオフレームを非均一なブロックに分割するRLベースのダイナミッククラスタリングアルゴリズム(RL-DCA)を特徴としています。さらに、これらのブロックを複数のエッジサーバーに分散して同時処理を行うための並列エッジオフローディング方式も実装されています。実験評価の結果、RE-POSEは検出精度を大幅に向上させ、推論遅延を低下させ、既存の手法を上回ることが示されました。
2025-01-16T10:56:45
Multiple Choice Questions: Reasoning Makes Large Language Models (LLMs) More Self-Confident Even When They Are Wrong
http://arxiv.org/abs/2501.09775v1
Tairan Fu, Javier Conde, Gonzalo Martínez, María Grandury, Pedro Reviriego
Nanjing University of Aeronautics and Astronautics, ETSI de Telecomunicación, Universidad Politécnica de Madrid, Universidad Carlos III de Madrid, SomosNLP
LLM(大規模言語モデル)を評価するために最も広く使用されている方法の一つは、選択式問題(MCQ)テストです。MCQのベンチマークは、結果を自動的に処理できるため、ほぼあらゆるトピックに対するLLMの知識を大規模にテストすることを可能にします。LLMが回答するのを助けるために、いくつかの例(少数の例)をプロンプトに含めることができます。さらに、LLMは選択した選択肢で直接質問に答えるように求められることもあれば、まず推論を提供してから選択した答えを示すように求められることもあり、これが「思考の連鎖」として知られています。選択した答えが正しいかどうかを確認するだけでなく、評価はLLMの応答に対する推定確率を、応答に対するLLMの自信の指標としても見ることができます。本論文では、LLMの回答に対する自信が、モデルが直接答えるように求められたのか、それとも回答の前に推論を提供するように求められたのかに依存することを研究します。7つの異なるモデルにおけるさまざまなトピックの質問の評価結果は、LLMが回答の前に推論を提供する際に、自信を持って回答することを示しています。これは、選択した答えが正しいかどうかに関わらず発生します。我々の仮説は、この行動が、LLMが入力された質問と選択を支持する推論に基づいて答えを予測することによって、選択した答えの確率を修正する推論に起因するというものです。したがって、LLMが推定する確率には、評価手続きで使用するために理解すべき固有の限界があるようです。興味深いことに、同様の行動が人間にも観察されており、回答を説明することがその正確性への自信を高めることが示されています。
2025-01-16T10:27:51
Solving the unsolvable: Translating case law in Hong Kong
http://arxiv.org/abs/2501.09444v1
King-kui Sin, Xi Xuan, Chunyu Kit, Clara Ho-yan Chan, Honic Ho-kin Ip
UOW College Hong Kong, City University of Hong Kong, The Chinese University of Hong Kong, The University of Hong Kong SPACE
この論文は、香港のバイリンガル法制度における判例法の翻訳に関する課題を扱っています。1997年の引き渡し前に全ての法律文書を中国語に翻訳するという初期の成功を強調しており、その作業は基本法によって義務付けられたものでした。この努力には、法的、言語的、翻訳の専門家たちの重要な協力が含まれ、包括的で文化的に適切なバイリンガル法制度が実現しました。しかし、判例法の翻訳は、司法判断の膨大な量とその持続的な増加により、依然として重要な課題です。この論文は、判例法の翻訳に関する政府と司法の散発的で調整のない努力を批判し、法令翻訳のために以前に取られた徹底的なアプローチと対比しています。政府は法的バイリンガリズムの重要性を認識しているものの、判例法の翻訳に関する持続可能な戦略を欠いています。すべての判決を翻訳する必要がない、非現実的で費用対効果がないという司法の立場は、法的透明性や公共の信頼に与える影響について分析され批判されています。提案された解決策には、ヒューマン・マシンインタラクティブ翻訳プラットフォームを介して機械翻訳技術を活用することが含まれており、これには2つの主要な移行が伴います。最初はニューラルモデルに基づいていますが、プラットフォームは改善された翻訳精度のために大規模言語モデルの使用に移行します。さらに、単一エージェントシステムから複数エージェントシステムへと進化し、翻訳者、注釈者、校正者のエージェントを取り入れます。このマルチエージェントアプローチは助成金の支援を受け、先進的な人工知能と継続的なフィードバックメカニズムを統合することで、司法判断の効率的で高品質な翻訳を促進し、バイリンガル法制度のニーズによりよく応えることを目指しています。
2025-01-16T10:17:58
A Survey on Responsible LLMs: Inherent Risk, Malicious Use, and Mitigation Strategy
http://arxiv.org/abs/2501.09431v1
Huandong Wang, Wenjie Fu, Yingzhou Tang, Zhilong Chen, Yuxi Huang, Jinghua Piao, Chen Gao, Fengli Xu, Tao Jiang, Yong Li
Tsinghua University, Huazhong University of Science and Technology
大規模言語モデル(LLM)は、多くの実世界の応用を支援し、ポジティブな社会的影響をもたらすための重要な可能性を持っていますが、プライバシー漏洩のリスク、幻想的な出力、価値の不整合などの内在的な課題に直面しています。また、ジャイルブレイクされた後には、有害なコンテンツや非倫理的な目的で悪用される可能性もあります。したがって、本調査では、これらの問題を緩和することを目的とした最近の進展を、LLMの開発と使用の4つのフェーズ(データ収集と事前トレーニング、ファインチューニングと整合、プロンプトと推論、そしてポストプロセッシングと監査)に基づいて包括的にレビューします。私たちは、プライバシー保護、幻想削減、価値の整合、毒性排除、ジャイルブレイク防御の観点からのLLMの性能向上に関する最近の進展を詳述します。責任あるLLMの単一の次元に焦点を当てた以前の調査に対して、本調査はこれらの多様な次元を包含する統一的なフレームワークを提示し、実世界の応用により良く奉仕するためのLLMの強化に関する包括的な視点を提供します。
2025-01-16T09:59:45
ADAGE: A generic two-layer framework for adaptive agent based modelling
http://arxiv.org/abs/2501.09429v1
Benjamin Patrick Evans, Sihan Zeng, Sumitra Ganesh, Leo Ardon
JPMorgan, None
エージェントベースモデル(ABM)は、複雑で平衡を保たない可能性のあるシナリオのモデル化において貴重です。しかし、ABMは長い間、ルーカス批判に悩まされており、エージェントの行動は環境の変化に適応すべきであるとしています。さらに、環境自体もこれらの行動の変化に適応することが多く、複雑な二層の適応問題を生み出します。最近、マルチエージェント強化学習をABMに統合する進展により、適応的エージェント行動が導入され、この批判の第一部に対処し始めていますが、アプローチは依然として比較的アドホックであり、一般的な定式化が欠けているだけでなく、エージェントの行動に加えて環境レベルの特性を同時に適応させるという第二の側面にも取り組んでいません。本研究では、これらの問題に対処するための適応型エージェントベースモデリングのための一般的な二層フレームワーク(ADAGE)を開発します。このフレームワークは、条件付き行動ポリシーを持つスタッケルベルグゲームとして二層の問題を形式化し、結合された非線形方程式のセットを解くことに基づいて適応的エージェントベースモデリングのための統合的なフレームワークを提供します。私たちは、この一般的なアプローチが政策設計、キャリブレーション、シナリオ生成、堅牢な行動学習など、以前は異なると見なされていたいくつかの一般的なABMタスクをどのように包含しているかを示します。複数の複雑な経済的および金融的環境に関する例題シミュレーションを提供し、これらの標準的な設定の下での新しいフレームワークの強さを示し、従来のABMに対する長年の批判に取り組みます。
2025-01-16T09:58:24
Dynamic Neural Style Transfer for Artistic Image Generation using VGG19
http://arxiv.org/abs/2501.09420v1
Kapil Kashyap, Mehak Garg, Sean Fargose, Sindhu Nair
歴史を通じて、人間は素晴らしい芸術作品を創り出してきましたが、人工知能は最近になって視覚的に魅力的なアートを生成する進展を始めました。過去数年間のブレークスルーは、畳み込みニューラルネットワーク(CNN)を使用して画像の内容とスタイルを分離・操作し、テクスチャ合成技術を適用することに焦点を当てています。それにもかかわらず、現在の技術の多くは、処理時間が長い、スタイル画像の選択肢が制限されている、スタイルの重み比率を変更できないなどの障害に直面しています。私たちは、デザインされた画像にさまざまな芸術スタイルを追加できるニューラルスタイル転送システムを提案し、これらの制約に対処し、スタイルの重み比率に柔軟な調整を可能にし、処理時間を短縮します。このシステムは特徴抽出にVGG19モデルを使用し、内容の整合性を損なうことなく、高品質で柔軟なスタイル化を実現します。
2025-01-16T09:47:18
MoE$^2$: Optimizing Collaborative Inference for Edge Large Language Models
http://arxiv.org/abs/2501.09410v1
Lyudong Jin, Yanning Zhang, Yanhan Li, Shurong Wang, Howard H. Yang, Jian Wu, Meng Zhang
大規模言語モデル(LLMs)は、自然言語処理タスクの広範な範囲で驚異的な能力を示しています。エッジLLMの多様な機能を活用することは、コスト効率の向上やレイテンシの削減を可能にするため、さまざまな新たに生まれるアプリケーションにとって重要です。本研究では、エッジLLMのための新しい共同推論フレームワークである「Mixture-of-Edge-Experts (MoE²)」を紹介します。エネルギーとレイテンシの制約の下で推論性能を最適化するために、共同ゲーティングと専門家選択の問題を定式化します。従来のMoE問題とは異なり、LLMの専門家選択は、さまざまな属性における組み合わせ的性質とエッジLLMの異質性のために、著しく挑戦的です。この目的のために、専門家選択を通じてゲーティングパラメータの最適性保持特性を明らかにする2層の専門家選択メカニズムを提案します。この特性により、トレーニングプロセスと選択プロセスを分解することができ、複雑さを大幅に削減します。さらに、目的関数の単調性を活用し、最適な専門家選択のために離散単調最適化アルゴリズムを設計します。NVIDIA Jetson AGX OrinsおよびNVIDIA RTX 4090 GPUを搭載したエッジサーバーを実装し、広範な実験を行いました。我々の結果は、さまざまなLLMモデルの性能向上を確認し、我々のMoE²メソッドが異なる遅延とエネルギー予算の間で最適なトレードオフを達成できること、またさまざまなシステムリソース制約の下でベースラインを上回ることを示しています。
2025-01-16T09:36:32
ELM-DeepONets: Backpropagation-Free Training of Deep Operator Networks via Extreme Learning Machines
http://arxiv.org/abs/2501.09395v1
Hwijae Son
Konkuk University
Deep Operator Networks(DeepONets)は、演算子学習のための最も著名なフレームワークの一つであり、演算子のための普遍近似定理に基づいています。しかし、DeepONetsのトレーニングには通常、かなりの計算資源が必要です。この制限に対処するために、我々はELM-DeepONetsを提案します。これは、ELMの逆伝播が不要な性質を活用したDeepONets向けのお極端学習機(ELM)フレームワークです。DeepONetのトレーニングを新しく導入されたパラメータの最小二乗問題として再定式化することにより、ELM-DeepONetアプローチはトレーニングの複雑さを大幅に削減します。非線形常微分方程式(ODE)や偏微分方程式(PDE)を含むベンチマーク問題での検証により、提案された方法は優れた精度を実現するだけでなく、計算コストも大幅に削減することが示されています。この研究は、科学計算における演算子学習のためのスケーラブルで効率的な代替手段を提供します。
2025-01-16T09:06:43
Quantum-Enhanced Transformers for Robust Acoustic Scene Classification in IoT Environments
http://arxiv.org/abs/2501.09394v1
Minh K. Quan, Mayuri Wijayasundara, Sujeeva Setunge, Pubudu N. Pathirana
Deakin University, Royal Melbourne Institute of Technology University
音響センサーを搭載したモノのインターネット(IoT)デバイスの増加は、騒音が多くデータが制限された環境でも堅牢な音響シーン分類(ASC)の能力を必要としています。従来の機械学習手法は、こうした条件下で効果的に一般化するのが難しいことがよくあります。これに対処するために、我々はQ-ASCという新しい量子インスパイアド音響シーンクラシファイアを紹介します。これは量子インスパイアドトランスフォーマーの力を活用します。重ね合わせやもつれといった量子概念を統合することにより、Q-ASCは古典的モデルに比べて優れた特徴学習と向上したノイズ耐性を実現します。さらに、IoT展開におけるラベル付きデータの限られた課題を軽減するために、量子変分オートエンコーダ(QVAE)に基づくデータ拡張技術を導入します。タンペレ工科大学(TUT)の音響シーン2016ベンチマークデータセットでの広範な評価では、Q-ASCが厳しい条件下で68.3%から88.5%の驚異的な精度を達成し、最良のケースでは最先端の手法を5%以上上回ることが示されました。この研究は、スマートホーム、産業監視、環境監視といった潜在的な応用を持つIoTネットワークにおける知的音響センサーの展開への道を開きます。
2025-01-16T09:06:10
Aligning Instruction Tuning with Pre-training
http://arxiv.org/abs/2501.09368v2
Yiming Liang, Tianyu Zheng, Xinrun Du, Ge Zhang, Xingwei Qu, Xiang Yue, Chujie Zheng, Jiaheng Liu, Lei Ma, Wenhu Chen, Guoyin Wang, Zhaoxiang Zhang, Wenhao Huang, Jiajun Zhang
指示チューニングは、大規模言語モデル(LLM)が多様なタスクにおいて人間の指示に従う能力を向上させるもので、高品質なデータセットに依存して行動を導きます。しかし、手動でキュレーションされたものや合成生成されたものにかかわらず、これらのデータセットはしばしば狭い範囲に焦点を当てており、事前トレーニング中にキャプチャされた広範な分布と不一致であるため、LLMの一般化能力や事前トレーニングされた知識の効果的な利用を制限します。私たちは、「事前トレーニングとの指示チューニングの整合性を図る」(AITP)という方法を提案します。これは、指示チューニングデータセットにおけるカバレッジの不足を特定し、十分に代表されていない事前トレーニングデータを高品質な指示-応答ペアに書き換えることによって、このギャップを埋めるものです。このアプローチは、タスク固有の目標を保持しつつデータセットの多様性を豊かにします。八つのベンチマークにわたる三つの完全にオープンなLLMにおける評価は、AITPを用いた際の一貫したパフォーマンス向上を示しています。アブレーション実験は、適応的なデータ選択、制御された書き換え、およびバランスの取れた統合の利点を強調し、LLMの可能性を最大限に引き出すために、指示チューニングと事前トレーニングの分布を整合させる重要性を強調しています。
2025-01-16T08:27:40
YETI (YET to Intervene) Proactive Interventions by Multimodal AI Agents in Augmented Reality Tasks
http://arxiv.org/abs/2501.09355v1
Saptarashmi Bandyopadhyay, Vikas Bahirwani, Lavisha Aggarwal, Bhanu Guda, Lin Li, Andrea Colaco
University of Maryland, Google
マルチモーダルAIエージェントは、日常のタスクを解決するために、人間のユーザーを対話的かつ協力的に支援する能力を持つAIモデルです。拡張現実(AR)ヘッドワornデバイスは、AIエージェントに対してユーザーが手続き的な日常タスクを解決するためのエゴセントリックなマルチモーダル(音声と映像)観察能力を提供することで、ユーザー体験を独自に向上させることができます。このようなAR機能は、AIエージェントがユーザーが行うアクションを見たり聞いたりするのを助け、人間ユーザーのマルチモーダルな能力に関連することができます。既存のAIエージェント、すなわち大規模言語モデル(LLMs)やマルチモーダル視覚言語モデル(VLMs)は、反応的な性質を持っており、これはモデルが人間のユーザーのプロンプトを読むまたは聞くことなくアクションを取ることができないことを意味します。一方で、AIエージェントの積極性は、ユーザーがエージェントが観察したタスクの中での間違いを検出し修正するのを助けたり、ユーザーが正しくタスクを行ったときに励ましたり、単にユーザーとの会話に参加したりするのを助けることができます。これは、人間がユーザーを教えたり支援したりすることに似ています。私たちの提案するYET to Intervene(YETI)マルチモーダルエージェントは、エージェントが積極的に介入する必要がある状況を特定するという研究課題に焦点を当てています。これにより、エージェントは人間のユーザーと会話の中で介入できるタイミングを理解し、ARを使って料理などのタスクの間違いをユーザーが修正するのを助けることができます。我々のYETIエージェントは、連続したビデオフレームに対する構造的類似性(SSIM)の解釈可能な概念に基づいてシーン理解信号を学習します。また、AIエージェントがタスク上のユーザーのアクションに対応するビデオフレームが期待されるアクションと一致しているかどうかを識別するために学習できる整合性信号も定義します。これらの信号は、AIエージェントがいつ積極的に介入すべきかを判断するために使用されます。私たちは、専門エージェントがユーザーに手続き的なタスクを完了させるためのHoloAssistマルチモーダルベンチマークにおける積極的介入の事例に関する結果を比較します。
2025-01-16T08:06:02
Style4Rec: Enhancing Transformer-based E-commerce Recommendation Systems with Style and Shopping Cart Information
http://arxiv.org/abs/2501.09354v1
Berke Ugurlu, Ming-Yi Hong, Che Lin
ユーザーの製品の好みを理解することは、推薦システムの効果にとって不可欠です。精密マーケティングは、ユーザーの過去のデータを活用してこれらの好みを把握し、それに沿った製品を推奨します。しかし、最近のブラウジングや購入記録は、現在の購買傾向をよりよく反映するかもしれません。トランスフォーマーに基づく推薦システムは、順次推薦タスクで進展を遂げてきましたが、製品の画像スタイル情報やショッピングカートデータを効果的に活用する点では不足していることが多いです。この点を踏まえ、私たちはStyle4Recを提案します。これは、スタイルとショッピングカートの情報を活用して、既存のトランスフォーマーに基づく順次製品推薦システムを強化するeコマース推薦システムです。Style4Recは、パーソナライズされたeコマース推薦において重要な前進を示しており、さまざまな評価指標においてベンチマークを上回る成果を上げています。Style4Recは顕著な改善をもたらしました:HR@5は0.681から0.735に、NDCG@5は0.594から0.674に、MRR@5は0.559から0.654に増加しました。私たちは、提携先企業のeコマースデータセットを用いてモデルをテストし、さまざまな評価指標において確立されたトランスフォーマーに基づく順次推薦ベンチマークを超える結果を得ました。このように、Style4Recは、パーソナライズされたeコマース推薦システムにおける重要な前進を示しています。
2025-01-16T08:05:39
Rational Tuning of LLM Cascades via Probabilistic Modeling
http://arxiv.org/abs/2501.09345v1
Michael J. Zellinger, Matt Thomson
大規模言語モデル(LLM)の信頼性を理解することは、最近重要な注目を集めています。LLMは幻覚を引き起こす傾向があり、プロンプトデザインに対して非常に敏感であるため、個々のLLMのパフォーマンスを予測することはすでに困難です。しかし、問題は複合LLMシステム、例えばカスケードのような場合にはさらに複雑になります。ここでは、各モデルの単独でのパフォーマンスに加えて、異なるモデルのエラー率がどのように相互作用するかを理解する必要があります。本論文では、一連のLLMの共同パフォーマンス分布のための確率モデルを提案します。これにより、連続最適化を用いてLLMカスケードの信頼性閾値を合理的に調整するためのフレームワークが可能になります。グリッドサーチを使用して信頼性閾値を選択するのと比較して、私たちのパラメトリックマルコフコピュラモデルは、カスケードの長さとコスト-エラー曲線の希望する解像度に関して、実行時間のスケーリングを大幅に改善し、それらを扱えないものから低次の多項式に変換します。さらに、私たちの連続最適化アルゴリズムを使用して計算された最適閾値は、カスケードの長さが増すにつれて、グリッドサーチで見つけたものを上回り、少なくとも三つのモデルからなるカスケードの場合、コスト-エラー曲線の下の面積を平均1.9%改善します。全体として、私たちのマルコフコピュラモデルは、LLMカスケードのパフォーマンスを調整するための合理的な基盤を提供し、LLMシステムを分析する際の確率的方法の可能性を示唆しています。
2025-01-16T07:58:33
Prompt-CAM: A Simpler Interpretable Transformer for Fine-Grained Analysis
http://arxiv.org/abs/2501.09333v1
Arpita Chowdhury, Dipanjyoti Paul, Zheda Mai, Jianyang Gu, Ziheng Zhang, Kazi Sajeed Mehrab, Elizabeth G. Campolongo, Daniel Rubenstein, Charles V. Stewart, Anuj Karpatne, Tanya Berger-Wolf, Yu Su, Wei-Lun Chao
The Ohio State University, University of Tsukuba, Virginia Tech, Princeton University, Rensselaer Polytechnic Institute
私たちは、異なる鳥種や犬種など、視覚的に類似したカテゴリーを区別し、特定するための微細分析における教師ありのVision Transformers(ViTs)の簡単な使用法を提案します。DINOのような事前学習済みのViTsは、局所的で有益な特徴を抽出する顕著な能力を示しています。しかし、Grad-CAMのようなサリエンシーマップを使用しても、特徴を明確に示すことは困難です。これらはしばしば、特徴ではなく、ぼやけた粗いヒートマップによって全体のオブジェクトを特定します。私たちは、新しいアプローチであるPrompt Class Attention Map(Prompt-CAM)を提案します。Prompt-CAMは、事前学習済みのViTに特定のクラスに基づくプロンプトを学習させ、その対応する出力を分類に使用します。画像を正しく分類するためには、真のクラスプロンプトが他のクラスの画像には含まれていないユニークな画像パッチ、つまり特徴に注意を払う必要があります。このようにして、真のクラスのマルチヘッドアテンションマップは特徴とその位置を明らかにします。実装面では、Prompt-CAMはVisual Prompt Tuning(VPT)の予測ヘッドを単純に変更するだけで、ほぼ無料で利用できるものです。これにより、Prompt-CAMは比較的簡単に訓練し、適用できるようになり、特定のモデルや訓練プロセスを設計する他の解釈可能な手法とは明確に対照的です。最近発表されたINterpretable TRansformer(INTR)よりも簡単であり、このエンコーダ・デコーダアーキテクチャは事前学習済みのViTsを活用することを妨げます。鳥類、魚類、昆虫、菌類、花、食品、自動車など、さまざまな領域からの十数のデータセットに対する広範な経験的研究によって、Prompt-CAMの優れた解釈能力が検証されています。
2025-01-16T07:07:41
Neural Honeytrace: A Robust Plug-and-Play Watermarking Framework against Model Extraction Attacks
http://arxiv.org/abs/2501.09328v2
Yixiao Xu, Binxing Fang, Rui Wang, Yinghai Zhou, Shouling Ji, Yuan Liu, Mohan Li, Zhihong Tian
Beijing University of Posts and Telecommunications, Guangzhou University, Zhejiang University
高性能の深層学習モデルの開発にはリソースが多くかかるため、モデル所有者はモデルを公開する代わりに機械学習をサービス(MLaaS)プラットフォームを利用する傾向にあります。しかし、悪意のあるユーザーはクエリインターフェイスを悪用し、ターゲットモデルの機能をローカルで再構築するモデル抽出攻撃を実行する可能性があります。これまでの研究では、所有権を主張するためのトリガブル・ウォーターマーキング手法が探求されてきましたが、既存の方法にはいくつかの重要な課題があります:(1) ほとんどのアプローチは追加のトレーニングを必要とし、高コストと限られた柔軟性をもたらします。また、(2) 彼らはしばしば高度な攻撃者を考慮せず、適応型攻撃に対して脆弱な状態にあります。本論文では、モデル抽出攻撃に対抗するための堅牢なプラグアンドプレイのウォーターマーキングフレームワークであるNeural Honeytraceを提案します。まず、情報理論的な観点からウォーターマーク伝送モデルを定式化し、既存のトリガブル・ウォーターマーキングの原則と制約を解釈可能な形で説明します。そのモデルに基づいて、さらに次の二つを紹介します:(1) プラグアンドプレイで柔軟なウォーターマーキングのための類似性に基づくトレーニング不要のウォーターマーキング手法、(2) 堅牢なウォーターマーキングのための分布に基づくマルチステップウォーターマーク情報伝達戦略。四つのデータセットに関する包括的な実験により、Neural Honeytraceが効率と適応型攻撃に対する抵抗力において従来の方法を上回ることが示されました。Neural Honeytraceは、悪化したケースにおけるt-Testに基づく著作権主張に必要なサンプルの平均数を$12,000$から$200$に削減し、トレーニングコストはゼロです。
2025-01-16T06:59:20
On Learning Informative Trajectory Embeddings for Imitation, Classification and Regression
http://arxiv.org/abs/2501.09327v2
Zichang Ge, Changyu Chen, Arunesh Sinha, Pradeep Varakantham
Southern Methodist University, Rutgers University
実世界の逐次的な意思決定タスク、例えば自動運転、ロボティクス、ヘルスケアにおいて、観測された状態-行動軌跡から学習することは、模倣、分類、クラスタリングなどのタスクにとって重要です。例えば、自動運転車は人間の運転行動を模倣しなければならず、ロボットやヘルス
2025-01-16T06:52:58
SOP-Agent: Empower General Purpose AI Agent with Domain-Specific SOPs
http://arxiv.org/abs/2501.09316v1
Anbang Ye, Qianran Ma, Jia Chen, Muqi Li, Tong Li, Fujiao Liu, Siqi Mai, Meichen Lu, Haitao Bao, Yang You
HPC-AI Tech, Grab Holdings Inc, National University of Singapore
一般目的のAIエージェントにおける重要な進展にもかかわらず、実世界のシナリオにおける実用的な応用を妨げるいくつかの課題があります。まず第一に、Large Language Models(LLM)の限られた計画能力により、AIエージェントは長期的な計画を必要とする複雑なタスクを効果的に解決することができません。第二に、一般目的のAIエージェントは、領域特有の知識や人間の専門知識を効率的に活用するのに苦労しています。本論文では、自然言語で記述された擬似コードスタイルの標準操作手順(SOP)を通じて領域特有のエージェントを構築するための新しいフレームワークである「標準操作手順指導エージェント(SOP-agent)」を導入します。形式的には、SOPを意思決定グラフとして表現し、そのグラフを辿ることでエージェントを導き、SOPによって指定されたタスクを遂行します。意思決定、検索と推論、コード生成、データクリーニング、実地カスタマーサービスなど、複数の領域におけるタスクに関して広範な実験を行いました。SOP-agentは優れた汎用性を示し、一般目的のエージェントフレームワークよりも優れた性能を達成し、ドメイン特有のエージェントシステムと同等の成果を上げています。さらに、SOPに基づくカスタマーサービスシナリオにおけるAIエージェントの基盤となる意思決定能力を評価するために設計された初のベンチマークである「グラウンデッドカスタマーサービスベンチマーク」を紹介します。
2025-01-16T06:14:58
Shape-Based Single Object Classification Using Ensemble Method Classifiers
http://arxiv.org/abs/2501.09311v1
Nur Shazwani Kamarudin, Mokhairi Makhtar, Syadiah Nor Wan Shamsuddin, Syed Abdullah Fadzli
今日、ますます多くの画像が利用可能になっています。画像の注釈付けと取得は分類問題を引き起こします。ここで各クラスは、共通の意味ラベルでラベル付けされたデータベース画像のグループとして定義されます。内容に基づく取得や画像分類、インデクシングのためにさまざまなシステムが提案されています。本論文では、意味的ギャップを効果的に埋め、マルチカテゴリ画像分類を達成するための階層的分類フレームワークが提案されました。また、画像セグメンテーション、物体識別、画像分類という三つの問題に対して、よく知られた前処理および後処理方法が使用されました。この方法は、AmazonおよびGoogleデータセットから単一の物体画像を分類するために適用されました。分類は、4つの異なる分類器、ベイズネットワーク(BN)、ランダムフォレスト(RF)、バギング、および投票を用いてテストされました。推定された分類精度は、10倍の交差検証を用いると20%から99%の範囲でした。バギング分類器が最も良いパフォーマンスを示し、次いでランダムフォレスト分類器が続きました。
2025-01-16T05:58:32
A Study of In-Context-Learning-Based Text-to-SQL Errors
http://arxiv.org/abs/2501.09310v1
Jiawei Shen, Chengcheng Wan, Ruoyi Qiao, Jiazhen Zou, Hang Xu, Yuchen Shao, Yueling Zhang, Weikai Miao, Geguang Pu
East China Normal University
大規模言語モデル(LLM)は、自然言語の質問を構造化クエリ言語(SQL)に翻訳するために、コンテキスト内学習(ICL)能力を利用してテキストからSQLへのタスクを実行するために採用されています。しかし、この手法は正確性の問題に直面しており、効率的な修正ソリューションが必要です。本論文では、テキストからSQLへのエラーに関する初の包括的研究を実施しました。我々の研究は、4つの代表的なICLベースの手法、5つの基本的な修正方法、2つのベンチマーク、2つのLLM設定をカバーしています。我々は、テキストからSQLへのエラーが広範に存在し、7つのカテゴリの29のエラータイプを要約しました。また、既存の修正試みは、大きな計算負荷と多くの誤修正を伴って限定的な正確性の向上しかもたらさないことを発見しました。この結果に基づき、我々はMapleRepairという新しいテキストからSQLへのエラー検出および修正フレームワークを提案します。評価の結果、MapleRepairは、誤修正を無視できる程度で13.8%多くのクエリを修正し、67.4%のオーバーヘッドを削減することで既存のソリューションを上回ることが示されました。
2025-01-16T05:54:59
Understanding Mental Health Content on Social Media and Its Effect Towards Suicidal Ideation
http://arxiv.org/abs/2501.09309v1
Mohaiminul Islam Bhuiyan, Nur Shazwani Kamarudin, Nur Hafieza Ismail
このレビューは、自殺の観念を持つ個人を特定し支援するための効果的な戦略の重要性を強調し、機械学習(ML)と深層学習(DL)の技術革新を活用して自殺防止の取り組みを進める必要性を示しています。この研究では、自殺思考に関連する言語パターン、キーワード、フレーズ、トーン、文脈の手がかりを検出するために、大量の非構造化ソーシャルメディアデータを分析する際のこれらの技術の適用について詳しく説明しています。サポートベクターマシン(SVM)、畳み込みニューラルネットワーク(CNN)、長短期記憶(LSTM)、ニューラルネットワークなどのさまざまなMLおよびDLモデルの効果、そしてテキストデータ内の複雑なデータパターンや感情的なニュアンスを解釈する能力が探求されています。このレビューは、デジタルトレースを通じてリスクのある個人を特定することによって、これらの技術が命を救うツールとして機能する可能性について論じています。さらに、実世界における効果、限界、および自殺防止のためにこれらの技術を利用する際の倫理的配慮を評価し、責任ある開発と使用の重要性を強調しています。研究は、この分野における最近の研究、方法論、ツール、技術を分析することによって、重要な知識のギャップを埋めることを目的としています。現在の文献を統合し、実用的なツールや自殺防止の取り組みに情報を提供する重要性を強調し、早期介入のための信頼できる倫理的システムの革新を促進します。この研究の統合は、技術とメンタルヘルスの交差点を評価し、ML、DL、および自然言語処理(NLP)の倫理的かつ責任ある適用を提唱し、世界中で命を救う可能性を提供しながら、一般化可能性、バイアス、プライバシーなどの課題や、これらの技術が既存の不平等や害を悪化させないことを確保するためのさらなる研究の必要性に対処します。
2025-01-16T05:46:27
To Retrieve or Not to Retrieve? Uncertainty Detection for Dynamic Retrieval Augmented Generation
http://arxiv.org/abs/2501.09292v1
Kaustubh D. Dhole
Emory University
リトリーバル拡張生成(Retrieval-Augmented Generation)は、大規模言語モデルに外部の知識を取得する能力を与え、モデルの内在的な能力を超えた情報を取り入れることで、幻覚(ハルシネーション)を緩和します。しかし、これまでの多くの研究は、決定論的にリトリーバルを呼び出すことに焦点を当てており、そのため長文の質問応答などのタスクには不向きです。代わりに、基盤となる大規模言語モデル(LLM)が必要な知識を欠いているときにのみリトリーバルを動的に呼び出す方が、より効率的です。この文脈において、「リトリーバルを行うべきか、行わざるべきか?」という問いを掘り下げ、複数の不確実性検出方法を探求しました。長文の質問応答タスクにおいて動的リトリーバルを用いて、これらの方法を評価し、比較結果を示します。我々の発見は、デグリーマトリックス・ジャカール(Degree Matrix Jaccard)やエccentricityなどの不確実性検出メトリクスが、質問応答の精度をわずかに低下させるだけで、リトリーバル呼び出しの回数をほぼ半分に減らすことができることを示唆しています。
2025-01-16T04:56:33
LAVCap: LLM-based Audio-Visual Captioning using Optimal Transport
http://arxiv.org/abs/2501.09291v1
Kyeongha Rho, Hyeongkeun Lee, Valentio Iverson, Joon Son Chung
KAIST, University of Waterloo
自動音声キャプション生成は、音声コンテンツに対するテキスト記述を生成するタスクであり、最近の研究ではキャプションの品質を向上させるために視覚情報の使用が探求されています。しかし、現在の手法は、音声データと視覚データを効果的に融合できず、各モダリティからの重要な意味的手がかりを見逃すことがよくあります。これに対処するために、視覚情報と音声を効果的に統合し、音声キャプションの性能を向上させる大規模言語モデル(LLM)に基づく音声・視覚キャプションフレームワーク「LAVCap」を紹介します。LAVCapは、音声と視覚の特徴間のモダリティギャップを埋めるために、最適輸送に基づく整合損失を採用し、より効果的な意味的抽出を可能にします。さらに、最適輸送割り当てマップを使用して音声・視覚の融合を強化する最適輸送注意モジュールを提案します。最適な訓練戦略と組み合わせて、実験結果は私たちのフレームワークの各コンポーネントが効果的であることを示しています。LAVCapは、AudioCapsデータセットで既存の最先端手法を上回り、大規模データセットや後処理に依存することなく優れた性能を発揮します。コードはhttps://github.com/NAVER-INTEL-Co-Lab/gaudi-lavcapで入手できます。
2025-01-16T04:53:29
SEAL: Entangled White-box Watermarks on Low-Rank Adaptation
http://arxiv.org/abs/2501.09284v2
Giyeong Oh, Saejin Kim, Woohyun Cho, Sangkyu Lee, Jiwan Chung, Dokyung Song, Youngjae Yu
最近、LoRAとその変種は、大規模な事前学習モデルのタスク特化型バージョンをトレーニングおよび共有するための事実上の戦略となっています。その理由は、効率性とシンプルさです。しかし、特にウォーターマークに基づく技術を通じたLoRAの重みの著作権保護の問題は、まだ十分に探求されていません。このギャップに対処するために、私たちはSEAL(LoRA重みにおけるセキュアなウォーターマーキング)を提案します。SEALは、LoRAの重みの間に非トレーニング可能な秘密の行列を埋め込むことで、所有権の主張に使えるパスポートの役割を果たします。次に、SEALは、追加の損失を伴うことなく、トレーニングを通じてこのパスポートをLoRAの重みと絡めます。そして、パスポートを隠した後に微調整された重みを配布します。SEALを適用する際、常識推論、テキスト/ビジュアル指示チューニング、テキストから画像への合成タスクにおいてパフォーマンスの劣化は観察されませんでした。私たちは、SEALが削除、難読化、曖昧さ攻撃など、さまざまな知られた攻撃に対して堅牢であることを示します。
2025-01-16T04:17:56
Text Semantics to Flexible Design: A Residential Layout Generation Method Based on Stable Diffusion Model
http://arxiv.org/abs/2501.09279v1
Zijin Qiu, Jiepeng Liu, Yi Xia, Hongtuo Qi, Pengkun Liu
AIに基づく住宅レイアウト設計における柔軟性は、依然として重要な課題です。従来の手法であるルールベースのヒューリスティックやグラフベースの生成は、柔軟性が欠けており、ユーザーからの substantialな設計知識を必要とすることがよくあります。これらの制限に対処するために、私たちは柔軟な住宅レイアウトを生成するためにStable Diffusionモデルに基づくクロスモーダル設計アプローチを提案します。この方法では、学習目的のために複数の入力タイプを提供し、ユーザーが境界とレイアウトの両方を指定できるようにします。自然言語を設計制約として組み込み、ControlNetを導入して、2つの異なる経路を通じて安定したレイアウト生成を可能にしています。また、設計の専門知識をナレッジグラフ内にカプセル化し、それを自然言語に翻訳するスキームを提示し、設計知識の可視化された表現を提供します。この理解しやすさと入力オプションの多様性により、専門家と非専門家が直接設計要件を表現できるようになり、柔軟性と制御性が向上します。最後に、実験により、提案された方法の柔軟性が最先端のモデルよりもマルチモーダル制約下でより優れていることが確認されました。特定の部屋の面積や接続に関する意味情報が不完全であってもです。
2025-01-16T03:57:38
Large Language Model is Secretly a Protein Sequence Optimizer
http://arxiv.org/abs/2501.09274v2
Yinkai Wang, Jiaxing He, Yuanqi Du, Xiaohui Chen, Jianan Canal Li, Li-Ping Liu, Xiaolin Xu, Soha Hassoun
Tufts University, Northeastern University, Cornell University, UC Berkeley
私たちは、与えられた野生型配列から高い適合度を持つタンパク質配列を見つけることを目的としたタンパク質配列工学の問題を考えます。指向的進化は、この分野で支配的な概念であり、変異体を生成し、実験的フィードバックを通じて選択する反復プロセスを持っています。私たちは、大規模言語モデル(LLM)が、大量のテキストで訓練されているにもかかわらず、実はタンパク質配列の最適化者であることを示します。指向的進化的手法を用いることで、LLMはパレート最適化および実験予算制約の下でタンパク質工学を実行することができ、合成および実験的適合度の両方の風景において成功を収めていることを示しています。
2025-01-16T03:44:16
Perspective Transition of Large Language Models for Solving Subjective Tasks
http://arxiv.org/abs/2501.09265v1
Xiaolong Wang, Yuanchi Zhang, Ziyue Wang, Yuzhuang Xu, Fuwen Luo, Yile Wang, Peng Li, Yang Liu
Tsinghua University, Jiuquan Satellite Launch Center, Harbin Institute of Technology, Shenzhen University, Institute for AI Industry Research
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、さまざまなタスクにおいて目覚ましい進展を遂げました。常識推論や算数の質問応答といった客観的なタスクとは異なり、LLMの主観的なタスクに対する性能はまだ限られており、特定の問題に対する視点が文脈をより良く解釈し、適切な応答を与えるために重要な役割を果たします。例えば、特定のシナリオにおいて、LLMは専門家の視点から回答する際により良い結果を出すことがあり、関連するドメイン知識を引き出す可能性があります。対照的に、他のシナリオでは、LLMは第三者の立場から回答することにより、問題をより包括的に理解し、内在するバイアスを緩和することで、より正確な応答を提供できることがあります。本論文では、主観的な問題を解決するための最適な方法として、LLMが直接的、役割、第三者の視点の中から動的に選択できることを可能にする、文脈内学習に基づく「視点転換を通じた推論(RPT)」という方法を提案します。GPT-4、GPT-3.5、Llama-3、Qwen-2を含むクローズドソースおよびオープンソースのLLMを使用した合計12の主観的タスクにおける広範な実験を通じて、我々の方法は、チェイン・オブ・ソート・プロンプティングや専門家プロンプティングといった広く使用される単一の固定視点に基づく方法を上回ることを示し、LLMが異なる問題に対してニュアンスのある、文脈に適した応答を提供するためにどのように視点を適応させることができるかを明らかにしています。
2025-01-16T03:30:47
Clone-Robust AI Alignment
http://arxiv.org/abs/2501.09254v1
Ariel D. Procaccia, Benjamin Schiffer, Shirley Zhang
Harvard University
大規模言語モデル(LLM)を訓練する際の重要な課題は、人間の好みにきちんと合わせることです。人間のフィードバックを用いた強化学習(RLHF)は、人間のアノテータからのペアごとの比較を使用して報酬関数を訓練し、人気のあるアラインメント手法として定着しています。しかし、RLHFの入力データセットは、含まれる質問と回答の種類が必ずしも均等にバランスが取れているわけではありません。したがって、RLHFアルゴリズムが選択肢のセットが均等に分布していない場合でもうまく機能することを望んでいます。社会的選択理論から得た洞察を基にして、近似クローンに対するロバスト性という、RLHFアルゴリズムの望ましい特性を提案します。これは、ほぼ重複する選択肢を追加しても学習された報酬関数が大きく変化しないことを要求します。まず、標準的なRLHFアルゴリズムがこの特性を満たさないことを示します。次に、他の選択肢との類似性に基づいて選択肢に重みを付けることによって、標準的な正則化最尤推定(MLE)を修正する新しいRLHFアルゴリズム、重み付きMLEを提案します。この新しいアルゴリズムは、望ましい理論的特性を保持しつつ、近似クローンに対するロバスト性を保証します。
2025-01-16T02:43:44
AI-based Identity Fraud Detection: A Systematic Review
http://arxiv.org/abs/2501.09239v1
Chuo Jun Zhang, Asif Q. Gill, Bo Liu, Memoona J. Anwar
University of Technology Sydney
デジタルサービスの急速な発展により、大量の個人識別情報(PII)がオンラインに保存され、アイデンティティ詐欺などのサイバー攻撃の対象となっています。最近では、人工知能(AI)を利用したディープフェイク技術の使用が、アイデンティティ詐欺の複雑さを大幅に増加させました。詐欺師はこれらの技術を使用して、高度に洗練された偽の個人識別文書、写真、ビデオを作成する可能性があります。アイデンティティ詐欺の状況の進展は、アイデンティティ詐欺の検出と社会全体にとって課題をもたらしています。アイデンティティ詐欺の検出方法、その限界、潜在的な解決策を見直し、理解する必要性が高まっています。本研究は、広く知られた体系的文献レビュー法を用いて、この重要なニーズに対処することを目的としています。この論文では、4つの主要な学術文献データベースから選ばれた43本の論文をレビューしました。特に、レビュー結果はアイデンティティ詐欺の予防と検出方法の2つのタイプ、深い課題とオープンな課題を強調しています。結果は、AIに基づくアイデンティティ詐欺の検出と予防方法の分類に統合され、主要な洞察と傾向が含まれています。全体として、この論文は研究者や実務家にとって、デジタルアイデンティティ詐欺という重要な分野でのさらなる研究と開発のための基盤知識を提供しています。
2025-01-16T01:52:30
Foundations of Large Language Models
http://arxiv.org/abs/2501.09223v1
Tong Xiao, Jingbo Zhu
これは大規模言語モデルに関する本です。タイトルが示すように、この本は最先端技術の包括的なカバーよりも、基本的な概念に主に焦点を当てています。書籍は、事前学習、生成モデル、プロンプティング技術、およびアラインメント手法という4つの主要な章に構成されており、各章が重要な分野を探求しています。これは、大学生、専門家、自然言語処理や関連分野の実務家を対象としており、大規模言語モデルに興味のある人々にとっての参考資料としても利用できます。
2025-01-16T01:03:56
Interpretable Droplet Digital PCR Assay for Trustworthy Molecular Diagnostics
http://arxiv.org/abs/2501.09218v1
Yuanyuan Wei, Yucheng Wu, Fuyang Qu, Yao Mu, Yi-Ping Ho, Ho-Pui Ho, Wu Yuan, Mingkun Xu
正確な分子定量は、感染症、癌生物学、遺伝疾患などの分野における研究と診断の進展に不可欠です。ドロップレットデジタルPCR(ddPCR)は、絶対定量を達成するためのゴールドスタンダードとして浮上しています。計算機ddPCR技術は大きく進歩しましたが、自動解釈を達成し、さまざまな運用環境での一貫した適応性を保つことは依然として課題です。これらの制限に対処するために、我々は、ドロップレットのセグメンテーションと分類のためのフロントエンド予測モデルと、文脈を考慮した説明と推奨のためのGPT-4のマルチモーダル大規模言語モデル(MLLM)を統合した、情報提供可能な知的ドロップレットデジタルPCR(I2ddPCR)アッセイを紹介します。このアプローチは、最先端のモデルを超え、300個以上のドロップレットを含む複雑なddPCR画像を処理する際に99.05%の精度を達成します。この精度は、さまざまな信号対雑音比(SNR)を持つ画像においても同様です。専門的なニューラルネットワークと大規模言語モデルを組み合わせることで、I2ddPCRアッセイは、90.32コピー/{\mu}Lのような低濃度のターゲットを検出できる感度を持つ、堅牢かつ適応可能な絶対分子定量ソリューションを提供します。さらに、詳細な説明とトラブルシューティングガイダンスを通じてモデルの透明性を向上させ、ユーザーが情報に基づいた意思決定を行えるようにします。この革新的なフレームワークは、分子診断、疾患研究、臨床応用、特にリソースが制約された環境で恩恵をもたらす可能性があります。
2025-01-16T00:33:17
Adaptive Law-Based Transformation (ALT): A Lightweight Feature Representation for Time Series Classification
http://arxiv.org/abs/2501.09217v1
Marcell T. Kurbucz, Balázs Hajós, Balázs P. Halmos, Vince Á. Molnár, Antal Jakovác
Wigner Research Centre for Physics, Corvinus University of Budapest, Eötvös Loránd University, Tampere University
時系列分類(TSC)は、金融、医療、環境モニタリングなどのさまざまな分野で基本的な役割を果たしています。しかし、従来のTSC手法は、時系列データの固有の複雑さや変動性に苦労することがよくあります。 key data patternsに基づいて特徴空間を変換することで分類精度を向上させた線形法則に基づく変換(LLT)に関する以前の研究に基づき、適応法則に基づく変換(ALT)を導入します。ALTは可変長のシフトウィンドウを取り入れることでLLTを強化し、異なる長さの区別可能なパターンを捉え、より複雑な時系列を効果的に処理できるようにします。特徴を線形に分離可能な空間にマッピングすることで、ALTは迅速で堅牢かつ透明性のあるソリューションを提供し、わずか数個のハイパーパラメータで最先端の性能を達成します。
2025-01-16T00:33:01