2025-01-16 arXiv論文リスト(cs.AI)

About

arXivに掲載されたcs.AIの論文を検索し、一部をリスト化したものです。

※AIによってAbstractを日本語に翻訳しており、内容に誤りがある可能性があります。

リスト件数: 69件

リストから抽出されたキーワード: Trajectory Prediction, Reinforcement Learning, Multimodal Integration

ASTRA: A Scene-aware TRAnsformer-based model for trajectory prediction

http://arxiv.org/abs/2501.09878v1

Izzeddin Teeti, Aniket Thomas, Munish Monga, Sachin Kumar, Uddeshya Singh, Andrew Bradley, Biplab Banerjee, Fabio Cuzzolin

Oxford Brookes University, Indian Institute of Technology Bombay

私たちは、シーンに基づいたトランスフォーマーモデルであるASTRA(A Scene-aware TRAnsformer-based model for trajectory prediction)を紹介します。これは、シーンコンテキスト、空間ダイナミクス、エージェント間の社会的相互作用、時間の進行を統合して、精度の高い予測を行う軽量な歩行者の軌道予測モデルです。私たちは、潜在ベクタ表現を通じてシーン表現をキャプチャするためにU-Netベースの特徴抽出器を利用し、社会的相互作用を捉えるためのグラフ対応トランスフォーマーエンコーダを使用しています。これらのコンポーネントは、エージェントとシーンに気づいた埋め込みを学習するために統合され、モデルが空間ダイナミクスを学習し、歩行者の未来の軌道を予測できるようにしています。モデルは、決定論的および確率的な結果の両方を生成できるように設計されており、確率的な予測は条件付き変分オートエンコーダ(CVAE)を取り入れることによって生成されます。ASTRAはまた、さまざまな最先端の決定論的および生成モデルを上回る予測を生み出すのに役立つシンプルで効果的な重み付きペナルティ損失関数を提案しています。ASTRAは、ETH-UCYデータセット決定論的/確率的設定で平均27%/10%の改善を示し、PIEデータセットでは26%の改善を達成しました。また、既存の最先端モデルと比べてパラメータ数が7倍少ないという特徴も持っています(図1を参照)。さらに、このモデルの汎用性により、鳥瞰図(BEV)や自車視点(EVV)などのさまざまな視点にわたって一般化することができます。

2025-01-16T23:28:30


From Explainability to Interpretability: Interpretable Policies in Reinforcement Learning Via Model Explanation

http://arxiv.org/abs/2501.09858v1

Peilang Li, Umer Siddique, Yongcan Cao

深層強化学習(RL)は複雑な領域において顕著な成功を収めていますが、深層ニューラルネットワークポリシーの固有のブラックボックス的性質は、意思決定プロセスを理解し信頼する上で重大な課題を引き起こします。既存の説明可能なRL手法は局所的な洞察を提供しますが、特に高リスクなアプリケーションにおいてモデルの全体的な理解を提供することができません。この限界を克服するために、私たちはShapley値を活用して複雑な深層RLポリシーを透明な表現に変換することで、説明性と解釈性の間のギャップを埋める新しいモデル非依存型アプローチを提案します。提案するアプローチは、二つの重要な貢献を提供します:局所的な説明を超えたポリシー解釈にShapley値を使用する新しい方法と、オフポリシーおよびオンポリシーアルゴリズムに適用可能な一般的なフレームワークです。私たちは、3つの既存の深層RLアルゴリズムを用いてアプローチを評価し、2つの古典的な制御環境におけるその性能を検証します。結果は、私たちのアプローチが元のモデルのパフォーマンスを維持するだけでなく、より安定した解釈可能なポリシーを生成することを示しています。

2025-01-16T22:11:03


CrossModalityDiffusion: Multi-Modal Novel View Synthesis with Unified Intermediate Representation

http://arxiv.org/abs/2501.09838v1

Alex Berian, Daniel Brignac, JhihYang Wu, Natnael Daba, Abhijit Mahalanobis

University of Arizona

地理空間イメージングは、地上ドローンから衛星ビューまでのさまざまなセンサー方式、例えば地球観測(EO)、合成開口レーダー(SAR)、およびライダー(LiDAR)からのデータを活用しています。これらの異種の入力はシーン理解に対して重要な機会を提供しますが、特に正確な地上真実データがない場合には、幾何学を正しく解釈することにおいて課題があります。これに対処するために、私たちはCrossModalityDiffusionを提案します。これは、シーンの幾何学についての事前知識がなくても、異なるモダリティや視点から画像を生成するために設計されたモジュラーフレームワークです。CrossModalityDiffusionは、複数の入力画像を受け取り、入力カメラの位置に対するシーン構造をエンコードした幾何学に配慮した特徴ボリュームを生成するモダリティ固有のエンコーダーを使用します。特徴ボリュームが置かれるスペースは、入力モダリティを統合するための共通の基盤として機能します。これらの特徴ボリュームは重なり合い、新たな視点からボリュメトリックレンダリング技術を使用して特徴画像としてレンダリングされます。レンダリングされた特徴画像は、目的の出力モダリティに対して新しい画像を合成するためのモダリティ固有の拡散モデルへの条件付け入力として使用されます。この論文では、異なるモジュールを共同でトレーニングすることで、フレームワーク内のすべてのモダリティにわたる一貫した幾何学的理解が保証されることを示します。私たちは、合成ShapeNet自動車データセット上でCrossModalityDiffusionの能力を検証し、複数のイメージングモダリティと視点にわたる正確で一貫した新しいビューの生成におけるその効果を実証します。

2025-01-16T20:56:32


Bridging Language Barriers in Healthcare: A Study on Arabic LLMs

http://arxiv.org/abs/2501.09825v1

Nada Saadi, Tathagata Raha, Clément Christophe, Marco AF Pimentel, Ronnie Rajan, Praveen K Kanithi

本論文では、多言語理解と医療知識に熟達した大規模言語モデル(LLMs)を開発する上での課題を調査します。単に医療データを翻訳するだけでは、対象言語での臨床タスクで強力なパフォーマンスを保証するものではないことを示します。我々の実験では、トレーニングデータにおける最適な言語混合比は、異なる医療タスクごとに大きく異なることが明らかになりました。慎重にキャリブレーションされた言語比を持つ大規模モデルが、母国語の臨床タスクで優れたパフォーマンスを達成することがわかりました。さらに、我々の結果は、ファインチューニングのみを頼りにすることは、LLMsに新しい言語知識を組み込む最も効果的なアプローチではない可能性があることを示唆しています。むしろ、データと計算集約型の前処理方法が、多言語医療環境における最適なパフォーマンスを達成するために依然として必要であるかもしれません。これらの発見は、多様な言語コミュニティに対して効果的で包括的な医療AIシステムを構築するための貴重な指針を提供します。

2025-01-16T20:24:56


Generalized Single-Image-Based Morphing Attack Detection Using Deep Representations from Vision Transformer

http://arxiv.org/abs/2501.09817v1

Haoyu Zhang, Raghavendra Ramachandra, Kiran Raja, Christoph Busch

Norwegian University of Science and Technology, Darmstadt University of Applied Sciences

フェイスモーフィング攻撃は、国境管理やパスポート発行の使用ケースで運用される顔認識システム(FRS)に対して重大な脅威をもたらしています。それに対応して、こうした攻撃に対抗するためのモーフィング攻撃検出アルゴリズム(MAD)が必要です。MADアプローチは、攻撃がさまざまなモーフィング生成アルゴリズム、後処理、プリンター/スキャナーの多様性から発生するオープンセットシナリオにおいて、未知の攻撃に対処できるだけの堅牢性を備えている必要があります。特に、検出が単一の疑わしい画像に基づいて行われる場合、一般化の問題はさらに顕著になります。本稿では、Vision Transformer(ViT)アーキテクチャからのエンコーディングを学習することにより、一般化された単一画像ベースのMAD(S-MAD)アルゴリズムを提案します。CNNベースのアーキテクチャと比較して、ViTモデルは局所情報と全体情報を統合する利点があるため、顔領域に広く分布したモーフィングの痕跡を検出するのに適しています。公に利用可能なFRGC顔データセットを用いて生成されたフェイスモーフィングデータセットに対して広範な実験が実施されました。公に評価された代表的なものを含むいくつかの最先端(SOTA)MADアルゴリズムが選定され、私たちのViTベースのアプローチとベンチマークが行われました。得られた結果は、異なるデータがトレーニングとテストに使用されるインターデータセットテストにおいて提案したS-MAD手法の検出性能が向上し、同じデータがトレーニングとテストに使用されるイントラデータセットテストにおいて比較可能な性能を示すことを証明しています。

2025-01-16T20:09:19


Enhancing Generalization in Chain of Thought Reasoning for Smaller Models

http://arxiv.org/abs/2501.09804v1

Maxwell J. Yin, Dingyi Jiang, Yongbing Chen, Boyu Wang, Charles Ling

Western University, Wenzhou Academy of Agricultural Sciences

小型言語モデルにおける連鎖思考(CoT)推論は、自然言語処理の難しい問題でありながら、多くの実際のアプリケーションで非常に望まれています。既存のCoT知識蒸留法は、大型言語モデル(LLM)の小型版において過度に保守的な暗記に悩まされ、一般化の信頼性が低下することが多いです。教師モデルのCoT能力を完全に保持することは不可能であるため、私たちは、対抗的なCoTファインチューニングが、堅牢なCoT一般化を持つ小型LLMの開発にとって重要であると仮定します。この目的のために、私たちは、さまざまなCoTドメインを統合した原則的なファインチューニングフレームワークである「PRompt-Assisted Domain-Adversarial fine-tuning」(PRADA)を提案します。具体的には、PRADAは小型LLMにおける二つのCoT改善を先駆けます:(1)通常は蒸留中に失われるドメイン不変特徴の洞察を、ドメイン対抗ファインチューニングを通じて回復すること;(2)ドメイン対抗アプローチを用いることにより、CoTプロンプトエンジニアリングのドメイン適応性を強化することです。私たちは理論的に私たちのアプローチの効果を示し、幅広いタスクにおいて従来の最先端技術を大きく上回ることを実証します。さらに、私たちの実証的な発見は、PRADAを利用することで小型LLMがドメイン知識と密接に整合し、その結果、私たちのアプローチの説明可能性が向上することを明らかにしています。

2025-01-16T19:23:11


Learnings from Scaling Visual Tokenizers for Reconstruction and Generation

http://arxiv.org/abs/2501.09755v1

Philippe Hansen-Estruch, David Yan, Ching-Yao Chung, Orr Zohar, Jialiang Wang, Tingbo Hou, Tao Xu, Sriram Vishwanath, Peter Vajda, Xinlei Chen

University of Texas, None

視覚トークン化はオートエンコーディングを通じて、ピクセルを潜在空間に圧縮することで、最先端の画像およびビデオ生成モデルを強化します。トランスフォーマーベースのジェネレーターのスケーリングは最近の進展の中心である一方で、トークナイザーコンポーネント自体はほとんどスケーリングされておらず、オートエンコーダーの設計選択が再構築の目的と下流の生成性能にどのように影響するかについての疑問が残っています。本研究は、オートエンコーダーのスケーリングを探求し、この空白を埋めることを目指しています。この探求を促進するために、典型的な畳み込みバックボーンを強化されたビジョントランスフォーマーアーキテクチャであるトークン化のためのViTokに置き換えました。ViTokを大規模な画像およびビデオデータセットで訓練し、ImageNet-1Kをはるかに超えるデータセットトークナイザーのスケーリングに対するデータの制約を取り除きました。最初に、オートエンコーダーのボトleneckのスケーリングが再構築と生成に与える影響を研究し、再構築と非常に相関している一方で、生成との関係はより複雑であることを発見しました。次に、オートエンコーダーエンコーダーデコーダーを別々にスケーリングした場合の再構築と生成性能への影響を調べました。重要なことに、エンコーダーのスケーリングは再構築または生成のいずれに対しても最小限の利益しかもたらさないのに対し、デコーダーのスケーリングは再構築を向上させるが、生成に対する利益は混合的であることがわかりました。私たちの探求を基に、ViTokを軽量オートエンコーダーとして設計し、ImageNet-1KおよびCOCOの再構築タスク(256pおよび512p)で最先端のオートエンコーダーと競争力のある性能を達成し、16フレーム128pのUCF-101ビデオ再構築で既存のオートエンコーダーを上回る結果を得ながら、2-5倍少ないFLOPで実現しました。Diffusion Transformersと統合すると、ViTokはImageNet-1Kの画像生成で競争力のある性能を示し、UCF-101のクラス条件付きビデオ生成において新しい最先端のベンチマークを設定します。

2025-01-16T18:59:04


OmniThink: Expanding Knowledge Boundaries in Machine Writing through Thinking

http://arxiv.org/abs/2501.09751v1

Zekun Xi, Wenbiao Yin, Jizhan Fang, Jialong Wu, Runnan Fang, Ningyu Zhang, Jiang Yong, Pengjun Xie, Fei Huang, Huajun Chen

機械による執筆は、大規模言語モデルを用いたリトリーバル強化生成に依存することがよくあります。しかし、これらのアプローチはモデルの事前定義された範囲内に制限されており、豊かな情報を持つコンテンツの生成が制約されています。具体的には、通常のリトリーブされた情報は深さや有用性に欠け、冗長性が生じるため、生成された記事の質に悪影響を及ぼし、浅く、反復的で、独創性に欠ける出力につながります。これらの問題を解決するために、私たちはOmniThinkという機械執筆フレームワークを提案します。これは、人間のような反復的拡張と反省のプロセスを模倣するものです。OmniThinkの根本的なアイデアは、学習者の認知行動をシミュレートし、トピックに関する知識を徐々に深めていくことにあります。実験結果は、OmniThinkが生成された記事の知識密度を向上させることを示しており、整合性や深さといった指標を損なうことなく達成されています。人間による評価と専門家のフィードバックは、長編記事の生成における実世界の課題を解決するためのOmniThinkの可能性をさらに強調しています。

2025-01-16T18:58:06


KU AIGEN ICL EDI@BC8 Track 3: Advancing Phenotype Named Entity Recognition and Normalization for Dysmorphology Physical Examination Reports

http://arxiv.org/abs/2501.09744v1

Hajung Kim, Chanhwi Kim, Jiwoong Sohn, Tim Beck, Marek Rei, Sunkyu Kim, T Ian Simpson, Joram M Posma, Antoine Lain, Mujeen Sung, Jaewoo Kang

BioCreative8 Track 3の目的は、EHRテキストに埋め込まれた表現型に関する重要な医療発見を抽出し、これらの発見をヒト表現型オントロジー(HPO)の用語に正規化することです。しかし、表現型の発見にさまざまな表現形式が存在するため、それらを正確に正しいHPO用語に正規化することは難しいです。この課題に対処するために、さまざまな命名された実体認識モデルを探索し、同義語のマージナリゼーションなどのデータ拡張技術を実装して、正規化ステップを強化しました。私たちのパイプラインは、抽出と正規化のF1スコアが挑戦に対して受け取ったすべての提出物の平均スコアよりも2.6%高くなる結果をもたらしました。さらに、正規化F1スコアに関しては、私たちのアプローチは平均のパフォーマンスを1.9%上回りました。これらの発見は、自動医療データの抽出と正規化技術の進展に寄与し、バイオメディカルドメインでの将来の研究と応用の可能性を示しています。

2025-01-16T18:53:32


Parallel multi-objective metaheuristics for smart communications in vehicular networks

http://arxiv.org/abs/2501.09725v1

Jamal Toutouh, Enrique Alba

この記事では、車両ネットワークのためのAd hoc On-Demand Vectorルーティングプロトコルの高品質な設定を自動的に検索するために、2つの並列マルチオブジェクティブソフトコンピューティングアルゴリズムの使用を分析しています。これらの手法は、進化的アルゴリズムと群知能アプローチに基づいています。実験分析は、私たちの最適化アルゴリズムによって計算された構成が、他の最新の最適化されたものを上回ることを示しています。その結果、すべての並列バージョンによる計算効率は87%を超えています。したがって、この記事で紹介されている作業の流れは、車両通信を改善するための効率的なフレームワークを提示しています。

2025-01-16T18:16:34


A Simple Aerial Detection Baseline of Multimodal Language Models

http://arxiv.org/abs/2501.09720v1

Qingyun Li, Yushi Chen, Xinya Shu, Dong Chen, Xin He, Yi Yu, Xue Yang

Harbin Institute of Technology, Southeast University, Shanghai Jiao Tong University

生成的事前学習トランスフォーマーに基づく多モーダル言語モデルMLM)は、さまざまなドメインやタスクを統一するための強力な候補と見なされています。遠隔センシング(RS)用に開発されたMLMは、視覚的質問応答や視覚的基盤など、複数のタスクで優れた性能を示しています。指定された指示に対応する特定の物体を検出する視覚的基盤に加えて、複数のカテゴリのすべての物体を検出する航空検出は、RS基盤モデルにとっても価値があり挑戦的なタスクです。しかし、航空検出は、MLMの自回帰予測メカニズムが検出出力とは大きく異なるため、既存のRS MLMによっては探求されていません。この論文では、航空検出にMLMを初めて適用するためのシンプルなベースライン、LMMRotateを提案します。具体的には、まず検出出力をテキスト出力に変換し、MLMフレームワークと互換性を持たせる正規化手法を導入します。その後、MLMと従来の物体検出モデルとの公平な比較を保証する評価手法を提案します。オープンソースの汎用MLMをファインチューニングすることによってベースラインを構築し、従来の検出器に匹敵する印象的な検出性能を達成しました。このベースラインが、将来のMLM開発のための参考となり、RS画像を理解するためのより包括的な能力を可能にすることを期待しています。コードはhttps://github.com/Li-Qingyun/mllm-mmrotateで入手可能です。

2025-01-16T18:09:22


CyberMentor: AI Powered Learning Tool Platform to Address Diverse Student Needs in Cybersecurity Education

http://arxiv.org/abs/2501.09709v1

Tianyu Wang, Nianjun Zhou, Zhixiong Chen

Mercy University, IBM Research AI, T.J. Watson Research Center

サイバーセキュリティプログラムの多くの非伝統的な学生は、同輩、家族、教授からのアドバイスへのアクセスが不足しており、これが彼らの教育経験を妨げる可能性があります。さらに、これらの学生は、コンテンツの関連性、アドバイスの地域性、最低限の専門知識、タイミングなどの問題により、さまざまなLLMを活用したAIアシスタントから十分に恩恵を受けられないかもしれません。本論文では、これらの課題に対処するために、学生のニーズに合わせた知識、スキル、およびキャリア準備に関する質問に答える包括的なサポートを提供するアプリケーションを紹介します。私たちは、サイバーセキュリティ専攻の学生の多様なニーズと痛点に対処するための学習ツールプラットフォーム「CyberMentor」を開発しました。エージェンティックワークフローと生成的巨大言語モデル(LLM)を利用し、プラットフォームは検索拡張生成(RAG)を活用して、正確で文脈に即した情報検索を実現し、アクセシビリティとパーソナライズを向上させます。私たちは、このシステムがサイバーセキュリティ教育における知識要件に対処し、キャリア市場性におけるスキル要件の取り組み、分析およびプログラミング課題に関するサポートを提供し、リアルタイムでの学習支援を提供する上での価値を実証しました。三つの使用シナリオを通じて、CyberMentorが知識取得やキャリア準備を促進し、シームレスなスキルベースのガイダンスとサポートを提供する様子を示しました。また、LangChainのプロンプトベースの評価手法を使ってプラットフォームの影響を評価し、有用性、正確性、完全性において高いパフォーマンスを確認しました。これらの結果は、システムが実践的なサイバーセキュリティスキルの開発を支援し、高等教育における公平性と持続可能性を向上させる能力を強調しています。さらに、CyberMentorのオープンソース設計は、他の学問分野への適応を可能にし、教育革新を促進し、その潜在的な影響を広げることができます。

2025-01-16T18:00:06


The Goofus & Gallant Story Corpus for Practical Value Alignment

http://arxiv.org/abs/2501.09707v1

Md Sultan Al Nahian, Tasmia Tasrin, Spencer Frazier, Mark Riedl, Brent Harrison

University of Kentucky, Georgia Institute of Technology

価値観や原則は、人間社会の重要な要素であり、人々が社会秩序を維持するために受け入れられた社会的ルールの標準に従って行動し機能するように影響を与えます。AIシステムが人間社会に普及するにつれて、これらの規範や価値に違反し、潜在的に害を及ぼす可能性があることが大きな懸念となっています。したがって、意図的または意図しない害を防ぐために、AIシステムはこれらの原則に合致した行動をとることが期待されています。このような行動を示すようにトレーニングすることは難しく、しばしば専門的なデータセットを必要とします。この研究は、自然言語と芸術的画像を通じて説明された現実の状況における規範的および非規範的行動を示すマルチモーダルデータセットを提示します。このトレーニングセットは、若い子供たちに社会的原則を教えるために設計されたキュレーションされた画像のセットを含んでいます。この事実を考慮すると、これは社会的に規範的なエージェントをトレーニングするための理想的なデータセットであると主張します。

2025-01-16T17:58:58


Practical Continual Forgetting for Pre-trained Vision Models

http://arxiv.org/abs/2501.09705v1

Hongbo Zhao, Fei Zhu, Bolin Ni, Feng Zhu, Gaofeng Meng, Zhaoxiang Zhang

State Key Laboratory of Multimodal Artificial Intelligence Systems, Institute of Automation, Chinese Academy of Sciences, University of Chinese Academy of Sciences, Centre for Artificial Intelligence and Robotics, Hong Kong Institute of Science & Innovation, SenseTime Research

プライバシーとセキュリティの懸念から、事前訓練されたビジョンモデルから不要な情報を消去する必要性が、近年明らかになっています。現実のシナリオでは、消去リクエストはユーザーやモデルの所有者からいつでも発生し、これらのリクエストは通常、一連のものになります。このような設定の下では、残りの部分を維持しながら、選択的な情報が継続的に事前訓練されたモデルから削除されることが期待されます。この問題を連続的忘却(Continual Forgetting)と定義し、三つの重要な課題を特定します。(i) 不要な知識に対して、効率的で効果的な削除が重要です。(ii) 残った知識に対して、忘却プロセスによってもたらされる影響は最小限であるべきです。(iii) 現実のシナリオでは、忘却プロセスの間、訓練サンプルが不足していたり部分的に欠落している場合があります。それらに取り組むために、最初にグループスパースLoRA(GS-LoRA)を提案します。具体的には、(i) に向けて、各忘却タスクに対してTransformerブロック内のFFN層を微調整するためにLoRAモジュールを導入し、(ii) に向けて、特定のLoRAグループを自動的に選択し、他のグループをゼロにするシンプルなグループスパース正則化を採用します。GS-LoRAをより実用的なシナリオに拡張するために、プロトタイプ情報を追加の監視として取り入れ、より実用的なアプローチであるGS-LoRA++を導入します。忘却される各クラスについて、ロジットをその元のプロトタイプから遠ざけます。残りのクラスについては、ロジットをそれぞれのプロトタイプに近づけます。顔認識、物体検出、画像分類に関する広範な実験を行い、私たちの方法が他のクラスへの影響を最小限に抑えながら特定のクラスを忘れることができることを示します。コードは https://github.com/bjzhb666/GS-LoRA に公開されています。

2025-01-16T17:57:53


Cueless EEG imagined speech for subject identification: dataset and benchmarks

http://arxiv.org/abs/2501.09700v1

Ali Derakhshesh, Zahra Dehghanian, Reza Ebrahimpour, Hamid R. Rabiee

Sharif University of Technology, Institute for Convergence Science and Technology (ICST)

脳波計EEG)信号は、生体認証の有望なモダリティとして浮上しています。これまでの研究では、意味的に有意義な単語を用いた想像されたスピーチによる被験者の識別が探求されてきましたが、ほとんどは追加の視覚的または聴覚的手がかりに依存していました。本研究では、外部の手がかりなしに意味的に有意義な単語の発音を想像するという、手がかりのないEEGベースの想像されたスピーチパラダイムを紹介します。この革新的なアプローチは、被験者が事前に定義されたリストから単語を自然に選択し、想像することを要求することで、従来の方法の限界に対処しています。データセットは、5回のセッションにわたり11人の被験者からの4,350以上のトライアルで構成されています。我々は、サポートベクターマシンSVM)やXGBoostのような従来の機械学習技術に加えて、EEG分類専用に設計された時系列基盤モデルや深層学習アーキテクチャEEG ConformerやShallowConvNetなど)を含むさまざまな分類方法を評価します。信頼性のある評価を確保し、データリークを防ぐために、セッションベースのホールドアウト検証戦略が採用されました。我々の結果は、97.93%という優れた分類精度を示しています。これらの成果は、脳-コンピュータインターフェース(BCI)などの実世界のアプリケーションにおける安全で信頼性のある被験者識別のための手がかりのないEEGパラダイムの可能性を強調しています。

2025-01-16T17:54:56


Towards Large Reasoning Models: A Survey on Scaling LLM Reasoning Capabilities

http://arxiv.org/abs/2501.09686v2

Fengli Xu, Qianyue Hao, Zefang Zong, Jingwei Wang, Yunke Zhang, Jingyi Wang, Xiaochong Lan, Jiahui Gong, Tianjian Ouyang, Fanjin Meng, Chenyang Shao, Yuwei Yan, Qinglong Yang, Yiwen Song, Sijian Ren, Xinyuan Hu, Yu Li, Jie Feng, Chen Gao, Yong Li

Tsinghua University, HKUST (GZ), Emory University

言語は人間の推論にとって不可欠なツールとして長い間考えられてきました。大規模言語モデル(LLM)の革新は、これらのモデルを活用して複雑な推論タスクに取り組むことへの重要な研究関心を呼び起こしました。研究者たちは、自動回帰トークン生成の単純な手法を超え、「思考」という概念を導入しました。これは、推論過程における中間ステップを表すトークンのシーケンスです。この革新的なパラダイムにより、LLMは木検索や反射的思考など、複雑な人間の推論プロセスを模倣できるようになります。最近、推論を学習する新たな傾向が強化学習(RL)を適用して、LLMを訓練し推論プロセスを習得させることが行われています。このアプローチにより、試行錯誤の検索アルゴリズムを通じて高品質な推論軌跡を自動生成でき、十分に多くのトレーニングデータを提供することでLLMの推論能力が大幅に拡大されます。さらに、最近の研究では、テスト時推論中にLLMがより多くのトークンで「考える」ことを奨励することで、推論の精度をさらに大幅に向上させることができることが示されています。したがって、トレーニング時とテスト時のスケーリングを組み合わせることで、新たな研究の最前線が示されました──大規模推論モデルへの道です。OpenAIのo1シリーズの導入は、この研究の方向性において重要なマイルストーンを示しています。本調査では、LLM推論に関する最近の進展の包括的なレビューを提供します。まず、LLMの基礎的な背景を紹介し、その後、大規模推論モデルの開発を推進する主要な技術要素を探ります。自動データ構築、学習推論技術、テスト時スケーリングに焦点を当てます。また、大規模推論モデルの構築における人気のオープンソースプロジェクトを分析し、最後にオープンな課題と今後の研究方向について結論づけます。

2025-01-16T17:37:58


Reward-Guided Controlled Generation for Inference-Time Alignment in Diffusion Models: Tutorial and Review

http://arxiv.org/abs/2501.09685v1

Masatoshi Uehara, Yulai Zhao, Chenyu Wang, Xiner Li, Aviv Regev, Sergey Levine, Tommaso Biancalani

このチュートリアルでは、拡散モデルにおけるダウンストリーム報酬関数の最適化のための推論時ガイダンスと整合性手法についての詳細なガイドを提供します。拡散モデルは生成モデルとしての能力で有名ですが、生物学などの分野での実用的な応用には、特定の指標(例:安定性、タンパク質の親和性、ターゲット構造との近接性)を最大化するサンプル生成がしばしば必要です。このような状況では、拡散モデルは現実的なサンプルを生成するだけでなく、ファインチューニングせずに推論時に明示的に望ましい指標を最大化するように適応できます。このチュートリアルでは、そのような推論時アルゴリズムの基本的な側面を探ります。私たちはこれらの手法を統一的な視点からレビューし、現在の技術(例:逐次モンテカルロ(SMC)に基づくガイダンス、価値に基づくサンプリング、分類器ガイダンス)が、事前に学習されたデノイジングプロセスと、途中の状態から最終的な報酬を予測するルックアヘッド関数として機能する価値関数を組み合わせたソフト最適デノイジングプロセス(強化学習におけるポリシーとも呼ばれる)を近似しようとしていることを示します。この枠組みの中で、まだ文献には載っていないいくつかの新しいアルゴリズムを紹介します。さらに、(1)推論時テクニックと組み合わせたファインチューニング手法、(2)現行の研究であまり注目されていないモンテカルロツリーサーチなどの探索アルゴリズムに基づく推論時アルゴリズム、(3)言語モデルと拡散モデルにおける推論時アルゴリズムの関連についても議論します。このタンパク質設計に関するチュートリアルのコードは、https://github.com/masa-ue/AlignInversePro で利用可能です。

2025-01-16T17:37:35


Incorporating Quantum Advantage in Quantum Circuit Generation through Genetic Programming

http://arxiv.org/abs/2501.09682v1

Christoph Stein, Michael Färber

Karlsruhe Institute of Technology, TUD Dresden University of Technology

量子コンピュータの優位性を活用した効率的な量子回路の設計は、古典的なコンピュータと比較してますます重要性を増しています。遺伝的アルゴリズムは、人工進化を通じてそのような回路を生成する可能性を示しています。しかし、これらのアルゴリズムのフィットネス関数に量子の優位性を統合することは未踏の領域です。本論文では、遺伝的アルゴリズムのフィットネス関数に量子の優位性指標を組み込むための二つの新しいアプローチを提案して、量子回路設計の効率を向上させることを目的とします。1私たちは、ベルンシュタイン‐バジラニ問題と非構造データベース探索問題をテストケースとして使い、私たちのアプローチを評価します。結果は、私たちのアプローチが遺伝的アルゴリズムの収束速度を向上させるだけでなく、専門家が設計したソリューションに匹敵する回路を生成することを示しています。我々の発見は、量子の優位性の測定を組み込んだ遺伝的アルゴリズムを用いた自動量子回路設計が、量子アルゴリズムの開発を加速させる有望なアプローチであることを示唆しています。

2025-01-16T17:34:34


Authenticated Delegation and Authorized AI Agents

http://arxiv.org/abs/2501.09674v1

Tobin South, Samuele Marro, Thomas Hardjono, Robert Mahari, Cedric Deslandes Whitney, Dazza Greenwood, Alan Chan, Alex Pentland

自律型AIエージェントの迅速な展開は、デジタル空間における認可、責任、およびアクセス管理に関する緊急の課題を生み出しています。AIエージェントが誰のために行動しているかを知り、適切に利用するための新しい基準が必要です。これは、タスクの委任から自律エージェントの価値を引き出しつつ、オンライン空間を保護することを目的としています。我々は、AIエージェントへの認証、権限付与、および監査可能な権限委任のための新しいフレームワークを紹介します。このフレームワークでは、人間のユーザーが安全にエージェントの権限と範囲を委任し制限できる一方で、責任の明確な連鎖を維持します。このフレームワークは、既存のID管理とアクセス管理プロトコルに基づいて構築されており、エージェント特有の認証情報とメタデータを用いてOAuth 2.0とOpenID Connectを拡張し、確立された認証およびウェブインフラとの互換性を維持します。さらに、柔軟で自然言語による権限を監査可能なアクセス制御構成に変換するためのフレームワークを提案し、さまざまなインタラクションモダリティにおけるAIエージェントの能力のロバストなスコープ設定を可能にします。これらを総合すると、この実用的なアプローチは、AIエージェントの迅速な展開を促進しつつ、主要なセキュリティと責任の懸念に対処し、エージェンティックなAIシステムが適切な行動のみを実行し、デジタルサービス提供者がスケーラブルなインタラクションによる危害をリスクなくエージェントの相互作用を可能にするためのツールを提供することを目指します。

2025-01-16T17:11:21


Robin: a Suite of Multi-Scale Vision-Language Models and the CHIRP Evaluation Benchmark

http://arxiv.org/abs/2501.09672v1

Alexis Roger, Prateek Humane, Daniel Z. Kaplan, Kshitij Gupta, Qi Sun, George Adamopoulos, Jonathan Siu Chi Lim, Quentin Anthony, Edwin Fennell, Irina Rish

Mila - Quebec AI Institute, Université de Montréal, realiz.ai, Tokyo Institute of Technology, McGill University, EleutherAI, University College London

ここ数年におけるビジョン・ランゲージモデル(VLM)の急増は、厳密で包括的な評価手法とベンチマークの必要性を呼び起こしています。本研究では、既存のVLM評価技術、すなわち自動化されたメトリクス、AIベースの評価、さまざまなタスクにおける人間の評価を分析します。まず、複数のスケールで大規模言語モデル(LLM)と視覚エンコーダー(VE)を組み合わせて構築した新しいVLMスイート「Robin」を紹介し、Robinを使用して異なるスケールにおける現在の評価アプローチの欠点を特定します。次に、特定された制約を克服するために、より頑健で包括的なVLM評価のために開発した新しい長文応答ベンチマーク「CHIRP」を紹介します。再現性を促進し、VLM研究を進めるために、Robinのトレーニングコード、モデルスイート、およびCHIRPベンチマークへのオープンアクセスを提供します。

2025-01-16T17:08:12


The Heap: A Contamination-Free Multilingual Code Dataset for Evaluating Large Language Models

http://arxiv.org/abs/2501.09653v1

Jonathan Katzy, Razvan Mihai Popescu, Arie van Deursen, Maliheh Izadi

Delft University of Technology

最近、大規模言語モデルの人気の高まりは、これらを訓練するために必要な大規模なコードデータセットの開発を促進しました。このため、特定の動作の調査や、大規模言語モデルの評価に使用されるコードの収集に限界が生じ、データの汚染を避けることが難しくなっています。この問題を解決するために、私たちは「The Heap」を公開します。これは、57のプログラミング言語を網羅した大規模な多言語データセットであり、他のオープンコードデータセットに対して重複を排除しています。このため、研究者は大規模言語モデルの公正な評価を行うことができ、重要なデータクリーニングの手間を省くことができます。

2025-01-16T16:48:41


Monte Carlo Tree Search with Velocity Obstacles for safe and efficient motion planning in dynamic environments

http://arxiv.org/abs/2501.09649v1

Lorenzo Bonanni, Daniele Meli, Alberto Castellini, Alessandro Farinelli

univr.it

オンラインモーションプランニングは、動的な障害物(例:人混み)が存在する密な環境で移動するインテリジェントロボットにとって困難な問題です。本研究では、動的障害物に関する最小限の情報を使って、最適かつ安全なオンラインモーションプランニングの新しいアプローチを提案します。具体的には、私たちのアプローチでは、障害物の現在の位置と最大速度のみを必要とし、彼らの正確な軌道や動的モデルに関する情報は必要ありません。提案された方法論は、モデルシミュレーションを通じてオンラインで最適プランニングを行うモンテカルロ木探索(MCTS)と、障害物回避のための速度障害物(VO)を組み合わせています。私たちは、壁のある混雑したシミュレート環境で実験を行い、最大40個の動的障害物がランダムな速度と方向で移動します。アブレーションスタディにより、MCTSの効率を向上させ、安全で報酬の高いアクションをシミュレーションツリーから選択する上でのVOの重要な貢献を示します。さらに、我々の方法論が衝突率、計算性能、タスク性能の観点で最新のプランナー(非線形モデル予測制御(NMPC)を含む)に対して優れていることを示します。

2025-01-16T16:45:08


NS-Gym: Open-Source Simulation Environments and Benchmarks for Non-Stationary Markov Decision Processes

http://arxiv.org/abs/2501.09646v1

Nathaniel S. Keplinger, Baiting Luo, Iliyas Bektas, Yunuo Zhang, Kyle Hollins Wray, Aron Laszka, Abhishek Dubey, Ayan Mukhopadhyay

Vanderbilt University, Pennsylvania State University, University of Massachusetts Amherst

多くの実世界のアプリケーションでは、エージェントは外因的要素により条件が変化する環境の中で連続的な意思決定を行う必要があります。これらの非定常環境は、通常は定常的な動力学を前提とする伝統的な意思決定モデルに対して重大な課題をもたらします。非定常マルコフ決定過程(NS-MDP)は、そのような変化する条件下での意思決定問題をモデル化し解決するためのフレームワークを提供します。しかし、標準化されたベンチマークやシミュレーションツールの不足が、この分野の体系的評価と進展を妨げてきました。そこで、我々はNS-MDPのために明示的に設計された最初のシミュレーションツールキットNS-Gymを、人気のあるGymnasiumフレームワーク内に統合して提供します。NS-Gymでは、非定常性を特徴付ける環境パラメータの進化をエージェントの意思決定モジュールから分離し、動的環境へのモジュラーで柔軟な適応を可能にしています。この領域における先行研究をレビューし、NS-MDPにおける主要な問題の特性とタイプをカプセル化したツールキットを提示します。このツールキットは、非定常条件下でのアルゴリズムの一貫性と再現性のある評価を可能にするための標準化されたインターフェースとベンチマーク問題を開発する初めての試みです。また、NS-Gymを使用して、NS-MDPに関する先行研究からの6つのアルゴリズムアプローチをベンチマークします。我々のビジョンは、NS-Gymが研究者が非定常条件に対する意思決定アルゴリズムの適応性と強靭性を評価することを可能にすることです。

2025-01-16T16:38:33


CarMem: Enhancing Long-Term Memory in LLM Voice Assistants through Category-Bounding

http://arxiv.org/abs/2501.09645v1

Johannes Kirmayr, Lukas Stappen, Phillip Schneider, Florian Matthes, Elisabeth André

BMW Group Research and Technology, University of Augsburg, Technical University of Munich

今日のアシスタントの環境では、パーソナライズがインタラクションを強化し、長期的な関係を育み、エンゲージメントを深めています。しかし、多くのシステムはユーザーの好みを保持することに苦労しており、その結果、ユーザーからのリクエストが繰り返され、ユーザーの関与が薄れてしまいます。さらに、業界アプリケーションにおけるユーザーの好みを不正にかつ不透明に抽出することは、特にヨーロッパのような厳しい規制がある地域で、プライバシーと信頼に関する重大な懸念を引き起こします。これらの課題に対処するために、我々は音声アシスタントのための長期記憶システムを提案します。このシステムは、事前に定義されたカテゴリに基づいて構築されています。このアプローチは、大規模言語モデルを活用して、これらのカテゴリ内で好みを効率的に抽出、保存、取得し、パーソナライズと透明性の両方を確保します。また、実際の業界データに基づいた合成のマルチターン、マルチセッション会話データセット(CarMem)を導入しており、車内の音声アシスタント設定に特化しています。このデータセットベンチマークされた我々のシステムは、カテゴリの詳細度に応じて、好み抽出においてF1スコア0.78から0.95を達成します。我々のメンテナンス戦略は、冗長な好みを95%、矛盾する好みを92%削減し、最適な取得の精度は0.87です。総じて、これらの結果はシステムが産業アプリケーションに適していることを示しています。

2025-01-16T16:37:33


Electronic Health Records: Towards Digital Twins in Healthcare

http://arxiv.org/abs/2501.09640v1

Muhammet Alkan, Hester Huijsdens, Yola Jones, Fani Deligianni

University of Glasgow

従来の紙ベースの記録から高度な電子健康記録(EHR)への重要な移行は、患者データの体系的な収集と分析を可能にし、記述統計を通じて患者集団のパターンやトレンドへの洞察を提供しました。この進化は、予測分析へと進み、医療提供者が患者の結果や潜在的な合併症を事前に予測できるようにしました。基本的なデジタル記録管理から高度な予測モデルおよびデジタルツインへと進展するこの流れは、データ駆動の洞察と個別化されたケア提供を組み合わせた、より統合された患者中心のアプローチへの医療の広範な進化を反映しています。この章では、英国と米国でのEHRの実施を検討しながら、医療情報システムの進化と重要性を探ります。また、国際疾病分類(ICD)システムの包括的な概要を提供し、ICD-9からICD-10への進化を追跡します。この議論の中心には、MIMIC-IIIデータベースがあり、医療データの共有における画期的な業績であり、世界中の研究者に無料で提供されている最も包括的な集中治療データベースと言えます。MIMIC-IIIは高品質な医療データへのアクセスを民主化し、研究と分析の前例のない機会を提供しています。章では、その構造、臨床結果分析機能、症例研究を通じた実用的な応用について説明し、特に死亡率や入院期間の指標、バイタルサインの抽出、ICDコーディングに焦点を当てています。詳細なエンティティ・リレーションシップダイアグラムと実用例を通じて、MIMICの複雑なデータ構造を示し、異なるクエリアプローチが微妙に異なる結果を導くことがあることを示し、正確なデータ抽出のためにデータベースのアーキテクチャを理解することの重要性を強調します。

2025-01-16T16:30:02


Platform-Aware Mission Planning

http://arxiv.org/abs/2501.09632v1

Stefan Panjkovic, Alessandro Cimatti, Andrea Micheli, Stefano Tonetta

自律システムの計画には、異なる抽象レベルのモデルを用いた推論と、システムと外部環境との相互作用に関する高水準のミッション目標と、サブシステムの整合性及び正しい相互作用を保つことを目的とした低水準のプラットフォーム制約という、2つの競合する目標を調和させることが必要です。これら2つのモデルの複雑な相互作用により、特にロバストネス保証を持つ計画を見つけることを目的とする場合、システム全体を論理的に考えることは非常に困難です。これは、システムの下層が非決定的な動作を考慮する必要があるためです。本論文では、プラットフォームに配慮したミッション計画(PAMP)の問題を導入し、時間的持続行動の設定で取り扱います。PAMP問題は、その存在-全ての性質により、標準的な時間計画とは異なります:ミッション目標を扱う高水準の計画は、プラットフォームと環境の低水準モデルのすべての可能な非決定的実行に対して、安全性と実行可能性の制約を満たす必要があります。私たちはPAMPを解決するための2つのアプローチを提案します。第一の基準アプローチは、ミッションレベルとプラットフォームレベルを統合しますが、第二のアプローチは、プランナーと検証エンジンの組み合わせを活用した抽象化-精緻化ループに基づいています。私たちは提案したアプローチの健全性と完全性を証明し、実験的にそれらを検証し、異種モデル化の重要性と抽象化-精緻化に基づく技術の優位性を示します。

2025-01-16T16:20:37


Artificial Intelligence-Driven Clinical Decision Support Systems

http://arxiv.org/abs/2501.09628v1

Muhammet Alkan, Idris Zakariyya, Samuel Leighton, Kaushik Bhargav Sivangi, Christos Anagnostopoulos, Fani Deligianni

University of Glasgow

人工知能(AI)が医療提供にますます組み込まれる中で、本章では信頼性が高く倫理的な臨床意思決定支援システム(CDSS)を開発するための重要な側面を探ります。従来の統計モデルから高度な機械学習アプローチへの基本的な移行から始まり、この作業では厳密な検証戦略やパフォーマンス評価手法、モデルのキャリブレーションや意思決定曲線分析の重要な役割を含む方法を検討します。本章は、医療における信頼できるAIシステムの構築には技術的な正確さだけではなく、公平性、説明可能性、プライバシーへの慎重な配慮が求められることを強調しています。AIによる公平な医療提供を確保するという課題が強調され、臨床予測モデルにおけるバイアスを特定し緩和する方法が論じられます。次に、本章では人間中心のCDSSの基礎としての説明可能性に深く掘り下げます。このフォーカスは、医療専門家がAIの推奨を信じるだけでなく、その背後にある理由を理解する必要があるという認識を反映しています。議論は、医療AIシステムにおけるプライバシーの脆弱性の分析へと進みます。データ漏洩や深層学習モデルに対する洗練された攻撃を含むモデルの説明に対する脅威が取り上げられます。テキストは、差分プライバシーやフェデレーテッドラーニングといったプライバシー保護戦略を探求し、プライバシー保護とモデルのパフォーマンスの間の固有のトレードオフを認識します。この進行は、技術的検証から倫理的配慮への移行を示し、患者ケアとデータ保護の最高基準を維持しながら、日常の臨床実践にシームレスかつ信頼性をもって統合できるAIシステムの開発における多面的な課題を反映しています。

2025-01-16T16:17:39


Beyond Reward Hacking: Causal Rewards for Large Language Model Alignment

http://arxiv.org/abs/2501.09620v1

Chaoqi Wang, Zhuokai Zhao, Yibo Jiang, Zhaorun Chen, Chen Zhu, Yuxin Chen, Jiayi Liu, Lizhu Zhang, Xiangjun Fan, Hao Ma, Sinong Wang

University of Chicago, Meta

最近の大規模言語モデル(LLM)の進展は、複雑なタスクを実行する上での顕著な進歩を示しています。人間のフィードバックからの強化学習(RLHF)は、LLMを人間の好みに調整するのに効果的ですが、報酬モデリングにおける虚偽の相関に脆弱です。その結果、長さバイアス、迎合、概念バイアス、差別的バイアスなどのバイアスを引き起こし、モデルが真の因果関係を捉える能力を妨げることがよくあります。これに対処するために、私は虚偽の相関を軽減するために因果推論を統合した新しい因果報酬モデリングアプローチを提案します。私たちの手法は反実仮想的不変性を強制し、無関係な変数が変更されたときに報酬予測が一貫性を保つことを確保します。合成データセットと実世界のデータセットの両方での実験を通じて、私たちのアプローチはさまざまな種類の虚偽の相関を効果的に軽減し、LLMを人間の好みにより信頼性が高く公平に調整する結果となります。既存のRLHFワークフローへのドロップイン型の強化として、私たちの因果報酬モデリングは、LLMのファインチューニングの信頼性と公平性を向上させる実用的な方法を提供します。

2025-01-16T16:00:37


Metric Learning with Progressive Self-Distillation for Audio-Visual Embedding Learning

http://arxiv.org/abs/2501.09608v1

Donghuo Zeng, Kazushi Ikeda

KDDI Research, Inc.

メトリック学習プロジェクトは、埋め込み空間にサンプルをマッピングし、類似性と非類似性を学習された表現に基づいて定量化します。しかし、既存の手法はしばしばラベルに基づく表現学習に依存しており、音声データや視覚データなど異なるモダリティの表現が注釈付きラベルに基づいて整列されます。このアプローチは、ラベルに直接結びついていない音声データと視覚データの分布に固有の潜在的な複雑な特徴や関係を十分に活用しきれない傾向があり、音声-視覚埋め込み学習のパフォーマンスが最適ではなくなります。この問題を解決するために、私たちはクロスモーダルトリプレット損失と進歩的自己蒸留を統合した新しいアーキテクチャを提案します。我々の手法は、固有の分布を活用し、明示的なラベルを超えた固有の関係を捉える音声と視覚データ間の確率的整合性であるソフト音声-視覚整合性を動的に洗練させることで、表現学習を強化します。具体的には、モデルは各バッチのサブセットにおける注釈付きラベルから音声-視覚分布に基づく知識を蒸留します。この自己蒸留された知識は、次のステップで使用されます。

2025-01-16T15:32:41


Managed-Retention Memory: A New Class of Memory for the AI Era

http://arxiv.org/abs/2501.09605v1

Sergey Legtchenko, Ioan Stefanovici, Richard Black, Antony Rowstron, Junyi Liu, Paolo Costa, Burcu Canakci, Dushyanth Narayanan, Xingbo Wu

Microsoft Research

今日のAIクラスタは、高帯域幅メモリ(HBM)の主要な用途の一つです。しかし、HBMはAIワークロードに対していくつかの理由で最適ではありません。分析によれば、HBMは書き込みパフォーマンスにおいて過剰供給されていますが、密度と読み取り帯域幅において不足しており、ビット当たりのエネルギーコストも大きいです。また、製造の複雑さから、DRAMよりも歩留まりが低いため、高価でもあります。私たちは、新しいメモリクラス「マネージド・リテンション・メモリ(MRM)」を提案します。これは、AI推論ワークロードのための主要なデータ構造をより最適に保存するためのものです。MRMは、元々ストレージクラスメモリ(SCM)をサポートするために提案された技術に対して、実行可能な道を提供する可能性があると信じています。これらの技術は伝統的に長期的な永続性(10年以上)を提供しますが、IOパフォーマンスや耐久性が不十分でした。MRMは異なるトレードオフを行い、ワークロードのIOパターンを理解することによって、長期的なデータ保持や書き込みパフォーマンスを犠牲にし、これらのワークロードにとって重要な指標でより良いパフォーマンスを発揮します。

2025-01-16T15:25:44


Reducing the Sensitivity of Neural Physics Simulators to Mesh Topology via Pretraining

http://arxiv.org/abs/2501.09597v1

Nathan Vaska, Justin Goodwin, Robin Walters, Rajmonda S. Caceres

MIT Lincoln Laboratory, Northeastern University

メッシュは、レーダー感知や空気力学などのさまざまな分野で、高忠実度の物理シミュレーターにおいて複雑なオブジェクトを表現するために使用されます。物理シミュレーションを加速するためにニューラルネットワークを使用することへの関心が高まっており、また、非規則メッシュデータに直接ニューラルネットワークを適用する研究も増えています。複数のメッシュトポロジーが同じオブジェクトを表現できるため、ニューラルネットワークのトレーニング時にはトポロジカルな変動に対処するためにメッシュの拡張が通常必要です。物理シミュレーターはメッシュ形状の小さな変化に敏感であるため、ニューラルネットワークベースの物理シミュレーターをトレーニングする際にこれらの拡張を使用することは困難です。本研究では、メッシュトポロジーの変動がニューラルネットワークシミュレーターの性能を大幅に低下させることを示します。この問題に対処するためにプレトレーニングが使用できるかどうかを評価し、グラフ埋め込みモデルを用いた確立されたオートエンコーダープレトレーニング技術を採用することで、メッシュトポロジーの変動に対するニューラルネットワークシミュレーターの感度が低下することを発見しました。最後に、メッシュトポロジーに対するニューラルシミュレーターの感度をさらに低下させる可能性のある今後の研究方向を強調します。

2025-01-16T15:21:18


IFRA: a machine learning-based Instrumented Fall Risk Assessment Scale derived from Instrumented Timed Up and Go test in stroke patients

http://arxiv.org/abs/2501.09595v1

Simone Macciò, Alessandro Carfì, Alessio Capitanelli, Peppino Tropea, Massimo Corbo, Fulvio Mastrogiovanni, Michela Picardi

有効な転倒リスク評価は、脳卒中後の患者にとって極めて重要です。本研究は、従来の臨床スケールが捉えきれない多くの移動能力指標を取り入れた、計装されたTimed Up and Go(ITUG)テストデータに基づく新しいデータ駆動型の転倒リスク評価方法を提案します。IFRA(Instrumented Fall Risk Assessment)は、二段階プロセスを用いて開発されました。まず、ITUGテストで収集されたデータの中から、最も予測力が高い特徴が機械学習技術を用いて特定されました。次に、低、中、高リスクの層に患者を階層化する戦略が提案されました。私たちの分析に使用したデータセットは142人の参加者で構成されており、93人(うち15人は合成生成されたデータ)は訓練に使用され、17人は検証、32人は結果的なIFRAスケールのテスト(22人は非転倒者、10人は転倒者)に使用されました。IFRAスケールで考慮された特徴には、歩行速度、座位から歩行への移行中の垂直加速度、回転角速度が含まれており、これは神経学的患者の転倒リスクに関する既存の文献とよく一致します。従来のTimed Up & GoやMini-BESTestなどの従来の臨床スケールとの比較において、IFRAは競争力のあるパフォーマンスを示し、転倒者の過半数を高リスク層に正しく割り当てた唯一のスケールです(フィッシャーの正確性検定 p = 0.004)。データセットのサイズは限られていますが、これは今後の連続的な患者モニタリングと転倒予防のためのIFRAツールの使用に関する証拠を提供するための最初の概念実証研究です。これは臨床における脳卒中リハビリテーションおよび退院後の自宅での使用の両方において重要です。

2025-01-16T15:20:22


MatrixNet: Learning over symmetry groups using learned group representations

http://arxiv.org/abs/2501.09571v1

Lucas Laird, Circe Hsu, Asilata Bapat, Robin Walters

Northeastern University, Australian National University

群論は、ロボット工学からタンパク質モデリングに至るまでのタスクにおいて、既知の対称変換を取り入れるための理論的に基づいたアプローチを提供するために、機械学習で使用されています。これらのアプリケーションでは、エクイバリアントニューラルネットワークが既知の対称群と事前定義された表現を用いて、幾何学的な入力データを学習します。我々は、MatrixNetというニューラルネットワークアーキテクチャを提案します。これは、事前定義された表現を使用するのではなく、群要素入力の行列表現を学習します。MatrixNetは、いくつかの有限群およびアルチンブレイド群における予測タスクで、標準的なベースラインに対してより高いサンプル効率と一般化を達成します。また、MatrixNetが群の関係を尊重し、トレーニングセットよりも長い単語長の群要素への一般化を可能にすることも示します。

2025-01-16T14:45:12


Text-driven Adaptation of Foundation Models for Few-shot Surgical Workflow Analysis

http://arxiv.org/abs/2501.09555v1

Tingxuan Chen, Kun Yuan, Vinkle Srivastav, Nassir Navab, Nicolas Padoy

University of Strasbourg, CNRS, IHU Strasbourg, Technische Universität München

目的:外科手術のワークフロー分析は、外科手術の効率と安全性を向上させるために重要です。しかし、従来の研究は大規模な注釈付きデータセットに大きく依存しており、コスト、スケーラビリティ、および専門家の注釈への依存に課題があります。これに対処するために、我々はSurg-FTDA(Few-shot Text-driven Adaptation)を提案します。この手法は、最小限のペア画像-ラベルデータでさまざまな外科的ワークフロー分析タスクに対応するように設計されています。 方法:我々のアプローチには2つの重要なコンポーネントがあります。第一に、Few-shot選択に基づくモダリティアライメントが小さな画像のサブセットを選択し、それらの埋め込みを下流タスクからのテキスト埋め込みに整合させ、モダリティギャップを橋渡しします。第二に、テキスト駆動型適応は、ペア画像-テキストデータの必要がないデコーダを訓練するためにテキストデータのみを利用します。このデコーダは、整合された画像埋め込みに適用され、明示的な画像-テキストペアなしで画像関連のタスクを実施できるようにします。 結果:我々は生成タスク(画像キャプショニング)および識別タスク(三重認識とフェーズ認識)に対して我々のアプローチを評価しました。結果は、Surg-FTDAがベースラインを上回り、下流タスク全体にわたって良好な一般化を示すことを示しています。 結論:我々は、モダリティギャップを軽減し、外科手術のワークフロー分析において複数の下流タスクを処理するテキスト駆動型適応アプローチを提案します。これは、大規模な注釈付きデータセットへの依存を最小限に抑えています。コードとデータセットは、https://github.com/TingxuanSix/Surg-FTDA で公開される予定です。

2025-01-16T14:18:06


AI in Support of Diversity and Inclusion

http://arxiv.org/abs/2501.09534v1

Çiçek Güven, Afra Alishahi, Henry Brighton, Gonzalo Nápoles, Juan Sebastian Olier, Marie Šafář, Eric Postma, Dimitar Shterionov, Mirella De Sisto, Eva Vanmassenhove

本論文では、AIが多様性と包括性を支援する方法について詳述し、その方向性で行われた研究プロジェクトの例を挙げます。まず、大規模言語モデル(LLM)をより透明で包括的、そして社会的バイアスに敏感にするための課題と進展を考察します。ChatGPTのようなLLMは印象的な能力を持っていますが、異なる文化的文脈を理解したり、意味のある人間らしい会話を行ったりするのに苦労しています。一つの重要な問題は、特に機械翻訳における言語処理のバイアスが不平等を強化する可能性があることです。これらのバイアスに対処するには、多様性、公平性、包括性を促進するための学際的アプローチが必要です。また、メディアにおけるバイアスのあるコンテンツを特定するAIの役割も強調し、これは表現の改善に重要です。社会的グループの不平等な描写を検出することで、AIはステレオタイプに挑戦し、より包括的なテクノロジーの創出に貢献します。自らの決定を明確に説明する透明なAIアルゴリズムは、信頼を構築しAIシステムのバイアスを軽減するために不可欠です。また、AIシステムには多様で包括的なトレーニングデータが必要であることも強調します。子どもの成長モニターのようなプロジェクトは、幅広いデータを利用することで栄養失調や貧困といった実世界の問題に効果的に対処できることを示しています。さらに、AIがLGBTQ+コミュニティに関する誤情報の拡散における検索エンジンの役割を監視する方法を示すプロジェクトについても紹介します。加えて、SignONプロジェクトについても言及し、耳の聞こえる人々と聴覚障害者とのコミュニケーションのギャップを埋める技術の例を示し、包括的なAIを開発する上での協力と相互の信頼の重要性を強調します。総じて、本論文では、効果的であるだけでなく社会的責任を持つAIシステムを提唱し、人間と機械間の公正で包括的な相互作用を促進します。

2025-01-16T13:36:24


Class Incremental Fault Diagnosis under Limited Fault Data via Supervised Contrastive Knowledge Distillation

http://arxiv.org/abs/2501.09525v1

Hanrong Zhang, Yifei Yao, Zixuan Wang, Jiayuan Su, Mengxuan Li, Peng Peng, Hongwei Wang

Zhejiang University, ZJU-UIUC Joint Institute, ZJU-UoE Institute, College of Biomedical Engineering and Instrument Science, College of Computer Science and Technology

クラス逐次的な故障診断は、新しい故障クラスに適応しながら以前の知識を保持するモデルを必要とします。しかし、アンバランスでロングテールのデータに関する研究は限られています。少数ショットの故障データから識別的特徴を抽出することは難しく、新しい故障クラスを追加することはしばしば高コストなモデル再訓練を要求します。さらに、既存の方法の逐次トレーニングは壊滅的な忘却のリスクがあり、深刻なクラス不均衡はモデルの決定を正常クラスに偏らせる可能性があります。これらの問題に対処するために、クラス逐次的故障診断のための教師あり対比知識蒸留(SCLIFD)フレームワークを提案し、改善された表現学習能力と忘却を減らすための教師あり対比知識蒸留、新たな優先サンプル選択方法で壊滅的な忘却を軽減するサンプルリプレイ手法、クラス不均衡に対処するためのランダムフォレスト分類器を導入します。さまざまな不均衡比率にわたるシミュレーションおよび実世界の産業データセットに対する広範な実験により、SCLIFDの既存のアプローチに対する優位性が示されました。私たちのコードは https://github.com/Zhang-Henry/SCLIFD_TII で見つけることができます。

2025-01-16T13:20:29


MonoSOWA: Scalable monocular 3D Object detector Without human Annotations

http://arxiv.org/abs/2501.09481v1

Jan Skvrna, Lukas Neumann

Czech Technical University

単一のRGBカメラを使用して物体の三次元的な位置と方向を検出することは、コンピュータビジョンにおける基礎的なタスクであり、多くの重要な応用があります。従来、3D物体検出方法は完全に監視された設定で学習されるため、大量の人的アノテーションが必要であり、これは手間がかかり、高価であり、増え続けるデータ量に対してスケーラビリティが良くありません。本論文では、ドメイン固有の人間のアノテーションなしで単眼RGBカメラ用の3D物体検出器を訓練するための初めての方法を提案します。これにより、訓練に利用できるデータが桁違いに増えます。新たに提案された標準的なオブジェクト空間のおかげで、この方法はさまざまなデータセットとカメラセットアップ全体のデータを活用して単一の3D検出器を訓練できるだけでなく、従来の研究とは異なり、未見のカメラセットアップでもそのまま機能します。これは、データとカメラが非常に異質である実際の応用にとって重要です。この方法は、2Dの人間アノテーションに依存している従来の研究よりも優れている標準的な自律運転データセット2つで評価されました。

2025-01-16T11:35:22


Predicting Air Temperature from Volumetric Urban Morphology with Machine Learning

http://arxiv.org/abs/2501.09469v1

Berk Kıvılcım, Patrick Erik Bradley

本研究では、まず、CityGMLデータをボクセルに変換する方法を紹介します。この方法は、都市のような大規模データセットに対して、高解像度でも効率的かつ迅速に動作しますが、以前のボクセル化手法の制約を克服するために、おおよその建物の詳細を犠牲にしています。これら以前の方法は、大規模な都市地域を高解像度のボクセル表現に変換する際に、計算負荷が高く効率的ではありませんでした。複数の都市からのボクセル化された3D都市データと対応する気温データを用いて、機械学習モデルを開発します。モデルのトレーニング前に、入力データにガウスぼかしを適用して空間関係を考慮し、その結果、気温と体積的建物形態との相関率もガウスぼかし後に増加します。モデルのトレーニング後、予測結果は、平均二乗誤差(MSE)だけでなく、構造類似度インデックス測度(SSIM)や学習された知覚画像パッチ類似度(LPIPS)などの画像類似度指標でも評価され、評価プロセス中に空間関係を検出し考慮できるようになっています。このトレーニングされたモデルは、対応するピクセルの建物体積情報を入力として用いることで、気温の空間分布を予測する能力を持っています。このようにして、本研究は都市計画者が環境パラメータを計画戦略に組み込むのを助け、より持続可能で住みやすい都市環境を促進することを目指しています。

2025-01-16T11:10:38


RE-POSE: Synergizing Reinforcement Learning-Based Partitioning and Offloading for Edge Object Detection

http://arxiv.org/abs/2501.09465v1

Jianrui Shi, Yong Zhao, Zeyang Cui, Xiaoming Shen, Minhang Zeng, Xiaojie Liu

The Hong Kong Polytechnic University, Pengcheng Laboratory

物体検出は、スマートビデオ分析において重要な役割を果たしており、自動運転、セキュリティ、スマートシティなど、多岐にわたる応用があります。しかし、エッジデバイス上でリアルタイムの物体検出を実現することは、限られた計算リソースと、高解像度ビデオを処理する際の深層ニューラルネットワーク(DNN)ベースの検出モデルの高い要求によって、大きな課題となります。従来の戦略、例えば入力のダウンサンプリングやネットワークのアップスケーリングは、より高速なパフォーマンスを得るために検出精度を犠牲にしたり、推論の遅延を増加させたりすることがあります。これらの問題に対処するために、本論文ではRE-POSEを紹介します。これは、リソース制約のあるエッジ環境における精度と遅延のトレードオフを最適化するために設計された、強化学習(RL)駆動のパーティショニングおよびエッジオフローディングフレームワークです。私たちのアプローチは、物体の分布とDNNの計算特性に基づいて、ビデオフレームを非均一なブロックに分割するRLベースのダイナミッククラスタリングアルゴリズム(RL-DCA)を特徴としています。さらに、これらのブロックを複数のエッジサーバーに分散して同時処理を行うための並列エッジオフローディング方式も実装されています。実験評価の結果、RE-POSEは検出精度を大幅に向上させ、推論遅延を低下させ、既存の手法を上回ることが示されました。

2025-01-16T10:56:45


Multiple Choice Questions: Reasoning Makes Large Language Models (LLMs) More Self-Confident Even When They Are Wrong

http://arxiv.org/abs/2501.09775v1

Tairan Fu, Javier Conde, Gonzalo Martínez, María Grandury, Pedro Reviriego

Nanjing University of Aeronautics and Astronautics, ETSI de Telecomunicación, Universidad Politécnica de Madrid, Universidad Carlos III de Madrid, SomosNLP

LLM(大規模言語モデル)を評価するために最も広く使用されている方法の一つは、選択式問題(MCQ)テストです。MCQのベンチマークは、結果を自動的に処理できるため、ほぼあらゆるトピックに対するLLMの知識を大規模にテストすることを可能にします。LLMが回答するのを助けるために、いくつかの例(少数の例)をプロンプトに含めることができます。さらに、LLMは選択した選択肢で直接質問に答えるように求められることもあれば、まず推論を提供してから選択した答えを示すように求められることもあり、これが「思考の連鎖」として知られています。選択した答えが正しいかどうかを確認するだけでなく、評価はLLMの応答に対する推定確率を、応答に対するLLMの自信の指標としても見ることができます。本論文では、LLMの回答に対する自信が、モデルが直接答えるように求められたのか、それとも回答の前に推論を提供するように求められたのかに依存することを研究します。7つの異なるモデルにおけるさまざまなトピックの質問の評価結果は、LLMが回答の前に推論を提供する際に、自信を持って回答することを示しています。これは、選択した答えが正しいかどうかに関わらず発生します。我々の仮説は、この行動が、LLMが入力された質問と選択を支持する推論に基づいて答えを予測することによって、選択した答えの確率を修正する推論に起因するというものです。したがって、LLMが推定する確率には、評価手続きで使用するために理解すべき固有の限界があるようです。興味深いことに、同様の行動が人間にも観察されており、回答を説明することがその正確性への自信を高めることが示されています。

2025-01-16T10:27:51


Solving the unsolvable: Translating case law in Hong Kong

http://arxiv.org/abs/2501.09444v1

King-kui Sin, Xi Xuan, Chunyu Kit, Clara Ho-yan Chan, Honic Ho-kin Ip

UOW College Hong Kong, City University of Hong Kong, The Chinese University of Hong Kong, The University of Hong Kong SPACE

この論文は、香港のバイリンガル法制度における判例法の翻訳に関する課題を扱っています。1997年の引き渡し前に全ての法律文書を中国語に翻訳するという初期の成功を強調しており、その作業は基本法によって義務付けられたものでした。この努力には、法的、言語的、翻訳の専門家たちの重要な協力が含まれ、包括的で文化的に適切なバイリンガル法制度が実現しました。しかし、判例法の翻訳は、司法判断の膨大な量とその持続的な増加により、依然として重要な課題です。この論文は、判例法の翻訳に関する政府と司法の散発的で調整のない努力を批判し、法令翻訳のために以前に取られた徹底的なアプローチと対比しています。政府は法的バイリンガリズムの重要性を認識しているものの、判例法の翻訳に関する持続可能な戦略を欠いています。すべての判決を翻訳する必要がない、非現実的で費用対効果がないという司法の立場は、法的透明性や公共の信頼に与える影響について分析され批判されています。提案された解決策には、ヒューマン・マシンインタラクティブ翻訳プラットフォームを介して機械翻訳技術を活用することが含まれており、これには2つの主要な移行が伴います。最初はニューラルモデルに基づいていますが、プラットフォームは改善された翻訳精度のために大規模言語モデルの使用に移行します。さらに、単一エージェントシステムから複数エージェントシステムへと進化し、翻訳者、注釈者、校正者のエージェントを取り入れます。このマルチエージェントアプローチは助成金の支援を受け、先進的な人工知能と継続的なフィードバックメカニズムを統合することで、司法判断の効率的で高品質な翻訳を促進し、バイリンガル法制度のニーズによりよく応えることを目指しています。

2025-01-16T10:17:58


A Survey on Responsible LLMs: Inherent Risk, Malicious Use, and Mitigation Strategy

http://arxiv.org/abs/2501.09431v1

Huandong Wang, Wenjie Fu, Yingzhou Tang, Zhilong Chen, Yuxi Huang, Jinghua Piao, Chen Gao, Fengli Xu, Tao Jiang, Yong Li

Tsinghua University, Huazhong University of Science and Technology

大規模言語モデル(LLM)は、多くの実世界の応用を支援し、ポジティブな社会的影響をもたらすための重要な可能性を持っていますが、プライバシー漏洩のリスク、幻想的な出力、価値の不整合などの内在的な課題に直面しています。また、ジャイルブレイクされた後には、有害なコンテンツや非倫理的な目的で悪用される可能性もあります。したがって、本調査では、これらの問題を緩和することを目的とした最近の進展を、LLMの開発と使用の4つのフェーズ(データ収集と事前トレーニング、ファインチューニングと整合、プロンプトと推論、そしてポストプロセッシングと監査)に基づいて包括的にレビューします。私たちは、プライバシー保護、幻想削減、価値の整合、毒性排除、ジャイルブレイク防御の観点からのLLMの性能向上に関する最近の進展を詳述します。責任あるLLMの単一の次元に焦点を当てた以前の調査に対して、本調査はこれらの多様な次元を包含する統一的なフレームワークを提示し、実世界の応用により良く奉仕するためのLLMの強化に関する包括的な視点を提供します。

2025-01-16T09:59:45


ADAGE: A generic two-layer framework for adaptive agent based modelling

http://arxiv.org/abs/2501.09429v1

Benjamin Patrick Evans, Sihan Zeng, Sumitra Ganesh, Leo Ardon

JPMorgan, None

エージェントベースモデル(ABM)は、複雑で平衡を保たない可能性のあるシナリオのモデル化において貴重です。しかし、ABMは長い間、ルーカス批判に悩まされており、エージェントの行動は環境の変化に適応すべきであるとしています。さらに、環境自体もこれらの行動の変化に適応することが多く、複雑な二層の適応問題を生み出します。最近、マルチエージェント強化学習をABMに統合する進展により、適応的エージェント行動が導入され、この批判の第一部に対処し始めていますが、アプローチは依然として比較的アドホックであり、一般的な定式化が欠けているだけでなく、エージェントの行動に加えて環境レベルの特性を同時に適応させるという第二の側面にも取り組んでいません。本研究では、これらの問題に対処するための適応型エージェントベースモデリングのための一般的な二層フレームワーク(ADAGE)を開発します。このフレームワークは、条件付き行動ポリシーを持つスタッケルベルグゲームとして二層の問題を形式化し、結合された非線形方程式のセットを解くことに基づいて適応的エージェントベースモデリングのための統合的なフレームワークを提供します。私たちは、この一般的なアプローチが政策設計、キャリブレーション、シナリオ生成、堅牢な行動学習など、以前は異なると見なされていたいくつかの一般的なABMタスクをどのように包含しているかを示します。複数の複雑な経済的および金融的環境に関する例題シミュレーションを提供し、これらの標準的な設定の下での新しいフレームワークの強さを示し、従来のABMに対する長年の批判に取り組みます。

2025-01-16T09:58:24


Dynamic Neural Style Transfer for Artistic Image Generation using VGG19

http://arxiv.org/abs/2501.09420v1

Kapil Kashyap, Mehak Garg, Sean Fargose, Sindhu Nair

歴史を通じて、人間は素晴らしい芸術作品を創り出してきましたが、人工知能は最近になって視覚的に魅力的なアートを生成する進展を始めました。過去数年間のブレークスルーは、畳み込みニューラルネットワーク(CNN)を使用して画像の内容とスタイルを分離・操作し、テクスチャ合成技術を適用することに焦点を当てています。それにもかかわらず、現在の技術の多くは、処理時間が長い、スタイル画像の選択肢が制限されている、スタイルの重み比率を変更できないなどの障害に直面しています。私たちは、デザインされた画像にさまざまな芸術スタイルを追加できるニューラルスタイル転送システムを提案し、これらの制約に対処し、スタイルの重み比率に柔軟な調整を可能にし、処理時間を短縮します。このシステムは特徴抽出にVGG19モデルを使用し、内容の整合性を損なうことなく、高品質で柔軟なスタイル化を実現します。

2025-01-16T09:47:18


MoE$^2$: Optimizing Collaborative Inference for Edge Large Language Models

http://arxiv.org/abs/2501.09410v1

Lyudong Jin, Yanning Zhang, Yanhan Li, Shurong Wang, Howard H. Yang, Jian Wu, Meng Zhang

大規模言語モデル(LLMs)は、自然言語処理タスクの広範な範囲で驚異的な能力を示しています。エッジLLMの多様な機能を活用することは、コスト効率の向上やレイテンシの削減を可能にするため、さまざまな新たに生まれるアプリケーションにとって重要です。本研究では、エッジLLMのための新しい共同推論フレームワークである「Mixture-of-Edge-Experts (MoE²)」を紹介します。エネルギーとレイテンシの制約の下で推論性能を最適化するために、共同ゲーティングと専門家選択の問題を定式化します。従来のMoE問題とは異なり、LLMの専門家選択は、さまざまな属性における組み合わせ的性質とエッジLLMの異質性のために、著しく挑戦的です。この目的のために、専門家選択を通じてゲーティングパラメータの最適性保持特性を明らかにする2層の専門家選択メカニズムを提案します。この特性により、トレーニングプロセスと選択プロセスを分解することができ、複雑さを大幅に削減します。さらに、目的関数の単調性を活用し、最適な専門家選択のために離散単調最適化アルゴリズムを設計します。NVIDIA Jetson AGX OrinsおよびNVIDIA RTX 4090 GPUを搭載したエッジサーバーを実装し、広範な実験を行いました。我々の結果は、さまざまなLLMモデルの性能向上を確認し、我々のMoE²メソッドが異なる遅延とエネルギー予算の間で最適なトレードオフを達成できること、またさまざまなシステムリソース制約の下でベースラインを上回ることを示しています。

2025-01-16T09:36:32


ELM-DeepONets: Backpropagation-Free Training of Deep Operator Networks via Extreme Learning Machines

http://arxiv.org/abs/2501.09395v1

Hwijae Son

Konkuk University

Deep Operator Networks(DeepONets)は、演算子学習のための最も著名なフレームワークの一つであり、演算子のための普遍近似定理に基づいています。しかし、DeepONetsのトレーニングには通常、かなりの計算資源が必要です。この制限に対処するために、我々はELM-DeepONetsを提案します。これは、ELMの逆伝播が不要な性質を活用したDeepONets向けのお極端学習機(ELM)フレームワークです。DeepONetのトレーニングを新しく導入されたパラメータの最小二乗問題として再定式化することにより、ELM-DeepONetアプローチはトレーニングの複雑さを大幅に削減します。非線形常微分方程式(ODE)や偏微分方程式(PDE)を含むベンチマーク問題での検証により、提案された方法は優れた精度を実現するだけでなく、計算コストも大幅に削減することが示されています。この研究は、科学計算における演算子学習のためのスケーラブルで効率的な代替手段を提供します。

2025-01-16T09:06:43


Quantum-Enhanced Transformers for Robust Acoustic Scene Classification in IoT Environments

http://arxiv.org/abs/2501.09394v1

Minh K. Quan, Mayuri Wijayasundara, Sujeeva Setunge, Pubudu N. Pathirana

Deakin University, Royal Melbourne Institute of Technology University

音響センサーを搭載したモノのインターネット(IoT)デバイスの増加は、騒音が多くデータが制限された環境でも堅牢な音響シーン分類(ASC)の能力を必要としています。従来の機械学習手法は、こうした条件下で効果的に一般化するのが難しいことがよくあります。これに対処するために、我々はQ-ASCという新しい量子インスパイアド音響シーンクラシファイアを紹介します。これは量子インスパイアドトランスフォーマーの力を活用します。重ね合わせやもつれといった量子概念を統合することにより、Q-ASCは古典的モデルに比べて優れた特徴学習と向上したノイズ耐性を実現します。さらに、IoT展開におけるラベル付きデータの限られた課題を軽減するために、量子変分オートエンコーダ(QVAE)に基づくデータ拡張技術を導入します。タンペレ工科大学(TUT)の音響シーン2016ベンチマークデータセットでの広範な評価では、Q-ASCが厳しい条件下で68.3%から88.5%の驚異的な精度を達成し、最良のケースでは最先端の手法を5%以上上回ることが示されました。この研究は、スマートホーム、産業監視、環境監視といった潜在的な応用を持つIoTネットワークにおける知的音響センサーの展開への道を開きます。

2025-01-16T09:06:10


Aligning Instruction Tuning with Pre-training

http://arxiv.org/abs/2501.09368v2

Yiming Liang, Tianyu Zheng, Xinrun Du, Ge Zhang, Xingwei Qu, Xiang Yue, Chujie Zheng, Jiaheng Liu, Lei Ma, Wenhu Chen, Guoyin Wang, Zhaoxiang Zhang, Wenhao Huang, Jiajun Zhang

指示チューニングは、大規模言語モデル(LLM)が多様なタスクにおいて人間の指示に従う能力を向上させるもので、高品質なデータセットに依存して行動を導きます。しかし、手動でキュレーションされたものや合成生成されたものにかかわらず、これらのデータセットはしばしば狭い範囲に焦点を当てており、事前トレーニング中にキャプチャされた広範な分布と不一致であるため、LLMの一般化能力や事前トレーニングされた知識の効果的な利用を制限します。私たちは、「事前トレーニングとの指示チューニングの整合性を図る」(AITP)という方法を提案します。これは、指示チューニングデータセットにおけるカバレッジの不足を特定し、十分に代表されていない事前トレーニングデータを高品質な指示-応答ペアに書き換えることによって、このギャップを埋めるものです。このアプローチは、タスク固有の目標を保持しつつデータセットの多様性を豊かにします。八つのベンチマークにわたる三つの完全にオープンなLLMにおける評価は、AITPを用いた際の一貫したパフォーマンス向上を示しています。アブレーション実験は、適応的なデータ選択、制御された書き換え、およびバランスの取れた統合の利点を強調し、LLMの可能性を最大限に引き出すために、指示チューニングと事前トレーニングの分布を整合させる重要性を強調しています。

2025-01-16T08:27:40


YETI (YET to Intervene) Proactive Interventions by Multimodal AI Agents in Augmented Reality Tasks

http://arxiv.org/abs/2501.09355v1

Saptarashmi Bandyopadhyay, Vikas Bahirwani, Lavisha Aggarwal, Bhanu Guda, Lin Li, Andrea Colaco

University of Maryland, Google

マルチモーダルAIエージェントは、日常のタスクを解決するために、人間のユーザーを対話的かつ協力的に支援する能力を持つAIモデルです。拡張現実(AR)ヘッドワornデバイスは、AIエージェントに対してユーザーが手続き的な日常タスクを解決するためのエゴセントリックなマルチモーダル(音声と映像)観察能力を提供することで、ユーザー体験を独自に向上させることができます。このようなAR機能は、AIエージェントがユーザーが行うアクションを見たり聞いたりするのを助け、人間ユーザーのマルチモーダルな能力に関連することができます。既存のAIエージェント、すなわち大規模言語モデル(LLMs)やマルチモーダル視覚言語モデル(VLMs)は、反応的な性質を持っており、これはモデルが人間のユーザーのプロンプトを読むまたは聞くことなくアクションを取ることができないことを意味します。一方で、AIエージェントの積極性は、ユーザーがエージェントが観察したタスクの中での間違いを検出し修正するのを助けたり、ユーザーが正しくタスクを行ったときに励ましたり、単にユーザーとの会話に参加したりするのを助けることができます。これは、人間がユーザーを教えたり支援したりすることに似ています。私たちの提案するYET to Intervene(YETI)マルチモーダルエージェントは、エージェントが積極的に介入する必要がある状況を特定するという研究課題に焦点を当てています。これにより、エージェントは人間のユーザーと会話の中で介入できるタイミングを理解し、ARを使って料理などのタスクの間違いをユーザーが修正するのを助けることができます。我々のYETIエージェントは、連続したビデオフレームに対する構造的類似性(SSIM)の解釈可能な概念に基づいてシーン理解信号を学習します。また、AIエージェントがタスク上のユーザーのアクションに対応するビデオフレームが期待されるアクションと一致しているかどうかを識別するために学習できる整合性信号も定義します。これらの信号は、AIエージェントがいつ積極的に介入すべきかを判断するために使用されます。私たちは、専門エージェントがユーザーに手続き的なタスクを完了させるためのHoloAssistマルチモーダルベンチマークにおける積極的介入の事例に関する結果を比較します。

2025-01-16T08:06:02


Style4Rec: Enhancing Transformer-based E-commerce Recommendation Systems with Style and Shopping Cart Information

http://arxiv.org/abs/2501.09354v1

Berke Ugurlu, Ming-Yi Hong, Che Lin

ユーザーの製品の好みを理解することは、推薦システムの効果にとって不可欠です。精密マーケティングは、ユーザーの過去のデータを活用してこれらの好みを把握し、それに沿った製品を推奨します。しかし、最近のブラウジングや購入記録は、現在の購買傾向をよりよく反映するかもしれません。トランスフォーマーに基づく推薦システムは、順次推薦タスクで進展を遂げてきましたが、製品の画像スタイル情報やショッピングカートデータを効果的に活用する点では不足していることが多いです。この点を踏まえ、私たちはStyle4Recを提案します。これは、スタイルとショッピングカートの情報を活用して、既存のトランスフォーマーに基づく順次製品推薦システムを強化するeコマース推薦システムです。Style4Recは、パーソナライズされたeコマース推薦において重要な前進を示しており、さまざまな評価指標においてベンチマークを上回る成果を上げています。Style4Recは顕著な改善をもたらしました:HR@5は0.681から0.735に、NDCG@5は0.594から0.674に、MRR@5は0.559から0.654に増加しました。私たちは、提携先企業のeコマースデータセットを用いてモデルをテストし、さまざまな評価指標において確立されたトランスフォーマーに基づく順次推薦ベンチマークを超える結果を得ました。このように、Style4Recは、パーソナライズされたeコマース推薦システムにおける重要な前進を示しています。

2025-01-16T08:05:39


Rational Tuning of LLM Cascades via Probabilistic Modeling

http://arxiv.org/abs/2501.09345v1

Michael J. Zellinger, Matt Thomson

大規模言語モデル(LLM)の信頼性を理解することは、最近重要な注目を集めています。LLMは幻覚を引き起こす傾向があり、プロンプトデザインに対して非常に敏感であるため、個々のLLMのパフォーマンスを予測することはすでに困難です。しかし、問題は複合LLMシステム、例えばカスケードのような場合にはさらに複雑になります。ここでは、各モデルの単独でのパフォーマンスに加えて、異なるモデルのエラー率がどのように相互作用するかを理解する必要があります。本論文では、一連のLLMの共同パフォーマンス分布のための確率モデルを提案します。これにより、連続最適化を用いてLLMカスケードの信頼性閾値を合理的に調整するためのフレームワークが可能になります。グリッドサーチを使用して信頼性閾値を選択するのと比較して、私たちのパラメトリックマルコフコピュラモデルは、カスケードの長さとコスト-エラー曲線の希望する解像度に関して、実行時間のスケーリングを大幅に改善し、それらを扱えないものから低次の多項式に変換します。さらに、私たちの連続最適化アルゴリズムを使用して計算された最適閾値は、カスケードの長さが増すにつれて、グリッドサーチで見つけたものを上回り、少なくとも三つのモデルからなるカスケードの場合、コスト-エラー曲線の下の面積を平均1.9%改善します。全体として、私たちのマルコフコピュラモデルは、LLMカスケードのパフォーマンスを調整するための合理的な基盤を提供し、LLMシステムを分析する際の確率的方法の可能性を示唆しています。

2025-01-16T07:58:33


Prompt-CAM: A Simpler Interpretable Transformer for Fine-Grained Analysis

http://arxiv.org/abs/2501.09333v1

Arpita Chowdhury, Dipanjyoti Paul, Zheda Mai, Jianyang Gu, Ziheng Zhang, Kazi Sajeed Mehrab, Elizabeth G. Campolongo, Daniel Rubenstein, Charles V. Stewart, Anuj Karpatne, Tanya Berger-Wolf, Yu Su, Wei-Lun Chao

The Ohio State University, University of Tsukuba, Virginia Tech, Princeton University, Rensselaer Polytechnic Institute

私たちは、異なる鳥種や犬種など、視覚的に類似したカテゴリーを区別し、特定するための微細分析における教師ありのVision Transformers(ViTs)の簡単な使用法を提案します。DINOのような事前学習済みのViTsは、局所的で有益な特徴を抽出する顕著な能力を示しています。しかし、Grad-CAMのようなサリエンシーマップを使用しても、特徴を明確に示すことは困難です。これらはしばしば、特徴ではなく、ぼやけた粗いヒートマップによって全体のオブジェクトを特定します。私たちは、新しいアプローチであるPrompt Class Attention Map(Prompt-CAM)を提案します。Prompt-CAMは、事前学習済みのViTに特定のクラスに基づくプロンプトを学習させ、その対応する出力を分類に使用します。画像を正しく分類するためには、真のクラスプロンプトが他のクラスの画像には含まれていないユニークな画像パッチ、つまり特徴に注意を払う必要があります。このようにして、真のクラスのマルチヘッドアテンションマップは特徴とその位置を明らかにします。実装面では、Prompt-CAMはVisual Prompt Tuning(VPT)の予測ヘッドを単純に変更するだけで、ほぼ無料で利用できるものです。これにより、Prompt-CAMは比較的簡単に訓練し、適用できるようになり、特定のモデルや訓練プロセスを設計する他の解釈可能な手法とは明確に対照的です。最近発表されたINterpretable TRansformer(INTR)よりも簡単であり、このエンコーダ・デコーダアーキテクチャは事前学習済みのViTsを活用することを妨げます。鳥類、魚類、昆虫、菌類、花、食品、自動車など、さまざまな領域からの十数のデータセットに対する広範な経験的研究によって、Prompt-CAMの優れた解釈能力が検証されています。

2025-01-16T07:07:41


Neural Honeytrace: A Robust Plug-and-Play Watermarking Framework against Model Extraction Attacks

http://arxiv.org/abs/2501.09328v2

Yixiao Xu, Binxing Fang, Rui Wang, Yinghai Zhou, Shouling Ji, Yuan Liu, Mohan Li, Zhihong Tian

Beijing University of Posts and Telecommunications, Guangzhou University, Zhejiang University

高性能の深層学習モデルの開発にはリソースが多くかかるため、モデル所有者はモデルを公開する代わりに機械学習をサービス(MLaaS)プラットフォームを利用する傾向にあります。しかし、悪意のあるユーザーはクエリインターフェイスを悪用し、ターゲットモデルの機能をローカルで再構築するモデル抽出攻撃を実行する可能性があります。これまでの研究では、所有権を主張するためのトリガブル・ウォーターマーキング手法が探求されてきましたが、既存の方法にはいくつかの重要な課題があります:(1) ほとんどのアプローチは追加のトレーニングを必要とし、高コストと限られた柔軟性をもたらします。また、(2) 彼らはしばしば高度な攻撃者を考慮せず、適応型攻撃に対して脆弱な状態にあります。本論文では、モデル抽出攻撃に対抗するための堅牢なプラグアンドプレイのウォーターマーキングフレームワークであるNeural Honeytraceを提案します。まず、情報理論的な観点からウォーターマーク伝送モデルを定式化し、既存のトリガブル・ウォーターマーキングの原則と制約を解釈可能な形で説明します。そのモデルに基づいて、さらに次の二つを紹介します:(1) プラグアンドプレイで柔軟なウォーターマーキングのための類似性に基づくトレーニング不要のウォーターマーキング手法、(2) 堅牢なウォーターマーキングのための分布に基づくマルチステップウォーターマーク情報伝達戦略。四つのデータセットに関する包括的な実験により、Neural Honeytraceが効率と適応型攻撃に対する抵抗力において従来の方法を上回ることが示されました。Neural Honeytraceは、悪化したケースにおけるt-Testに基づく著作権主張に必要なサンプルの平均数を$12,000$から$200$に削減し、トレーニングコストはゼロです。

2025-01-16T06:59:20


On Learning Informative Trajectory Embeddings for Imitation, Classification and Regression

http://arxiv.org/abs/2501.09327v2

Zichang Ge, Changyu Chen, Arunesh Sinha, Pradeep Varakantham

Southern Methodist University, Rutgers University

実世界の逐次的な意思決定タスク、例えば自動運転、ロボティクス、ヘルスケアにおいて、観測された状態-行動軌跡から学習することは、模倣、分類、クラスタリングなどのタスクにとって重要です。例えば、自動運転車は人間の運転行動を模倣しなければならず、ロボットやヘルス

2025-01-16T06:52:58


SOP-Agent: Empower General Purpose AI Agent with Domain-Specific SOPs

http://arxiv.org/abs/2501.09316v1

Anbang Ye, Qianran Ma, Jia Chen, Muqi Li, Tong Li, Fujiao Liu, Siqi Mai, Meichen Lu, Haitao Bao, Yang You

HPC-AI Tech, Grab Holdings Inc, National University of Singapore

一般目的のAIエージェントにおける重要な進展にもかかわらず、実世界のシナリオにおける実用的な応用を妨げるいくつかの課題があります。まず第一に、Large Language Models(LLM)の限られた計画能力により、AIエージェントは長期的な計画を必要とする複雑なタスクを効果的に解決することができません。第二に、一般目的のAIエージェントは、領域特有の知識や人間の専門知識を効率的に活用するのに苦労しています。本論文では、自然言語で記述された擬似コードスタイルの標準操作手順(SOP)を通じて領域特有のエージェントを構築するための新しいフレームワークである「標準操作手順指導エージェント(SOP-agent)」を導入します。形式的には、SOPを意思決定グラフとして表現し、そのグラフを辿ることでエージェントを導き、SOPによって指定されたタスクを遂行します。意思決定、検索と推論、コード生成、データクリーニング、実地カスタマーサービスなど、複数の領域におけるタスクに関して広範な実験を行いました。SOP-agentは優れた汎用性を示し、一般目的のエージェントフレームワークよりも優れた性能を達成し、ドメイン特有のエージェントシステムと同等の成果を上げています。さらに、SOPに基づくカスタマーサービスシナリオにおけるAIエージェントの基盤となる意思決定能力を評価するために設計された初のベンチマークである「グラウンデッドカスタマーサービスベンチマーク」を紹介します。

2025-01-16T06:14:58


Shape-Based Single Object Classification Using Ensemble Method Classifiers

http://arxiv.org/abs/2501.09311v1

Nur Shazwani Kamarudin, Mokhairi Makhtar, Syadiah Nor Wan Shamsuddin, Syed Abdullah Fadzli

今日、ますます多くの画像が利用可能になっています。画像の注釈付けと取得は分類問題を引き起こします。ここで各クラスは、共通の意味ラベルでラベル付けされたデータベース画像のグループとして定義されます。内容に基づく取得や画像分類、インデクシングのためにさまざまなシステムが提案されています。本論文では、意味的ギャップを効果的に埋め、マルチカテゴリ画像分類を達成するための階層的分類フレームワークが提案されました。また、画像セグメンテーション、物体識別、画像分類という三つの問題に対して、よく知られた前処理および後処理方法が使用されました。この方法は、AmazonおよびGoogleデータセットから単一の物体画像を分類するために適用されました。分類は、4つの異なる分類器、ベイズネットワーク(BN)、ランダムフォレスト(RF)、バギング、および投票を用いてテストされました。推定された分類精度は、10倍の交差検証を用いると20%から99%の範囲でした。バギング分類器が最も良いパフォーマンスを示し、次いでランダムフォレスト分類器が続きました。

2025-01-16T05:58:32


A Study of In-Context-Learning-Based Text-to-SQL Errors

http://arxiv.org/abs/2501.09310v1

Jiawei Shen, Chengcheng Wan, Ruoyi Qiao, Jiazhen Zou, Hang Xu, Yuchen Shao, Yueling Zhang, Weikai Miao, Geguang Pu

East China Normal University

大規模言語モデル(LLM)は、自然言語の質問を構造化クエリ言語(SQL)に翻訳するために、コンテキスト内学習(ICL)能力を利用してテキストからSQLへのタスクを実行するために採用されています。しかし、この手法は正確性の問題に直面しており、効率的な修正ソリューションが必要です。本論文では、テキストからSQLへのエラーに関する初の包括的研究を実施しました。我々の研究は、4つの代表的なICLベースの手法、5つの基本的な修正方法、2つのベンチマーク、2つのLLM設定をカバーしています。我々は、テキストからSQLへのエラーが広範に存在し、7つのカテゴリの29のエラータイプを要約しました。また、既存の修正試みは、大きな計算負荷と多くの誤修正を伴って限定的な正確性の向上しかもたらさないことを発見しました。この結果に基づき、我々はMapleRepairという新しいテキストからSQLへのエラー検出および修正フレームワークを提案します。評価の結果、MapleRepairは、誤修正を無視できる程度で13.8%多くのクエリを修正し、67.4%のオーバーヘッドを削減することで既存のソリューションを上回ることが示されました。

2025-01-16T05:54:59


Understanding Mental Health Content on Social Media and Its Effect Towards Suicidal Ideation

http://arxiv.org/abs/2501.09309v1

Mohaiminul Islam Bhuiyan, Nur Shazwani Kamarudin, Nur Hafieza Ismail

このレビューは、自殺の観念を持つ個人を特定し支援するための効果的な戦略の重要性を強調し、機械学習(ML)と深層学習(DL)の技術革新を活用して自殺防止の取り組みを進める必要性を示しています。この研究では、自殺思考に関連する言語パターン、キーワード、フレーズ、トーン、文脈の手がかりを検出するために、大量の非構造化ソーシャルメディアデータを分析する際のこれらの技術の適用について詳しく説明しています。サポートベクターマシンSVM)、畳み込みニューラルネットワーク(CNN)、長短期記憶(LSTM)、ニューラルネットワークなどのさまざまなMLおよびDLモデルの効果、そしてテキストデータ内の複雑なデータパターンや感情的なニュアンスを解釈する能力が探求されています。このレビューは、デジタルトレースを通じてリスクのある個人を特定することによって、これらの技術が命を救うツールとして機能する可能性について論じています。さらに、実世界における効果、限界、および自殺防止のためにこれらの技術を利用する際の倫理的配慮を評価し、責任ある開発と使用の重要性を強調しています。研究は、この分野における最近の研究、方法論、ツール、技術を分析することによって、重要な知識のギャップを埋めることを目的としています。現在の文献を統合し、実用的なツールや自殺防止の取り組みに情報を提供する重要性を強調し、早期介入のための信頼できる倫理的システムの革新を促進します。この研究の統合は、技術とメンタルヘルスの交差点を評価し、ML、DL、および自然言語処理NLP)の倫理的かつ責任ある適用を提唱し、世界中で命を救う可能性を提供しながら、一般化可能性、バイアス、プライバシーなどの課題や、これらの技術が既存の不平等や害を悪化させないことを確保するためのさらなる研究の必要性に対処します。

2025-01-16T05:46:27


To Retrieve or Not to Retrieve? Uncertainty Detection for Dynamic Retrieval Augmented Generation

http://arxiv.org/abs/2501.09292v1

Kaustubh D. Dhole

Emory University

リトリーバル拡張生成(Retrieval-Augmented Generation)は、大規模言語モデルに外部の知識を取得する能力を与え、モデルの内在的な能力を超えた情報を取り入れることで、幻覚(ハルシネーション)を緩和します。しかし、これまでの多くの研究は、決定論的にリトリーバルを呼び出すことに焦点を当てており、そのため長文の質問応答などのタスクには不向きです。代わりに、基盤となる大規模言語モデル(LLM)が必要な知識を欠いているときにのみリトリーバルを動的に呼び出す方が、より効率的です。この文脈において、「リトリーバルを行うべきか、行わざるべきか?」という問いを掘り下げ、複数の不確実性検出方法を探求しました。長文の質問応答タスクにおいて動的リトリーバルを用いて、これらの方法を評価し、比較結果を示します。我々の発見は、デグリーマトリックス・ジャカール(Degree Matrix Jaccard)やエccentricityなどの不確実性検出メトリクスが、質問応答の精度をわずかに低下させるだけで、リトリーバル呼び出しの回数をほぼ半分に減らすことができることを示唆しています。

2025-01-16T04:56:33


LAVCap: LLM-based Audio-Visual Captioning using Optimal Transport

http://arxiv.org/abs/2501.09291v1

Kyeongha Rho, Hyeongkeun Lee, Valentio Iverson, Joon Son Chung

KAIST, University of Waterloo

自動音声キャプション生成は、音声コンテンツに対するテキスト記述を生成するタスクであり、最近の研究ではキャプションの品質を向上させるために視覚情報の使用が探求されています。しかし、現在の手法は、音声データと視覚データを効果的に融合できず、各モダリティからの重要な意味的手がかりを見逃すことがよくあります。これに対処するために、視覚情報と音声を効果的に統合し、音声キャプションの性能を向上させる大規模言語モデル(LLM)に基づく音声・視覚キャプションフレームワーク「LAVCap」を紹介します。LAVCapは、音声と視覚の特徴間のモダリティギャップを埋めるために、最適輸送に基づく整合損失を採用し、より効果的な意味的抽出を可能にします。さらに、最適輸送割り当てマップを使用して音声・視覚の融合を強化する最適輸送注意モジュールを提案します。最適な訓練戦略と組み合わせて、実験結果は私たちのフレームワークの各コンポーネントが効果的であることを示しています。LAVCapは、AudioCapsデータセットで既存の最先端手法を上回り、大規模データセットや後処理に依存することなく優れた性能を発揮します。コードはhttps://github.com/NAVER-INTEL-Co-Lab/gaudi-lavcapで入手できます。

2025-01-16T04:53:29


SEAL: Entangled White-box Watermarks on Low-Rank Adaptation

http://arxiv.org/abs/2501.09284v2

Giyeong Oh, Saejin Kim, Woohyun Cho, Sangkyu Lee, Jiwan Chung, Dokyung Song, Youngjae Yu

最近、LoRAとその変種は、大規模な事前学習モデルのタスク特化型バージョンをトレーニングおよび共有するための事実上の戦略となっています。その理由は、効率性とシンプルさです。しかし、特にウォーターマークに基づく技術を通じたLoRAの重みの著作権保護の問題は、まだ十分に探求されていません。このギャップに対処するために、私たちはSEAL(LoRA重みにおけるセキュアなウォーターマーキング)を提案します。SEALは、LoRAの重みの間に非トレーニング可能な秘密の行列を埋め込むことで、所有権の主張に使えるパスポートの役割を果たします。次に、SEALは、追加の損失を伴うことなく、トレーニングを通じてこのパスポートをLoRAの重みと絡めます。そして、パスポートを隠した後に微調整された重みを配布します。SEALを適用する際、常識推論、テキスト/ビジュアル指示チューニング、テキストから画像への合成タスクにおいてパフォーマンスの劣化は観察されませんでした。私たちは、SEALが削除、難読化、曖昧さ攻撃など、さまざまな知られた攻撃に対して堅牢であることを示します。

2025-01-16T04:17:56


Text Semantics to Flexible Design: A Residential Layout Generation Method Based on Stable Diffusion Model

http://arxiv.org/abs/2501.09279v1

Zijin Qiu, Jiepeng Liu, Yi Xia, Hongtuo Qi, Pengkun Liu

AIに基づく住宅レイアウト設計における柔軟性は、依然として重要な課題です。従来の手法であるルールベースのヒューリスティックやグラフベースの生成は、柔軟性が欠けており、ユーザーからの substantialな設計知識を必要とすることがよくあります。これらの制限に対処するために、私たちは柔軟な住宅レイアウトを生成するためにStable Diffusionモデルに基づくクロスモーダル設計アプローチを提案します。この方法では、学習目的のために複数の入力タイプを提供し、ユーザーが境界とレイアウトの両方を指定できるようにします。自然言語を設計制約として組み込み、ControlNetを導入して、2つの異なる経路を通じて安定したレイアウト生成を可能にしています。また、設計の専門知識をナレッジグラフ内にカプセル化し、それを自然言語に翻訳するスキームを提示し、設計知識の可視化された表現を提供します。この理解しやすさと入力オプションの多様性により、専門家と非専門家が直接設計要件を表現できるようになり、柔軟性と制御性が向上します。最後に、実験により、提案された方法の柔軟性が最先端のモデルよりもマルチモーダル制約下でより優れていることが確認されました。特定の部屋の面積や接続に関する意味情報が不完全であってもです。

2025-01-16T03:57:38


Large Language Model is Secretly a Protein Sequence Optimizer

http://arxiv.org/abs/2501.09274v2

Yinkai Wang, Jiaxing He, Yuanqi Du, Xiaohui Chen, Jianan Canal Li, Li-Ping Liu, Xiaolin Xu, Soha Hassoun

Tufts University, Northeastern University, Cornell University, UC Berkeley

私たちは、与えられた野生型配列から高い適合度を持つタンパク質配列を見つけることを目的としたタンパク質配列工学の問題を考えます。指向的進化は、この分野で支配的な概念であり、変異体を生成し、実験的フィードバックを通じて選択する反復プロセスを持っています。私たちは、大規模言語モデル(LLM)が、大量のテキストで訓練されているにもかかわらず、実はタンパク質配列の最適化者であることを示します。指向的進化的手法を用いることで、LLMはパレート最適化および実験予算制約の下でタンパク質工学を実行することができ、合成および実験的適合度の両方の風景において成功を収めていることを示しています。

2025-01-16T03:44:16


Perspective Transition of Large Language Models for Solving Subjective Tasks

http://arxiv.org/abs/2501.09265v1

Xiaolong Wang, Yuanchi Zhang, Ziyue Wang, Yuzhuang Xu, Fuwen Luo, Yile Wang, Peng Li, Yang Liu

Tsinghua University, Jiuquan Satellite Launch Center, Harbin Institute of Technology, Shenzhen University, Institute for AI Industry Research

大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、さまざまなタスクにおいて目覚ましい進展を遂げました。常識推論や算数の質問応答といった客観的なタスクとは異なり、LLMの主観的なタスクに対する性能はまだ限られており、特定の問題に対する視点が文脈をより良く解釈し、適切な応答を与えるために重要な役割を果たします。例えば、特定のシナリオにおいて、LLMは専門家の視点から回答する際により良い結果を出すことがあり、関連するドメイン知識を引き出す可能性があります。対照的に、他のシナリオでは、LLMは第三者の立場から回答することにより、問題をより包括的に理解し、内在するバイアスを緩和することで、より正確な応答を提供できることがあります。本論文では、主観的な問題を解決するための最適な方法として、LLMが直接的、役割、第三者の視点の中から動的に選択できることを可能にする、文脈内学習に基づく「視点転換を通じた推論(RPT)」という方法を提案します。GPT-4、GPT-3.5、Llama-3、Qwen-2を含むクローズドソースおよびオープンソースのLLMを使用した合計12の主観的タスクにおける広範な実験を通じて、我々の方法は、チェイン・オブ・ソート・プロンプティングや専門家プロンプティングといった広く使用される単一の固定視点に基づく方法を上回ることを示し、LLMが異なる問題に対してニュアンスのある、文脈に適した応答を提供するためにどのように視点を適応させることができるかを明らかにしています。

2025-01-16T03:30:47


Clone-Robust AI Alignment

http://arxiv.org/abs/2501.09254v1

Ariel D. Procaccia, Benjamin Schiffer, Shirley Zhang

Harvard University

大規模言語モデル(LLM)を訓練する際の重要な課題は、人間の好みにきちんと合わせることです。人間のフィードバックを用いた強化学習(RLHF)は、人間のアノテータからのペアごとの比較を使用して報酬関数を訓練し、人気のあるアラインメント手法として定着しています。しかし、RLHFの入力データセットは、含まれる質問と回答の種類が必ずしも均等にバランスが取れているわけではありません。したがって、RLHFアルゴリズムが選択肢のセットが均等に分布していない場合でもうまく機能することを望んでいます。社会的選択理論から得た洞察を基にして、近似クローンに対するロバスト性という、RLHFアルゴリズムの望ましい特性を提案します。これは、ほぼ重複する選択肢を追加しても学習された報酬関数が大きく変化しないことを要求します。まず、標準的なRLHFアルゴリズムがこの特性を満たさないことを示します。次に、他の選択肢との類似性に基づいて選択肢に重みを付けることによって、標準的な正則化最尤推定(MLE)を修正する新しいRLHFアルゴリズム、重み付きMLEを提案します。この新しいアルゴリズムは、望ましい理論的特性を保持しつつ、近似クローンに対するロバスト性を保証します。

2025-01-16T02:43:44


AI-based Identity Fraud Detection: A Systematic Review

http://arxiv.org/abs/2501.09239v1

Chuo Jun Zhang, Asif Q. Gill, Bo Liu, Memoona J. Anwar

University of Technology Sydney

デジタルサービスの急速な発展により、大量の個人識別情報(PII)がオンラインに保存され、アイデンティティ詐欺などのサイバー攻撃の対象となっています。最近では、人工知能(AI)を利用したディープフェイク技術の使用が、アイデンティティ詐欺の複雑さを大幅に増加させました。詐欺師はこれらの技術を使用して、高度に洗練された偽の個人識別文書、写真、ビデオを作成する可能性があります。アイデンティティ詐欺の状況の進展は、アイデンティティ詐欺の検出と社会全体にとって課題をもたらしています。アイデンティティ詐欺の検出方法、その限界、潜在的な解決策を見直し、理解する必要性が高まっています。本研究は、広く知られた体系的文献レビュー法を用いて、この重要なニーズに対処することを目的としています。この論文では、4つの主要な学術文献データベースから選ばれた43本の論文をレビューしました。特に、レビュー結果はアイデンティティ詐欺の予防と検出方法の2つのタイプ、深い課題とオープンな課題を強調しています。結果は、AIに基づくアイデンティティ詐欺の検出と予防方法の分類に統合され、主要な洞察と傾向が含まれています。全体として、この論文は研究者や実務家にとって、デジタルアイデンティティ詐欺という重要な分野でのさらなる研究と開発のための基盤知識を提供しています。

2025-01-16T01:52:30


Foundations of Large Language Models

http://arxiv.org/abs/2501.09223v1

Tong Xiao, Jingbo Zhu

これは大規模言語モデルに関する本です。タイトルが示すように、この本は最先端技術の包括的なカバーよりも、基本的な概念に主に焦点を当てています。書籍は、事前学習、生成モデル、プロンプティング技術、およびアラインメント手法という4つの主要な章に構成されており、各章が重要な分野を探求しています。これは、大学生、専門家、自然言語処理や関連分野の実務家を対象としており、大規模言語モデルに興味のある人々にとっての参考資料としても利用できます。

2025-01-16T01:03:56


Interpretable Droplet Digital PCR Assay for Trustworthy Molecular Diagnostics

http://arxiv.org/abs/2501.09218v1

Yuanyuan Wei, Yucheng Wu, Fuyang Qu, Yao Mu, Yi-Ping Ho, Ho-Pui Ho, Wu Yuan, Mingkun Xu

正確な分子定量は、感染症、癌生物学、遺伝疾患などの分野における研究と診断の進展に不可欠です。ドロップレットデジタルPCR(ddPCR)は、絶対定量を達成するためのゴールドスタンダードとして浮上しています。計算機ddPCR技術は大きく進歩しましたが、自動解釈を達成し、さまざまな運用環境での一貫した適応性を保つことは依然として課題です。これらの制限に対処するために、我々は、ドロップレットのセグメンテーションと分類のためのフロントエンド予測モデルと、文脈を考慮した説明と推奨のためのGPT-4のマルチモーダル大規模言語モデル(MLLM)を統合した、情報提供可能な知的ドロップレットデジタルPCR(I2ddPCR)アッセイを紹介します。このアプローチは、最先端のモデルを超え、300個以上のドロップレットを含む複雑なddPCR画像を処理する際に99.05%の精度を達成します。この精度は、さまざまな信号対雑音比(SNR)を持つ画像においても同様です。専門的なニューラルネットワークと大規模言語モデルを組み合わせることで、I2ddPCRアッセイは、90.32コピー/{\mu}Lのような低濃度のターゲットを検出できる感度を持つ、堅牢かつ適応可能な絶対分子定量ソリューションを提供します。さらに、詳細な説明とトラブルシューティングガイダンスを通じてモデルの透明性を向上させ、ユーザーが情報に基づいた意思決定を行えるようにします。この革新的なフレームワークは、分子診断、疾患研究、臨床応用、特にリソースが制約された環境で恩恵をもたらす可能性があります。

2025-01-16T00:33:17


Adaptive Law-Based Transformation (ALT): A Lightweight Feature Representation for Time Series Classification

http://arxiv.org/abs/2501.09217v1

Marcell T. Kurbucz, Balázs Hajós, Balázs P. Halmos, Vince Á. Molnár, Antal Jakovác

Wigner Research Centre for Physics, Corvinus University of Budapest, Eötvös Loránd University, Tampere University

時系列分類(TSC)は、金融、医療、環境モニタリングなどのさまざまな分野で基本的な役割を果たしています。しかし、従来のTSC手法は、時系列データの固有の複雑さや変動性に苦労することがよくあります。 key data patternsに基づいて特徴空間を変換することで分類精度を向上させた線形法則に基づく変換(LLT)に関する以前の研究に基づき、適応法則に基づく変換(ALT)を導入します。ALTは可変長のシフトウィンドウを取り入れることでLLTを強化し、異なる長さの区別可能なパターンを捉え、より複雑な時系列を効果的に処理できるようにします。特徴を線形に分離可能な空間にマッピングすることで、ALTは迅速で堅牢かつ透明性のあるソリューションを提供し、わずか数個のハイパーパラメータで最先端の性能を達成します。

2025-01-16T00:33:01


2025-01-17 arXiv論文リスト(cs.AI)

About

arXivに掲載されたcs.AIの論文を検索し、一部をリスト化したものです。

※AIによってAbstractを日本語に翻訳しており、内容に誤りがある可能性があります。

リスト件数: 62件

リストから抽出されたキーワード: Generative AI, Multi-agent Systems, Explainable AI

3rd Workshop on Maritime Computer Vision (MaCVi) 2025: Challenge Results

http://arxiv.org/abs/2501.10343v1

Benjamin Kiefer, Lojze Žust, Jon Muhovič, Matej Kristan, Janez Perš, Matija Teršek, Uma Mudenagudi Chaitra Desai, Arnold Wiliem, Marten Kreis, Nikhil Akalwadi, Yitong Quan, Zhiqiang Zhong, Zhe Zhang, Sujie Liu, Xuran Chen, Yang Yang, Matej Fabijanić, Fausto Ferreira, Seongju Lee, Junseok Lee, Kyoobin Lee, Shanliang Yao, Runwei Guan, Xiaoyu Huang, Yi Ni, Himanshu Kumar, Yuan Feng, Yi-Ching Cheng, Tzu-Yu Lin, Chia-Ming Lee, Chih-Chung Hsu, Jannik Sheikh, Andreas Michel, Wolfgang Gross, Martin Weinmann, Josip Šarić, Yipeng Lin, Xiang Yang, Nan Jiang, Yutang Lu, Fei Feng, Ali Awad, Evan Lucas, Ashraf Saleem, Ching-Heng Cheng, Yu-Fan Lin, Tzu-Yu Lin, Chih-Chung Hsu

University of Tuebingen, University of Ljubljana, Luxonis, Shield AI, Queensland University of Technology, Center of Excellence in Visual Intelligence, KLE Technological University, Nanjing University of Science and Technology, University of Zagreb Faculty of Electrical Engineering and Computing, Gwangju Institute of Science and Technology (GIST), University of Liverpool, Hong Kong University of Science and Technology (Guangzhou), Xi’an Jiaotong-Liverpool University, Dalian Maritime University, School of Marine Engineering, National Cheng Kung University, Fraunhofer IOSB, Yancheng Institute of Technology, Nanjing University, Beijing University of Posts and Telecommunications, Michigan Technological University, Karlsruhe Institute of Technology

2025年の第3回海上コンピュータビジョンワークショップ(MaCVi)は、無人水上車両(USV)および水中の海上コンピュータビジョンに関するものです。本報告書は、課題からの発見の包括的な概要を提供します。700件以上の応募からのトレンドを評価するために、統計的および定性的な分析を行います。すべてのデータセット、評価コード、リーダーボードは、https://macvi.org/workshop/macvi25 で一般に公開されています。

2025-01-17T18:34:47


Agent4Edu: Generating Learner Response Data by Generative Agents for Intelligent Education Systems

http://arxiv.org/abs/2501.10332v1

Weibo Gao, Qi Liu, Linan Yue, Fangzhou Yao, Rui Lv, Zheng Zhang, Hao Wang, Zhenya Huang

パーソナライズされた学習は、学習者の実践効率を向上させることを目指した知的教育システム内の有望な教育戦略です。しかし、オフラインの指標とオンラインのパフォーマンスとの間の不一致は、彼らの進展を大きく妨げています。この課題に対処するために、私たちは「Agent4Edu」を導入します。これは、大規模言語モデル(LLM)を活用した新しいパーソナライズド学習シミュレーターです。

Agent4Eduは、パーソナライズされた学習アルゴリズムに合わせて設計された学習者プロファイル、メモリー、およびアクションモジュールを備えたLLM駆動の生成エージェントを特徴としています。学習者プロファイルは、実際の反応データを使用して初期化され、実践スタイルや認知要因を捉えます。人間の心理学理論にインスパイアを受けたメモリーモジュールは、実践の事実と高レベルの要約を記録し、反省メカニズムを統合します。アクションモジュールは、理解力、分析、および応答生成を含むさまざまな行動をサポートします。

各エージェントは、コンピュータ化された適応テストのようなパーソナライズされた学習アルゴリズムと相互作用し、カスタマイズされたサービスの多面的な評価と強化を可能にします。包括的な評価を通じて、私たちはAgent4Eduの長所と短所を探り、エージェントと人間の学習者の間の応答の一貫性と不一致を強調します。コード、データ、および付録は、https://github.com/bigdata-ustc/Agent4Edu にて公開されています。

2025-01-17T18:05:04


Large language models for automated scholarly paper review: A survey

http://arxiv.org/abs/2501.10326v1

Zhenzhen Zhuang, Jiandong Chen, Hongfeng Xu, Yuwen Jiang, Jialiang Lin

Guangzhou Institute of Science and Technology, Guizhou Normal University

大規模言語モデル(LLM)は人間社会に大きな影響を与え、さまざまな分野に影響を及ぼしています。その中でも、学術界はLLMの影響を受ける分野であるだけでなく、LLMの発展においても重要な力となっています。学術論文の中では、LLMを原稿の査読メカニズムに組み込むことによってこの現象が表れています。私たちは前回の論文で自動 scholarly paper review(ASPR)の概念を提案しました。組み込みが進む中で、ASPRと査読の共存段階に入ってきており、そのことは前述の論文で説明されています。LLMはASPRの本格的な実施に変革的な可能性を持っていますが、新たな問題や課題も提起しています。本調査論文では、LLMの時代におけるASPRの全体像を提供することを目指しています。まず、ASPRを実施するために使用されているLLMを調査します。次に、LLM技術の組み込みによって解決されたASPR関連の技術的なボトルネックをレビューします。その後、ASPRにおけるLLMに伴う新しい手法、新しいデータセット、新しいソースコード、そして新しいオンラインシステムを探求します。さらに、ASPRにおけるLLMの性能と問題を要約し、出版者や学術界のASPRに対する態度と反応を調査します。最後に、ASPRのためのLLMの開発に関する課題について議論します。この調査が研究者にとってインスピレーションの源となり、実際の実施に向けたASPRの進展を促進することを期待しています。

2025-01-17T17:56:58


Hierarchical Autoregressive Transformers: Combining Byte-~and Word-Level Processing for Robust, Adaptable Language Models

http://arxiv.org/abs/2501.10322v1

Pit Neitemeier, Björn Deiseroth, Constantin Eichenberg, Lukas Balles

Aleph Alpha Research, Heidelberg

トークン化は自然言語処理における基本的なステップであり、テキストを計算モデルが処理できる単位に分解します。サブワードトークナイザは事実上の標準となっていますが、大きな語彙数、新しい領域や言語への適応の限界、スペルミスや変異に対する感受性などの課題を呈しています。これらの制限を克服するために、文字レベルと単語レベルの処理を組み合わせた自己回帰的言語モデルの階層的アーキテクチャを調査します。このアプローチは、軽量な文字レベルのエンコーダーを使用して文字列を単語の埋め込みに変換し、その後単語レベルのバックボーンモデルで処理し、コンパクトな文字レベルのデコーダーを介して再び文字にデコードします。この方法は、厳格であらかじめ定義された語彙に依存することなく、単語レベルのトークン化のシーケンス圧縮の利点を保持します。私たちは、最大70億パラメータのスケールで、階層トランスフォーマーがサブワードトークナイザベースのモデルの下流タスク性能に匹敵し、入力の摂動に対して著しく高い頑健性を示すことを実証します。さらに、ドメイン外の言語での追加の事前学習中に、私たちのモデルはほぼ二倍の速さで訓練され、目標言語で優れた性能を達成し、以前に学習した知識の多くを保持します。階層トランスフォーマーは、言語やドメインを越えてより頑健で柔軟かつ一般化可能なNLPシステムへの道を開きます。

2025-01-17T17:51:53


An Ontology for Social Determinants of Education (SDoEd) based on Human-AI Collaborative Approach

http://arxiv.org/abs/2501.10300v1

Navya Martin Kollapally, James Geller, Patricia Morreale, Daehan Kwak

計算的オントロジーの使用は、医療情報学の分野で確立されています。健康の社会的決定要因(SDoH)というテーマも広く注目されています。オントロジーとSDoHの交差点での研究が発表されています。しかし、教育の社会的決定要因(SDoEd)に関する標準化されたフレームワークは不足しています。本論文では、学生の生活状況とその可能な教育成果との相互作用を正確に概念化するために、SDoEdオントロジーを導入することでこのギャップを埋めています。このオントロジーは、ChatGPT-3.5-010422からの提案を利用して開発され、査読付き研究論文を使って検証されました。開発されたオントロジーの最初のバージョンは、教育分野の人間の専門家によって評価され、標準的なオントロジー評価ソフトウェアを用いて検証されました。このバージョンのSDoEdオントロジーには、231のドメイン概念、10のオブジェクトプロパティ、および24のデータプロパティが含まれています。

2025-01-17T16:51:03


SEANN: A Domain-Informed Neural Network for Epidemiological Insights

http://arxiv.org/abs/2501.10273v1

Jean-Baptiste Guimbaud, Marc Plantevit, Léa Maître, Rémy Cazabet

疫学において、ロジスティック回帰分析、線形回帰分析、その他のパラメトリックモデルなどの従来の統計手法が、予測因子と健康結果との関連を調査するために一般的に用いられています。しかし、深層ニューラルネットワーク(DNN)などの非パラメトリック機械学習技術と、説明可能なAI(XAI)ツールを組み合わせることで、このタスクに新たな機会が提供されます。これらの手法には可能性があるものの、高品質・高量のデータの限られた入手可能性のために課題に直面しています。これらの課題に対処するために、私たちはSEANNという新しいアプローチを紹介します。これは、特定のドメインに特有の知識の一般的な形式であるプール効果サイズ(PES)を活用した情報に基づくDNNです。PESは、さまざまな形式で発表されたメタアナリシス研究に共通して見られ、科学的合意の定量的な形を表しています。カスタムロスを用いて学習プロセス内に直接統合することで、データが不足してノイズが多い状況において、ドメイン知識に依存しないニューラルネットワークと比較して、予測パフォーマンスの一般化能力および抽出された関係の科学的整合性において有意な改善を実験的に示します。

2025-01-17T16:01:05


Unsupervised Rhythm and Voice Conversion of Dysarthric to Healthy Speech for ASR

http://arxiv.org/abs/2501.10256v1

Karl El Hajal, Enno Hermann, Ajinkya Kulkarni, Mathew Magimai. -Doss

Idiap Research Institute, EPFL, École polytechnique fédérale de Lausanne

自動音声認識(ASR)システムは、構音障害のあるスピーチに対してパフォーマンスが悪いことが知られています。これまでの研究では、典型的なスピーチとの不一致を減らすために発話速度の修正が対処されています。しかし、これらのアプローチは、発話速度や音素の持続時間を推定するために転写された音声データに依存しており、未知の話者に対しては利用できない可能性があります。したがって、自己教師あり音声表現に基づく無監督リズムと声の変換方法を組み合わせて、構音障害のあるスピーチを典型的なスピーチにマッピングします。私たちは、さらなるファインチューニングなしで健康な音声に対して事前訓練された大規模なASRモデルで出力を評価し、提案されたリズム変換が特にトルゴコーパスのより重度の構音障害の話者に対してパフォーマンスを向上させることがわかりました。コードとオーディオサンプルはhttps://idiap.github.io/RnVで入手可能です。

2025-01-17T15:39:21


Random-Key Algorithms for Optimizing Integrated Operating Room Scheduling

http://arxiv.org/abs/2501.10243v1

Bruno Salezze Vieira, Eduardo Machado Silva, Antonio Augusto Chaves

Federal University of São Paulo (UNIFESP), Aeronautics Institute of Technology (ITA)

効率的な手術室のスケジューリングは、病院の効率、患者の満足度、および資源の利用にとって不可欠です。 本研究は、文献および新しい実世界からインスパイアされた事例に厳密に検証された新たな概念であるランダムキー最適化器(RKO)を導入することにより、この課題に取り組んでいます。私たちの組合せ最適化問題は、複数の手術室のスケジューリング、設備のスケジューリング、そして部屋、患者、外科医のための複雑な利用可能性の制約を組み込み、リスケジューリングを容易にし、運用の柔軟性を向上させます。 RKOアプローチは、解を連続空間の点として表現し、それをデコーダと呼ばれる決定論的関数を介して問題の解空間にマッピングします。 中核となるアイデアは、元の解空間を意識することなく、ランダムキー空間でメタヒューリスティクスおよびヒューリスティクスを操作することです。私たちは、単一のデコーダ関数を使用するRKOフレームワーク内で使用するために、$Q$-学習、シミュレーテッドアニーリング、そして反復局所探索を用いたバイアス付きランダムキー遺伝的アルゴリズムを設計しました。 提案されたメタヒューリスティクスは下限の定式化によって補完されており、ヒューリスティック結果の効果を評価するための最適なギャップを提供します。 我々の結果は、文献事例に対する顕著な下限および上限の改善を示しており、特に最適な結果を一つ証明しています。 さらに、最良の提案メタヒューリスティクスは、非常に厳しいシナリオであっても、新たに導入された事例のために効率的にスケジュールを生成します。この研究は、手術スケジューリングプロセスを改善するための貴重な洞察と実用的な解決策を提供し、資源配分の最適化、患者の待機時間の短縮、そして全体的な運営効率の向上という具体的な利益を病院にもたらします。

2025-01-17T15:11:30


Challenges and recommendations for Electronic Health Records data extraction and preparation for dynamic prediction modelling in hospitalized patients -- a practical guide

http://arxiv.org/abs/2501.10240v1

Elena Albu, Shan Gao, Pieter Stijnen, Frank E. Rademakers, Bas C T van Bussel, Taya Collyer, Tina Hernandez-Boussard, Laure Wynants, Ben Van Calster

KU Leuven, University Hospitals Leuven, Maastricht University, Maastricht University Medical Centre+, Cardiovascular Research Institute (CARIM), Monash University, Stanford University, Leiden University Medical Center

電子健康記録(EHR)データを使用した動的予測モデルは、近年大きな注目を集めています。このようなモデルの信頼性と信頼度は、主にモデル開発の前段階、すなわちEHRシステムからのデータ抽出とデータ準備の質に依存しています。私たちは、これらの段階で発生する40以上の課題をリストアップし、それに対処するための具体的な推奨事項を提供します。これらの課題は、コホート定義、アウトカム定義、特徴エンジニアリング、データクリーニングの4つのカテゴリーに整理されています。このリストは、データ抽出エンジニアや研究者のための実用的なガイドとして、より良い実践を支援し、臨床環境における動的予測モデルの質と実世界での適用性を向上させることを目的としています。

2025-01-17T15:09:57


Temporal Causal Reasoning with (Non-Recursive) Structural Equation Models

http://arxiv.org/abs/2501.10190v1

Maksim Gladyshev, Natasha Alechina, Mehdi Dastani, Dragan Doder, Brian Logan

構造方程モデル(SEM)は、因果モデルにおける変数間の因果依存関係を表すための標準的なアプローチです。本論文では、実際の因果関係について考える際のSEMの新しい解釈を提案します。ここでは、SEMが外因変数の動的変化を内因変数の動的変化に変換するメカニズムとして捉えられます。これにより、反事実的因果推論と既存の時相論理形式を結びつけ、因果関係を持つ構造に関する因果推論のための時相論理CPLTLを導入することが可能になります。私たちは、依存グラフにサイクルがないいわゆる「再帰的」モデルへの標準的な制限は、私たちのアプローチでは必要ないことを示し、相互依存するプロセスやフィードバックループについて推論することを可能にします。最後に、時相因果モデルのための新しいモデル同値の概念を導入し、CPLTLが効率的なモデル検査手続きを持っていることを示します。

2025-01-17T13:37:58


Good things come in small packages: Should we adopt Lite-GPUs in AI infrastructure?

http://arxiv.org/abs/2501.10187v1

Burcu Canakci, Junyi Liu, Xingbo Wu, Nathanaël Cheriere, Paolo Costa, Sergey Legtchenko, Dushyanth Narayanan, Ant Rowstron

Microsoft Research

生成的AIワークロードの需要に対応するため、GPU設計者はこれまで、単一の複雑で高価なパッケージに、より多くの計算能力とメモリを詰め込もうとしてきました。しかし、最先端のGPUがすでにパッケージング、歩留まり、冷却の制限を示しているため、個々のGPU及びAIクラスタのスケーラビリティについての不確実性が高まっています。そこで、私たちは、ライトGPUという小さなダイを持つGPUの大規模な効率的に接続されたクラスタを通じて、AIクラスタの設計とスケーリングを再考することを提案します。ライトGPUは、より大きなGPUの機能の一部しか持たない構造です。最近の共同パッケージ化された光学技術の進展が、より多くのライトGPUにAIワークロードを分配する際の通信課題を克服する鍵になると考えています。本論文では、製造コスト、爆風半径、歩留まり、電力効率におけるライトGPUの主要な利点を示し、リソース、ワークロード、メモリ、ネットワーク管理の周りのシステムの機会と課題について論じます。

2025-01-17T13:32:28


Generative Artificial Intelligence: Implications for Biomedical and Health Professions Education

http://arxiv.org/abs/2501.10186v1

William Hersh

生成的AIは、職業的な仕事や教育の両方において、生物医学と健康に深い影響を与えています。大規模言語モデル(LLMs)に基づく生成的AIは、医療の国家試験を受験するシミュレーション状況や、臨床的な質問に答えること、臨床ケースを解決すること、臨床推論を適用すること、情報を要約することにおいて、通常の人間と同等のパフォーマンスを示すことが確認されています。生成的AIは教育の分野でも広く利用されており、学術コースやその評価でも良好な成績を収めています。このレビューでは、LLMsの成功を要約し、特に専門職のための知識とスキルの習得を妨げる可能性のある側面を含む教育の文脈における課題を強調します。さらに、教育におけるLLMの使用の短所を克服するためのベストプラクティスについての提言を提供します。教育における生成的AIの使用には課題がありますが、生物医学と健康、さらにはそれ以外の分野においても、すべての学生と教員はその理解と活用能力を持たなければなりません。

2025-01-17T13:32:19


A Simple but Effective Closed-form Solution for Extreme Multi-label Learning

http://arxiv.org/abs/2501.10179v1

Kazuma Onishi, Katsuhiko Hayashi

極端マルチラベル学習(XML)は、非常に大きなラベルセットから各データインスタンスに複数のラベルを割り当てるタスクです。現在の多くの高性能XMLモデルは多数のハイパーパラメータで構成されており、チューニングプロセスが複雑になります。さらに、モデル自体がXMLに特化しているため、再実装が難しくなっています。この問題を解決するために、XML用のリッジ回帰に基づく単純な方法を提案します。提案された方法は、閉じた形式の解を持つだけでなく、単一のハイパーパラメータで構成されています。リッジ回帰をXMLに適用する前例がないため、本論文では様々なXMLベンチマークデータセットを用いてこの方法の性能を検証しました。さらに、情報のある内容を持つ低頻度ラベルの予測を向上させました。この予測は、データ量が限られているため、重要でありながらも難しいものです。ここでは、シンプルな頻度ベースの重み付けを採用しました。このアプローチは、既存の技術と比較して大幅にプロセスを簡素化します。実験結果は、この方法が多数のハイパーパラメータを持つモデルと同等、あるいはそれを上回るパフォーマンスを達成できることを示しました。さらに、頻度ベースの重み付けが低頻度ラベルの予測性能を大幅に改善し、実装にほとんど変更が不要であることがわかりました。提案した方法のソースコードは、https://github.com/cars1015/XML-ridge にて入手可能です。

2025-01-17T13:24:13


CSSDM Ontology to Enable Continuity of Care Data Interoperability

http://arxiv.org/abs/2501.10160v1

Subhashis Das, Debashis Naskar, Sara Rodriguez Gonzalez, Pamela Hussey

デジタル技術の急速な進展と最近のグローバルパンデミックのシナリオは、これらの技術が危機に対処するために医療サービスの提供とワークフローをどのように強化できるかに対する関心を高めています。既存のデジタルトランスフォーメーションプログラムを統合するアクションプランがレビューされ、持続可能な医療ソリューションのための基盤とコアインフラストラクチャを確立するための取り組みが行われています。例えば、個別化された在宅医療を提供するために健康・社会サービスを改革することは、過密な急性期病院での治療を避け、医療専門家とサービス利用者の両方にとっての経験と結果を改善するのに役立ちます。この情報集約型の領域において、標準ベースのロードマップを通じて相互運用性の課題に対処することは、健康と社会サービス間の効果的な接続を可能にする上で重要です。このアプローチは、異なる医療システムプロバイダー間で安全で信頼できるデータワークフローを促進します。この論文では、共通の意味論的標準データモデル(CSSDM)を使用し、セミオートマチックプロセスを通じてデータを抽出、変換、ロードする手法を提案します。CSSDMはISO 13940 ContSysの形式的オントロジーに基づいており、KGを生成するための構造属性をサポートするためにFHIRベースの仕様を組み込んでいます。私たちは、CSSDMがデータの調和とリンクを促進し、相互運用性に対する代替アプローチを提供すると提案します。このアプローチは、健康情報システムやクラウド対応の健康サービスを開発する企業間の新しい形のコラボレーションを促進します。その結果、複数の利害関係者が高品質のデータと情報共有にアクセスできるようになります。

2025-01-17T12:48:48


Region-wise stacking ensembles for estimating brain-age using MRI

http://arxiv.org/abs/2501.10153v1

Georgios Antonopoulos, Shammi More, Simon B. Eickhoff, Federico Raimondo, Kaustubh R. Patil

構造的磁気共鳴画像法(MRI)データを用いた予測モデルは、脳の老化を研究するための重要なアプローチです。機械学習アルゴリズムや特徴抽出方法が、予測の改善や健康的および加速された老化(例えば神経変性障害や精神的障害)の探求に利用されています。高次元のMRIデータは、汎用性があり解釈可能なモデルの構築を困難にし、データのプライバシーにも課題をもたらします。一般的な手法は、あらかじめ定義されたパーセル内のボクセルをリサンプリングまたは平均化することで、解剖学的特異性や生物学的解釈性が低下します。これは、ある領域内のボクセルが老化に異なる関連を持つ可能性があるためです。効果的には、単純な融合による平均化は情報の損失と精度の低下を引き起こすことがあります。私たちは、概念的に新しい二層スタッキングアンサンブル(SE)アプローチを提案します。第一層は、ボクセルごとの情報に基づいて個々の年齢を予測する地域モデルから構成され、第二層モデルによって融合されて最終的な予測が得られます。成人のライフスパンをカバーする四つのデータセットから得られた灰白質の体積(GMV)の推定値を入力として、八つのデータ融合シナリオが検討されました。性能は平均絶対誤差(MAE)、R2、相関、および予測バイアスを用いて測定され、SEが地域ごとの平均を上回ることが示されました。最良の性能は、第一層の地域的予測が適用サイトでの外部サンプル予測として得られ、第二層モデルが独立したサイト特有のデータで訓練されたときに得られました(MAE=4.75 対 基準地域平均GMV MAE=5.68)。使用するデータセットが増えるにつれて、性能が向上しました。第一層の予測は改善され、より堅牢な老化信号を示し、新しい生物学的洞察とデータプライバシーの強化を提供しました。全体として、SEは基準と比較して精度を向上させながら、データプライバシーを保持または向上させます。

2025-01-17T12:24:28


Topology-Driven Attribute Recovery for Attribute Missing Graph Learning in Social Internet of Things

http://arxiv.org/abs/2501.10151v1

Mengran Li, Junzhou Chen, Chenyun Yu, Guanying Jiang, Ronghui Zhang, Yanming Shen, Houbing Herbert Song

Shenzhen Campus of Sun Yat-sen University, Baidu Inc, Dalian University of Technology, University of Maryland, Baltimore County

情報技術の進展に伴い、ソーシャルインターネットオブシングス(SIoT)は物理デバイスソーシャルネットワークの統合を促進し、複雑な相互作用パターンの研究が深まりました。テキスト属性グラフ(TAGs)は、トポロジカルな構造とセマンティック属性の両方を捉え、SIoT内の複雑な相互作用の分析を強化します。しかし、既存のグラフ学習法は通常、完全な属性グラフを対象として設計されており、属性欠損グラフ(AMGs)における属性の欠落という共通の問題は、分析タスクの難易度を高めています。この課題に対処するために、我々はトポロジー駆動の属性回復(TDAR)フレームワークを提案します。このフレームワークAMG学習のためにトポロジカルデータを活用します。TDARは、ネイティブグラフトポロジーを用いた初期属性回復のための改善された事前補填手法を導入します。さらに、情報伝播中のノイズを効果的に減少させるために、AMGsの独自のトポロジカル構造に適応するように、伝播重みを動的に調整し、埋め込み空間内で均一性戦略を組み込みます。公的データセットにおける広範な実験により、TDARは属性再構築とダウンストリームタスクにおいて最先端の手法を大幅に上回ることが示されており、AMGsがもたらす課題に対する堅牢な解決策を提供します。コードは https://github.com/limengran98/TDAR で入手可能です。

2025-01-17T12:23:42


Dual Debiasing: Remove Stereotypes and Keep Factual Gender for Fair Language Modeling and Translation

http://arxiv.org/abs/2501.10150v1

Tomasz Limisiewicz, David Mareček, Tomáš Musil

Charles University, Prague

バイアスの軽減、例えば言語モデルが性別ステレオタイプに依存することは、信頼できる有用な言語技術を作成するために必要な重要な取り組みです。デバイアシングの重要な側面は、モデルが言語タスクを解決する能力や様々な性別を公平に表現する能力を含む多面的な機能を維持することを保証することです。この問題に対処するために、モデル適応を通じた効率的な二重デバイアシングアルゴリズム(2DAMA)を紹介します。新しい二重デバイアシングは、言語モデルによってエンコードされた望ましい事実的な性別情報を保持しながら、ステレオタイプのバイアスを強力に削減することを可能にします。私たちは、2DAMAが英語における性別バイアスを効果的に軽減し、翻訳におけるステレオタイプ的傾向の軽減を促進する最初のアプローチの一つであることを示します。提案する方法の主な利点は、幅広い自然言語処理タスクにおいて役立つ事実的な性別の手がかりを保持することです。

2025-01-17T12:23:30


Enhancing UAV Path Planning Efficiency Through Accelerated Learning

http://arxiv.org/abs/2501.10141v1

Joseanne Viana, Boris Galkin, Lester Ho, Holger Claussen

Tyndall National Institute, University College Cork, Trinity College Dublin

無人航空機(UAV)は、監視、偵察、通信などのさまざまな分野でますます重要になっています。この研究は、UAV無線通信中継器の経路計画のための学習アルゴリズムを開発することを目的としており、ストレージ要件を減少させ、深層強化学習(DRL)の収束を加速します。システムは地域の地形図を持ち、位置特定アルゴリズムや直接GPS報告を使用してユーザーの位置を推定できると仮定すると、これらのパラメータを学習アルゴリズムに入力して最適化された経路計画性能を実現できます。しかし、地形の高さ、物体の距離、および信号の遮蔽などのトポロジー情報を抽出するためには、より高解像度の地形図が必要です。この要件は、UAVのメモリとストレージの要求を増加させ、DRLアルゴリズムの収束時間も長くなります。同様に、これらの地形図とユーザーの位置推定を使用してUAV無線通信中継器の通信カバレッジマップを定義することは、学習経路計画アルゴリズムに対してより高いメモリとストレージの利用を要求します。我々のアプローチは、主成分分析(PCA)、サンプルの組み合わせ、優先経験再生(PER)、およびカバレッジマップ推定での平均二乗誤差(MSE)と平均絶対誤差(MAE)の損失計算の組み合わせに基づく次元削減技術を適用することによって、経路計画の訓練時間を短縮し、双方向遅延深層決定論的ポリシー勾配(TD3)アルゴリズムを強化します。提案されたソリューションは、従来のTD3と比較して基本的な訓練に必要な収束エピソードを約4倍削減します。

2025-01-17T12:05:24


Conformal Prediction Sets with Improved Conditional Coverage using Trust Scores

http://arxiv.org/abs/2501.10139v1

Jivat Neet Kaur, Michael I. Jordan, Ahmed Alaa

University of California, Berkeley, Inria, Paris

標準的な適合予測は、カバレッジに関する周辺保証を提供しますが、予測セットが真に有用であるためには、理想的には各テストポイントに条件付けられたカバレッジを確保する必要があります。残念ながら、有限サンプルで正確な分布フリーの条件付きカバレッジを達成することは不可能です。本研究では、誤った予測に対して分類器が過信している場合に、特に重要なカバレッジをターゲットにした代替的な適合予測アルゴリズムを提案します。まず、周辺的に有効な適合予測における誤カバレッジイベントを分析し、誤カバレッジ率は分類器の自信とベイズ最適分類器からの逸脱に基づいて異なることを示します。この洞察に基づいて、予測に対する分類器の自信とベイズ分類器からの逸脱を測る非パラメトリック信頼スコアの2つの変数の縮小セットに条件付けられたカバレッジをターゲットにする適合予測の変種を開発します。複数の画像データセットに対する実証評価は、我々の方法が標準的な適合予測と比較して、一般的に条件付きカバレッジ特性を改善することを示しています。これには、クラス条件付きカバレッジ、任意のサブグループに対するカバレッジ、および人口統計グループに対するカバレッジが含まれます。

2025-01-17T12:01:56


Exploring the Impact of Generative Artificial Intelligence in Education: A Thematic Analysis

http://arxiv.org/abs/2501.10134v1

Abhishek Kaushik, Sargam Yadav, Andrew Browne, David Lillis, David Williams, Jack Mc Donnell, Peadar Grant, Siobhan Connolly Kernan, Shubham Sharma, Mansi Arora

最近の生成型人工知能(GenAI)技術の進展は、教育分野において変革をもたらしています。ChatGPTやBardなどの大規模言語モデル(LLM)は、定型的な作業の自動化、個別指導のためのコンテンツ作成、反復的なタスクの処理に利用でき、創造的な思考にもっと時間を割けるようになります。しかし、これらのツールを責任を持って統合するためには、教育セクターにおいてガイドライン、ポリシー、評価方法を開発することが重要です。本記事では、教育分野の専門家から得た7つのエッセイに対してテーマ分析を行い、ChatGPTやBardなどのGenAIモデルを教育で使用する際の利点と落とし穴を理解します。エッセイに対して探索的データ分析(EDA)を行い、テキストからさらなる洞察を抽出しました。この研究では、GenAIツールの利点と欠点を強調するいくつかのテーマが見つかり、これらの限界を克服し、学生がこれらのツールを責任を持ち倫理的に使用することを確保するための提案が示されています。

2025-01-17T11:49:49


Spatio-temporal Graph Learning on Adaptive Mined Key Frames for High-performance Multi-Object Tracking

http://arxiv.org/abs/2501.10129v1

Futian Wang, Fengxiang Liu, Xiao Wang

マルチオブジェクトトラッキングの領域において、ビデオシーケンス内のオブジェクト間の空間的および時間的関係を正確に捉えることは、依然として重要な課題です。この問題は、オブジェクト間の相互遮蔽が頻繁に発生することでさらに複雑化し、トラッキングエラーや既存の手法のパフォーマンス低下につながる可能性があります。これらの課題に動機づけられ、我々は現在のトラッキングアプローチの限界を克服するための新しい適応的キーフレームマイニング戦略を提案します。具体的には、強化学習を活用してビデオを適応的にセグメント化するキーフレーム抽出(KFE)モジュールを導入し、トラッカーがビデオコンテンツの内在する論理を活用できるようにします。このアプローチにより、異なるオブジェクト間の構造化された空間関係と、フレーム間のオブジェクトの時間的関係を捉えることが可能になります。オブジェクトの遮蔽の問題に対処するために、我々はイントラフレーム特徴融合(IFF)モジュールを開発しました。従来のグラフベースの手法が主にフレーム間特徴の融合に焦点を当てているのに対し、我々のIFFモジュールは、グラフ畳み込みネットワーク(GCN)を使用して、フレーム内でターゲットと周囲のオブジェクト間の情報交換を促進します。この革新により、ターゲットの識別性が大幅に向上し、遮蔽によるトラッキングロスや外観の類似性が軽減されます。長い軌道と短い軌道の両方の強みを組み合わせ、オブジェクト間の空間関係を考慮することで、我々の提案するトラッカーはMOT17データセットで68.6 HOTA、81.0 IDF1、66.6 AssA、893 IDSという印象的な結果を達成し、その有効性と精度を証明しています。

2025-01-17T11:36:38


Infrastructure for AI Agents

http://arxiv.org/abs/2501.10114v1

Alan Chan, Kevin Wei, Sihao Huang, Nitarshan Rajkumar, Elija Perrier, Seth Lazar, Gillian K. Hadfield, Markus Anderljung

Harvard Law School, University of Oxford, University of Cambridge, Australian National University, Johns Hopkins University, Centre for the Governance of AI

ますます多くのAIシステムが、電話をかけたりオンラインで商品を購入したりするなど、オープンエンドの環境においてインタラクションを計画し、実行できるようになっています。開発者がそのようなAIエージェントが達成できるタスクの範囲を拡大するにつれて、我々はこれらの利点を活かし、リスクを管理するためのツールが必要になります。現在のツールは、エージェントが既存の制度(例:法的・経済的システム)やアクター(例:デジタルサービスプロバイダー、人間、他のAIエージェント)とどのように相互作用するかを形作るために設計されていないため、主に不十分です。例えば、アラインメント技術は本質的に、ユーザーがエージェントに違法行為を実行するよう指示した場合に、ある人間が責任を持つことを相手方に保証するものではありません。このギャップを埋めるために、我々はエージェントインフラストラクチャという概念を提案します。これは、エージェントの外部に設計された技術システムと共有プロトコルで、エージェントの環境との相互作用や影響を仲介し、影響を与えることを目的としています。エージェントインフラストラクチャは、新しいツールだけでなく、既存のツールの再構成や拡張も含まれます。例えば、アカウンタビリティを促進するために、ユーザーをエージェントに結びつけるプロトコルは、OpenIDのようなユーザー認証の既存のシステムに基づくことができます。インターネットがHTTPSのようなインフラストラクチャに依存しているのと同様に、我々はエージェントインフラストラクチャがエージェントのエコシステムにとって同様に不可欠であると主張します。エージェントインフラストラクチャには、次の3つの機能があると特定します:1)特定のエージェント、利用者、または他のアクターに行動、属性、その他の情報を帰属させること;2)エージェントの相互作用を形作ること;3)エージェントからの有害な行動を検知し、修正すること。我々はこれらの各機能を達成するのに役立つインフラストラクチャを提案し、使用例、採用、制限、および未解決の質問について説明します。エージェントインフラストラクチャにおける進展を促進することで、より高度なエージェントの導入に備えることができます。

2025-01-17T10:58:12


BBPOS: BERT-based Part-of-Speech Tagging for Uzbek

http://arxiv.org/abs/2501.10107v1

Latofat Bobojonova, Arofat Akhundjanova, Phil Ostheimer, Sophie Fellenz

RPTU Kaiserslautern-Landau, Saarland University

この論文は、低資源のウズベク語に関するNLP研究を推進するもので、これまでテストされていなかった2つの単言語ウズベクBERTモデルを品詞タグ付けタスクで評価し、ウズベク語のための最初の公に利用可能なUPOSタグ付きベンチマークデータセットを紹介します。私たちのファインチューニングされたモデルは、91%の平均精度を達成し、ベースラインの多言語BERTやルールベースのタグ付けツールを上回っています。特に、これらのモデルは接辞を通じて中間的な品詞の変化を捉え、既存のルールベースのタグ付けツールとは異なり、文脈感度を示します。

2025-01-17T10:50:22


LLM Reasoner and Automated Planner: A new NPC approach

http://arxiv.org/abs/2501.10106v1

Israel Puerta-Merino, Jordi Sabater-Mir

IIIA - Artificial Intelligence Research Institute, CSIC - Spanish Scientific Research Council, Instituto de Investigación en Inteligencia Artificial, Consejo Superior de Investigaciones Científicas

人間に似た現実的な行動を模倣する知的エージェントが必要とされる領域、例えば形成シミュレーションのような場合、従来の技術である行動ツリーは重要な課題に直面します。大型言語モデル(LLM)は、必ずしも最適な解決策を提供するわけではありませんが、通常は与えられた問題に対して現実的で人間のような応答を提供します。本論文では、この能力を活用し、意思決定のためにLLMを統合した新しいアーキテクチャを提案します。このアーキテクチャは、その意思決定に対して適切な計画を生成できる古典的な自動計画ツールと統合されています。この組み合わせは、設計段階で予期されていなかった状況においても、エージェントが様々な状況で意思決定を行う能力を持つことを目指しています。

2025-01-17T10:47:11


Universal Actions for Enhanced Embodied Foundation Models

http://arxiv.org/abs/2501.10105v1

Jinliang Zheng, Jianxiong Li, Dongxiu Liu, Yinan Zheng, Zhihao Wang, Zhonghong Ou, Yu Liu, Jingjing Liu, Ya-Qin Zhang, Xianyuan Zhan

Tsinghua University, Sensetime Research, Peking University, Beijing University of Posts and Telecommunications, Shanghai AI Lab

多様なインターネット規模のデータでのトレーニングは、最近の大規模基盤モデルの成功において重要な要素です。しかし、具現化エージェントを構築するために同じレシピを使うことには著しい困難が伴っています。多くのクラウドソースの具現化データセットが存在するにもかかわらず、それらのアクション空間は、異なるロボットの独特な物理的具現化と制御インターフェースにより、しばしば重大な異質性を示し、クロスドメインデータを使用した具現化基盤モデルの開発に substantial challenges をもたらします。本論文では、トークン化されたユニバーサルアクションスペースで動作する新しい具現化基盤モデリングフレームワークである UniAct を紹介します。私たちの学習したユニバーサルアクションは、共有される構造的特徴を活用して、多様なロボット間の一般的な原子的行動を捉え、厄介な異質性を排除することにより、クロスドメインデータの利用やクロス具現化の一般化を向上させることができます。ユニバーサルアクションは、具現化特有の詳細を追加するだけで効率的に異質な実行可能コマンドに翻訳できるため、新しいロボットへの迅速な適応が簡単で明確になります。私たちの UniAct の 0.5B インスタンスは、さまざまな実世界およびシミュレーションロボットに対する広範な評価で、14倍大きな最先端の具現化基盤モデルを上回り、優れたクロス具現化制御と適応能力を示し、ユニバーサルアクションを採用することの重要な利点を強調しています。プロジェクトページ: https://github.com/2toinf/UniAct

2025-01-17T10:45:22


Robotic World Model: A Neural Network Simulator for Robust Policy Optimization in Robotics

http://arxiv.org/abs/2501.10100v1

Chenhao Li, Andreas Krause, Marco Hutter

ETH Zurich

ロバストで一般化可能な世界モデルを学習することは、実世界の環境における効率的でスケーラブルなロボット制御を実現するために重要です。本研究では、複雑で部分的に観測可能かつ確率的なダイナミクスを正確に把握するための新しい世界モデル学習フレームワークを提案します。提案された方法は、ドメイン特有の帰納的先入観に依存せずに、ロングホライズンの予測を信頼性高く実現するために、デュアル自己回帰メカニズムと自己監視トレーニングを採用しています。これにより、多様なロボットタスクにおける適応性を確保しています。また、世界モデルを活用して、想像上の環境での効率的なトレーニングと実際のシステムへのシームレスな展開を図るためのポリシー最適化フレームワークも提案します。広範な実験を通じて、我々のアプローチは常に最先端の手法を上回り、優れた自己回帰予測精度、ノイズに対するロバスト性、操作および移動タスクにおける一般化を示しています。特に、我々の方法で訓練されたポリシーは、ANYmal Dハードウェア上でゼロショット転送で成功裏に展開され、最小限のシムからリアルへの性能損失でロバストなパフォーマンスを達成しています。本研究は、ロングホライズン予測、エラー蓄積、およびシムからリアルへの転送の課題に取り組むことで、モデルベース強化学習を前進させます。スケーラブルでロバストフレームワークを提供することで、提案された手法は実世界の応用における適応的かつ効率的なロボットシステムの道を開きます。

2025-01-17T10:39:09


landmarker: a Toolkit for Anatomical Landmark Localization in 2D/3D Images

http://arxiv.org/abs/2501.10098v1

Jef Jonkers, Luc Duchateau, Glenn Van Wallendael, Sofie Van Hoecke

Ghent University, imec

2D/3D画像における解剖学的ランドマークの位置特定は、医療画像処理において重要な作業です。ポーズ推定などの従来のコンピュータビジョンタスクにおけるランドマーク位置特定のための一般的なツールは多数存在しますが、医療分野における解剖学的ランドマーク位置特定アプリケーションに必要な専門的な機能やモジュール性が不足しています。そこで、私たちはPyTorchに基づいて構築されたPythonパッケージ「landmarker」を紹介します。このパッケージは、ランドマーク位置特定アルゴリズムを開発および評価するための包括的で柔軟なツールキットを提供し、静的および適応型ヒートマップ回帰を含むさまざまな方法論をサポートします。landmarkerはランドマーク識別の精度を向上させ、研究開発プロセスを効率化し、さまざまな画像形式や前処理パイプラインをサポートします。モジュラー設計により、ユーザーは特定のデータセットやアプリケーションに合わせてツールキットをカスタマイズおよび拡張でき、医療画像における革新を加速します。landmarkerは、既存の一般的なポーズ推定ツールでは十分に満たされていない、ランドマーク位置特定作業における精度とカスタマイズの重要なニーズに対応しています。

2025-01-17T10:35:58


How Do Programming Students Use Generative AI?

http://arxiv.org/abs/2501.10091v1

Christian Rahe, Walid Maalej

Universität Hamburg

プログラミングの学生は、ChatGPTのような強力な生成AIツールに広範にアクセスできるようになっています。これは学習資料の理解や演習の補助に役立つ一方で、教育者たちは生成された出力への過度の依存や批判的思考スキルの欠如について懸念を強めています。したがって、学生が実際に生成AIをどのように使用しているのか、またそれが彼らの学習行動にどのような影響を与える可能性があるのかを理解することが重要です。これを目的に、37名のプログラミング学生を対象にした探索的実験を含む研究を実施し、コードの理解と改善に関する演習を行う際に、ChatGPTへの監視付きアクセスを提供しました。実際にチャットボットを使用した学生は23名に留まりましたが、その大多数は最終的に単に完全な解決策を生成するように促しました。私たちは2つの一般的な使用戦略を観察しました:一般的な概念についての知識を求めることと、直接解決策を生成することです。学生たちは、コードや自分の間違いを理解するためにボットを使用する代わりに、しばしば生成された間違ったコードを提出してその修正をボットに求めるという悪循環に陥っていました。定期的に生成AIを使用すると自己報告した学生は、ボットに解決策を生成するよう促す可能性が高かったです。私たちの発見は、生成AIによるプログラマーの主体性や生産性が潜在的に低下することへの懸念が正当であることを示しています。研究者や教育者が、学生が批判的に生成AIに過度に依存する潜在的なリスクにどのように対応できるかを議論します。また、大規模な再現のために私たちの研究デザインの潜在的な修正についても議論します。

2025-01-17T10:25:41


Robust Change Captioning in Remote Sensing: SECOND-CC Dataset and MModalCC Framework

http://arxiv.org/abs/2501.10075v1

Ali Can Karaca, M. Enes Ozelbas, Saadettin Berber, Orkhan Karimli, Turabi Yildirim, M. Fatih Amasyali

Yildiz Technical University, TUBITAK

リモートセンシング変化キャプショニング(RSICC)は、バイテンポラル画像間の変化を自然言語で説明することを目的としています。既存の手法は、照明の違いや視点の変化、ブレの影響などの課題の下でしばしば失敗し、特に無変化の領域において不正確さを引き起こします。さらに、異なる空間分解能で取得された画像や登録誤差もキャプションに影響を与える傾向があります。これらの問題に対処するために、我々はSECOND-CCという新しいRSICCデータセットを導入します。このデータセットは、高解像度のRGB画像ペア、セマンティックセグメンテーションマップ、および多様な実世界のシナリオを特徴としています。SECOND-CCは6,041ペアのバイテンポラルRS画像と、画像間の違いを説明する30,205の文を含んでいます。さらに、我々はMModalCCを提案します。これは、クロスモーダルクロスアテンション(CMCA)やマルチモーダルゲーテッドクロスアテンション(MGCA)などの高度なアテンションメカニズムを使用して、セマンティックデータと視覚データを統合するマルチモーダルフレームワークです。詳細なアブレーションスタディとアテンションの可視化により、その有効性とRSICCの課題に対処する能力がさらに示されました。包括的な実験により、MModalCCはRSICCformer、Chg2Cap、PSNetを含む最先端のRSICC手法を上回り、BLEU4スコアで+4.6%、CIDErスコアで+9.6%の改善を達成しました。今後の研究を促進するために、我々のデータセットとコードベースを公開する予定です。詳細はhttps://github.com/ChangeCapsInRS/SecondCCをご覧ください。

2025-01-17T09:47:27


SpatialCoT: Advancing Spatial Reasoning through Coordinate Alignment and Chain-of-Thought for Embodied Task Planning

http://arxiv.org/abs/2501.10074v1

Yuecheng Liu, Dafeng Chi, Shiguang Wu, Zhanguang Zhang, Yaochen Hu, Lingfeng Zhang, Yingxue Zhang, Shuang Wu, Tongtong Cao, Guowei Huang, Guangjian Tian, Xingyue Quan, Jianye Hao, Yuzheng Zhuang

空間推論は、具現化されたAI研究において重要な問題です。補足的な空間データと微調整を通じて空間推論能力を向上させる努力は、言語ベースの出力に依存しているため、複雑な具現化タスクに取り組む際には限界があることが証明されています。一部のアプローチはこの問題を軽減するためにポイントベースのアクションスペースを導入しましたが、複雑な環境内でのより複雑なタスクを管理するには不十分です。この欠陥は、視覚と言語モデル(VLM)の根本的な強みである固有の思考と推論能力を十分に活用できていないことから生じています。これらの限界に対処するために、私たちはSpatialCoTと呼ばれる新しいアプローチを提案します。このアプローチは、VLMの空間推論能力を強化するように特別に設計されています。私たちのアプローチは二つのステージで構成されています。第一に、視覚と言語の入力を空間座標と双方向に整列させる空間座標の双方向アライメント、第二に、言語モデルの推論能力を活用して高度な空間推論を行う連鎖的思考の空間基盤です。私たちは、シミュレーションと実世界の設定の両方で挑戦的なナビゲーションおよび操作タスクにおいてSpatialCoTを評価しました。実験結果は、私たちの手法が両方のタスクで以前の最先端アプローチを大幅に上回ることを示しています。

2025-01-17T09:46:27


A Survey on LLM Test-Time Compute via Search: Tasks, LLM Profiling, Search Algorithms, and Relevant Frameworks

http://arxiv.org/abs/2501.10069v1

Xinzhe Li

LLMのテスト時計算(またはLLM推論)は、急速な進展を遂げている有望な研究分野として浮上しています。しかし、現在のフレームワークは、タスク定義、LLMプロファイリング、検索手続きという三つの重要な側面に対して異なる視点を採用することが多く、直接的な比較が難しい状況です。さらに、採用される検索アルゴリズムは標準的な実装から乖離していることが多く、それらの特定の特性も十分に明示されていません。本調査では、タスク定義を統一し、LLMプロファイリングと検索手続きのモジュラー定義を提供する包括的な技術レビューを提供します。これにより、さまざまなLLM推論フレームワークの正確な比較が可能になり、一般的な検索アルゴリズムからの逸脱が強調されます。また、これらの手法の適用性、性能、効率についても議論します。詳細や最新情報については、私たちのGitHubリポジトリをご参照ください:https://github.com/xinzhel/LLM-Agent-Survey/blob/main/search.md

2025-01-17T09:42:48


Accelerating Large Language Models through Partially Linear Feed-Forward Network

http://arxiv.org/abs/2501.10054v1

Gansen Hu, Zhaoguo Wang, Jinglin Wei, Wei Huang, Haibo Chen

Shanghai Jiao Tong University

大規模言語モデル(LLM)は素晴らしい能力を示しますが、その膨大なパラメータ数によるデプロイメントの課題に直面しています。既存の圧縮技術(剪定など)はモデルサイズを削減できますが、高圧縮比の下で大幅な精度低下を引き起こすことになります。私たちは、コンパイラ最適化における定数折り畳みからインスパイアを受けた新しい視点を提示します。私たちのアプローチは、LLMの活性化関数を線形関数として扱うことによってパラメータ削減を可能にします。しかし、最近のLLMはGELUのような複雑な非線形活性化関数を使用しており、この技術の直接的な適用を妨げています。そこで、私たちはTARDISを提案します。TARDISは、よく発生する入力範囲で線形関数に部分的に近似することによって非線形活性化を持つLLMの最適化を可能にします。外れ値の入力に対して、TARDISはオンライン予測器を使用して動的に元の計算に戻ります。私たちの実験は、TARDISがフィードフォワードネットワークにおいて80%のパラメータ削減を達成し、最先端の剪定手法であるWandaやRIAと比べて最大65%高い精度で著しく優れた性能を発揮することを示しています。7Bモデルの実際のデプロイメントでは、TARDISはvLLMサービングシステムと統合することで1.6倍のエンドツーエンド推論スピードアップを達成し、広く採用されているHuggingFace実装で1.4倍のスピードアップを実現し、わずか10.9%の精度低下を伴います。

2025-01-17T09:20:56


http://arxiv.org/abs/2501.10053v1

Wenfeng Feng, Chuzhan Hao, Yuewei Zhang, Jingyi Song, Hao Wang

Alibaba Cloud, Alibaba Group

大規模言語モデル(LLM)の自律的意思決定能力を活用することで、推論タスクにおいて優れたパフォーマンスを示します。反復的または再帰的な検索拡張生成(RAG)の成功にもかかわらず、それらは複雑なタスクに直面すると、しばしば単一の解決空間に閉じ込められます。本論文では、システム分析と効率的な推論行動を統合した新しい思考パターンをRAGに提案し、モンテカルロ木探索(MCTS)を通じて内在的な推論能力を活性化させ、特定のタスクの解決空間を拡張するAirRAGという手法を実現します。具体的には、私たちのアプローチはMCTSを使用して広範な木構造の推論空間に拡張される5つの基本的な推論行動を設計します。この拡張では、自己整合性検証を用いて潜在的な推論経路を探索し、推論スケーリングを実施します。また、計算最適な戦略を用いて重要な行動に対してより多くの推論計算を適用し、更なるパフォーマンスの向上を図ります。実験結果は、複雑なQAデータセットに対するAirRAGの効果を示し、著しいパフォーマンス向上を達成しています。さらに、AirRAGは柔軟で軽量であり、他の高度な技術との統合が容易です。

2025-01-17T09:16:13


Virtual Nodes Improve Long-term Traffic Prediction

http://arxiv.org/abs/2501.10048v1

Xiaoyang Cao, Dingyi Zhuang, Jinhua Zhao, Shenhao Wang

Tsinghua University, Massachusetts Institute of Technology, University of Florida

効果的な交通予測は、知能交通システムの基盤であり、交通の流れ、速度、混雑の正確な予測を可能にします。従来の時空間グラフニューラルネットワーク(ST-GNN)は短期交通予測において顕著な成功を収めてきましたが、長期予測におけるパフォーマンスは依然として制限されています。この課題は、ボトルネックと限られた受容野によって情報の流れが制約され、グローバルな依存関係のモデル化を妨げる「過剰圧縮問題」から生じます。これらの課題に対処するため、本研究では、仮想ノードを組み込んだ新しいフレームワークを提案します。仮想ノードは、既存のノードに接続された追加のノードであり、単一のGNN層内で全体のグラフにわたって情報を集約するために使用されます。提案されたモデルは、距離に基づく隣接行列と適応型隣接行列を統合した半適応型隣接行列を構築することで仮想ノードを取り入れています。この行列は地理情報を活用しながら、データからタスク固有の特徴を学習することを可能にします。実験結果は、仮想ノードの導入が長期予測精度を大幅に向上させる一方で、過剰圧縮問題を緩和するために層ごとの感度も改善することを示しています。また、仮想ノードは、道路ネットワークのヒートマップ上で隣接行列の重みを視覚化することによって、主な交差点や交通量の多いエリアに焦点を当てることで、説明可能性も向上させます。私たちの先進的なアプローチは、都市交通システムの理解と管理を向上させ、実世界の応用に特に適しています。

2025-01-17T09:09:01


Spatiotemporal Prediction of Secondary Crashes by Rebalancing Dynamic and Static Data with Generative Adversarial Networks

http://arxiv.org/abs/2501.10041v1

Junlan Chen, Yiqun Li, Chenyu Ling, Ziyuan Pu, Xiucheng Guo

データの不均衡は、突然の交通事象を分析し予測する際に一般的な問題です。二次衝突は、すべての衝突の中でごくわずかな割合を占めていますが、一次衝突によって引き起こされるこれらの二次衝突は、交通渋滞を著しく悪化させ、事件の重大度を高めます。しかし、二次衝突データの深刻な不均衡は、予測モデルに大きな課題をもたらし、一般化能力や予測精度に影響を及ぼします。既存の手法は、特に動的特徴と静的特徴の共存の複雑性を十分に扱うことができず、異なる長さのデータサンプルを効果的に処理するのに苦労しています。さらに、現在のほとんどの研究は、二次衝突の発生確率と時空間分布を別々に予測しており、統合的な解決策が欠けています。これらの課題に対処するために、本研究ではVarFusiGAN-Transformerというハイブリッドモデルを提案し、二次衝突データ生成の精度を向上させ、二次衝突の発生と時空間分布を共同で予測することを目指しています。VarFusiGAN-Transformerモデルは、長期短期記憶(LSTM)ネットワークを使用して、多変量の長期時系列データの生成を強化し、動的特徴と静的特徴の結合分布をモデル化するために静的データ生成器と補助的識別器を組み込んでいます。さらに、モデルの予測モジュールは、二次衝突の発生と時空間分布の同時予測を達成します。既存の手法と比較して、提案されたモデルは高忠実度のデータ生成と予測精度の向上において優れたパフォーマンスを示します。

2025-01-17T08:56:49


Automatic Speech Recognition for Sanskrit with Transfer Learning

http://arxiv.org/abs/2501.10024v1

Bidit Sadhukhan, Swami Punyeshwarananda

サンスクリット語は人類最古の言語の一つであり、何千年にもわたり多様なトピックに関する書籍や原稿が蓄積されています。しかし、AIシステムの訓練に不可欠なデジタルコンテンツ(音声やテキスト)は非常に限られています。さらに、その複雑な言語学的特徴のため、広範な利用が可能な自然言語処理ツールの開発が困難です。これらの制約を考慮し、私たちはOpenAIのWhisperモデルを用いてサンスクリット語の自動音声認識モデルを開発しました。ハイパーパラメータを慎重に最適化した結果、転移学習したモデルはVaksancayahデータセットで15.42%の単語誤り率を達成し、有望な結果を得ることができました。私たちのモデルのオンラインデモを公開し、一般の人々が使用できるようにし、その性能を直接評価できるようにすることで、現代におけるサンスクリット学習のアクセスの向上と技術的支援の道を開くことを目指しています。

2025-01-17T08:20:32


Enhancing Crash Frequency Modeling Based on Augmented Multi-Type Data by Hybrid VAE-Diffusion-Based Generative Neural Networks

http://arxiv.org/abs/2501.10017v1

Junlan Chen, Qijie He, Pei Liu, Wei Ma, Ziyuan Pu

事故頻度モデリングは、交通量、道路形状、環境条件などの要因が事故発生に与える影響を分析します。不正確な予測は、これらの要因に対する理解を歪め、誤った政策や資源の浪費を招き、交通安全を脅かす可能性があります。事故頻度モデリングにおける重要な課題の一つは、過少報告、事故の低確率、高データ収集コストによって引き起こされる過剰なゼロ観測の存在です。これらのゼロ観測はしばしばモデルの精度を低下させ、バイアスを導入し、安全に関する意思決定を複雑にします。既存のアプローチは、統計的手法、データ集約、およびリサンプリングなどがありますが、これらは制限のある仮定に依存しているか、あるいは重大な情報損失をもたらし、事故データを歪めています。これらの制限を克服するために、我々はゼロ観測を減少させ、多様なタイプの表形式事故データ(カウント、順序、名義、実数変数)を処理するために設計されたハイブリッドVAE-拡散ニューラルネットワークを提案します。このモデルによって生成される合成データの質は、類似性、精度、多様性、および構造的一貫性などの指標を通じて評価し、その予測性能を従来の統計モデルと比較します。私たちの発見は、ハイブリッドVAE-拡散モデルが全ての指標でベースラインモデルを上回り、事故データを増強し、事故頻度予測の精度を改善するためのより効果的なアプローチを提供することを示しています。この研究は、合成データが事故頻度モデリングを改善し、より良い政策決定を促進することで交通安全を向上させる可能性を強調しています。

2025-01-17T07:53:27


Mitigating Hallucinations on Object Attributes using Multiview Images and Negative Instructions

http://arxiv.org/abs/2501.10011v1

Zhijie Tan, Yuzhi Li, Shengwei Meng, Xiang Yuan, Weiping Li, Tong Mo, Bingce Wang, Xu Chu

現在人気のある大規模ビジョン-言語モデル(LVLM)は、物体属性に関する幻覚(HoOA)に悩まされており、入力画像の細かな属性を正しく判断できないという問題があります。本論文では、単一画像からの3D生成の重要な進展を活用し、LVLMにおけるHoOAを軽減する新しい方法を提案します。この方法では、生成された3D表現からサンプリングされたマルチビュー画像を視覚的プロンプトとしてLVLMに供給し、他の視点からのより多くの視覚情報を提供します。さらに、複数のマルチビュー画像の入力順序がLVLMのパフォーマンスに大きな影響を与えることを確認しました。その結果、私たちは入力画像の順序の影響を同時に排除し、マルチビュー画像の視覚情報を大規模言語モデル(LLM)と整合させることができるマルチビュー属性認識器(MAP)サブモジュールを組み込んだマルチビュー画像増強VLM(MIAVLM)を考案しました。さらに、LVLMの「はい」への偏りを軽減するために、ネガティブインストラクションを設計して適用しました。包括的な実験により、私たちの方法の有効性が実証されました。

2025-01-17T07:48:37


Adaptive Spatiotemporal Augmentation for Improving Dynamic Graph Learning

http://arxiv.org/abs/2501.10010v1

Xu Chu, Hanlin Xue, Bingce Wang, Xiaoyang Liu, Weiping Li, Tong Mo, Tuoyu Feng, Zhijie Tan

Peking University, University of Science and Technology of China

動的グラフ拡張は、動的GNNの性能を向上させるために使用されます。ほとんどの手法は時間的局所性を仮定しており、つまり最近のエッジが以前のエッジよりも影響力が大きいとされています。しかし、ランダムノイズによって引き起こされるエッジの時間的変化に対して、最近のエッジを過度に強調し、以前のエッジを無視することは、モデルがノイズを捉える原因になる可能性があります。この問題に対処するために、私たちはSTAA(時空間活動を考慮したランダムウォーク拡散)を提案します。STAAは、時空間次元においてノイズのあるエッジを持つ可能性のあるノードを特定します。空間的には、グラフウェーブレット係数を通じて重要なトポロジカルポジションを分析します。時間的には、グラフウェーブレット係数の変化率を通じてエッジの進化を分析します。その後、ランダムウォークを使用してノイズのあるエッジの重みを低下させ、動的GNN学習のための拡張隣接行列として時空間情報を含む拡散行列を導出します。複数のデータセットでの実験結果は、STAAがノード分類やリンク予測タスクにおいて他の動的グラフ拡張手法を上回ることを示しています。

2025-01-17T07:48:18


Deep Learning for Early Alzheimer Disease Detection with MRI Scans

http://arxiv.org/abs/2501.09999v1

Mohammad Rafsan, Tamer Oraby, Upal Roy, Sanjeev Kumar, Hansapani Rodrigo

アルツハイマー病は、認知症と神経機能の障害を特徴とする神経変性疾患です。この研究は主に40歳以上の個人に焦点を当てており、彼らの記憶、行動、および脳の認知プロセスに影響を与えます。アルツハイマー病の診断には、MRIスキャンと患者の神経心理テストの詳細な評価が求められます。本プロジェクトでは、アルツハイマー病診断の精度と効率を向上させるために、既存の深層学習モデルを比較します。特に、畳み込みニューラルネットワークベイズ畳み込みニューラルネットワーク、およびU-netモデルを、オープンアクセスシリーズの画像研究による脳MRIデータセットを使用して検討します。また、モデル評価における堅牢性と信頼性を確保するために、データの不均衡という課題にも取り組みます。その後、感度、特異度、および計算効率を考慮して、各モデルの強みと弱みを明らかにするために厳密な評価を行います。この比較分析は、アルツハイマー病の診断におけるAIの将来的な役割を明らかにするだけでなく、医療画像技術と神経変性疾患の管理における将来の革新への道を開くものです。

2025-01-17T07:30:16


Attention-guided Self-reflection for Zero-shot Hallucination Detection in Large Language Models

http://arxiv.org/abs/2501.09997v1

Qiang Liu, Xinlong Chen, Yue Ding, Shizhen Xu, Shu Wu, Liang Wang

Chinese Academy of Sciences, RealAI

幻覚は、大規模言語モデル(LLM)の効果的な適用に対する重要な障害として浮上しています。本研究では、LLMにおけるゼロショット幻覚検出のための新しい注意誘導自己反射(AGSER)アプローチを紹介します。AGSERメソッドは、注意の寄与を利用して入力クエリを注意深いクエリと注意が行われないクエリに分類します。各クエリは、その後、LLMを介して個別に処理され、生成された応答と元の回答との間の一貫性スコアを計算できるようになります。この2つの一貫性スコアの違いが、幻覚の推定値として機能します。幻覚検出の効果に加えて、AGSERは計算の複雑さを著しく削減し、LLMを3回通過させ、2セットのトークンを使用するだけで済みます。私たちは、3つの異なる幻覚ベンチマークにわたって、4つの広く使用されているLLMに対して広範な実験を行い、私たちのアプローチがゼロショット幻覚検出において既存の手法を大幅に上回ることを実証しました。

2025-01-17T07:30:01


Fast energy-aware OLSR routing in VANETs by means of a parallel evolutionary algorithm

http://arxiv.org/abs/2501.09996v1

Jamal Toutouh, Sergio Nesmachnow, Enrique Alba

この作業は、車両ネットワークにおけるOLSRルーティングプロトコルの消費電力を削減する問題に取り組んでいます。現在、エネルギーを意識したグリーンコミュニケーションプロトコルは、特に無線モバイルネットワークを展開する際に重要な研究テーマとなっています。本記事では、並列進化アルゴリズムを使用してエネルギー効率の良いOLSR構成を自動的に探し出すための高速な方法論を紹介します。実験分析においては、標準構成に対して消費電力に関して大幅な改善が達成され、QoSにおいても顕著な損失がないことが示されています。

2025-01-17T07:26:28


Multi-Modal Attention Networks for Enhanced Segmentation and Depth Estimation of Subsurface Defects in Pulse Thermography

http://arxiv.org/abs/2501.09994v1

Mohammed Salah, Naoufel Werghi, Davor Svetinovic, Yusra Abdulrahman

Khalifa University of Science and Technology

AI駆動のパルスサーモグラフィー(PT)は、非破壊検査(NDT)において重要なツールとなり、さまざまな産業部品の隠れた異常を自動的に検出できるようになりました。現在の最先端技術は、主成分分析(PCA)またはサーモグラフィー信号再構成(TSR)を使用して圧縮されたPTシーケンスを入力とするセグメンテーションおよび深度推定ネットワークを利用しています。しかし、これら2つのモダリティを独立して扱うことは、PT検査モデルの性能を制約することになります。これらの表現は相補的な意味的特徴を持っているためです。この制限に対処するために、PT-Fusionを提案します。これは、PCAとTSRの両方のモダリティを融合させて、PT設定での地下欠陥のセグメンテーションと深度推定を行うマルチモーダル注意ベースの融合ネットワークです。PT-Fusionは、新しい特徴融合モジュールであるエンコーダー注意融合ゲート(EAFG)と注意強化デコーディングブロック(AEDB)を導入し、PCAとTSRの特徴を融合して地下欠陥のセグメンテーションと深度推定を強化します。さらに、PTデータセットの不足を緩和するために、サーモグラフィーシーケンスからのランダムデータサンプリングに基づく新しいデータ拡張技術を提案します。提案された方法は、Universit'e Laval IRT-PVCデータセット上で、U-Net、注意U-Net、3D-CNNを含む最先端PT検査モデルと比較されています。結果は、PT-Fusionが欠陥セグメンテーションおよび深度推定の精度において、前述のモデルよりも10%のマージンで優れていることを示しています。

2025-01-17T07:24:58


RichSpace: Enriching Text-to-Video Prompt Space via Text Embedding Interpolation

http://arxiv.org/abs/2501.09982v1

Yuefan Cao, Chengyue Gong, Xiaoyu Li, Yingyu Liang, Zhizhou Sha, Zhenmei Shi, Zhao Song

Zhejiang University, The University of Texas at Austin, The University of Hong Kong, University of Wisconsin-Madison, Tsinghua University, Simons Institute for the Theory of Computing, University of California, Berkeley

テキストから動画を生成するモデルは印象的な進展を遂げましたが、まだ複雑な特徴を持つ動画の生成に苦労しています。この制限はしばしば、テキストエンコーダーが正確な埋め込みを生成できないことから生じており、これが動画生成モデルを妨げています。本研究では、埋め込み空間における補間を通じて最適なテキスト埋め込みを選択する新しいアプローチを提案し、この課題を克服することを目指します。この方法が動画生成モデルに希望される動画を生成させることができることを実証します。さらに、直交フット埋め込みとコサイン類似度を使用して最適な補間埋め込みを特定するシンプルなアルゴリズムを紹介します。我々の発見は、正確なテキスト埋め込みの重要性を強調し、テキストから動画生成性能を向上させるための道筋を提供します。

2025-01-17T06:46:10


Aneumo: A Large-Scale Comprehensive Synthetic Dataset of Aneurysm Hemodynamics

http://arxiv.org/abs/2501.09980v1

Xigui Li, Yuanye Zhou, Feiyang Xiao, Xin Guo, Yichi Zhang, Chen Jiang, Jianchao Ge, Xiansheng Wang, Qimeng Wang, Taiwei Zhang, Chensen Lin, Yuan Cheng, Yuan Qi

脳内動脈瘤(IA)は一般的な脳血管疾患であり、通常無症状ですが、破裂すると重度のくも膜下出血(SAH)を引き起こす可能性があります。臨床の実践は通常、個々の要因や動脈瘤の形態的特徴に基づいて行われますが、その病理生理学および血行動態メカニズムには依然として議論があります。現在の研究の限界に対処するために、本研究は脳内動脈瘤の包括的な血行動態データセットを構築しました。このデータセットは466の実際の動脈瘤モデルに基づいており、切除および変形操作によって生成された10,000の合成モデルを含んでいます。これには466の動脈瘤のないモデルと9,534の変形した動脈瘤モデルが含まれています。データセットには、洞察に富んだ分析を支援するための医療画像のようなセグメンテーションマスクファイルも提供されています。さらに、このデータセットには、流量速度、圧力、壁せん断応力などの重要なパラメーターを含む、8つの定常状態流量(0.001から0.004 kg/s)で測定された血行動態データが含まれており、動脈瘤の病因研究や臨床予測の貴重なリソースを提供します。このデータセットは、脳内動脈瘤の病理的特徴および血行動態メカニズムの理解を進め、関連分野での深層研究を支援するのに役立ちます。データセットhttps://github.com/Xigui-Li/Aneumoでホストされています。

2025-01-17T06:43:03


GVMGen: A General Video-to-Music Generation Model with Hierarchical Attentions

http://arxiv.org/abs/2501.09972v1

Heda Zuo, Weitao You, Junxian Wu, Shihong Ren, Pei Chen, Mingxu Zhou, Yujia Lu, Lingyun Sun

ビデオのための音楽作曲は重要でありながらも難しいため、ビデオアプリケーション向けの音楽生成を自動化することへの関心が高まっています。既存のアプローチは、主に不十分な特徴アライメント手法や不足するデータセットのために、堅牢な音楽とビデオの対応や生成の多様性を達成することに苦労しています。本研究では、ビデオ入力に対して高い関連性を持つ音楽を生成するために設計された一般的なビデオから音楽への生成モデル(GVMGen)を提案します。私たちのモデルは、階層的アテンションを用いて、空間的および時間的次元の両方でビデオの特徴を抽出および整合することにより、関連する特徴を保持しつつ冗長性を最小限に抑えます。驚くべきことに、私たちの手法は多様であり、ゼロショットシナリオでも異なるビデオ入力からマルチスタイルの音楽を生成することが可能です。また、ビデオと音楽の整合性を評価するための新しい客観的な評価モデルと2つの新しい指標を提案します。さらに、多様なタイプのビデオと音楽のペアで構成された大規模データセットを編纂しました。実験結果は、GVMGenが音楽とビデオの対応、生成の多様性、適用性の普遍性の点で以前のモデルを上回ることを示しています。

2025-01-17T06:30:11


Explainable artificial intelligence (XAI): from inherent explainability to large language models

http://arxiv.org/abs/2501.09967v1

Fuseini Mumuni, Alhassan Mumuni

University of Mines and Technology (UMaT), Cape Coast Technical University

人工知能(AI)は最近、驚異的な成功を収め続けています。しかし、これらのフレームワークの意思決定ロジックはしばしば不透明であるため、利害関係者がその動作を理解、解釈、説明することが難しいです。この制限は機械学習システムへの信頼を妨げ、特にヘルスケアや自動運転のようなミッションクリティカルな分野における実用的な応用への一般的な躊躇を引き起こします。説明可能なAI(XAI)技術は、機械学習モデルの説明性や解釈性を促進し、ユーザーが意思決定の根拠を識別し、望ましくない行動を回避する可能性を高めます。この包括的な調査では、本質的に解釈可能なモデルから、さまざまなブラックボックスモデル、特に大規模言語モデル(LLMs)の解釈性を達成するための現代的なアプローチまで、説明可能なAI手法の進展を詳述します。さらに、LLMおよび視覚-言語モデル(VLM)フレームワークを活用して、他の機械学習モデルの説明性を自動化または改善する説明可能なAI技術をレビューします。LLMおよびVLMを解釈性手法として使用することにより、モデルの意思決定や行動についての高レベルで意味的に重要な説明が可能となります。本文中では、最先端の手法の科学的原則、長所と短所を強調し、さまざまな改善の分野を概説します。適切な場合には、さまざまな手法の比較結果を質的および量的に示し、それらの比較を行います。最後に、XAIの主要な課題と今後の研究の方向性について論じます。

2025-01-17T06:16:57


AIRCHITECT v2: Learning the Hardware Accelerator Design Space through Unified Representations

http://arxiv.org/abs/2501.09954v1

Jamin Seo, Akshat Ramachandran, Yu-Chuan Chuang, Anirudh Itagi, Tushar Krishna

Georgia Institute of Technology, National Taiwan University

デザインスペース探索(DSE)は、特にAIのような新興アプリケーション向けにカスタムハードウェアアーキテクチャを可能にする上で重要な役割を果たしています。ここでは、最適化された専用設計が不可欠です。深層ニューラルネットワーク(DNN)の複雑さが増すにつれて、高度な基盤モデル(FM)の導入が進む中で、DNNアクセラレーターのためのデザインスペースは指数関数的に拡大しています。さらに、このスペースは非常に非一様で非凸であるため、ナビゲートして最適化することがますます難しくなっています。従来のDSE技術は、最適なソリューションを見つけるためにデザインスペースを反復的にサンプリングする検索ベースの手法に依存しています。しかし、このプロセスは時間がかかり、このようなデザインスペースのグローバル最適値に収束しないことがしばしばあります。最近、AIrchitect v1は検索ベースの手法の限界に対処するための初めての試みとして、DSEを推薦ネットワークを使用して定数時間の分類問題に変換しました。本研究では、AIrchitect v2を提案します。これは以前のアプローチの欠点を克服し、大規模なデザインスペースに適用可能なより正確で一般化可能な学習ベースのDSE技術です。具体的には、私たちは、(a) コントラスト学習を使用して複雑なデザインスペースを均一な中間表現にエンコードし、(b) 分類と回帰の利点を融合した新しい統一表現を活用して、大規模なDSEスペースを効果的に探索するエンコーダ-デコーダトランスフォーマーモデルを考案しました。105の実際のDNNワークロードで評価した実験結果は、平均してAIrchitect v2が最適な設計ポイントの特定において既存の技術より15%優れていることを示しています。さらに、我々の方法の一般化可能性を示すために、見たことのないモデルワークロード(LLM)に対する性能を評価し、特定したハードウェアアーキテクチャにおいて推論レイテンシーで1.7倍の改善を達成しました。

2025-01-17T04:57:42


MultiPruner: Balanced Structure Removal in Foundation Models

http://arxiv.org/abs/2501.09949v1

  1. Pablo Muñoz, Jinjie Yuan, Nilesh Jain

Intel Labs, Intel Corporation

最近、最新の大規模事前学習モデル(LPM)のプルーニングに関するアプローチは、トランスフォーマーにおける非重要な残差ブロックのトレーニングなしの削除がモデルサイズの削減に有効であり、従来のトレーニングフリーのプルーニングアプローチを上回る結果を達成したことを示しました。これらの結果に触発され、私たちはBlockPruner(Zhong et al., 2024)を拡張し、マルチディメンショナルな反復的で詳細なプルーニング戦略を採用したMultiPrunerというプルーニングアプローチを提案します。MultiPrunerでは、多次元プルーニングにより、残差ブロック、マルチレイヤーパーセプトロンMLP)のチャネル、注意ヘッドの3つの次元に沿って順次圧縮することで、ブロックプルーニングされたモデルの構造的バランスを回復します。この解決策は、他の技術と比較して下流タスクにおけるゼロショット精度を向上させながら、モデル圧縮率を改善し、計算およびメモリ要件を削減した圧縮モデルを生成します。広範な実験により、提案された方法の利点がさまざまな大規模事前学習モデルにわたって示されています。コードとプルーニング設定は、https://github.com/IntelLabs/Hardware-Aware-Automated-Machine-Learning で利用可能です。

2025-01-17T04:24:31


AI Explainability for Power Electronics: From a Lipschitz Continuity Perspective

http://arxiv.org/abs/2501.09948v1

Xinze Li, Fanfan Lin, Homer Alan Mantooth, Juan José Rodríguez-Andina

パワーコンバータのライフサイクル管理は、新たに出現する人工知能(AI)ソリューションと共に繁栄を続けていますが、AIの数学的説明可能性はパワーエレクトロニクス(PE)コミュニティでは未探索のままです。理論的厳密性の欠如は、ミッションクリティカルなアプリケーションでの採用に対する課題となっています。したがって、本書では数学的説明可能性を評価するための汎用フレームワークを提案し、リプシッツ連続性の観点から推論の安定性と学習収束を強調しています。推論の安定性は入力の摂動に対して一貫した出力を保証し、ロバストなリアルタイム制御や故障診断には不可欠です。学習収束は安定した学習動態を保証し、PEコンテキストにおける正確なモデリングを促進します。さらに、学習率選択の戦略を導入し、収束を促進しつつオーバーシュートや振動を軽減します。提案されたリプシッツ指向のフレームワークの実現可能性は、最先端の物理学に基づくアーキテクチャニューラルネットワークの数学的説明可能性を検証することによって示され、二重アクティブブリッジコンバータに関する実証的ケーススタディを通じて裏付けられています。本書は、PEコミュニティに数学的説明可能性を受け入れるよう呼びかけており、信頼できる説明可能なAIソリューションの変革の時代を heralding(予告)し、パワーエレクトロニクスの未来を再定義する可能性を秘めています。

2025-01-17T04:20:43


Client-Centric Federated Adaptive Optimization

http://arxiv.org/abs/2501.09946v1

Jianhui Sun, Xidong Wu, Heng Huang, Aidong Zhang

University of Virginia, University of Pittsburgh, University of Maryland

連合学習(FL)は、クライアントが自分のデータをプライベートに保ちながら協力してモデルをトレーニングする分散学習のパラダイムです。クライアントやモデルの規模が増大するにつれて、FLは2つの重要な課題に直面します。1つは、統計的/システムの異質性が高いためのクライアントドリフト、もう1つは適応性の不足です。しかし、ほとんどの既存のFL研究は、実際にシステムの異質性を無視した非現実的な仮定に基づいています。本論文では、クライアント中心の連合適応最適化を提案します。これは、新しい連合適応最適化手法のクラスです。このフレームワークでは、任意のクライアント参加、非同期サーバー集約、異種ローカル計算など、現実のFLシステムに普遍的に存在するが、ほとんどの既存の研究では見過ごされているいくつかの機能を可能にします。一般的な非凸目的に対して提案したフレームワークの厳密な収束解析を提供し、最良の収束率を示します。広範な実験により、我々のアプローチはベンチマーク全体で基準を大幅に上回ることが一貫して確認されました。

2025-01-17T04:00:50


HEART: Achieving Timely Multi-Model Training for Vehicle-Edge-Cloud-Integrated Hierarchical Federated Learning

http://arxiv.org/abs/2501.09934v1

Xiaohong Yang, Minghui Liwang, Xianbin Wang, Zhipeng Cheng, Seyyedali Hosseinalipour, Huaiyu Dai, Zhenzhen Jiao

Xiamen University, Tongji University, Western University, Soochow University, University at Buffalo-SUNY, NC State University, Beijing Teleinfo Technology Company, Ltd.

AIを活用したインターネット・オブ・ビークル(IoV)の急速な成長は、高い車両の移動性と分散データを処理できる効率的な機械学習(ML)ソリューションの必要性を呼び起こしています。このことは、車両・エッジ・クラウドアーキテクチャにおける階層型フェデレーテッドラーニング(VEC-HFL)の出現を促しました。しかし、VEC-HFLに関する文献であまり探求されていない一つの側面は、車両が同時に複数のMLタスクを実行する必要がある場合が多いということです。この多モデルのトレーニング環境は重要な課題を導入します。第一に、不適切な集約ルールはモデルの陳腐化やトレーニング時間の延長を引き起こす可能性があります。第二に、車両の移動性は、車両が自らのモデルをネットワークエッジに返すことを妨げるため、データの利用効率を低下させる可能性があります。第三に、さまざまなタスク間でのバランスの取れたリソース配分を達成することは、協調トレーニングの効果に大きく影響するため、極めて重要です。私たちは、さまざまなタスク間でのバランスの取れたトレーニングを保証しながら、グローバルなトレーニング待機時間を最小化することを目指した動的VEC-HFLにおける多モデルトレーニングのフレームワークを提案することにより、これらの課題に取り組むための第一歩を踏み出します。この問題はNP困難であることが分かっています。適時のモデルトレーニングを促進するために、ハイブリッドな同期・非同期集約ルールを導入します。これを基に、ハイブリッド進化的および貪欲割り当て(HEART)と呼ばれる新しい手法を提案します。このフレームワークは二段階で動作します。第一に、改善された粒子群最適化(PSO)と遺伝的アルゴリズム(GA)を組み合わせたハイブリッドヒューリスティックアプローチを通じてバランスのとれたタスクスケジューリングを達成します。第二に、低複雑度の貪欲アルゴリズムを用いて、車両に割り当てられたタスクのトレーニング優先順位を決定します。実世界のデータセットに対する実験では、HEARTが既存の手法に対して優位性を示すことが確認されました。

2025-01-17T03:15:03


Steering Large Language Models with Feature Guided Activation Additions

http://arxiv.org/abs/2501.09929v1

Samuel Soo, Wesley Teng, Chandrasekaran Balaganesh

Raffles Institution

大規模言語モデル(LLM)の挙動に対する効果的かつ信頼性の高い制御は、大きな課題です。モデルの隠れ状態に指導ベクトルを追加するアクティベーションステアリング手法は有望なアプローチですが、既存の技術はモデルの出力に与える影響についての精度や解釈可能性が不足しています。私たちは、コントラストアクティベーション追加(CAA)およびスパースオートエンコーダー-targeted steering(SAE-TS)からの洞察を活用した新しいアクティベーションステアリング手法であるFeature Guided Activation Additions(FGAA)を紹介します。FGAAはスパースオートエンコーダー(SAE)の潜在空間で操作し、最適化技術を用いて望ましいSAE特徴を選択することで、ステアリングベクトルを精密に構築し、指導されたモデル出力の一貫性を維持しながら、より良いステアリング効果を提供します。この点において、Gemma-2-2BおよびGemma-2-9Bモデルを用いた様々なステアリングタスクに対する評価は、FGAAがCAA、SAEデコーダーステアリング、SAE-TSの既存のステアリング手法よりも優れていることを示しています。また、私たちの結果は、すべてのテストされたステアリング手法において一貫して、ステアリングスケールと一般的なモデル能力の間に重要なトレードオフが存在することを強調しています。

2025-01-17T02:55:23


Dialogue Benchmark Generation from Knowledge Graphs with Cost-Effective Retrieval-Augmented LLMs

http://arxiv.org/abs/2501.09928v1

Reham Omar, Omij Mangukiya, Essam Mansour

Concordia University

ダイアログベンチマークは、ドメイン特有の会話に関与するチャットボットの訓練と評価において重要です。知識グラフ(KG)は、DBLP、DBpedia、YAGOなど、さまざまなドメインにわたる意味的に豊かで整理されたデータを表します。従来、ダイアログベンチマークは文書から手動で作成されており、このプロセスの自動化におけるKGの可能性を無視していました。いくつかの質問応答ベンチマークは、KGからの広範な前処理を使用して自動的に生成されていますが、ダイアログ生成をサポートしていません。本論文では、知識グラフを使用して特定のドメインに合わせた高品質のダイアログベンチマークを自動生成するための新しいマルチステージリトリーバー強化生成プラットフォームであるChatty-Genを紹介します。Chatty-Genは生成プロセスを管理可能なステージに分解し、ステージ間で自動的に検証するためのアサーションルールを使用します。このアプローチにより、ホールシネーションによる時間のかかる再起動を防ぐために中間結果を制御することが可能になります。また、高価でより強力な商業のLLMへの依存を減らします。Chatty-Genは、ダイアログのコンテキストに基づいて代表的なサブグラフを見つけるために効果的なクエリベースのリトリーバルを使用して、KG全体の前処理を排除します。いくつかの実際の大規模なKGを用いた実験により、Chatty-Genは最先端のシステムを大幅に上回り、GPT-4o、Gemini 1.5、Llama 3、Mistralなど、さまざまな能力を持つ複数のLLMにわたって一貫したモデルとシステムのパフォーマンスを保証することが示されました。

2025-01-17T02:48:29


IE-Bench: Advancing the Measurement of Text-Driven Image Editing for Human Perception Alignment

http://arxiv.org/abs/2501.09927v1

Shangkun Sun, Bowen Qu, Xiaoyu Liang, Songlin Fan, Wei Gao

Peking University, PengCheng Laboratory

最近のテキスト駆動型画像編集の進展は著しいですが、これらの編集された画像を正確に評価するという課題は依然として大きな挑戦となっています。テキスト駆動型画像生成の評価とは異なり、テキスト駆動型画像編集はテキストとソース画像の両方に対して同時に条件付けされることが特徴です。編集された画像は、しばしば元の画像との内在的な関連性を保持し、テキストの意味に応じて動的に変化します。しかし、従来の手法はテキストと画像の整合性にのみ焦点を当てることが多く、人間の知覚との整合性が取れていませんでした。本研究では、テキスト駆動型編集画像の評価を強化するために、テキスト駆動型画像編集ベンチマークスイート(IE-Bench)を導入します。IE-Benchには、多様なソース画像、さまざまな編集プロンプト、異なる編集方法に各対応する結果を含むデータベースが含まれ、25人の被験者による3,010の平均意見スコア(MOS)を提供します。さらに、テキスト駆動型画像編集のためのマルチモーダルソース対応の品質評価手法であるIE-QAを導入します。私たちの知る限り、IE-Benchはテキスト駆動型画像編集に特化した初のIQAデータセットおよびモデルを提供します。広範な実験により、IE-QAは従来のメトリクスと比較してテキスト駆動型画像編集タスクにおける主観的整合性に優れていることが示されています。関連するすべてのデータとコードを一般公開する予定です。

2025-01-17T02:47:25


ForestProtector: An IoT Architecture Integrating Machine Vision and Deep Reinforcement Learning for Efficient Wildfire Monitoring

http://arxiv.org/abs/2501.09926v1

Kenneth Bonilla-Ormachea, Horacio Cuizaga, Edwin Salcedo, Sebastian Castro, Sergio Fernandez-Testa, Misael Mamani

Universidad Católica Boliviana “San Pablo”

森林火災の早期発見は、環境および社会経済的な被害を最小限に抑えるために重要です。実際、火災の持続時間は、消火の難易度とコストに直接的に関連しています。例えば、1分間燃える火は消火に1リットルの水が必要ですが、2分間の火は100リットル、10分間の火は1,000リットルを必要とするかもしれません。一方で、リモートセンシング、PTZカメラ、UAVなどの新しい技術に基づく既存の火災検知システムは、高価であり、人間の介入が必要なため、大規模な地域の継続的な監視は実用的ではありません。この課題に対処するために、本研究では低コストの森林火災検知システムを提案します。このシステムは、中央ゲートウェイバイスを使用し、360度の視野で長距離の煙を監視するためのコンピュータビジョン機能を備えています。深層強化学習エージェントは、分散したIoTデバイスからのリアルタイムのセンサーデータ(煙レベル、周囲の温度、湿度)を活用してカメラの向きを動的に制御し、監視を強化します。このアプローチにより、偽陽性を減らしつつ広範囲にわたる自動的な野火の監視が可能となります。

2025-01-17T02:47:14


Study on a Fast Solver for Combined Field Integral Equations of 3D Conducting Bodies Based on Graph Neural Networks

http://arxiv.org/abs/2501.09923v1

Tao Shan, Xin Zhang, Di Wu

Beihang University, National Natural Science Foundation of China, Ministry of Industry and Information Technology Key Laboratory of Electromagnetic Environment Effect of Intelligent Systems

本論文では、3D導体の合成場積分方程式(CFIE)を解くためのグラフニューラルネットワーク(GNN)ベースの高速ソルバー(GraphSolver)を提案します。ラオ-ウィルトン-グリソン(RWG)基底関数を使用して、3D導体の几何学を離散的かつ正確に表現します。次に、各RWG関数をグラフのノードとして扱い、ノード間の電流の流れを可能にする簡潔で情報豊富なグラフ表現を構築します。変換されたグラフを用いて、GraphSolverは各ノード(RWG関数)における表面電流密度のx、y、z成分の実部と虚部を直接予測するように開発されました。数値結果は、基本的な3Dターゲット、ミサイル型ターゲット、飛行機型ターゲットなど、幾何学的複雑性が異なる3D導体に対するCFIEを解くためのGraphSolverの有効性を示しています。

2025-01-17T02:40:04


GenSC-6G: A Prototype Testbed for Integrated Generative AI, Quantum, and Semantic Communication

http://arxiv.org/abs/2501.09918v1

Brian E. Arfeto, Shehbaz Tariq, Uman Khalid, Trung Q. Duong, Hyundong Shin

Kyung Hee University, Memorial University, Queen’s University Belfast

私たちは、生成的人工知能(AI)、量子コンピューティング、およびセマンティックコミュニケーションの統合をサポートする包括的なデータセットを生成するために開発されたプロトタイピングテストベッド、GenSC-6Gを紹介します。GenSC-6Gデータセットは、セマンティックデコーディング、分類、および位置特定タスクに最適化されたノイズ拡張合成データで設計されており、多様なAI駆動の通信アプリケーションに対して柔軟性を大幅に向上させています。この適応可能なプロトタイプは、ベースラインモデル、通信モジュール、および目標指向デコーダー間でシームレスな変更をサポートします。ケーススタディは、ノイズ条件下での軽量分類、セマンティックアップサンプリング、およびエッジベースの言語推論におけるその応用を示しています。GenSC-6Gデータセットは、6Gネットワークの高まる需要に合わせた目標指向の通信システムを開発するためのスケーラブルで堅牢なリソースとして機能します。

2025-01-17T02:20:52


Towards A Litmus Test for Common Sense

http://arxiv.org/abs/2501.09913v1

Hugo Latapie

本論文は、安全で有益な人工知能への道を描くことを目的とした計画的シリーズの第二弾です。「常識がすべて必要だ」という概念的洞察を基に、私たちは常識のためのより正式なリトマス試験を提案し、最小限の事前知識(MPK)制約と対角線的またはゲーデルスタイルの議論を組み合わせ、エージェントの既知の概念セットを超えたタスクを作成する公理的アプローチを採用します。このアプローチが抽象化および推論コーパス(ARC)にどのように適用されるかを議論し、トレーニング/テストデータの制約、物理的または仮想的な具現化、大規模言語モデル(LLM)についても考察します。また、より高能力のAIシステムが知識のギャップを隠すために信頼性のある誤解を招く出力を意図的に作り出す「新たに出現する欺瞞的な幻覚」に関する観察も統合します。全体的なテーマは、常識を確保せずにAIをスケールアップすることが、こうした欺瞞的な傾向を強化するリスクをもたらし、安全性と信頼性を損なう可能性があるということです。危害を加えることなく有益なAIを開発するというより広範な目標に沿って、私たちの公理的リトマステストは、AIが真に新しい概念を扱えるかどうかを診断するだけでなく、安全で有益で調和のとれた将来の人工知能のための倫理的で信頼できる基盤への足がかりを提供します。

2025-01-17T02:02:12


SLIM: Sim-to-Real Legged Instructive Manipulation via Long-Horizon Visuomotor Learning

http://arxiv.org/abs/2501.09905v1

Haichao Zhang, Haonan Yu, Le Zhao, Andrew Choi, Qinxun Bai, Yiqing Yang, Wei Xu

Horizon Robotics

私たちは、シミュレーションで強化学習によって純粋にトレーニングされた、長期的な現実世界のタスクを解決する低コストの四足動物マニピュレーションシステムを提案します。このシステムは、1) 指示に従った視覚的モバイルマニピュレーションのための高レベルポリシーと、四足動物の移動および肢の制御のための低レベルポリシーの階層的設計、2) 長期タスクを解決するための漸進的ポリシー拡張アプローチと、効果的な高レベル視覚運動ポリシーのトレーニングのためのティーチャー・スチューデントフレームワーク、3) シミュレーションから現実へのギャップを最小化するための一連の手法から構成されています。予算に優しいが限られた信頼性と性能を持つハードウェアと、1つの手首に取り付けられたRGBカメラだけで、シミュレーションで完全にトレーニングされた全体のシステムは、検索、移動、把握、およびドロップインを含む長期タスクに対して高い成功率を達成し、屋内外のさまざまなシーンや照明条件で流体的なシミュレーションから現実への移行を実現しました。広範な実世界の評価では、長期モバイルマニピュレーションタスクにおいて、私たちのシステムはタスクの成功率と実行効率の両方の観点から、現実に移行した際に良好なパフォーマンスを発揮します。最後に、脚付きモバイルマニピュレーションにおけるシミュレーションから現実への技術の必要性について議論し、そのアブレーション性能を示します。

2025-01-17T01:32:18


Evolving Deeper LLM Thinking

http://arxiv.org/abs/2501.09891v1

Kuang-Huei Lee, Ian Fischer, Yueh-Hua Wu, Dave Marwood, Shumeet Baluja, Dale Schuurmans, Xinyun Chen

Google DeepMind, UC San Diego, University of Alberta

我々は、大規模言語モデルにおける推論時間の計算をスケールさせるための進化的探索戦略を検討しています。提案されたアプローチ「マインドエボリューション」は、言語モデルを使用して候補となる応答を生成、再結合、そして洗練します。このアプローチは、解決策の評価者が利用可能な場合には、基礎となる推論問題を形式化する必要を回避します。推論コストを考慮に入れた結果、「マインドエボリューション」は、自然言語計画タスクにおいて、Best-of-NやSequential Revisionといった他の推論戦略を大幅に上回ることがわかりました。TravelPlannerおよびNatural Planのベンチマークでは、マインドエボリューションが形式的なソルバーを使用せずに、Gemini 1.5 Proを用いて問題インスタンスの98%以上を解決しました。

2025-01-17T00:41:44


Exploring the Implementation of AI in Early Onset Interviews to Help Mitigate Bias

http://arxiv.org/abs/2501.09890v1

Nishka Lal, Omar Benkraouda

この論文は、内在的なバイアス、特に感情バイアスを軽減するために、初期段階の採用面接における人工知能(AI)の応用を調査します。従来の面接官は、面接官バイアス、社会的望ましさ効果、さらには確認バイアスなど、いくつかのバイアスの影響を受けやすいです。これにより、包括的でない採用慣行や多様性に欠ける労働力が生まれます。本研究では、初期段階の採用におけるAIの現在の市場利用を評価するために、現在市場に存在するさまざまなAI介入(マルチモーダルプラットフォームやインタラクティブな候補者評価ツールなど)をさらに分析します。しかし、この論文は、感情的な感情よりもスキルや知識を強調した面接のダイナミクスを転写し分析するために開発された独自のAIシステムを使用することを目指しています。結果は、AIが感情に基づくバイアスを41.2%減少させることを効果的に示しており、企業の採用プロセスにおける公平性と効率性の向上に向けた革命的な力を示唆しています。

2025-01-17T00:40:35


2025-01-17 arXiv論文リスト(cs.AI)

About

arXivに掲載されたcs.AIの論文を検索し、一部をリスト化したものです。

※AIによってAbstractを日本語に翻訳しており、内容に誤りがある可能性があります。

リスト件数: 62件

リストから抽出されたキーワード: Generative AI, Multi-agent Systems, Explainable AI

3rd Workshop on Maritime Computer Vision (MaCVi) 2025: Challenge Results

http://arxiv.org/abs/2501.10343v1

Benjamin Kiefer, Lojze Žust, Jon Muhovič, Matej Kristan, Janez Perš, Matija Teršek, Uma Mudenagudi Chaitra Desai, Arnold Wiliem, Marten Kreis, Nikhil Akalwadi, Yitong Quan, Zhiqiang Zhong, Zhe Zhang, Sujie Liu, Xuran Chen, Yang Yang, Matej Fabijanić, Fausto Ferreira, Seongju Lee, Junseok Lee, Kyoobin Lee, Shanliang Yao, Runwei Guan, Xiaoyu Huang, Yi Ni, Himanshu Kumar, Yuan Feng, Yi-Ching Cheng, Tzu-Yu Lin, Chia-Ming Lee, Chih-Chung Hsu, Jannik Sheikh, Andreas Michel, Wolfgang Gross, Martin Weinmann, Josip Šarić, Yipeng Lin, Xiang Yang, Nan Jiang, Yutang Lu, Fei Feng, Ali Awad, Evan Lucas, Ashraf Saleem, Ching-Heng Cheng, Yu-Fan Lin, Tzu-Yu Lin, Chih-Chung Hsu

University of Tuebingen, University of Ljubljana, Luxonis, Shield AI, Queensland University of Technology, Center of Excellence in Visual Intelligence, KLE Technological University, Nanjing University of Science and Technology, University of Zagreb Faculty of Electrical Engineering and Computing, Gwangju Institute of Science and Technology (GIST), University of Liverpool, Hong Kong University of Science and Technology (Guangzhou), Xi’an Jiaotong-Liverpool University, Dalian Maritime University, School of Marine Engineering, National Cheng Kung University, Fraunhofer IOSB, Yancheng Institute of Technology, Nanjing University, Beijing University of Posts and Telecommunications, Michigan Technological University, Karlsruhe Institute of Technology

2025年の第3回海上コンピュータビジョンワークショップ(MaCVi)は、無人水上車両(USV)および水中の海上コンピュータビジョンに関するものです。本報告書は、課題からの発見の包括的な概要を提供します。700件以上の応募からのトレンドを評価するために、統計的および定性的な分析を行います。すべてのデータセット、評価コード、リーダーボードは、https://macvi.org/workshop/macvi25 で一般に公開されています。

2025-01-17T18:34:47


Agent4Edu: Generating Learner Response Data by Generative Agents for Intelligent Education Systems

http://arxiv.org/abs/2501.10332v1

Weibo Gao, Qi Liu, Linan Yue, Fangzhou Yao, Rui Lv, Zheng Zhang, Hao Wang, Zhenya Huang

パーソナライズされた学習は、学習者の実践効率を向上させることを目指した知的教育システム内の有望な教育戦略です。しかし、オフラインの指標とオンラインのパフォーマンスとの間の不一致は、彼らの進展を大きく妨げています。この課題に対処するために、私たちは「Agent4Edu」を導入します。これは、大規模言語モデル(LLM)を活用した新しいパーソナライズド学習シミュレーターです。

Agent4Eduは、パーソナライズされた学習アルゴリズムに合わせて設計された学習者プロファイル、メモリー、およびアクションモジュールを備えたLLM駆動の生成エージェントを特徴としています。学習者プロファイルは、実際の反応データを使用して初期化され、実践スタイルや認知要因を捉えます。人間の心理学理論にインスパイアを受けたメモリーモジュールは、実践の事実と高レベルの要約を記録し、反省メカニズムを統合します。アクションモジュールは、理解力、分析、および応答生成を含むさまざまな行動をサポートします。

各エージェントは、コンピュータ化された適応テストのようなパーソナライズされた学習アルゴリズムと相互作用し、カスタマイズされたサービスの多面的な評価と強化を可能にします。包括的な評価を通じて、私たちはAgent4Eduの長所と短所を探り、エージェントと人間の学習者の間の応答の一貫性と不一致を強調します。コード、データ、および付録は、https://github.com/bigdata-ustc/Agent4Edu にて公開されています。

2025-01-17T18:05:04


Large language models for automated scholarly paper review: A survey

http://arxiv.org/abs/2501.10326v1

Zhenzhen Zhuang, Jiandong Chen, Hongfeng Xu, Yuwen Jiang, Jialiang Lin

Guangzhou Institute of Science and Technology, Guizhou Normal University

大規模言語モデル(LLM)は人間社会に大きな影響を与え、さまざまな分野に影響を及ぼしています。その中でも、学術界はLLMの影響を受ける分野であるだけでなく、LLMの発展においても重要な力となっています。学術論文の中では、LLMを原稿の査読メカニズムに組み込むことによってこの現象が表れています。私たちは前回の論文で自動 scholarly paper review(ASPR)の概念を提案しました。組み込みが進む中で、ASPRと査読の共存段階に入ってきており、そのことは前述の論文で説明されています。LLMはASPRの本格的な実施に変革的な可能性を持っていますが、新たな問題や課題も提起しています。本調査論文では、LLMの時代におけるASPRの全体像を提供することを目指しています。まず、ASPRを実施するために使用されているLLMを調査します。次に、LLM技術の組み込みによって解決されたASPR関連の技術的なボトルネックをレビューします。その後、ASPRにおけるLLMに伴う新しい手法、新しいデータセット、新しいソースコード、そして新しいオンラインシステムを探求します。さらに、ASPRにおけるLLMの性能と問題を要約し、出版者や学術界のASPRに対する態度と反応を調査します。最後に、ASPRのためのLLMの開発に関する課題について議論します。この調査が研究者にとってインスピレーションの源となり、実際の実施に向けたASPRの進展を促進することを期待しています。

2025-01-17T17:56:58


Hierarchical Autoregressive Transformers: Combining Byte-~and Word-Level Processing for Robust, Adaptable Language Models

http://arxiv.org/abs/2501.10322v1

Pit Neitemeier, Björn Deiseroth, Constantin Eichenberg, Lukas Balles

Aleph Alpha Research, Heidelberg

トークン化は自然言語処理における基本的なステップであり、テキストを計算モデルが処理できる単位に分解します。サブワードトークナイザは事実上の標準となっていますが、大きな語彙数、新しい領域や言語への適応の限界、スペルミスや変異に対する感受性などの課題を呈しています。これらの制限を克服するために、文字レベルと単語レベルの処理を組み合わせた自己回帰的言語モデルの階層的アーキテクチャを調査します。このアプローチは、軽量な文字レベルのエンコーダーを使用して文字列を単語の埋め込みに変換し、その後単語レベルのバックボーンモデルで処理し、コンパクトな文字レベルのデコーダーを介して再び文字にデコードします。この方法は、厳格であらかじめ定義された語彙に依存することなく、単語レベルのトークン化のシーケンス圧縮の利点を保持します。私たちは、最大70億パラメータのスケールで、階層トランスフォーマーがサブワードトークナイザベースのモデルの下流タスク性能に匹敵し、入力の摂動に対して著しく高い頑健性を示すことを実証します。さらに、ドメイン外の言語での追加の事前学習中に、私たちのモデルはほぼ二倍の速さで訓練され、目標言語で優れた性能を達成し、以前に学習した知識の多くを保持します。階層トランスフォーマーは、言語やドメインを越えてより頑健で柔軟かつ一般化可能なNLPシステムへの道を開きます。

2025-01-17T17:51:53


An Ontology for Social Determinants of Education (SDoEd) based on Human-AI Collaborative Approach

http://arxiv.org/abs/2501.10300v1

Navya Martin Kollapally, James Geller, Patricia Morreale, Daehan Kwak

計算的オントロジーの使用は、医療情報学の分野で確立されています。健康の社会的決定要因(SDoH)というテーマも広く注目されています。オントロジーとSDoHの交差点での研究が発表されています。しかし、教育の社会的決定要因(SDoEd)に関する標準化されたフレームワークは不足しています。本論文では、学生の生活状況とその可能な教育成果との相互作用を正確に概念化するために、SDoEdオントロジーを導入することでこのギャップを埋めています。このオントロジーは、ChatGPT-3.5-010422からの提案を利用して開発され、査読付き研究論文を使って検証されました。開発されたオントロジーの最初のバージョンは、教育分野の人間の専門家によって評価され、標準的なオントロジー評価ソフトウェアを用いて検証されました。このバージョンのSDoEdオントロジーには、231のドメイン概念、10のオブジェクトプロパティ、および24のデータプロパティが含まれています。

2025-01-17T16:51:03


SEANN: A Domain-Informed Neural Network for Epidemiological Insights

http://arxiv.org/abs/2501.10273v1

Jean-Baptiste Guimbaud, Marc Plantevit, Léa Maître, Rémy Cazabet

疫学において、ロジスティック回帰分析、線形回帰分析、その他のパラメトリックモデルなどの従来の統計手法が、予測因子と健康結果との関連を調査するために一般的に用いられています。しかし、深層ニューラルネットワーク(DNN)などの非パラメトリック機械学習技術と、説明可能なAI(XAI)ツールを組み合わせることで、このタスクに新たな機会が提供されます。これらの手法には可能性があるものの、高品質・高量のデータの限られた入手可能性のために課題に直面しています。これらの課題に対処するために、私たちはSEANNという新しいアプローチを紹介します。これは、特定のドメインに特有の知識の一般的な形式であるプール効果サイズ(PES)を活用した情報に基づくDNNです。PESは、さまざまな形式で発表されたメタアナリシス研究に共通して見られ、科学的合意の定量的な形を表しています。カスタムロスを用いて学習プロセス内に直接統合することで、データが不足してノイズが多い状況において、ドメイン知識に依存しないニューラルネットワークと比較して、予測パフォーマンスの一般化能力および抽出された関係の科学的整合性において有意な改善を実験的に示します。

2025-01-17T16:01:05


Unsupervised Rhythm and Voice Conversion of Dysarthric to Healthy Speech for ASR

http://arxiv.org/abs/2501.10256v1

Karl El Hajal, Enno Hermann, Ajinkya Kulkarni, Mathew Magimai. -Doss

Idiap Research Institute, EPFL, École polytechnique fédérale de Lausanne

自動音声認識(ASR)システムは、構音障害のあるスピーチに対してパフォーマンスが悪いことが知られています。これまでの研究では、典型的なスピーチとの不一致を減らすために発話速度の修正が対処されています。しかし、これらのアプローチは、発話速度や音素の持続時間を推定するために転写された音声データに依存しており、未知の話者に対しては利用できない可能性があります。したがって、自己教師あり音声表現に基づく無監督リズムと声の変換方法を組み合わせて、構音障害のあるスピーチを典型的なスピーチにマッピングします。私たちは、さらなるファインチューニングなしで健康な音声に対して事前訓練された大規模なASRモデルで出力を評価し、提案されたリズム変換が特にトルゴコーパスのより重度の構音障害の話者に対してパフォーマンスを向上させることがわかりました。コードとオーディオサンプルはhttps://idiap.github.io/RnVで入手可能です。

2025-01-17T15:39:21


Random-Key Algorithms for Optimizing Integrated Operating Room Scheduling

http://arxiv.org/abs/2501.10243v1

Bruno Salezze Vieira, Eduardo Machado Silva, Antonio Augusto Chaves

Federal University of São Paulo (UNIFESP), Aeronautics Institute of Technology (ITA)

効率的な手術室のスケジューリングは、病院の効率、患者の満足度、および資源の利用にとって不可欠です。 本研究は、文献および新しい実世界からインスパイアされた事例に厳密に検証された新たな概念であるランダムキー最適化器(RKO)を導入することにより、この課題に取り組んでいます。私たちの組合せ最適化問題は、複数の手術室のスケジューリング、設備のスケジューリング、そして部屋、患者、外科医のための複雑な利用可能性の制約を組み込み、リスケジューリングを容易にし、運用の柔軟性を向上させます。 RKOアプローチは、解を連続空間の点として表現し、それをデコーダと呼ばれる決定論的関数を介して問題の解空間にマッピングします。 中核となるアイデアは、元の解空間を意識することなく、ランダムキー空間でメタヒューリスティクスおよびヒューリスティクスを操作することです。私たちは、単一のデコーダ関数を使用するRKOフレームワーク内で使用するために、$Q$-学習、シミュレーテッドアニーリング、そして反復局所探索を用いたバイアス付きランダムキー遺伝的アルゴリズムを設計しました。 提案されたメタヒューリスティクスは下限の定式化によって補完されており、ヒューリスティック結果の効果を評価するための最適なギャップを提供します。 我々の結果は、文献事例に対する顕著な下限および上限の改善を示しており、特に最適な結果を一つ証明しています。 さらに、最良の提案メタヒューリスティクスは、非常に厳しいシナリオであっても、新たに導入された事例のために効率的にスケジュールを生成します。この研究は、手術スケジューリングプロセスを改善するための貴重な洞察と実用的な解決策を提供し、資源配分の最適化、患者の待機時間の短縮、そして全体的な運営効率の向上という具体的な利益を病院にもたらします。

2025-01-17T15:11:30


Challenges and recommendations for Electronic Health Records data extraction and preparation for dynamic prediction modelling in hospitalized patients -- a practical guide

http://arxiv.org/abs/2501.10240v1

Elena Albu, Shan Gao, Pieter Stijnen, Frank E. Rademakers, Bas C T van Bussel, Taya Collyer, Tina Hernandez-Boussard, Laure Wynants, Ben Van Calster

KU Leuven, University Hospitals Leuven, Maastricht University, Maastricht University Medical Centre+, Cardiovascular Research Institute (CARIM), Monash University, Stanford University, Leiden University Medical Center

電子健康記録(EHR)データを使用した動的予測モデルは、近年大きな注目を集めています。このようなモデルの信頼性と信頼度は、主にモデル開発の前段階、すなわちEHRシステムからのデータ抽出とデータ準備の質に依存しています。私たちは、これらの段階で発生する40以上の課題をリストアップし、それに対処するための具体的な推奨事項を提供します。これらの課題は、コホート定義、アウトカム定義、特徴エンジニアリング、データクリーニングの4つのカテゴリーに整理されています。このリストは、データ抽出エンジニアや研究者のための実用的なガイドとして、より良い実践を支援し、臨床環境における動的予測モデルの質と実世界での適用性を向上させることを目的としています。

2025-01-17T15:09:57


Temporal Causal Reasoning with (Non-Recursive) Structural Equation Models

http://arxiv.org/abs/2501.10190v1

Maksim Gladyshev, Natasha Alechina, Mehdi Dastani, Dragan Doder, Brian Logan

構造方程モデル(SEM)は、因果モデルにおける変数間の因果依存関係を表すための標準的なアプローチです。本論文では、実際の因果関係について考える際のSEMの新しい解釈を提案します。ここでは、SEMが外因変数の動的変化を内因変数の動的変化に変換するメカニズムとして捉えられます。これにより、反事実的因果推論と既存の時相論理形式を結びつけ、因果関係を持つ構造に関する因果推論のための時相論理CPLTLを導入することが可能になります。私たちは、依存グラフにサイクルがないいわゆる「再帰的」モデルへの標準的な制限は、私たちのアプローチでは必要ないことを示し、相互依存するプロセスやフィードバックループについて推論することを可能にします。最後に、時相因果モデルのための新しいモデル同値の概念を導入し、CPLTLが効率的なモデル検査手続きを持っていることを示します。

2025-01-17T13:37:58


Good things come in small packages: Should we adopt Lite-GPUs in AI infrastructure?

http://arxiv.org/abs/2501.10187v1

Burcu Canakci, Junyi Liu, Xingbo Wu, Nathanaël Cheriere, Paolo Costa, Sergey Legtchenko, Dushyanth Narayanan, Ant Rowstron

Microsoft Research

生成的AIワークロードの需要に対応するため、GPU設計者はこれまで、単一の複雑で高価なパッケージに、より多くの計算能力とメモリを詰め込もうとしてきました。しかし、最先端のGPUがすでにパッケージング、歩留まり、冷却の制限を示しているため、個々のGPU及びAIクラスタのスケーラビリティについての不確実性が高まっています。そこで、私たちは、ライトGPUという小さなダイを持つGPUの大規模な効率的に接続されたクラスタを通じて、AIクラスタの設計とスケーリングを再考することを提案します。ライトGPUは、より大きなGPUの機能の一部しか持たない構造です。最近の共同パッケージ化された光学技術の進展が、より多くのライトGPUにAIワークロードを分配する際の通信課題を克服する鍵になると考えています。本論文では、製造コスト、爆風半径、歩留まり、電力効率におけるライトGPUの主要な利点を示し、リソース、ワークロード、メモリ、ネットワーク管理の周りのシステムの機会と課題について論じます。

2025-01-17T13:32:28


Generative Artificial Intelligence: Implications for Biomedical and Health Professions Education

http://arxiv.org/abs/2501.10186v1

William Hersh

生成的AIは、職業的な仕事や教育の両方において、生物医学と健康に深い影響を与えています。大規模言語モデル(LLMs)に基づく生成的AIは、医療の国家試験を受験するシミュレーション状況や、臨床的な質問に答えること、臨床ケースを解決すること、臨床推論を適用すること、情報を要約することにおいて、通常の人間と同等のパフォーマンスを示すことが確認されています。生成的AIは教育の分野でも広く利用されており、学術コースやその評価でも良好な成績を収めています。このレビューでは、LLMsの成功を要約し、特に専門職のための知識とスキルの習得を妨げる可能性のある側面を含む教育の文脈における課題を強調します。さらに、教育におけるLLMの使用の短所を克服するためのベストプラクティスについての提言を提供します。教育における生成的AIの使用には課題がありますが、生物医学と健康、さらにはそれ以外の分野においても、すべての学生と教員はその理解と活用能力を持たなければなりません。

2025-01-17T13:32:19


A Simple but Effective Closed-form Solution for Extreme Multi-label Learning

http://arxiv.org/abs/2501.10179v1

Kazuma Onishi, Katsuhiko Hayashi

極端マルチラベル学習(XML)は、非常に大きなラベルセットから各データインスタンスに複数のラベルを割り当てるタスクです。現在の多くの高性能XMLモデルは多数のハイパーパラメータで構成されており、チューニングプロセスが複雑になります。さらに、モデル自体がXMLに特化しているため、再実装が難しくなっています。この問題を解決するために、XML用のリッジ回帰に基づく単純な方法を提案します。提案された方法は、閉じた形式の解を持つだけでなく、単一のハイパーパラメータで構成されています。リッジ回帰をXMLに適用する前例がないため、本論文では様々なXMLベンチマークデータセットを用いてこの方法の性能を検証しました。さらに、情報のある内容を持つ低頻度ラベルの予測を向上させました。この予測は、データ量が限られているため、重要でありながらも難しいものです。ここでは、シンプルな頻度ベースの重み付けを採用しました。このアプローチは、既存の技術と比較して大幅にプロセスを簡素化します。実験結果は、この方法が多数のハイパーパラメータを持つモデルと同等、あるいはそれを上回るパフォーマンスを達成できることを示しました。さらに、頻度ベースの重み付けが低頻度ラベルの予測性能を大幅に改善し、実装にほとんど変更が不要であることがわかりました。提案した方法のソースコードは、https://github.com/cars1015/XML-ridge にて入手可能です。

2025-01-17T13:24:13


CSSDM Ontology to Enable Continuity of Care Data Interoperability

http://arxiv.org/abs/2501.10160v1

Subhashis Das, Debashis Naskar, Sara Rodriguez Gonzalez, Pamela Hussey

デジタル技術の急速な進展と最近のグローバルパンデミックのシナリオは、これらの技術が危機に対処するために医療サービスの提供とワークフローをどのように強化できるかに対する関心を高めています。既存のデジタルトランスフォーメーションプログラムを統合するアクションプランがレビューされ、持続可能な医療ソリューションのための基盤とコアインフラストラクチャを確立するための取り組みが行われています。例えば、個別化された在宅医療を提供するために健康・社会サービスを改革することは、過密な急性期病院での治療を避け、医療専門家とサービス利用者の両方にとっての経験と結果を改善するのに役立ちます。この情報集約型の領域において、標準ベースのロードマップを通じて相互運用性の課題に対処することは、健康と社会サービス間の効果的な接続を可能にする上で重要です。このアプローチは、異なる医療システムプロバイダー間で安全で信頼できるデータワークフローを促進します。この論文では、共通の意味論的標準データモデル(CSSDM)を使用し、セミオートマチックプロセスを通じてデータを抽出、変換、ロードする手法を提案します。CSSDMはISO 13940 ContSysの形式的オントロジーに基づいており、KGを生成するための構造属性をサポートするためにFHIRベースの仕様を組み込んでいます。私たちは、CSSDMがデータの調和とリンクを促進し、相互運用性に対する代替アプローチを提供すると提案します。このアプローチは、健康情報システムやクラウド対応の健康サービスを開発する企業間の新しい形のコラボレーションを促進します。その結果、複数の利害関係者が高品質のデータと情報共有にアクセスできるようになります。

2025-01-17T12:48:48


Region-wise stacking ensembles for estimating brain-age using MRI

http://arxiv.org/abs/2501.10153v1

Georgios Antonopoulos, Shammi More, Simon B. Eickhoff, Federico Raimondo, Kaustubh R. Patil

構造的磁気共鳴画像法(MRI)データを用いた予測モデルは、脳の老化を研究するための重要なアプローチです。機械学習アルゴリズムや特徴抽出方法が、予測の改善や健康的および加速された老化(例えば神経変性障害や精神的障害)の探求に利用されています。高次元のMRIデータは、汎用性があり解釈可能なモデルの構築を困難にし、データのプライバシーにも課題をもたらします。一般的な手法は、あらかじめ定義されたパーセル内のボクセルをリサンプリングまたは平均化することで、解剖学的特異性や生物学的解釈性が低下します。これは、ある領域内のボクセルが老化に異なる関連を持つ可能性があるためです。効果的には、単純な融合による平均化は情報の損失と精度の低下を引き起こすことがあります。私たちは、概念的に新しい二層スタッキングアンサンブル(SE)アプローチを提案します。第一層は、ボクセルごとの情報に基づいて個々の年齢を予測する地域モデルから構成され、第二層モデルによって融合されて最終的な予測が得られます。成人のライフスパンをカバーする四つのデータセットから得られた灰白質の体積(GMV)の推定値を入力として、八つのデータ融合シナリオが検討されました。性能は平均絶対誤差(MAE)、R2、相関、および予測バイアスを用いて測定され、SEが地域ごとの平均を上回ることが示されました。最良の性能は、第一層の地域的予測が適用サイトでの外部サンプル予測として得られ、第二層モデルが独立したサイト特有のデータで訓練されたときに得られました(MAE=4.75 対 基準地域平均GMV MAE=5.68)。使用するデータセットが増えるにつれて、性能が向上しました。第一層の予測は改善され、より堅牢な老化信号を示し、新しい生物学的洞察とデータプライバシーの強化を提供しました。全体として、SEは基準と比較して精度を向上させながら、データプライバシーを保持または向上させます。

2025-01-17T12:24:28


Topology-Driven Attribute Recovery for Attribute Missing Graph Learning in Social Internet of Things

http://arxiv.org/abs/2501.10151v1

Mengran Li, Junzhou Chen, Chenyun Yu, Guanying Jiang, Ronghui Zhang, Yanming Shen, Houbing Herbert Song

Shenzhen Campus of Sun Yat-sen University, Baidu Inc, Dalian University of Technology, University of Maryland, Baltimore County

情報技術の進展に伴い、ソーシャルインターネットオブシングス(SIoT)は物理デバイスソーシャルネットワークの統合を促進し、複雑な相互作用パターンの研究が深まりました。テキスト属性グラフ(TAGs)は、トポロジカルな構造とセマンティック属性の両方を捉え、SIoT内の複雑な相互作用の分析を強化します。しかし、既存のグラフ学習法は通常、完全な属性グラフを対象として設計されており、属性欠損グラフ(AMGs)における属性の欠落という共通の問題は、分析タスクの難易度を高めています。この課題に対処するために、我々はトポロジー駆動の属性回復(TDAR)フレームワークを提案します。このフレームワークAMG学習のためにトポロジカルデータを活用します。TDARは、ネイティブグラフトポロジーを用いた初期属性回復のための改善された事前補填手法を導入します。さらに、情報伝播中のノイズを効果的に減少させるために、AMGsの独自のトポロジカル構造に適応するように、伝播重みを動的に調整し、埋め込み空間内で均一性戦略を組み込みます。公的データセットにおける広範な実験により、TDARは属性再構築とダウンストリームタスクにおいて最先端の手法を大幅に上回ることが示されており、AMGsがもたらす課題に対する堅牢な解決策を提供します。コードは https://github.com/limengran98/TDAR で入手可能です。

2025-01-17T12:23:42


Dual Debiasing: Remove Stereotypes and Keep Factual Gender for Fair Language Modeling and Translation

http://arxiv.org/abs/2501.10150v1

Tomasz Limisiewicz, David Mareček, Tomáš Musil

Charles University, Prague

バイアスの軽減、例えば言語モデルが性別ステレオタイプに依存することは、信頼できる有用な言語技術を作成するために必要な重要な取り組みです。デバイアシングの重要な側面は、モデルが言語タスクを解決する能力や様々な性別を公平に表現する能力を含む多面的な機能を維持することを保証することです。この問題に対処するために、モデル適応を通じた効率的な二重デバイアシングアルゴリズム(2DAMA)を紹介します。新しい二重デバイアシングは、言語モデルによってエンコードされた望ましい事実的な性別情報を保持しながら、ステレオタイプのバイアスを強力に削減することを可能にします。私たちは、2DAMAが英語における性別バイアスを効果的に軽減し、翻訳におけるステレオタイプ的傾向の軽減を促進する最初のアプローチの一つであることを示します。提案する方法の主な利点は、幅広い自然言語処理タスクにおいて役立つ事実的な性別の手がかりを保持することです。

2025-01-17T12:23:30


Enhancing UAV Path Planning Efficiency Through Accelerated Learning

http://arxiv.org/abs/2501.10141v1

Joseanne Viana, Boris Galkin, Lester Ho, Holger Claussen

Tyndall National Institute, University College Cork, Trinity College Dublin

無人航空機(UAV)は、監視、偵察、通信などのさまざまな分野でますます重要になっています。この研究は、UAV無線通信中継器の経路計画のための学習アルゴリズムを開発することを目的としており、ストレージ要件を減少させ、深層強化学習(DRL)の収束を加速します。システムは地域の地形図を持ち、位置特定アルゴリズムや直接GPS報告を使用してユーザーの位置を推定できると仮定すると、これらのパラメータを学習アルゴリズムに入力して最適化された経路計画性能を実現できます。しかし、地形の高さ、物体の距離、および信号の遮蔽などのトポロジー情報を抽出するためには、より高解像度の地形図が必要です。この要件は、UAVのメモリとストレージの要求を増加させ、DRLアルゴリズムの収束時間も長くなります。同様に、これらの地形図とユーザーの位置推定を使用してUAV無線通信中継器の通信カバレッジマップを定義することは、学習経路計画アルゴリズムに対してより高いメモリとストレージの利用を要求します。我々のアプローチは、主成分分析(PCA)、サンプルの組み合わせ、優先経験再生(PER)、およびカバレッジマップ推定での平均二乗誤差(MSE)と平均絶対誤差(MAE)の損失計算の組み合わせに基づく次元削減技術を適用することによって、経路計画の訓練時間を短縮し、双方向遅延深層決定論的ポリシー勾配(TD3)アルゴリズムを強化します。提案されたソリューションは、従来のTD3と比較して基本的な訓練に必要な収束エピソードを約4倍削減します。

2025-01-17T12:05:24


Conformal Prediction Sets with Improved Conditional Coverage using Trust Scores

http://arxiv.org/abs/2501.10139v1

Jivat Neet Kaur, Michael I. Jordan, Ahmed Alaa

University of California, Berkeley, Inria, Paris

標準的な適合予測は、カバレッジに関する周辺保証を提供しますが、予測セットが真に有用であるためには、理想的には各テストポイントに条件付けられたカバレッジを確保する必要があります。残念ながら、有限サンプルで正確な分布フリーの条件付きカバレッジを達成することは不可能です。本研究では、誤った予測に対して分類器が過信している場合に、特に重要なカバレッジをターゲットにした代替的な適合予測アルゴリズムを提案します。まず、周辺的に有効な適合予測における誤カバレッジイベントを分析し、誤カバレッジ率は分類器の自信とベイズ最適分類器からの逸脱に基づいて異なることを示します。この洞察に基づいて、予測に対する分類器の自信とベイズ分類器からの逸脱を測る非パラメトリック信頼スコアの2つの変数の縮小セットに条件付けられたカバレッジをターゲットにする適合予測の変種を開発します。複数の画像データセットに対する実証評価は、我々の方法が標準的な適合予測と比較して、一般的に条件付きカバレッジ特性を改善することを示しています。これには、クラス条件付きカバレッジ、任意のサブグループに対するカバレッジ、および人口統計グループに対するカバレッジが含まれます。

2025-01-17T12:01:56


Exploring the Impact of Generative Artificial Intelligence in Education: A Thematic Analysis

http://arxiv.org/abs/2501.10134v1

Abhishek Kaushik, Sargam Yadav, Andrew Browne, David Lillis, David Williams, Jack Mc Donnell, Peadar Grant, Siobhan Connolly Kernan, Shubham Sharma, Mansi Arora

最近の生成型人工知能(GenAI)技術の進展は、教育分野において変革をもたらしています。ChatGPTやBardなどの大規模言語モデル(LLM)は、定型的な作業の自動化、個別指導のためのコンテンツ作成、反復的なタスクの処理に利用でき、創造的な思考にもっと時間を割けるようになります。しかし、これらのツールを責任を持って統合するためには、教育セクターにおいてガイドライン、ポリシー、評価方法を開発することが重要です。本記事では、教育分野の専門家から得た7つのエッセイに対してテーマ分析を行い、ChatGPTやBardなどのGenAIモデルを教育で使用する際の利点と落とし穴を理解します。エッセイに対して探索的データ分析(EDA)を行い、テキストからさらなる洞察を抽出しました。この研究では、GenAIツールの利点と欠点を強調するいくつかのテーマが見つかり、これらの限界を克服し、学生がこれらのツールを責任を持ち倫理的に使用することを確保するための提案が示されています。

2025-01-17T11:49:49


Spatio-temporal Graph Learning on Adaptive Mined Key Frames for High-performance Multi-Object Tracking

http://arxiv.org/abs/2501.10129v1

Futian Wang, Fengxiang Liu, Xiao Wang

マルチオブジェクトトラッキングの領域において、ビデオシーケンス内のオブジェクト間の空間的および時間的関係を正確に捉えることは、依然として重要な課題です。この問題は、オブジェクト間の相互遮蔽が頻繁に発生することでさらに複雑化し、トラッキングエラーや既存の手法のパフォーマンス低下につながる可能性があります。これらの課題に動機づけられ、我々は現在のトラッキングアプローチの限界を克服するための新しい適応的キーフレームマイニング戦略を提案します。具体的には、強化学習を活用してビデオを適応的にセグメント化するキーフレーム抽出(KFE)モジュールを導入し、トラッカーがビデオコンテンツの内在する論理を活用できるようにします。このアプローチにより、異なるオブジェクト間の構造化された空間関係と、フレーム間のオブジェクトの時間的関係を捉えることが可能になります。オブジェクトの遮蔽の問題に対処するために、我々はイントラフレーム特徴融合(IFF)モジュールを開発しました。従来のグラフベースの手法が主にフレーム間特徴の融合に焦点を当てているのに対し、我々のIFFモジュールは、グラフ畳み込みネットワーク(GCN)を使用して、フレーム内でターゲットと周囲のオブジェクト間の情報交換を促進します。この革新により、ターゲットの識別性が大幅に向上し、遮蔽によるトラッキングロスや外観の類似性が軽減されます。長い軌道と短い軌道の両方の強みを組み合わせ、オブジェクト間の空間関係を考慮することで、我々の提案するトラッカーはMOT17データセットで68.6 HOTA、81.0 IDF1、66.6 AssA、893 IDSという印象的な結果を達成し、その有効性と精度を証明しています。

2025-01-17T11:36:38


Infrastructure for AI Agents

http://arxiv.org/abs/2501.10114v1

Alan Chan, Kevin Wei, Sihao Huang, Nitarshan Rajkumar, Elija Perrier, Seth Lazar, Gillian K. Hadfield, Markus Anderljung

Harvard Law School, University of Oxford, University of Cambridge, Australian National University, Johns Hopkins University, Centre for the Governance of AI

ますます多くのAIシステムが、電話をかけたりオンラインで商品を購入したりするなど、オープンエンドの環境においてインタラクションを計画し、実行できるようになっています。開発者がそのようなAIエージェントが達成できるタスクの範囲を拡大するにつれて、我々はこれらの利点を活かし、リスクを管理するためのツールが必要になります。現在のツールは、エージェントが既存の制度(例:法的・経済的システム)やアクター(例:デジタルサービスプロバイダー、人間、他のAIエージェント)とどのように相互作用するかを形作るために設計されていないため、主に不十分です。例えば、アラインメント技術は本質的に、ユーザーがエージェントに違法行為を実行するよう指示した場合に、ある人間が責任を持つことを相手方に保証するものではありません。このギャップを埋めるために、我々はエージェントインフラストラクチャという概念を提案します。これは、エージェントの外部に設計された技術システムと共有プロトコルで、エージェントの環境との相互作用や影響を仲介し、影響を与えることを目的としています。エージェントインフラストラクチャは、新しいツールだけでなく、既存のツールの再構成や拡張も含まれます。例えば、アカウンタビリティを促進するために、ユーザーをエージェントに結びつけるプロトコルは、OpenIDのようなユーザー認証の既存のシステムに基づくことができます。インターネットがHTTPSのようなインフラストラクチャに依存しているのと同様に、我々はエージェントインフラストラクチャがエージェントのエコシステムにとって同様に不可欠であると主張します。エージェントインフラストラクチャには、次の3つの機能があると特定します:1)特定のエージェント、利用者、または他のアクターに行動、属性、その他の情報を帰属させること;2)エージェントの相互作用を形作ること;3)エージェントからの有害な行動を検知し、修正すること。我々はこれらの各機能を達成するのに役立つインフラストラクチャを提案し、使用例、採用、制限、および未解決の質問について説明します。エージェントインフラストラクチャにおける進展を促進することで、より高度なエージェントの導入に備えることができます。

2025-01-17T10:58:12


BBPOS: BERT-based Part-of-Speech Tagging for Uzbek

http://arxiv.org/abs/2501.10107v1

Latofat Bobojonova, Arofat Akhundjanova, Phil Ostheimer, Sophie Fellenz

RPTU Kaiserslautern-Landau, Saarland University

この論文は、低資源のウズベク語に関するNLP研究を推進するもので、これまでテストされていなかった2つの単言語ウズベクBERTモデルを品詞タグ付けタスクで評価し、ウズベク語のための最初の公に利用可能なUPOSタグ付きベンチマークデータセットを紹介します。私たちのファインチューニングされたモデルは、91%の平均精度を達成し、ベースラインの多言語BERTやルールベースのタグ付けツールを上回っています。特に、これらのモデルは接辞を通じて中間的な品詞の変化を捉え、既存のルールベースのタグ付けツールとは異なり、文脈感度を示します。

2025-01-17T10:50:22


LLM Reasoner and Automated Planner: A new NPC approach

http://arxiv.org/abs/2501.10106v1

Israel Puerta-Merino, Jordi Sabater-Mir

IIIA - Artificial Intelligence Research Institute, CSIC - Spanish Scientific Research Council, Instituto de Investigación en Inteligencia Artificial, Consejo Superior de Investigaciones Científicas

人間に似た現実的な行動を模倣する知的エージェントが必要とされる領域、例えば形成シミュレーションのような場合、従来の技術である行動ツリーは重要な課題に直面します。大型言語モデル(LLM)は、必ずしも最適な解決策を提供するわけではありませんが、通常は与えられた問題に対して現実的で人間のような応答を提供します。本論文では、この能力を活用し、意思決定のためにLLMを統合した新しいアーキテクチャを提案します。このアーキテクチャは、その意思決定に対して適切な計画を生成できる古典的な自動計画ツールと統合されています。この組み合わせは、設計段階で予期されていなかった状況においても、エージェントが様々な状況で意思決定を行う能力を持つことを目指しています。

2025-01-17T10:47:11


Universal Actions for Enhanced Embodied Foundation Models

http://arxiv.org/abs/2501.10105v1

Jinliang Zheng, Jianxiong Li, Dongxiu Liu, Yinan Zheng, Zhihao Wang, Zhonghong Ou, Yu Liu, Jingjing Liu, Ya-Qin Zhang, Xianyuan Zhan

Tsinghua University, Sensetime Research, Peking University, Beijing University of Posts and Telecommunications, Shanghai AI Lab

多様なインターネット規模のデータでのトレーニングは、最近の大規模基盤モデルの成功において重要な要素です。しかし、具現化エージェントを構築するために同じレシピを使うことには著しい困難が伴っています。多くのクラウドソースの具現化データセットが存在するにもかかわらず、それらのアクション空間は、異なるロボットの独特な物理的具現化と制御インターフェースにより、しばしば重大な異質性を示し、クロスドメインデータを使用した具現化基盤モデルの開発に substantial challenges をもたらします。本論文では、トークン化されたユニバーサルアクションスペースで動作する新しい具現化基盤モデリングフレームワークである UniAct を紹介します。私たちの学習したユニバーサルアクションは、共有される構造的特徴を活用して、多様なロボット間の一般的な原子的行動を捉え、厄介な異質性を排除することにより、クロスドメインデータの利用やクロス具現化の一般化を向上させることができます。ユニバーサルアクションは、具現化特有の詳細を追加するだけで効率的に異質な実行可能コマンドに翻訳できるため、新しいロボットへの迅速な適応が簡単で明確になります。私たちの UniAct の 0.5B インスタンスは、さまざまな実世界およびシミュレーションロボットに対する広範な評価で、14倍大きな最先端の具現化基盤モデルを上回り、優れたクロス具現化制御と適応能力を示し、ユニバーサルアクションを採用することの重要な利点を強調しています。プロジェクトページ: https://github.com/2toinf/UniAct

2025-01-17T10:45:22


Robotic World Model: A Neural Network Simulator for Robust Policy Optimization in Robotics

http://arxiv.org/abs/2501.10100v1

Chenhao Li, Andreas Krause, Marco Hutter

ETH Zurich

ロバストで一般化可能な世界モデルを学習することは、実世界の環境における効率的でスケーラブルなロボット制御を実現するために重要です。本研究では、複雑で部分的に観測可能かつ確率的なダイナミクスを正確に把握するための新しい世界モデル学習フレームワークを提案します。提案された方法は、ドメイン特有の帰納的先入観に依存せずに、ロングホライズンの予測を信頼性高く実現するために、デュアル自己回帰メカニズムと自己監視トレーニングを採用しています。これにより、多様なロボットタスクにおける適応性を確保しています。また、世界モデルを活用して、想像上の環境での効率的なトレーニングと実際のシステムへのシームレスな展開を図るためのポリシー最適化フレームワークも提案します。広範な実験を通じて、我々のアプローチは常に最先端の手法を上回り、優れた自己回帰予測精度、ノイズに対するロバスト性、操作および移動タスクにおける一般化を示しています。特に、我々の方法で訓練されたポリシーは、ANYmal Dハードウェア上でゼロショット転送で成功裏に展開され、最小限のシムからリアルへの性能損失でロバストなパフォーマンスを達成しています。本研究は、ロングホライズン予測、エラー蓄積、およびシムからリアルへの転送の課題に取り組むことで、モデルベース強化学習を前進させます。スケーラブルでロバストフレームワークを提供することで、提案された手法は実世界の応用における適応的かつ効率的なロボットシステムの道を開きます。

2025-01-17T10:39:09


landmarker: a Toolkit for Anatomical Landmark Localization in 2D/3D Images

http://arxiv.org/abs/2501.10098v1

Jef Jonkers, Luc Duchateau, Glenn Van Wallendael, Sofie Van Hoecke

Ghent University, imec

2D/3D画像における解剖学的ランドマークの位置特定は、医療画像処理において重要な作業です。ポーズ推定などの従来のコンピュータビジョンタスクにおけるランドマーク位置特定のための一般的なツールは多数存在しますが、医療分野における解剖学的ランドマーク位置特定アプリケーションに必要な専門的な機能やモジュール性が不足しています。そこで、私たちはPyTorchに基づいて構築されたPythonパッケージ「landmarker」を紹介します。このパッケージは、ランドマーク位置特定アルゴリズムを開発および評価するための包括的で柔軟なツールキットを提供し、静的および適応型ヒートマップ回帰を含むさまざまな方法論をサポートします。landmarkerはランドマーク識別の精度を向上させ、研究開発プロセスを効率化し、さまざまな画像形式や前処理パイプラインをサポートします。モジュラー設計により、ユーザーは特定のデータセットやアプリケーションに合わせてツールキットをカスタマイズおよび拡張でき、医療画像における革新を加速します。landmarkerは、既存の一般的なポーズ推定ツールでは十分に満たされていない、ランドマーク位置特定作業における精度とカスタマイズの重要なニーズに対応しています。

2025-01-17T10:35:58


How Do Programming Students Use Generative AI?

http://arxiv.org/abs/2501.10091v1

Christian Rahe, Walid Maalej

Universität Hamburg

プログラミングの学生は、ChatGPTのような強力な生成AIツールに広範にアクセスできるようになっています。これは学習資料の理解や演習の補助に役立つ一方で、教育者たちは生成された出力への過度の依存や批判的思考スキルの欠如について懸念を強めています。したがって、学生が実際に生成AIをどのように使用しているのか、またそれが彼らの学習行動にどのような影響を与える可能性があるのかを理解することが重要です。これを目的に、37名のプログラミング学生を対象にした探索的実験を含む研究を実施し、コードの理解と改善に関する演習を行う際に、ChatGPTへの監視付きアクセスを提供しました。実際にチャットボットを使用した学生は23名に留まりましたが、その大多数は最終的に単に完全な解決策を生成するように促しました。私たちは2つの一般的な使用戦略を観察しました:一般的な概念についての知識を求めることと、直接解決策を生成することです。学生たちは、コードや自分の間違いを理解するためにボットを使用する代わりに、しばしば生成された間違ったコードを提出してその修正をボットに求めるという悪循環に陥っていました。定期的に生成AIを使用すると自己報告した学生は、ボットに解決策を生成するよう促す可能性が高かったです。私たちの発見は、生成AIによるプログラマーの主体性や生産性が潜在的に低下することへの懸念が正当であることを示しています。研究者や教育者が、学生が批判的に生成AIに過度に依存する潜在的なリスクにどのように対応できるかを議論します。また、大規模な再現のために私たちの研究デザインの潜在的な修正についても議論します。

2025-01-17T10:25:41


Robust Change Captioning in Remote Sensing: SECOND-CC Dataset and MModalCC Framework

http://arxiv.org/abs/2501.10075v1

Ali Can Karaca, M. Enes Ozelbas, Saadettin Berber, Orkhan Karimli, Turabi Yildirim, M. Fatih Amasyali

Yildiz Technical University, TUBITAK

リモートセンシング変化キャプショニング(RSICC)は、バイテンポラル画像間の変化を自然言語で説明することを目的としています。既存の手法は、照明の違いや視点の変化、ブレの影響などの課題の下でしばしば失敗し、特に無変化の領域において不正確さを引き起こします。さらに、異なる空間分解能で取得された画像や登録誤差もキャプションに影響を与える傾向があります。これらの問題に対処するために、我々はSECOND-CCという新しいRSICCデータセットを導入します。このデータセットは、高解像度のRGB画像ペア、セマンティックセグメンテーションマップ、および多様な実世界のシナリオを特徴としています。SECOND-CCは6,041ペアのバイテンポラルRS画像と、画像間の違いを説明する30,205の文を含んでいます。さらに、我々はMModalCCを提案します。これは、クロスモーダルクロスアテンション(CMCA)やマルチモーダルゲーテッドクロスアテンション(MGCA)などの高度なアテンションメカニズムを使用して、セマンティックデータと視覚データを統合するマルチモーダルフレームワークです。詳細なアブレーションスタディとアテンションの可視化により、その有効性とRSICCの課題に対処する能力がさらに示されました。包括的な実験により、MModalCCはRSICCformer、Chg2Cap、PSNetを含む最先端のRSICC手法を上回り、BLEU4スコアで+4.6%、CIDErスコアで+9.6%の改善を達成しました。今後の研究を促進するために、我々のデータセットとコードベースを公開する予定です。詳細はhttps://github.com/ChangeCapsInRS/SecondCCをご覧ください。

2025-01-17T09:47:27


SpatialCoT: Advancing Spatial Reasoning through Coordinate Alignment and Chain-of-Thought for Embodied Task Planning

http://arxiv.org/abs/2501.10074v1

Yuecheng Liu, Dafeng Chi, Shiguang Wu, Zhanguang Zhang, Yaochen Hu, Lingfeng Zhang, Yingxue Zhang, Shuang Wu, Tongtong Cao, Guowei Huang, Guangjian Tian, Xingyue Quan, Jianye Hao, Yuzheng Zhuang

空間推論は、具現化されたAI研究において重要な問題です。補足的な空間データと微調整を通じて空間推論能力を向上させる努力は、言語ベースの出力に依存しているため、複雑な具現化タスクに取り組む際には限界があることが証明されています。一部のアプローチはこの問題を軽減するためにポイントベースのアクションスペースを導入しましたが、複雑な環境内でのより複雑なタスクを管理するには不十分です。この欠陥は、視覚と言語モデル(VLM)の根本的な強みである固有の思考と推論能力を十分に活用できていないことから生じています。これらの限界に対処するために、私たちはSpatialCoTと呼ばれる新しいアプローチを提案します。このアプローチは、VLMの空間推論能力を強化するように特別に設計されています。私たちのアプローチは二つのステージで構成されています。第一に、視覚と言語の入力を空間座標と双方向に整列させる空間座標の双方向アライメント、第二に、言語モデルの推論能力を活用して高度な空間推論を行う連鎖的思考の空間基盤です。私たちは、シミュレーションと実世界の設定の両方で挑戦的なナビゲーションおよび操作タスクにおいてSpatialCoTを評価しました。実験結果は、私たちの手法が両方のタスクで以前の最先端アプローチを大幅に上回ることを示しています。

2025-01-17T09:46:27


A Survey on LLM Test-Time Compute via Search: Tasks, LLM Profiling, Search Algorithms, and Relevant Frameworks

http://arxiv.org/abs/2501.10069v1

Xinzhe Li

LLMのテスト時計算(またはLLM推論)は、急速な進展を遂げている有望な研究分野として浮上しています。しかし、現在のフレームワークは、タスク定義、LLMプロファイリング、検索手続きという三つの重要な側面に対して異なる視点を採用することが多く、直接的な比較が難しい状況です。さらに、採用される検索アルゴリズムは標準的な実装から乖離していることが多く、それらの特定の特性も十分に明示されていません。本調査では、タスク定義を統一し、LLMプロファイリングと検索手続きのモジュラー定義を提供する包括的な技術レビューを提供します。これにより、さまざまなLLM推論フレームワークの正確な比較が可能になり、一般的な検索アルゴリズムからの逸脱が強調されます。また、これらの手法の適用性、性能、効率についても議論します。詳細や最新情報については、私たちのGitHubリポジトリをご参照ください:https://github.com/xinzhel/LLM-Agent-Survey/blob/main/search.md

2025-01-17T09:42:48


Accelerating Large Language Models through Partially Linear Feed-Forward Network

http://arxiv.org/abs/2501.10054v1

Gansen Hu, Zhaoguo Wang, Jinglin Wei, Wei Huang, Haibo Chen

Shanghai Jiao Tong University

大規模言語モデル(LLM)は素晴らしい能力を示しますが、その膨大なパラメータ数によるデプロイメントの課題に直面しています。既存の圧縮技術(剪定など)はモデルサイズを削減できますが、高圧縮比の下で大幅な精度低下を引き起こすことになります。私たちは、コンパイラ最適化における定数折り畳みからインスパイアを受けた新しい視点を提示します。私たちのアプローチは、LLMの活性化関数を線形関数として扱うことによってパラメータ削減を可能にします。しかし、最近のLLMはGELUのような複雑な非線形活性化関数を使用しており、この技術の直接的な適用を妨げています。そこで、私たちはTARDISを提案します。TARDISは、よく発生する入力範囲で線形関数に部分的に近似することによって非線形活性化を持つLLMの最適化を可能にします。外れ値の入力に対して、TARDISはオンライン予測器を使用して動的に元の計算に戻ります。私たちの実験は、TARDISがフィードフォワードネットワークにおいて80%のパラメータ削減を達成し、最先端の剪定手法であるWandaやRIAと比べて最大65%高い精度で著しく優れた性能を発揮することを示しています。7Bモデルの実際のデプロイメントでは、TARDISはvLLMサービングシステムと統合することで1.6倍のエンドツーエンド推論スピードアップを達成し、広く採用されているHuggingFace実装で1.4倍のスピードアップを実現し、わずか10.9%の精度低下を伴います。

2025-01-17T09:20:56


http://arxiv.org/abs/2501.10053v1

Wenfeng Feng, Chuzhan Hao, Yuewei Zhang, Jingyi Song, Hao Wang

Alibaba Cloud, Alibaba Group

大規模言語モデル(LLM)の自律的意思決定能力を活用することで、推論タスクにおいて優れたパフォーマンスを示します。反復的または再帰的な検索拡張生成(RAG)の成功にもかかわらず、それらは複雑なタスクに直面すると、しばしば単一の解決空間に閉じ込められます。本論文では、システム分析と効率的な推論行動を統合した新しい思考パターンをRAGに提案し、モンテカルロ木探索(MCTS)を通じて内在的な推論能力を活性化させ、特定のタスクの解決空間を拡張するAirRAGという手法を実現します。具体的には、私たちのアプローチはMCTSを使用して広範な木構造の推論空間に拡張される5つの基本的な推論行動を設計します。この拡張では、自己整合性検証を用いて潜在的な推論経路を探索し、推論スケーリングを実施します。また、計算最適な戦略を用いて重要な行動に対してより多くの推論計算を適用し、更なるパフォーマンスの向上を図ります。実験結果は、複雑なQAデータセットに対するAirRAGの効果を示し、著しいパフォーマンス向上を達成しています。さらに、AirRAGは柔軟で軽量であり、他の高度な技術との統合が容易です。

2025-01-17T09:16:13


Virtual Nodes Improve Long-term Traffic Prediction

http://arxiv.org/abs/2501.10048v1

Xiaoyang Cao, Dingyi Zhuang, Jinhua Zhao, Shenhao Wang

Tsinghua University, Massachusetts Institute of Technology, University of Florida

効果的な交通予測は、知能交通システムの基盤であり、交通の流れ、速度、混雑の正確な予測を可能にします。従来の時空間グラフニューラルネットワーク(ST-GNN)は短期交通予測において顕著な成功を収めてきましたが、長期予測におけるパフォーマンスは依然として制限されています。この課題は、ボトルネックと限られた受容野によって情報の流れが制約され、グローバルな依存関係のモデル化を妨げる「過剰圧縮問題」から生じます。これらの課題に対処するため、本研究では、仮想ノードを組み込んだ新しいフレームワークを提案します。仮想ノードは、既存のノードに接続された追加のノードであり、単一のGNN層内で全体のグラフにわたって情報を集約するために使用されます。提案されたモデルは、距離に基づく隣接行列と適応型隣接行列を統合した半適応型隣接行列を構築することで仮想ノードを取り入れています。この行列は地理情報を活用しながら、データからタスク固有の特徴を学習することを可能にします。実験結果は、仮想ノードの導入が長期予測精度を大幅に向上させる一方で、過剰圧縮問題を緩和するために層ごとの感度も改善することを示しています。また、仮想ノードは、道路ネットワークのヒートマップ上で隣接行列の重みを視覚化することによって、主な交差点や交通量の多いエリアに焦点を当てることで、説明可能性も向上させます。私たちの先進的なアプローチは、都市交通システムの理解と管理を向上させ、実世界の応用に特に適しています。

2025-01-17T09:09:01


Spatiotemporal Prediction of Secondary Crashes by Rebalancing Dynamic and Static Data with Generative Adversarial Networks

http://arxiv.org/abs/2501.10041v1

Junlan Chen, Yiqun Li, Chenyu Ling, Ziyuan Pu, Xiucheng Guo

データの不均衡は、突然の交通事象を分析し予測する際に一般的な問題です。二次衝突は、すべての衝突の中でごくわずかな割合を占めていますが、一次衝突によって引き起こされるこれらの二次衝突は、交通渋滞を著しく悪化させ、事件の重大度を高めます。しかし、二次衝突データの深刻な不均衡は、予測モデルに大きな課題をもたらし、一般化能力や予測精度に影響を及ぼします。既存の手法は、特に動的特徴と静的特徴の共存の複雑性を十分に扱うことができず、異なる長さのデータサンプルを効果的に処理するのに苦労しています。さらに、現在のほとんどの研究は、二次衝突の発生確率と時空間分布を別々に予測しており、統合的な解決策が欠けています。これらの課題に対処するために、本研究ではVarFusiGAN-Transformerというハイブリッドモデルを提案し、二次衝突データ生成の精度を向上させ、二次衝突の発生と時空間分布を共同で予測することを目指しています。VarFusiGAN-Transformerモデルは、長期短期記憶(LSTM)ネットワークを使用して、多変量の長期時系列データの生成を強化し、動的特徴と静的特徴の結合分布をモデル化するために静的データ生成器と補助的識別器を組み込んでいます。さらに、モデルの予測モジュールは、二次衝突の発生と時空間分布の同時予測を達成します。既存の手法と比較して、提案されたモデルは高忠実度のデータ生成と予測精度の向上において優れたパフォーマンスを示します。

2025-01-17T08:56:49


Automatic Speech Recognition for Sanskrit with Transfer Learning

http://arxiv.org/abs/2501.10024v1

Bidit Sadhukhan, Swami Punyeshwarananda

サンスクリット語は人類最古の言語の一つであり、何千年にもわたり多様なトピックに関する書籍や原稿が蓄積されています。しかし、AIシステムの訓練に不可欠なデジタルコンテンツ(音声やテキスト)は非常に限られています。さらに、その複雑な言語学的特徴のため、広範な利用が可能な自然言語処理ツールの開発が困難です。これらの制約を考慮し、私たちはOpenAIのWhisperモデルを用いてサンスクリット語の自動音声認識モデルを開発しました。ハイパーパラメータを慎重に最適化した結果、転移学習したモデルはVaksancayahデータセットで15.42%の単語誤り率を達成し、有望な結果を得ることができました。私たちのモデルのオンラインデモを公開し、一般の人々が使用できるようにし、その性能を直接評価できるようにすることで、現代におけるサンスクリット学習のアクセスの向上と技術的支援の道を開くことを目指しています。

2025-01-17T08:20:32


Enhancing Crash Frequency Modeling Based on Augmented Multi-Type Data by Hybrid VAE-Diffusion-Based Generative Neural Networks

http://arxiv.org/abs/2501.10017v1

Junlan Chen, Qijie He, Pei Liu, Wei Ma, Ziyuan Pu

事故頻度モデリングは、交通量、道路形状、環境条件などの要因が事故発生に与える影響を分析します。不正確な予測は、これらの要因に対する理解を歪め、誤った政策や資源の浪費を招き、交通安全を脅かす可能性があります。事故頻度モデリングにおける重要な課題の一つは、過少報告、事故の低確率、高データ収集コストによって引き起こされる過剰なゼロ観測の存在です。これらのゼロ観測はしばしばモデルの精度を低下させ、バイアスを導入し、安全に関する意思決定を複雑にします。既存のアプローチは、統計的手法、データ集約、およびリサンプリングなどがありますが、これらは制限のある仮定に依存しているか、あるいは重大な情報損失をもたらし、事故データを歪めています。これらの制限を克服するために、我々はゼロ観測を減少させ、多様なタイプの表形式事故データ(カウント、順序、名義、実数変数)を処理するために設計されたハイブリッドVAE-拡散ニューラルネットワークを提案します。このモデルによって生成される合成データの質は、類似性、精度、多様性、および構造的一貫性などの指標を通じて評価し、その予測性能を従来の統計モデルと比較します。私たちの発見は、ハイブリッドVAE-拡散モデルが全ての指標でベースラインモデルを上回り、事故データを増強し、事故頻度予測の精度を改善するためのより効果的なアプローチを提供することを示しています。この研究は、合成データが事故頻度モデリングを改善し、より良い政策決定を促進することで交通安全を向上させる可能性を強調しています。

2025-01-17T07:53:27


Mitigating Hallucinations on Object Attributes using Multiview Images and Negative Instructions

http://arxiv.org/abs/2501.10011v1

Zhijie Tan, Yuzhi Li, Shengwei Meng, Xiang Yuan, Weiping Li, Tong Mo, Bingce Wang, Xu Chu

現在人気のある大規模ビジョン-言語モデル(LVLM)は、物体属性に関する幻覚(HoOA)に悩まされており、入力画像の細かな属性を正しく判断できないという問題があります。本論文では、単一画像からの3D生成の重要な進展を活用し、LVLMにおけるHoOAを軽減する新しい方法を提案します。この方法では、生成された3D表現からサンプリングされたマルチビュー画像を視覚的プロンプトとしてLVLMに供給し、他の視点からのより多くの視覚情報を提供します。さらに、複数のマルチビュー画像の入力順序がLVLMのパフォーマンスに大きな影響を与えることを確認しました。その結果、私たちは入力画像の順序の影響を同時に排除し、マルチビュー画像の視覚情報を大規模言語モデル(LLM)と整合させることができるマルチビュー属性認識器(MAP)サブモジュールを組み込んだマルチビュー画像増強VLM(MIAVLM)を考案しました。さらに、LVLMの「はい」への偏りを軽減するために、ネガティブインストラクションを設計して適用しました。包括的な実験により、私たちの方法の有効性が実証されました。

2025-01-17T07:48:37


Adaptive Spatiotemporal Augmentation for Improving Dynamic Graph Learning

http://arxiv.org/abs/2501.10010v1

Xu Chu, Hanlin Xue, Bingce Wang, Xiaoyang Liu, Weiping Li, Tong Mo, Tuoyu Feng, Zhijie Tan

Peking University, University of Science and Technology of China

動的グラフ拡張は、動的GNNの性能を向上させるために使用されます。ほとんどの手法は時間的局所性を仮定しており、つまり最近のエッジが以前のエッジよりも影響力が大きいとされています。しかし、ランダムノイズによって引き起こされるエッジの時間的変化に対して、最近のエッジを過度に強調し、以前のエッジを無視することは、モデルがノイズを捉える原因になる可能性があります。この問題に対処するために、私たちはSTAA(時空間活動を考慮したランダムウォーク拡散)を提案します。STAAは、時空間次元においてノイズのあるエッジを持つ可能性のあるノードを特定します。空間的には、グラフウェーブレット係数を通じて重要なトポロジカルポジションを分析します。時間的には、グラフウェーブレット係数の変化率を通じてエッジの進化を分析します。その後、ランダムウォークを使用してノイズのあるエッジの重みを低下させ、動的GNN学習のための拡張隣接行列として時空間情報を含む拡散行列を導出します。複数のデータセットでの実験結果は、STAAがノード分類やリンク予測タスクにおいて他の動的グラフ拡張手法を上回ることを示しています。

2025-01-17T07:48:18


Deep Learning for Early Alzheimer Disease Detection with MRI Scans

http://arxiv.org/abs/2501.09999v1

Mohammad Rafsan, Tamer Oraby, Upal Roy, Sanjeev Kumar, Hansapani Rodrigo

アルツハイマー病は、認知症と神経機能の障害を特徴とする神経変性疾患です。この研究は主に40歳以上の個人に焦点を当てており、彼らの記憶、行動、および脳の認知プロセスに影響を与えます。アルツハイマー病の診断には、MRIスキャンと患者の神経心理テストの詳細な評価が求められます。本プロジェクトでは、アルツハイマー病診断の精度と効率を向上させるために、既存の深層学習モデルを比較します。特に、畳み込みニューラルネットワークベイズ畳み込みニューラルネットワーク、およびU-netモデルを、オープンアクセスシリーズの画像研究による脳MRIデータセットを使用して検討します。また、モデル評価における堅牢性と信頼性を確保するために、データの不均衡という課題にも取り組みます。その後、感度、特異度、および計算効率を考慮して、各モデルの強みと弱みを明らかにするために厳密な評価を行います。この比較分析は、アルツハイマー病の診断におけるAIの将来的な役割を明らかにするだけでなく、医療画像技術と神経変性疾患の管理における将来の革新への道を開くものです。

2025-01-17T07:30:16


Attention-guided Self-reflection for Zero-shot Hallucination Detection in Large Language Models

http://arxiv.org/abs/2501.09997v1

Qiang Liu, Xinlong Chen, Yue Ding, Shizhen Xu, Shu Wu, Liang Wang

Chinese Academy of Sciences, RealAI

幻覚は、大規模言語モデル(LLM)の効果的な適用に対する重要な障害として浮上しています。本研究では、LLMにおけるゼロショット幻覚検出のための新しい注意誘導自己反射(AGSER)アプローチを紹介します。AGSERメソッドは、注意の寄与を利用して入力クエリを注意深いクエリと注意が行われないクエリに分類します。各クエリは、その後、LLMを介して個別に処理され、生成された応答と元の回答との間の一貫性スコアを計算できるようになります。この2つの一貫性スコアの違いが、幻覚の推定値として機能します。幻覚検出の効果に加えて、AGSERは計算の複雑さを著しく削減し、LLMを3回通過させ、2セットのトークンを使用するだけで済みます。私たちは、3つの異なる幻覚ベンチマークにわたって、4つの広く使用されているLLMに対して広範な実験を行い、私たちのアプローチがゼロショット幻覚検出において既存の手法を大幅に上回ることを実証しました。

2025-01-17T07:30:01


Fast energy-aware OLSR routing in VANETs by means of a parallel evolutionary algorithm

http://arxiv.org/abs/2501.09996v1

Jamal Toutouh, Sergio Nesmachnow, Enrique Alba

この作業は、車両ネットワークにおけるOLSRルーティングプロトコルの消費電力を削減する問題に取り組んでいます。現在、エネルギーを意識したグリーンコミュニケーションプロトコルは、特に無線モバイルネットワークを展開する際に重要な研究テーマとなっています。本記事では、並列進化アルゴリズムを使用してエネルギー効率の良いOLSR構成を自動的に探し出すための高速な方法論を紹介します。実験分析においては、標準構成に対して消費電力に関して大幅な改善が達成され、QoSにおいても顕著な損失がないことが示されています。

2025-01-17T07:26:28


Multi-Modal Attention Networks for Enhanced Segmentation and Depth Estimation of Subsurface Defects in Pulse Thermography

http://arxiv.org/abs/2501.09994v1

Mohammed Salah, Naoufel Werghi, Davor Svetinovic, Yusra Abdulrahman

Khalifa University of Science and Technology

AI駆動のパルスサーモグラフィー(PT)は、非破壊検査(NDT)において重要なツールとなり、さまざまな産業部品の隠れた異常を自動的に検出できるようになりました。現在の最先端技術は、主成分分析(PCA)またはサーモグラフィー信号再構成(TSR)を使用して圧縮されたPTシーケンスを入力とするセグメンテーションおよび深度推定ネットワークを利用しています。しかし、これら2つのモダリティを独立して扱うことは、PT検査モデルの性能を制約することになります。これらの表現は相補的な意味的特徴を持っているためです。この制限に対処するために、PT-Fusionを提案します。これは、PCAとTSRの両方のモダリティを融合させて、PT設定での地下欠陥のセグメンテーションと深度推定を行うマルチモーダル注意ベースの融合ネットワークです。PT-Fusionは、新しい特徴融合モジュールであるエンコーダー注意融合ゲート(EAFG)と注意強化デコーディングブロック(AEDB)を導入し、PCAとTSRの特徴を融合して地下欠陥のセグメンテーションと深度推定を強化します。さらに、PTデータセットの不足を緩和するために、サーモグラフィーシーケンスからのランダムデータサンプリングに基づく新しいデータ拡張技術を提案します。提案された方法は、Universit'e Laval IRT-PVCデータセット上で、U-Net、注意U-Net、3D-CNNを含む最先端PT検査モデルと比較されています。結果は、PT-Fusionが欠陥セグメンテーションおよび深度推定の精度において、前述のモデルよりも10%のマージンで優れていることを示しています。

2025-01-17T07:24:58


RichSpace: Enriching Text-to-Video Prompt Space via Text Embedding Interpolation

http://arxiv.org/abs/2501.09982v1

Yuefan Cao, Chengyue Gong, Xiaoyu Li, Yingyu Liang, Zhizhou Sha, Zhenmei Shi, Zhao Song

Zhejiang University, The University of Texas at Austin, The University of Hong Kong, University of Wisconsin-Madison, Tsinghua University, Simons Institute for the Theory of Computing, University of California, Berkeley

テキストから動画を生成するモデルは印象的な進展を遂げましたが、まだ複雑な特徴を持つ動画の生成に苦労しています。この制限はしばしば、テキストエンコーダーが正確な埋め込みを生成できないことから生じており、これが動画生成モデルを妨げています。本研究では、埋め込み空間における補間を通じて最適なテキスト埋め込みを選択する新しいアプローチを提案し、この課題を克服することを目指します。この方法が動画生成モデルに希望される動画を生成させることができることを実証します。さらに、直交フット埋め込みとコサイン類似度を使用して最適な補間埋め込みを特定するシンプルなアルゴリズムを紹介します。我々の発見は、正確なテキスト埋め込みの重要性を強調し、テキストから動画生成性能を向上させるための道筋を提供します。

2025-01-17T06:46:10


Aneumo: A Large-Scale Comprehensive Synthetic Dataset of Aneurysm Hemodynamics

http://arxiv.org/abs/2501.09980v1

Xigui Li, Yuanye Zhou, Feiyang Xiao, Xin Guo, Yichi Zhang, Chen Jiang, Jianchao Ge, Xiansheng Wang, Qimeng Wang, Taiwei Zhang, Chensen Lin, Yuan Cheng, Yuan Qi

脳内動脈瘤(IA)は一般的な脳血管疾患であり、通常無症状ですが、破裂すると重度のくも膜下出血(SAH)を引き起こす可能性があります。臨床の実践は通常、個々の要因や動脈瘤の形態的特徴に基づいて行われますが、その病理生理学および血行動態メカニズムには依然として議論があります。現在の研究の限界に対処するために、本研究は脳内動脈瘤の包括的な血行動態データセットを構築しました。このデータセットは466の実際の動脈瘤モデルに基づいており、切除および変形操作によって生成された10,000の合成モデルを含んでいます。これには466の動脈瘤のないモデルと9,534の変形した動脈瘤モデルが含まれています。データセットには、洞察に富んだ分析を支援するための医療画像のようなセグメンテーションマスクファイルも提供されています。さらに、このデータセットには、流量速度、圧力、壁せん断応力などの重要なパラメーターを含む、8つの定常状態流量(0.001から0.004 kg/s)で測定された血行動態データが含まれており、動脈瘤の病因研究や臨床予測の貴重なリソースを提供します。このデータセットは、脳内動脈瘤の病理的特徴および血行動態メカニズムの理解を進め、関連分野での深層研究を支援するのに役立ちます。データセットhttps://github.com/Xigui-Li/Aneumoでホストされています。

2025-01-17T06:43:03


GVMGen: A General Video-to-Music Generation Model with Hierarchical Attentions

http://arxiv.org/abs/2501.09972v1

Heda Zuo, Weitao You, Junxian Wu, Shihong Ren, Pei Chen, Mingxu Zhou, Yujia Lu, Lingyun Sun

ビデオのための音楽作曲は重要でありながらも難しいため、ビデオアプリケーション向けの音楽生成を自動化することへの関心が高まっています。既存のアプローチは、主に不十分な特徴アライメント手法や不足するデータセットのために、堅牢な音楽とビデオの対応や生成の多様性を達成することに苦労しています。本研究では、ビデオ入力に対して高い関連性を持つ音楽を生成するために設計された一般的なビデオから音楽への生成モデル(GVMGen)を提案します。私たちのモデルは、階層的アテンションを用いて、空間的および時間的次元の両方でビデオの特徴を抽出および整合することにより、関連する特徴を保持しつつ冗長性を最小限に抑えます。驚くべきことに、私たちの手法は多様であり、ゼロショットシナリオでも異なるビデオ入力からマルチスタイルの音楽を生成することが可能です。また、ビデオと音楽の整合性を評価するための新しい客観的な評価モデルと2つの新しい指標を提案します。さらに、多様なタイプのビデオと音楽のペアで構成された大規模データセットを編纂しました。実験結果は、GVMGenが音楽とビデオの対応、生成の多様性、適用性の普遍性の点で以前のモデルを上回ることを示しています。

2025-01-17T06:30:11


Explainable artificial intelligence (XAI): from inherent explainability to large language models

http://arxiv.org/abs/2501.09967v1

Fuseini Mumuni, Alhassan Mumuni

University of Mines and Technology (UMaT), Cape Coast Technical University

人工知能(AI)は最近、驚異的な成功を収め続けています。しかし、これらのフレームワークの意思決定ロジックはしばしば不透明であるため、利害関係者がその動作を理解、解釈、説明することが難しいです。この制限は機械学習システムへの信頼を妨げ、特にヘルスケアや自動運転のようなミッションクリティカルな分野における実用的な応用への一般的な躊躇を引き起こします。説明可能なAI(XAI)技術は、機械学習モデルの説明性や解釈性を促進し、ユーザーが意思決定の根拠を識別し、望ましくない行動を回避する可能性を高めます。この包括的な調査では、本質的に解釈可能なモデルから、さまざまなブラックボックスモデル、特に大規模言語モデル(LLMs)の解釈性を達成するための現代的なアプローチまで、説明可能なAI手法の進展を詳述します。さらに、LLMおよび視覚-言語モデル(VLM)フレームワークを活用して、他の機械学習モデルの説明性を自動化または改善する説明可能なAI技術をレビューします。LLMおよびVLMを解釈性手法として使用することにより、モデルの意思決定や行動についての高レベルで意味的に重要な説明が可能となります。本文中では、最先端の手法の科学的原則、長所と短所を強調し、さまざまな改善の分野を概説します。適切な場合には、さまざまな手法の比較結果を質的および量的に示し、それらの比較を行います。最後に、XAIの主要な課題と今後の研究の方向性について論じます。

2025-01-17T06:16:57


AIRCHITECT v2: Learning the Hardware Accelerator Design Space through Unified Representations

http://arxiv.org/abs/2501.09954v1

Jamin Seo, Akshat Ramachandran, Yu-Chuan Chuang, Anirudh Itagi, Tushar Krishna

Georgia Institute of Technology, National Taiwan University

デザインスペース探索(DSE)は、特にAIのような新興アプリケーション向けにカスタムハードウェアアーキテクチャを可能にする上で重要な役割を果たしています。ここでは、最適化された専用設計が不可欠です。深層ニューラルネットワーク(DNN)の複雑さが増すにつれて、高度な基盤モデル(FM)の導入が進む中で、DNNアクセラレーターのためのデザインスペースは指数関数的に拡大しています。さらに、このスペースは非常に非一様で非凸であるため、ナビゲートして最適化することがますます難しくなっています。従来のDSE技術は、最適なソリューションを見つけるためにデザインスペースを反復的にサンプリングする検索ベースの手法に依存しています。しかし、このプロセスは時間がかかり、このようなデザインスペースのグローバル最適値に収束しないことがしばしばあります。最近、AIrchitect v1は検索ベースの手法の限界に対処するための初めての試みとして、DSEを推薦ネットワークを使用して定数時間の分類問題に変換しました。本研究では、AIrchitect v2を提案します。これは以前のアプローチの欠点を克服し、大規模なデザインスペースに適用可能なより正確で一般化可能な学習ベースのDSE技術です。具体的には、私たちは、(a) コントラスト学習を使用して複雑なデザインスペースを均一な中間表現にエンコードし、(b) 分類と回帰の利点を融合した新しい統一表現を活用して、大規模なDSEスペースを効果的に探索するエンコーダ-デコーダトランスフォーマーモデルを考案しました。105の実際のDNNワークロードで評価した実験結果は、平均してAIrchitect v2が最適な設計ポイントの特定において既存の技術より15%優れていることを示しています。さらに、我々の方法の一般化可能性を示すために、見たことのないモデルワークロード(LLM)に対する性能を評価し、特定したハードウェアアーキテクチャにおいて推論レイテンシーで1.7倍の改善を達成しました。

2025-01-17T04:57:42


MultiPruner: Balanced Structure Removal in Foundation Models

http://arxiv.org/abs/2501.09949v1

  1. Pablo Muñoz, Jinjie Yuan, Nilesh Jain

Intel Labs, Intel Corporation

最近、最新の大規模事前学習モデル(LPM)のプルーニングに関するアプローチは、トランスフォーマーにおける非重要な残差ブロックのトレーニングなしの削除がモデルサイズの削減に有効であり、従来のトレーニングフリーのプルーニングアプローチを上回る結果を達成したことを示しました。これらの結果に触発され、私たちはBlockPruner(Zhong et al., 2024)を拡張し、マルチディメンショナルな反復的で詳細なプルーニング戦略を採用したMultiPrunerというプルーニングアプローチを提案します。MultiPrunerでは、多次元プルーニングにより、残差ブロック、マルチレイヤーパーセプトロンMLP)のチャネル、注意ヘッドの3つの次元に沿って順次圧縮することで、ブロックプルーニングされたモデルの構造的バランスを回復します。この解決策は、他の技術と比較して下流タスクにおけるゼロショット精度を向上させながら、モデル圧縮率を改善し、計算およびメモリ要件を削減した圧縮モデルを生成します。広範な実験により、提案された方法の利点がさまざまな大規模事前学習モデルにわたって示されています。コードとプルーニング設定は、https://github.com/IntelLabs/Hardware-Aware-Automated-Machine-Learning で利用可能です。

2025-01-17T04:24:31


AI Explainability for Power Electronics: From a Lipschitz Continuity Perspective

http://arxiv.org/abs/2501.09948v1

Xinze Li, Fanfan Lin, Homer Alan Mantooth, Juan José Rodríguez-Andina

パワーコンバータのライフサイクル管理は、新たに出現する人工知能(AI)ソリューションと共に繁栄を続けていますが、AIの数学的説明可能性はパワーエレクトロニクス(PE)コミュニティでは未探索のままです。理論的厳密性の欠如は、ミッションクリティカルなアプリケーションでの採用に対する課題となっています。したがって、本書では数学的説明可能性を評価するための汎用フレームワークを提案し、リプシッツ連続性の観点から推論の安定性と学習収束を強調しています。推論の安定性は入力の摂動に対して一貫した出力を保証し、ロバストなリアルタイム制御や故障診断には不可欠です。学習収束は安定した学習動態を保証し、PEコンテキストにおける正確なモデリングを促進します。さらに、学習率選択の戦略を導入し、収束を促進しつつオーバーシュートや振動を軽減します。提案されたリプシッツ指向のフレームワークの実現可能性は、最先端の物理学に基づくアーキテクチャニューラルネットワークの数学的説明可能性を検証することによって示され、二重アクティブブリッジコンバータに関する実証的ケーススタディを通じて裏付けられています。本書は、PEコミュニティに数学的説明可能性を受け入れるよう呼びかけており、信頼できる説明可能なAIソリューションの変革の時代を heralding(予告)し、パワーエレクトロニクスの未来を再定義する可能性を秘めています。

2025-01-17T04:20:43


Client-Centric Federated Adaptive Optimization

http://arxiv.org/abs/2501.09946v1

Jianhui Sun, Xidong Wu, Heng Huang, Aidong Zhang

University of Virginia, University of Pittsburgh, University of Maryland

連合学習(FL)は、クライアントが自分のデータをプライベートに保ちながら協力してモデルをトレーニングする分散学習のパラダイムです。クライアントやモデルの規模が増大するにつれて、FLは2つの重要な課題に直面します。1つは、統計的/システムの異質性が高いためのクライアントドリフト、もう1つは適応性の不足です。しかし、ほとんどの既存のFL研究は、実際にシステムの異質性を無視した非現実的な仮定に基づいています。本論文では、クライアント中心の連合適応最適化を提案します。これは、新しい連合適応最適化手法のクラスです。このフレームワークでは、任意のクライアント参加、非同期サーバー集約、異種ローカル計算など、現実のFLシステムに普遍的に存在するが、ほとんどの既存の研究では見過ごされているいくつかの機能を可能にします。一般的な非凸目的に対して提案したフレームワークの厳密な収束解析を提供し、最良の収束率を示します。広範な実験により、我々のアプローチはベンチマーク全体で基準を大幅に上回ることが一貫して確認されました。

2025-01-17T04:00:50


HEART: Achieving Timely Multi-Model Training for Vehicle-Edge-Cloud-Integrated Hierarchical Federated Learning

http://arxiv.org/abs/2501.09934v1

Xiaohong Yang, Minghui Liwang, Xianbin Wang, Zhipeng Cheng, Seyyedali Hosseinalipour, Huaiyu Dai, Zhenzhen Jiao

Xiamen University, Tongji University, Western University, Soochow University, University at Buffalo-SUNY, NC State University, Beijing Teleinfo Technology Company, Ltd.

AIを活用したインターネット・オブ・ビークル(IoV)の急速な成長は、高い車両の移動性と分散データを処理できる効率的な機械学習(ML)ソリューションの必要性を呼び起こしています。このことは、車両・エッジ・クラウドアーキテクチャにおける階層型フェデレーテッドラーニング(VEC-HFL)の出現を促しました。しかし、VEC-HFLに関する文献であまり探求されていない一つの側面は、車両が同時に複数のMLタスクを実行する必要がある場合が多いということです。この多モデルのトレーニング環境は重要な課題を導入します。第一に、不適切な集約ルールはモデルの陳腐化やトレーニング時間の延長を引き起こす可能性があります。第二に、車両の移動性は、車両が自らのモデルをネットワークエッジに返すことを妨げるため、データの利用効率を低下させる可能性があります。第三に、さまざまなタスク間でのバランスの取れたリソース配分を達成することは、協調トレーニングの効果に大きく影響するため、極めて重要です。私たちは、さまざまなタスク間でのバランスの取れたトレーニングを保証しながら、グローバルなトレーニング待機時間を最小化することを目指した動的VEC-HFLにおける多モデルトレーニングのフレームワークを提案することにより、これらの課題に取り組むための第一歩を踏み出します。この問題はNP困難であることが分かっています。適時のモデルトレーニングを促進するために、ハイブリッドな同期・非同期集約ルールを導入します。これを基に、ハイブリッド進化的および貪欲割り当て(HEART)と呼ばれる新しい手法を提案します。このフレームワークは二段階で動作します。第一に、改善された粒子群最適化(PSO)と遺伝的アルゴリズム(GA)を組み合わせたハイブリッドヒューリスティックアプローチを通じてバランスのとれたタスクスケジューリングを達成します。第二に、低複雑度の貪欲アルゴリズムを用いて、車両に割り当てられたタスクのトレーニング優先順位を決定します。実世界のデータセットに対する実験では、HEARTが既存の手法に対して優位性を示すことが確認されました。

2025-01-17T03:15:03


Steering Large Language Models with Feature Guided Activation Additions

http://arxiv.org/abs/2501.09929v1

Samuel Soo, Wesley Teng, Chandrasekaran Balaganesh

Raffles Institution

大規模言語モデル(LLM)の挙動に対する効果的かつ信頼性の高い制御は、大きな課題です。モデルの隠れ状態に指導ベクトルを追加するアクティベーションステアリング手法は有望なアプローチですが、既存の技術はモデルの出力に与える影響についての精度や解釈可能性が不足しています。私たちは、コントラストアクティベーション追加(CAA)およびスパースオートエンコーダー-targeted steering(SAE-TS)からの洞察を活用した新しいアクティベーションステアリング手法であるFeature Guided Activation Additions(FGAA)を紹介します。FGAAはスパースオートエンコーダー(SAE)の潜在空間で操作し、最適化技術を用いて望ましいSAE特徴を選択することで、ステアリングベクトルを精密に構築し、指導されたモデル出力の一貫性を維持しながら、より良いステアリング効果を提供します。この点において、Gemma-2-2BおよびGemma-2-9Bモデルを用いた様々なステアリングタスクに対する評価は、FGAAがCAA、SAEデコーダーステアリング、SAE-TSの既存のステアリング手法よりも優れていることを示しています。また、私たちの結果は、すべてのテストされたステアリング手法において一貫して、ステアリングスケールと一般的なモデル能力の間に重要なトレードオフが存在することを強調しています。

2025-01-17T02:55:23


Dialogue Benchmark Generation from Knowledge Graphs with Cost-Effective Retrieval-Augmented LLMs

http://arxiv.org/abs/2501.09928v1

Reham Omar, Omij Mangukiya, Essam Mansour

Concordia University

ダイアログベンチマークは、ドメイン特有の会話に関与するチャットボットの訓練と評価において重要です。知識グラフ(KG)は、DBLP、DBpedia、YAGOなど、さまざまなドメインにわたる意味的に豊かで整理されたデータを表します。従来、ダイアログベンチマークは文書から手動で作成されており、このプロセスの自動化におけるKGの可能性を無視していました。いくつかの質問応答ベンチマークは、KGからの広範な前処理を使用して自動的に生成されていますが、ダイアログ生成をサポートしていません。本論文では、知識グラフを使用して特定のドメインに合わせた高品質のダイアログベンチマークを自動生成するための新しいマルチステージリトリーバー強化生成プラットフォームであるChatty-Genを紹介します。Chatty-Genは生成プロセスを管理可能なステージに分解し、ステージ間で自動的に検証するためのアサーションルールを使用します。このアプローチにより、ホールシネーションによる時間のかかる再起動を防ぐために中間結果を制御することが可能になります。また、高価でより強力な商業のLLMへの依存を減らします。Chatty-Genは、ダイアログのコンテキストに基づいて代表的なサブグラフを見つけるために効果的なクエリベースのリトリーバルを使用して、KG全体の前処理を排除します。いくつかの実際の大規模なKGを用いた実験により、Chatty-Genは最先端のシステムを大幅に上回り、GPT-4o、Gemini 1.5、Llama 3、Mistralなど、さまざまな能力を持つ複数のLLMにわたって一貫したモデルとシステムのパフォーマンスを保証することが示されました。

2025-01-17T02:48:29


IE-Bench: Advancing the Measurement of Text-Driven Image Editing for Human Perception Alignment

http://arxiv.org/abs/2501.09927v1

Shangkun Sun, Bowen Qu, Xiaoyu Liang, Songlin Fan, Wei Gao

Peking University, PengCheng Laboratory

最近のテキスト駆動型画像編集の進展は著しいですが、これらの編集された画像を正確に評価するという課題は依然として大きな挑戦となっています。テキスト駆動型画像生成の評価とは異なり、テキスト駆動型画像編集はテキストとソース画像の両方に対して同時に条件付けされることが特徴です。編集された画像は、しばしば元の画像との内在的な関連性を保持し、テキストの意味に応じて動的に変化します。しかし、従来の手法はテキストと画像の整合性にのみ焦点を当てることが多く、人間の知覚との整合性が取れていませんでした。本研究では、テキスト駆動型編集画像の評価を強化するために、テキスト駆動型画像編集ベンチマークスイート(IE-Bench)を導入します。IE-Benchには、多様なソース画像、さまざまな編集プロンプト、異なる編集方法に各対応する結果を含むデータベースが含まれ、25人の被験者による3,010の平均意見スコア(MOS)を提供します。さらに、テキスト駆動型画像編集のためのマルチモーダルソース対応の品質評価手法であるIE-QAを導入します。私たちの知る限り、IE-Benchはテキスト駆動型画像編集に特化した初のIQAデータセットおよびモデルを提供します。広範な実験により、IE-QAは従来のメトリクスと比較してテキスト駆動型画像編集タスクにおける主観的整合性に優れていることが示されています。関連するすべてのデータとコードを一般公開する予定です。

2025-01-17T02:47:25


ForestProtector: An IoT Architecture Integrating Machine Vision and Deep Reinforcement Learning for Efficient Wildfire Monitoring

http://arxiv.org/abs/2501.09926v1

Kenneth Bonilla-Ormachea, Horacio Cuizaga, Edwin Salcedo, Sebastian Castro, Sergio Fernandez-Testa, Misael Mamani

Universidad Católica Boliviana “San Pablo”

森林火災の早期発見は、環境および社会経済的な被害を最小限に抑えるために重要です。実際、火災の持続時間は、消火の難易度とコストに直接的に関連しています。例えば、1分間燃える火は消火に1リットルの水が必要ですが、2分間の火は100リットル、10分間の火は1,000リットルを必要とするかもしれません。一方で、リモートセンシング、PTZカメラ、UAVなどの新しい技術に基づく既存の火災検知システムは、高価であり、人間の介入が必要なため、大規模な地域の継続的な監視は実用的ではありません。この課題に対処するために、本研究では低コストの森林火災検知システムを提案します。このシステムは、中央ゲートウェイバイスを使用し、360度の視野で長距離の煙を監視するためのコンピュータビジョン機能を備えています。深層強化学習エージェントは、分散したIoTデバイスからのリアルタイムのセンサーデータ(煙レベル、周囲の温度、湿度)を活用してカメラの向きを動的に制御し、監視を強化します。このアプローチにより、偽陽性を減らしつつ広範囲にわたる自動的な野火の監視が可能となります。

2025-01-17T02:47:14


Study on a Fast Solver for Combined Field Integral Equations of 3D Conducting Bodies Based on Graph Neural Networks

http://arxiv.org/abs/2501.09923v1

Tao Shan, Xin Zhang, Di Wu

Beihang University, National Natural Science Foundation of China, Ministry of Industry and Information Technology Key Laboratory of Electromagnetic Environment Effect of Intelligent Systems

本論文では、3D導体の合成場積分方程式(CFIE)を解くためのグラフニューラルネットワーク(GNN)ベースの高速ソルバー(GraphSolver)を提案します。ラオ-ウィルトン-グリソン(RWG)基底関数を使用して、3D導体の几何学を離散的かつ正確に表現します。次に、各RWG関数をグラフのノードとして扱い、ノード間の電流の流れを可能にする簡潔で情報豊富なグラフ表現を構築します。変換されたグラフを用いて、GraphSolverは各ノード(RWG関数)における表面電流密度のx、y、z成分の実部と虚部を直接予測するように開発されました。数値結果は、基本的な3Dターゲット、ミサイル型ターゲット、飛行機型ターゲットなど、幾何学的複雑性が異なる3D導体に対するCFIEを解くためのGraphSolverの有効性を示しています。

2025-01-17T02:40:04


GenSC-6G: A Prototype Testbed for Integrated Generative AI, Quantum, and Semantic Communication

http://arxiv.org/abs/2501.09918v1

Brian E. Arfeto, Shehbaz Tariq, Uman Khalid, Trung Q. Duong, Hyundong Shin

Kyung Hee University, Memorial University, Queen’s University Belfast

私たちは、生成的人工知能(AI)、量子コンピューティング、およびセマンティックコミュニケーションの統合をサポートする包括的なデータセットを生成するために開発されたプロトタイピングテストベッド、GenSC-6Gを紹介します。GenSC-6Gデータセットは、セマンティックデコーディング、分類、および位置特定タスクに最適化されたノイズ拡張合成データで設計されており、多様なAI駆動の通信アプリケーションに対して柔軟性を大幅に向上させています。この適応可能なプロトタイプは、ベースラインモデル、通信モジュール、および目標指向デコーダー間でシームレスな変更をサポートします。ケーススタディは、ノイズ条件下での軽量分類、セマンティックアップサンプリング、およびエッジベースの言語推論におけるその応用を示しています。GenSC-6Gデータセットは、6Gネットワークの高まる需要に合わせた目標指向の通信システムを開発するためのスケーラブルで堅牢なリソースとして機能します。

2025-01-17T02:20:52


Towards A Litmus Test for Common Sense

http://arxiv.org/abs/2501.09913v1

Hugo Latapie

本論文は、安全で有益な人工知能への道を描くことを目的とした計画的シリーズの第二弾です。「常識がすべて必要だ」という概念的洞察を基に、私たちは常識のためのより正式なリトマス試験を提案し、最小限の事前知識(MPK)制約と対角線的またはゲーデルスタイルの議論を組み合わせ、エージェントの既知の概念セットを超えたタスクを作成する公理的アプローチを採用します。このアプローチが抽象化および推論コーパス(ARC)にどのように適用されるかを議論し、トレーニング/テストデータの制約、物理的または仮想的な具現化、大規模言語モデル(LLM)についても考察します。また、より高能力のAIシステムが知識のギャップを隠すために信頼性のある誤解を招く出力を意図的に作り出す「新たに出現する欺瞞的な幻覚」に関する観察も統合します。全体的なテーマは、常識を確保せずにAIをスケールアップすることが、こうした欺瞞的な傾向を強化するリスクをもたらし、安全性と信頼性を損なう可能性があるということです。危害を加えることなく有益なAIを開発するというより広範な目標に沿って、私たちの公理的リトマステストは、AIが真に新しい概念を扱えるかどうかを診断するだけでなく、安全で有益で調和のとれた将来の人工知能のための倫理的で信頼できる基盤への足がかりを提供します。

2025-01-17T02:02:12


SLIM: Sim-to-Real Legged Instructive Manipulation via Long-Horizon Visuomotor Learning

http://arxiv.org/abs/2501.09905v1

Haichao Zhang, Haonan Yu, Le Zhao, Andrew Choi, Qinxun Bai, Yiqing Yang, Wei Xu

Horizon Robotics

私たちは、シミュレーションで強化学習によって純粋にトレーニングされた、長期的な現実世界のタスクを解決する低コストの四足動物マニピュレーションシステムを提案します。このシステムは、1) 指示に従った視覚的モバイルマニピュレーションのための高レベルポリシーと、四足動物の移動および肢の制御のための低レベルポリシーの階層的設計、2) 長期タスクを解決するための漸進的ポリシー拡張アプローチと、効果的な高レベル視覚運動ポリシーのトレーニングのためのティーチャー・スチューデントフレームワーク、3) シミュレーションから現実へのギャップを最小化するための一連の手法から構成されています。予算に優しいが限られた信頼性と性能を持つハードウェアと、1つの手首に取り付けられたRGBカメラだけで、シミュレーションで完全にトレーニングされた全体のシステムは、検索、移動、把握、およびドロップインを含む長期タスクに対して高い成功率を達成し、屋内外のさまざまなシーンや照明条件で流体的なシミュレーションから現実への移行を実現しました。広範な実世界の評価では、長期モバイルマニピュレーションタスクにおいて、私たちのシステムはタスクの成功率と実行効率の両方の観点から、現実に移行した際に良好なパフォーマンスを発揮します。最後に、脚付きモバイルマニピュレーションにおけるシミュレーションから現実への技術の必要性について議論し、そのアブレーション性能を示します。

2025-01-17T01:32:18


Evolving Deeper LLM Thinking

http://arxiv.org/abs/2501.09891v1

Kuang-Huei Lee, Ian Fischer, Yueh-Hua Wu, Dave Marwood, Shumeet Baluja, Dale Schuurmans, Xinyun Chen

Google DeepMind, UC San Diego, University of Alberta

我々は、大規模言語モデルにおける推論時間の計算をスケールさせるための進化的探索戦略を検討しています。提案されたアプローチ「マインドエボリューション」は、言語モデルを使用して候補となる応答を生成、再結合、そして洗練します。このアプローチは、解決策の評価者が利用可能な場合には、基礎となる推論問題を形式化する必要を回避します。推論コストを考慮に入れた結果、「マインドエボリューション」は、自然言語計画タスクにおいて、Best-of-NやSequential Revisionといった他の推論戦略を大幅に上回ることがわかりました。TravelPlannerおよびNatural Planのベンチマークでは、マインドエボリューションが形式的なソルバーを使用せずに、Gemini 1.5 Proを用いて問題インスタンスの98%以上を解決しました。

2025-01-17T00:41:44


Exploring the Implementation of AI in Early Onset Interviews to Help Mitigate Bias

http://arxiv.org/abs/2501.09890v1

Nishka Lal, Omar Benkraouda

この論文は、内在的なバイアス、特に感情バイアスを軽減するために、初期段階の採用面接における人工知能(AI)の応用を調査します。従来の面接官は、面接官バイアス、社会的望ましさ効果、さらには確認バイアスなど、いくつかのバイアスの影響を受けやすいです。これにより、包括的でない採用慣行や多様性に欠ける労働力が生まれます。本研究では、初期段階の採用におけるAIの現在の市場利用を評価するために、現在市場に存在するさまざまなAI介入(マルチモーダルプラットフォームやインタラクティブな候補者評価ツールなど)をさらに分析します。しかし、この論文は、感情的な感情よりもスキルや知識を強調した面接のダイナミクスを転写し分析するために開発された独自のAIシステムを使用することを目指しています。結果は、AIが感情に基づくバイアスを41.2%減少させることを効果的に示しており、企業の採用プロセスにおける公平性と効率性の向上に向けた革命的な力を示唆しています。

2025-01-17T00:40:35


2025-01-15 arXiv論文リスト(cs.AI)

About

arXivに掲載されたcs.AIの論文を検索し、一部をリスト化したものです。

※AIによってAbstractを日本語に翻訳しており、内容に誤りがある可能性があります。

リスト件数: 84件

リストから抽出されたキーワード: Dynamic Learning, Prototype Optimization, Attention Mechanism

Grounding Text-To-Image Diffusion Models For Controlled High-Quality Image Generation

http://arxiv.org/abs/2501.09194v1

Ahmad Süleyman, Göksel Biricik

Turkish-German University, Yıldız Technical University

大規模なテキストから画像への(T2I)拡散モデルは、自然言語のテキストキャプションから多様で高品質なビジュアルを合成する優れた性能を示しています。セグメンテーションマップ、エッジ、人間のキーポイントなど、さまざまなレイアウトを利用して生成プロセスを制御するために、複数のレイアウトから画像へのモデルが開発されました。本研究では、ObjectDiffusionを提案します。このモデルは、最先端の画像生成フレームワークからのインスピレーションを受けて、T2Iモデルを新しいバウンディングボックス機能でシームレスに条件付けします。具体的には、ControlNetで導入されたネットワークアーキテクチャに対し、GLIGENで提案された条件処理および注入技術を統合するために大幅な修正を加えました。ObjectDiffusionは、大規模なデータセットでの訓練から得られた生成知識を活用するために、事前訓練パラメータで初期化されます。私たちは、COCO2017トレーニングデータセットでObjectDiffusionをファインチューニングし、COCO2017検証データセットで評価しました。私たちのモデルは、AP$_{50}$が46.6、ARが44.5、FIDが19.8という結果を達成し、すべての3つの指標でオープンソースデータセットで訓練された現在のSOTAモデルを上回ります。ObjectDiffusionは、意味的および空間的な制御レイアウトにシームレスに従う多様で高品質、高忠実度の画像を合成する独自の能力を示しています。定性的および定量的なテストで評価され、ObjectDiffusionは幅広い文脈において、クローズドセットとオープンセットの設定で顕著なグラウンド能力を示しています。定性的評価は、ObjectDiffusionが異なるサイズと位置の複数のオブジェクトを生成する能力を確認しています。

2025-01-15T22:55:26


Patch-aware Vector Quantized Codebook Learning for Unsupervised Visual Defect Detection

http://arxiv.org/abs/2501.09187v1

Qisen Cheng, Shuhui Qu, Janghwan Lee

Samsung Display America Lab

無監視の視覚的欠陥検出は、産業応用において重要であり、通常のデータ特徴を捉えつつ逸脱を検出する表現空間が必要です。表現力とコンパクト性のバランスを取ることは難しく、表現力が過剰な空間は非効率性やモード崩壊のリスクがあり、検出精度を損なう可能性があります。我々は、無監視欠陥検出に最適化された強化されたVQ-VAEフレームワークを使用した新しいアプローチを提案します。我々のモデルは、パッチ認識型の動的コード割り当てスキームを導入し、文脈に応じたコード割り当てを可能にして空間表現を最適化します。この戦略は、正常と欠陥の区別を強化し、推論時の検出精度を向上させます。MVTecAD、BTAD、およびMTSDデータセットでの実験では、我々の手法が最先端の性能を達成することを示しています。

2025-01-15T22:26:26


Guiding Retrieval using LLM-based Listwise Rankers

http://arxiv.org/abs/2501.09186v1

Mandeep Rathee, Sean MacAvaney, Avishek Anand

大規模言語モデル(LLM)は、特に複数の検索結果を同時に再ランク付けする「リストワイズ」設定において、再ランカーとしての強い可能性を示しています。しかし、これらの「カスケーディング」取得と再ランクのアプローチは、関連する文書が最初に取得されない場合、最終的なランキングから永続的に除外されるという制約があります。適応的取得技術はこの問題に対処しますが、文書のスコアが他の文書とは独立に計算されることを前提としているため、リストワイズ再ランカーとは機能しません。本論文では、リストワイズ設定をサポートし、取得プロセス自体をガイドする既存の適応的取得方法の適応を提案します(これにより、LLM再ランカーの制約されたリコール問題を克服します)。具体的には、提案するアルゴリズムは、初期のランクと、これまでに見た最も関連性の高い文書から提供されたフィードバック文書の結果を統合します。多様なLLM再ランカー、第一段階の取得者、およびフィードバックソースにおける広範な実験を通じて、我々の方法がnDCG@10を最大13.23%改善し、リコールを28.02%向上させることができることを示します—すべてLLMの推論の総数を一定に保ち、適応プロセスによるオーバーヘッドを最小限に抑えたままで。これにより、初期の結果プールが限られている設定、例えばレガシーシステムや意味論的な第一段階の展開コストによって制約される場合において、LLMベースの検索を活用する道が開かれます。

2025-01-15T22:23:53


A Blockchain-Enabled Approach to Cross-Border Compliance and Trust

http://arxiv.org/abs/2501.09182v1

Vikram Kulothungan

人工知能(AI)システムが重要なインフラストラクチャーやグローバルな運用にますます不可欠となる中、統一された信頼できるガバナンスフレームワークの必要性はこれまで以上に緊急のものとなっています。この論文では、AIガバナンスに対する新しいアプローチを提案し、ブロックチェーンと分散元帳技術(DLT)を活用して、安全性、プライバシー、および信頼性を確保する、国境を越えた分散型のグローバルに認識されたフレームワークを構築します。論文では、金融セクターにおける具体的な実装シナリオを示し、今後10年間にわたる段階的な展開のタイムラインを概説し、現行の研究に基づいた解決策をもって潜在的な課題に対処します。ブロックチェーン、AI倫理、サイバーセキュリティの進展を統合することで、この論文は、複雑で進化するグローバルAI規制の状況に適応できる分散型のAIガバナンスフレームワークの包括的なロードマップを提供します。

2025-01-15T22:19:34


Attention is All You Need Until You Need Retention

http://arxiv.org/abs/2501.09166v1

  1. Murat Yaslioglu

この作品は、トランスフォーマーベースのアーキテクチャにおける新しいリテンションレイヤ機構を紹介し、その固有の内在的な保持能力の欠如に対処しています。人間の認知が象徴的なテンプレートをエンコードし、動的に呼び出すことができるのに対し、生成事前学習トランスフォーマーは固定された事前学習済みの重みと一時的なコンテキストウィンドウのみに依存しており、その適応性が制限されています。提案されたリテンションレイヤは、リアルタイムデータの生成、動的な呼び出し、そしてガイド付きの出力生成を可能にする持続的なメモリモジュールを組み込んでいます。この強化により、モデルは観察されたパターンをセッション間で保存、更新、再利用することができ、段階的な学習を促進し、静的な事前学習と動的でコンテキストに敏感な適応の間のギャップを埋めます。リテンションレイヤの設計は、注意、保持、再生、動機付けの段階を含む社会的学習プロセスに平行しています。技術的には、メモリアテンション機構とエピソディックバッファを統合してメモリのスケーラビリティを管理し、過学習を軽減し、効率的な呼び出しを保証します。応用範囲は、適応型パーソナルアシスタント、リアルタイム詐欺検出、自律ロボティクス、コンテンツモデレーション、医療診断などに及びます。各ドメインにおいて、リテンションメカニズムはシステムが段階的に学習し、出力をパーソナライズし、進化する現実の課題に効果的に対応できるようにします。人間の学習の重要な側面を模倣することで、このリテンション強化アーキテクチャは、より流動的で応答性の高いAIパラダイムを促進し、従来のトランスフォーマーの能力を継続的な適応を必要とするドメインに拡張する動的なセッション認識モデルへの道を開きます。

2025-01-15T21:33:53


The Veln(ia)s is in the Details: Evaluating LLM Judgment on Latvian and Lithuanian Short Answer Matching

http://arxiv.org/abs/2501.09164v1

Yevhen Kostiuk, Oxana Vitman, Łukasz Gagała, Artur Kiulian

University of Dundee, University of Bremen, Georg-August-Universität Göttingen, ARG-tech, OpenBabylon

この研究では、ラトビア語とリトアニア語の短い回答マッチングタスクにおける大規模言語モデル(LLMs)の評価という課題に取り組みます。502のラトビア語と690のリトアニア語の質問-回答ペアからなる新しいデータセットを紹介します。各質問-回答ペアについて、テキスト内に小さくも意味のある変化を導入するために特別に設計された一連の変更ルールを用いて、マッチした回答とマッチしていない回答を生成しました。これらの生成された回答は、元の回答のマッチングにおける微妙な違いを検出する能力を評価するためのテストケースとして使用されます。データセットのサブセットは、品質と正確性のために手動で検証されました。結果は、QWEN2.5 72bやLLaMa3.1 70bなどの大規模LLMsがマッチした回答とマッチしていない回答を識別する際にほぼ完璧なパフォーマンスを示す一方で、小規模モデルはより多くのばらつきを示すことを示しています。例えば、LLaMa3.1 8bとEuroLLM 9bは少数ショットの例から恩恵を受けたのに対し、Mistral Nemo 12bは微妙なテキストの変更の検出において不調で、特にリトアニア語では追加の例があっても効果が薄かったです。QWEN2.57bとMistral 7bは、ゼロショットおよび少数ショットの実験において70bの大規模モデルと比較して強力かつ同等のパフォーマンスを発揮しました。さらに、Mistral 7bのパフォーマンスは少数ショットの実験においては弱かったです。

2025-01-15T21:30:03


Towards Understanding Extrapolation: a Causal Lens

http://arxiv.org/abs/2501.09163v1

Lingjing Kong, Guangyi Chen, Petar Stojanov, Haoxuan Li, Eric P. Xing, Kun Zhang

Carnegie Mellon University, Mohamed bin Zayed University of Artificial Intelligence, Broad Institute of MIT and Harvard

分布シフトを扱う標準的な研究では、通常、訓練分布の中に収まる全体のターゲット分布が必要です。しかし、実際のシナリオではターゲットサンプルが少数しか存在せず、訓練サポートの外に位置する可能性もあるため、外挿の能力が求められます。本研究では、外挿が可能な条件について理論的な理解を提供し、オンサポートターゲット分布を必要とせずにそれを達成するための原則的な手法を提案します。この目的のために、我々は因果メカニズムにおける最小変化原則を具現化した 潜在変数モデルを用いて外挿問題を定式化します。この定式化の下で、外挿問題を潜在変数同定問題に変換します。我々は、たった一つのオフサポートターゲットサンプルしかない場合でも同定が可能となるようなシフト特性と推定目的に関する現実的な条件を提供し、最も困難なシナリオに取り組みます。私たちの理論は、基盤となる多様体の滑らかさとシフト特性の間の複雑な相互作用を明らかにします。我々の理論的結果が実用的な適応アルゴリズムの設計にどのように役立つかを示します。合成データと実データの両方に対する実験を通じて、私たちは理論的な発見とその実用的な含意を検証します。

2025-01-15T21:29:29


AutoLoop: Fast Visual SLAM Fine-tuning through Agentic Curriculum Learning

http://arxiv.org/abs/2501.09160v1

Assaf Lahiany, Oren Gal

University of Haifa, Swarm & AI Lab (SAIL), Hatter Department of Marine Technologies, Leon H. Charney School of Marine Sciences

現在の視覚SLAMシステムは、計算効率と堅牢なループ閉じ処理をバランスさせる上で大きな課題に直面しています。従来のアプローチでは、慎重な手動調整が必要であり、相当な計算オーバーヘッドが発生します。一方、学習ベースの手法は明示的なループ閉じ機能が欠けているか、高コストな方法でそれを実装しています。私たちは、自動カリキュラム学習と効率的なファインチューニングを組み合わせた新しいアプローチ「AutoLoop」を提案します。私たちの手法は、DDPG(Deep Deterministic Policy Gradient)エージェントを使用して、トレーニング中にループ閉じの重みを動的に調整し、手動のハイパーパラメータ探索を排除すると同時に、必要なトレーニングステップを大幅に削減します。このアプローチでは、潜在的なループ閉じペアをオフラインで事前に計算し、エージェント主導のカリキュラムを通じてそれらを活用することで、モデルが新しいシナリオに迅速に適応できるようにします。TartanAirでのトレーニング実験と、KITTI、EuRoC、ICL-NUIM、TUM RGB-Dを含む複数のベンチマークでの検証は、AutoLoopが従来のアプローチと比較して学習時間を桁違いに短縮しながら、同等またはそれ以上の性能を達成することを示しています。AutoLoopは、視覚SLAMシステムの迅速な適応のための実用的なソリューションを提供し、従来は複数の手動反復を必要とする重み調整プロセスを自動化します。私たちの結果は、この自動化されたカリキュラム戦略がトレーニングを加速するだけでなく、多様な環境条件においてモデルの性能を維持または改善することも示しています。

2025-01-15T21:22:09


Towards Multilingual LLM Evaluation for Baltic and Nordic languages: A study on Lithuanian History

http://arxiv.org/abs/2501.09154v1

Yevhen Kostiuk, Oxana Vitman, Łukasz Gagała, Artur Kiulian

University of Dundee, University of Bremen, Georg-August Universität Göttingen, OpenBabylon, ARG-tech

本研究では、リトアニアの歴史および一般的な歴史知識に関する多言語大型言語モデル(LLMs)の評価を行いました。モデルは、リトアニアの国家歴史および一般歴史に関する質問を、バルト語、北欧語、および他の言語(英語、ウクライナ語、アラビア語)に翻訳したデータセットでテストされました。これは、文化的および歴史的に関連のあるグループからの知識の共有を評価するためです。私たちは、GPT-4o、LLaMa3.1 8bおよび70b、QWEN2.5 7bおよび72b、Mistral Nemo 12b、LLaMa3 8b、Mistral 7b、LLaMa3.2 3b、および北欧のファインチューニングモデル(GPT-SW3およびLLaMa3 8b)を評価しました。私たちの結果は、GPT-4oが言語グループ全体で他のすべてのモデルを一貫して上回り、バルトおよび北欧言語で若干優れた結果を示したことを示しています。QWEN2.5 72bやLLaMa3.1 70bのような大きなオープンソースモデルは良好なパフォーマンスを示しましたが、バルト語との整合性が弱いことが見られました。小型モデル(Mistral Nemo 12b、LLaMa3.2 3b、QWEN 7B、LLaMa3.1 8B、LLaMa3 8b)は、バルト語とのLT関連の整合性にギャップがある一方で、北欧語および他の言語ではより良いパフォーマンスを示しました。北欧のファインチューニングモデルは多言語モデルを上回ることはなく、共有された文化的または歴史的コンテキストだけでは必ずしもパフォーマンス向上を保証しないことを示しています。

2025-01-15T21:14:09


Agentic Retrieval-Augmented Generation: A Survey on Agentic RAG

http://arxiv.org/abs/2501.09136v1

Aditi Singh, Abul Ehtesham, Saket Kumar, Tala Talaei Khoei

Cleveland State University, The Davey Tree Expert Company, The MathWorks Inc, Khoury College of Computer Science, Northeastern University

大規模言語モデル(LLM)は、人間のようなテキスト生成と自然言語理解を可能にすることによって、人工知能(AI)に革命をもたらしました。しかし、静的なトレーニングデータに依存することで、動的なリアルタイムのクエリに応じる能力が制限され、結果として古くなったり不正確な出力が生じることになります。リトリーバル拡張生成(RAG)は、リアルタイムデータの取得を統合することによってLLMを強化し、コンテクストに関連性があり最新の応答を提供する解決策として登場しました。しかし、その期待にもかかわらず、従来のRAGシステムは静的なワークフローに制約されており、マルチステップの推論や複雑なタスク管理に必要な適応性が不足しています。エージェンティックリトリーバル拡張生成(エージェンティックRAG)は、RAGパイプラインに自律型AIエージェントを組み込むことで、これらの制約を超越しています。これらのエージェントは、エージェンティックデザインパターンに基づく反映、計画、ツールの使用、マルチエージェントの協力を活用して、動的にリトリーバル戦略を管理し、コンテクストの理解を反復的に洗練し、複雑なタスク要件を満たすためにワークフローを適応させます。この統合により、エージェンティックRAGシステムは多様なアプリケーションにおいて比類のない柔軟性、スケーラビリティ、コンテクストの認識を提供することが可能になります。この調査は、エージェンティックRAGの包括的な探索を提供し、その基礎的な原則とRAGパラダイムの進化から始まります。エージェンティックRAGアーキテクチャの詳細な分類を提示し、医療、金融、教育などの産業における主要な応用を強調し、実用的な実装戦略を検討します。さらに、これらのシステムをスケールさせる際の課題、倫理的な意思決定を確実にすること、そして実世界のアプリケーションのために性能を最適化することについても取り上げ、エージェンティックRAGを実装するためのフレームワークやツールに関する詳細な洞察を提供します。

2025-01-15T20:40:25


Benchmarking Robustness of Contrastive Learning Models for Medical Image-Report Retrieval

http://arxiv.org/abs/2501.09134v1

Demetrio Deanda, Yuktha Priya Masupalli, Jeong Yang, Young Lee, Zechun Cao, Gongbo Liang

Texas A&M University-San Antonio

医療画像および報告書は、患者の健康に関する貴重な洞察を提供します。しかし、これらのデータの異質性と複雑性は、効果的な分析を妨げています。このギャップを埋めるために、我々は医療画像とそれに対応する臨床報告を関連付けるためのクロスドメインリトリーバルに対するコントラスト学習モデルを調査します。本研究では、最先端のコントラスト学習モデルであるCLIP、CXR-RePaiR、MedCLIP、CXR-CLIPの4つを評価します。画像の劣化レベルが異なる中でモデルの性能を評価するために、遮蔽リトリーバルタスクを導入します。私たちの発見は、評価されたすべてのモデルが外部分布データに対して非常に敏感であることを示しており、遮蔽レベルの増加に伴ってパフォーマンスが比例して低下することが証明されています。MedCLIPはわずかにより堅牢性を示しますが、全体的なパフォーマンスはCXR-CLIPおよびCXR-RePaiRに比べて依然として大きく劣っています。一般目的のデータセットで訓練されたCLIPは、医療画像と報告書のリトリーバルに苦労しており、ドメイン特定の訓練データの重要性を強調しています。本研究の評価は、これらのモデルの堅牢性を向上させるためにさらに多くの努力を費やす必要があることを示唆しています。これらの限界に対処することにより、医療アプリケーションのためにより信頼性の高いクロスドメインリトリーバルモデルを開発することができます。

2025-01-15T20:37:04


Generative Medical Image Anonymization Based on Latent Code Projection and Optimization

http://arxiv.org/abs/2501.09114v1

Huiyu Li, Nicholas Ayache, Hervé Delingette

医療画像の匿名化は、識別情報を削除することで患者のプライバシーを保護し、下流のタスクを解決するためのデータの有用性を維持することを目的としています。本論文では、潜在コードの投影と最適化という二段階の解決策を用いて医療画像の匿名化問題に取り組みます。投影段階では、入力画像を潜在空間に投影するための合理化されたエンコーダを設計し、投影プロセスを強化するための共同トレーニングスキームを提案します。最適化段階では、医療画像に特化したアイデンティティ保護とデータ有用性のトレードオフに対処するために設計された二つの深層損失関数を用いて潜在コードを洗練します。包括的な質的および量的実験を通じて、肺疾患検出のためのトレーニングセットとして利用できる匿名化された合成画像を生成することにより、MIMIC-CXR胸部X線データセットに対する我々のアプローチの有効性を示します。ソースコードhttps://github.com/Huiyu-Li/GMIA にて入手可能です。

2025-01-15T19:50:56


Mantis Shrimp: Exploring Photometric Band Utilization in Computer Vision Networks for Photometric Redshift Estimation

http://arxiv.org/abs/2501.09112v1

Andrew Engel, Nell Byler, Adam Tsou, Gautham Narayan, Emmanuel Bonilla, Ian Smith

私たちは、光度赤方偏移推定のためのマルチサーベイ深層学習モデル「マンティスシュリンプ」を紹介します。このモデルは、紫外線(GALEX)、光学(PanSTARRS)、および赤外線(UnWISE)の画像を統合します。機械学習は、光度赤方偏移推定の確立されたアプローチとなっており、一般的にスペクトル的に特定された銀河が密集している領域で、テンプレートベースの手法よりも高い性能が認められています。複数の研究により、画像ベースの畳み込みニューラルネットワークが、表形式の色/明るさモデルを上回ることが示されています。表形式のモデルと比較して、画像モデルは追加の設計上の複雑さがあります。異なる解像度やノイズ特性を持つ異なる機器からの入力をどのように統合するかは、ほとんど知られていません。マンティスシュリンプモデルは、カットアウト画像を使用して赤方偏移の条件付き密度推定を行います。この密度推定は適切に補正されており、ポイント推定は、利用可能なスペクトル的に確認された銀河の分布において良好なパフォーマンスを発揮します(バイアス = 1e-2、散乱(NMAD = 2.44e-2)、および壊滅的外れ値率($\eta$=17.53$\%$))。私たちは、初期融合アプローチ(例:異なる機器からの画像の再サンプリングおよびスタッキング)が、遅延融合アプローチ(例:潜在空間表現の連結)のパフォーマンスと一致することを発見し、最終的に設計の選択はユーザーに委ねられることになります。最後に、私たちはモデルがバンド間の情報をどのように利用するかを調査し、私たちのモデルが全てのサーベイからの情報をうまく取り入れている証拠を見つけました。我々のモデルを大規模な銀河集団の分析に適用することは、外部サーバーからのカットアウトをダウンロードする速度によって制限されていますが、我々のモデルは、恒星集団合成のための赤方偏移に関する事前情報を生成するなどの小規模な研究において有用である可能性があります。

2025-01-15T19:46:23


A Non-autoregressive Model for Joint STT and TTS

http://arxiv.org/abs/2501.09104v1

Vishal Sunder, Brian Kingsbury, George Saon, Samuel Thomas, Slava Shechtman Hagai Aronowitz, Eric Fosler-Lussier, Luis Lastras

The Ohio State University, IBM Research

本論文では、自動音声認識(STT)と音声合成(TTS)を完全に非自回帰的な方法で共同モデル化するための一歩を踏み出します。私たちは、音声とテキストのモダリティを個別または一緒に入力として処理できる新しいマルチモーダルフレームワークを開発しました。提案するモデルは、そのマルチモーダルな性質により、ペアのない音声データやテキストデータでも訓練が可能です。さらに、出力の部分的仮説をモデルの入力にフィードバックすることによってSTTとTTSの性能を向上させる反復的な洗練戦略を提案します。これにより、STTとTTSの予測の両方を逐次的に改善します。私たちは、共同モデルがSTTおよびTTSタスクの両方を効果的に実行でき、すべてのタスクでSTT専用のベースラインを上回り、幅広い評価指標においてTTS専用のベースラインと競争力のある性能を発揮できることを示します。

2025-01-15T19:42:41


Tracking the Takes and Trajectories of English-Language News Narratives across Trustworthy and Worrisome Websites

http://arxiv.org/abs/2501.09102v1

Hans W. A. Hanley, Emily Okabe, Zakir Durumeric

Stanford University

ニュースエコシステムにおいて、誤解を招く情報や明らかに虚偽の情報がどのように流入するのかを理解することは、依然として難しい課題であり、数千の周辺および主流のニュースウェブサイトを通じて物語がどのように広がるかを追跡する必要があります。そこで、私たちはエンコーダーベースの大規模言語モデルとゼロショットスタンス検出を利用して、4,000以上の事実上信頼できない、信頼性混合、事実上信頼できる英語のニュースウェブサイトにおけるニュース物語とその態度をスケーラブルに識別・追跡するシステムを導入します。18か月にわたって私たちのシステムを稼働させ、146,000本のニュースストーリーの広がりを追跡しました。NETINFアルゴリズムを使用したネットワークベースの干渉を用いて、ニュース物語の経路と特定の実体に対するウェブサイトのスタンスを利用して、偏ったプロパガンダネットワーク(例:反ワクチンおよび反ウクライナ)を明らかにし、これらの態度を広範なニュースエコシステムに広める上で最も影響力のあるウェブサイトを特定できることを示します。私たちは、分散型ニュースエコシステムへの可視性の向上が、プロパガンダや偽情報の報道および事実確認に役立つことを期待しています。

2025-01-15T19:37:44


SteLLA: A Structured Grading System Using LLMs with RAG

http://arxiv.org/abs/2501.09092v1

Hefei Qiu, Brian White, Ashley Ding, Reinaldo Costa, Ali Hachem, Wei Ding, Ping Chen

Fitchburg State University, University of Massachusetts Boston, Chantilly High School

大規模言語モデル(LLM)は、多くのアプリケーションで強力な一般能力を示しています。しかし、自動短文採点(ASAG)などの特定のタスクに対して信頼性のあるツールにする方法は依然として課題です。私たちはSteLLA(RAGを用いたLLMによる構造化採点システム)を提案します。a) Retrieval Augmented Generation(RAG)アプローチを使用して、インストラクターが提供した参照答案やルーブリックに基づき、関連性が高く信頼できる外部知識から構造化情報を抽出することにより、LLMをASAGタスクに特化させます。b) LLMが学生の答案を構造化された質問応答に基づいて評価し、分析的な成績とフィードバックを提供します。実際のデータセットは、大学レベルの生物学コースの試験における学生の答案を収集しました。実験の結果、提案するシステムは人間の採点者との間でかなりの一致を達成でき、問題で検討されたすべての知識ポイントに対して内訳の成績とフィードバックを提供できることが示されました。GPT-4によって生成されたフィードバックの質的およびエラー分析は、GPT-4が事実を把握するのが得意である一方、採点タスクにおいて与えられたテキストから過剰な含意を推論する傾向があることを示しており、ASAGシステムにおけるLLMの使用についての洞察を提供します。

2025-01-15T19:24:48


Inferring Transition Dynamics from Value Functions

http://arxiv.org/abs/2501.09081v1

Jacob Adamczyk

強化学習において、価値関数は通常、現在の価値を将来の価値に結びつけるベルマン方程式を解決するように訓練されます。この時間的依存性は、価値関数が環境の遷移ダイナミクスに関する暗黙の情報を含んでいる可能性があることを示唆しています。ベルマン方程式を再構成することで、収束した価値関数が環境の根底にあるダイナミクスのモデルをエンコードしていることを示します。この洞察をもとに、価値関数からダイナミクスモデルを直接推測するための単純な方法を提案し、明示的なモデル学習の必要性を軽減する可能性があります。さらに、次の状態の同定性の課題を探求し、推定されたダイナミクスモデルが明確である条件について議論します。私たちの研究は、ダイナミクスモデリングにおいて価値関数を活用するための理論的な基盤を提供し、モデルフリーとモデルベースの強化学習を橋渡しする新たな道を切り開きます。

2025-01-15T19:00:47


Average-Reward Reinforcement Learning with Entropy Regularization

http://arxiv.org/abs/2501.09080v1

Jacob Adamczyk, Volodymyr Makarenko, Stas Tiomkin, Rahul V. Kulkarni

強化学習(RL)の平均報酬の定式化は、割引なしで時間的に拡張された問題を解決できる能力により、近年ますます注目を集めています。独立して、RLアルゴリズムエントロピー正則化から恩恵を受けており、これは最適ポリシーを確率的にし、ノイズに対してより頑健にするために使用されるアプローチです。これら二つのアプローチの明確な利点にもかかわらず、エントロピー正則化と平均報酬目標の組み合わせは文献であまり研究されておらず、この設定のためのアルゴリズムの開発は限られています。この分野のギャップを埋めるために、関数近似を用いてエントロピー正則化された平均報酬のRL問題を解決するためのアルゴリズムを開発しました。私たちの方法を実験的に検証し、既存のアルゴリズムと標準ベンチマークで比較しました。

2025-01-15T19:00:46


How Do Generative Models Draw a Software Engineer? A Case Study on Stable Diffusion Bias

http://arxiv.org/abs/2501.09014v1

Tosin Fadahunsi, Giordano d'Aloisio, Antinisca Di Marco, Federica Sarro

University College London, University of L’Aquila

生成モデルは現在、ウェブ、アート、広告などのために使用されるグラフィックコンテンツを生成するために広く利用されています。しかし、これらのモデルによって生成された画像は、特定の文脈で既に存在する社会的バイアスを強化する可能性があることが示されています。本論文では、さまざまなソフトウェア工学タスクに関連する画像を生成する際、それが当てはまるかどうかを理解することに焦点を当てています。実際、ソフトウェア工学(SE)コミュニティは性別および民族的差異から免れておらず、これらのモデルの使用によってその差異がさらに強調される可能性があります。したがって、意識せずに使用すると、人工的に生成された画像はSE領域におけるこれらのバイアスを強化する可能性があります。具体的には、SEタスクに対する非常に人気のあるオープンソースのテキストから画像へのモデル、Stable Diffusion(SD)モデルの3つのバージョン(SD 2、SD XL、SD 3)によって露呈された性別および民族的バイアスについての広範な実証的評価を行います。異なるソフトウェア関連タスクを説明する2セットのプロンプトを各モデルに与えることによって6,720枚の画像を取得します。1セットは「ソフトウェアエンジニア」というキーワードを含み、もう1セットはタスクを行う人の具体的な指定を含んでいません。次に、生成された画像における性別および民族的差異を評価します。結果は、すべてのモデルがソフトウェアエンジニアを表す際に男性の人物に対して顕著にバイアスがかかっていることを示しています。一方、SD 2およびSD XLは白人の人物に強くバイアスがかかっているのに対し、SD 3はややアジア人の人物に対してバイアスがかかっています。それにもかかわらず、すべてのモデルはプロンプトスタイルに関係なく、黒人およびアラブの人物を顕著に過少表現しています。私たちの分析の結果は、SEタスクのコンテンツ生成にこれらのモデルを採用することに対する深刻な懸念を浮き彫りにしており、この文脈でのバイアス軽減に関する将来の研究のための道を開いています。

2025-01-15T18:57:17


Multimodal LLMs Can Reason about Aesthetics in Zero-Shot

http://arxiv.org/abs/2501.09012v1

Ruixiang Jiang, Changwen Chen

The Hong Kong Polytechnic University

私たちは、マルチモーダルLLM(MLLM)の推論能力がどのように引き出され、美術作品の美的評価に活用されるかについての初めての研究を発表します。この調査を進めるために、私たちは芸術的スタイライズのベンチマーク用の新しい高品質データセット「MM-StyleBench」を構築しました。次に、人間の好みモデルに基づく原則的な手法を開発し、MLLMの応答と人間の好みとの間の体系的な相関分析を行いました。私たちの実験では、芸術評価におけるMLLMの固有の幻覚問題が明らかになり、応答の主観性に関連していることが示されました。ArtCoTが提案されており、これは芸術特有のタスク分解と具体的な言語の使用が、MLLMの美的推論能力を向上させることを示しています。私たちの発見は、芸術に対するMLLMに貴重な洞察を提供し、スタイル転送や芸術的画像生成などのさまざまな下流アプリケーションに役立つことができます。コードはhttps://github.com/songrise/MLLM4Artで入手可能です。

2025-01-15T18:56:22


AI-RAN: Transforming RAN with AI-driven Computing Infrastructure

http://arxiv.org/abs/2501.09007v1

Lopamudra Kundu, Xingqin Lin, Rajesh Gadiyar, Jean-Francois Lacasse, Shuvo Chowdhury

無線アクセスネットワーク(RAN)の風景は、従来の通信中心のインフラから統合されたコンピュート・コミュニケーションプラットフォームへと変革を遂げています。この記事では、RANと人工知能(AI)のワークロードを同じインフラ上で統合するAI-RANを紹介します。これにより、AI-RANは未来のネットワークのパフォーマンス要求を満たすだけでなく、資産の利用効率も向上させます。まず、RANがモバイルブロードバンドを超えてどのように進化してAI-RANに至ったかを検討し、AI-RANの三つの形態:AI-for-RAN、AI-on-RAN、AI-and-RANを明確にします。次に、AI-RANにおける通信とコンピューティングの統合のための主要な要件と促進因子を特定します。それから、AI-RANを概念から実践へ進めるためのリファレンスアーキテクチャを提供します。AI-RANの実用的な可能性を示すために、NVIDIA Grace-Hopper GH200サーバーを用いてRANとAIのワークロードを同時に処理する概念実証を紹介します。最後に、AI-RANのさらなる発展を導くための今後の作業方向を概説してこの記事を締めくくります。

2025-01-15T18:47:05


Decompose-ToM: Enhancing Theory of Mind Reasoning in Large Language Models through Simulation and Task Decomposition

http://arxiv.org/abs/2501.09056v1

Sneheel Sarangi, Maha Elgarf, Hanan Salam

NYU Abu Dhabi

心の理論(ToM)は、他者の精神状態を理解し、反映する能力です。この能力は人間の相互作用にとって重要ですが、大規模言語モデル(LLM)のテストでは、彼らがその能力を初歩的にしか理解していないことが明らかになっています。最も優れたクローズドソースのLLMは、いくつかのToMタスクで人間のパフォーマンスに近づいているものの、より構造化された推論を含む複雑なバリエーションのタスクでは依然として低いパフォーマンスを示しています。本研究では、認知心理学からの「ごっこ遊び」や「シミュレーション理論」の概念を活用し、「Decompose-ToM」と呼ばれるLLMベースの推論アルゴリズムを提案します。このアルゴリズムは、複雑なToMタスクにおけるモデルのパフォーマンスを向上させます。私たちはユーザーの視点を再帰的にシミュレートし、ToMタスクをより単純な機能のセット(主語の識別、質問の再構成、世界モデルの更新、知識の利用可能性)に分解します。アルゴリズムを高次のToMタスクおよび会話設定におけるToM能力をテストするタスクで検証したところ、我々のアプローチはベースライン手法と比較して、モデル間で大幅な改善を示し、タスク間で最小限のプロンプト調整や追加のモデル訓練を必要としないことが実証されました。

2025-01-15T18:44:01


Personality Modeling for Persuasion of Misinformation using AI Agent

http://arxiv.org/abs/2501.08985v1

Qianmin Lou, Wentao Xu

ソーシャルメディアプラットフォームにおける誤情報の蔓延は、個々の性格特性が誤情報への感受性やその普及にどのように影響するかを理解する必要性を際立たせています。本研究では、性格特性と誤情報のダイナミクスとの関係を調査するために革新的なエージェントベースのモデリングアプローチを採用しました。ビッグファイブ性格特性(外向性、協調性、神経症傾向)の異なる次元を具現化した6つのAIエージェントを使用し、6つの多様な誤情報トピックにわたる相互作用をシミュレーションしました。この実験は、GLM-4-Flashモデルを用いてAgentScopeフレームワークを通じて実施され、90のユニークな相互作用が生成され、性格の組み合わせが誤情報に対する説得力や抵抗にどのように影響するかについての複雑なパターンを明らかにしました。我々の結果は、分析的および批判的な性格特性が証拠に基づく議論において効果を高めること、非攻撃的な説得戦略が誤情報の修正において予期しない成功を示すことを示しています。特に、批判的特性を持つエージェントはHIV関連の誤情報の議論において59.4%の成功率を達成し、非攻撃的なアプローチを採用したエージェントは異なる性格の組み合わせにおいて40%以上の一貫した説得率を維持しました。また、この研究は説得の効果における非推移的パターンを明らかにし、性格に基づく影響に関する従来の仮定に挑戦しています。これらの結果は、デジタル環境における性格を考慮した介入の開発に重要な洞察を提供し、効果的な誤情報対策は対立的なアプローチよりも感情的なつながりと信頼構築を優先すべきであることを示唆しています。これらの発見は、性格と誤情報のダイナミクスの理論的理解およびソーシャルメディアコンテクストでの誤情報と戦うための実用的な戦略に寄与します。

2025-01-15T18:04:21


Development and Validation of the Provider Documentation Summarization Quality Instrument for Large Language Models

http://arxiv.org/abs/2501.08977v1

Emma Croxford, Yanjun Gao, Nicholas Pellegrino, Karen K. Wong, Graham Wills, Elliot First, Miranda Schnier, Kyle Burton, Cris G. Ebby, Jillian Gorskic, Matthew Kalscheur, Samy Khalil, Marie Pisani, Tyler Rubeor, Peter Stetson, Frank Liao, Cherodeep Goswami, Brian Patterson, Majid Afshar

大規模言語モデル(LLM)が電子健康記録(EHR)ワークフローに統合される中、実装前にその性能を評価するためには、検証されたツールが不可欠です。現存する医療提供者の文書品質評価ツールは、LLM生成テキストの複雑さにはしばしば適さず、実世界のデータに対する検証が欠けています。医療提供者文書要約品質評価ツール(PDSQI-9)は、LLM生成の臨床要約を評価するために開発されました。複数の専門分野にわたる実世界のEHRデータから、複数のLLM(GPT-4o、Mixtral 8x7b、Llama 3-8b)を使用してマルチドキュメント要約が生成されました。検証には、実質的妥当性のためのピアソン相関、構造的妥当性のための因子分析とクロンバックのアルファ、一般化可能性のための評価者間信頼性(ICCおよびクリッペンドルフのアルファ)、内容妥当性のための半デファイプロセス、及び高品質と低品質の要約の比較による識別妥当性が含まれました。7人の医師が779の要約を評価し、8,329の質問に回答し、評価者間信頼性について80%を超えるパワーを達成しました。PDSQI-9は強い内部一貫性(クロンバックのアルファ = 0.879; 95% CI: 0.867-0.891)および高い評価者間信頼性(ICC = 0.867; 95% CI: 0.867-0.868)を示し、構造的妥当性と一般化可能性を支持しました。因子分析により、58%の分散を説明する4因子モデルが特定され、組織、明確性、正確性、及び有用性を表しています。実質的妥当性は、メモの長さと簡潔性(rho = -0.200, p = 0.029)および組織化(rho = -0.190, p = 0.037)のスコアとの相関によって支持されました。識別妥当性は高品質と低品質の要約を区別しました(p < 0.001)。PDSQI-9は堅牢な構成妥当性を示し、臨床実践におけるLLM生成要約の評価と、医療ワークフローへのLLMの安全な統合を促進するための使用を支持しています。

2025-01-15T17:47:57


Trusted Machine Learning Models Unlock Private Inference for Problems Currently Infeasible with Cryptography

http://arxiv.org/abs/2501.08970v1

Ilia Shumailov, Daniel Ramage, Sarah Meiklejohn, Peter Kairouz, Florian Hartmann, Borja Balle, Eugene Bagdasarian

Google DeepMind, Google Research

私たちはしばしば信頼できない第三者とやり取りをします。プライバシーの優先順位を考えると、これらのやりとりの効果が制限される可能性があります。特定の目標を達成するためには、プライベートなデータを共有する必要があるからです。従来、この課題に対処するためには、信頼できる仲介者を求めるか、データの開示量を制限する暗号プロトコル(たとえば、多者計算やゼロ知識証明)を構築することが関与していました。暗号的アプローチのスケーリングにおいては重要な進展がありましたが、それらは使用できるアプリケーションのサイズや複雑さに関して依然として制限があります。本論文では、能力のある機械学習モデルが信頼された第三者の役割を果たすことができ、従来は実現不可能だったアプリケーションの安全な計算を可能にすると主張します。特に、入力/出力の制約の下で相互作用する能力のある機械学習モデルを用いた、セキュアな計算のスケーリングのための代替アプローチとして、Trusted Capable Model Environments(TCME)を説明します。このアプローチは、プライバシーと計算効率のバランスを達成することを目指しており、古典的な暗号解決策が現在不可能な状況でプライベートな推論を可能にします。私たちはTCMEによって可能になるいくつかのユースケースを説明し、古典的な暗号の問題でもすでにTCMEで解決できるものがあることを示します。最後に、現在の制限を概説し、それらを実装するための進むべき道について議論します。

2025-01-15T17:28:53


An analysis of data variation and bias in image-based dermatological datasets for machine learning classification

http://arxiv.org/abs/2501.08962v1

Francisco Mauro, Emanoel Thyago, Othon Vinicius, Rodrigo Abreu, Kelvin Cunha, José Gabriel, Rafael Barros, Thales Bezerra, Manoel Henriques, Natalia Lopes, Érico Moutinho, Jéssica Guido, Tsang Ing Ren, Paulo Borba

AIアルゴリズムは、医療の専門家を支援する上で貴重な存在となっています。これらのモデルから得られる信頼の向上は、重要な決定要求に役立ちます。臨床皮膚科においては、分類モデルがRGB画像のみを入力として使用し、患者の皮膚上の悪性病変を検出することができます。しかし、ほとんどの学習ベースの手法は、大規模で金の標準によって検証された皮膚镜検データセットから取得したデータを使用してトレーニングを行います。臨床モデルは、皮膚鏡検によって提供される対応する解像度を含まないユーザーのスマートフォンカメラでの分類に取り組むことを目指しています。また、臨床アプリケーションは新たな課題をもたらします。それは、制御されていない環境からのキャプチャ、肌のトーンの変動、視点の変化、データとラベルのノイズ、そしてクラスの不均衡を含む可能性があります。一つの可能な代替手段は、臨床画像に対処するために転移学習を使用することです。しかし、サンプル数が少ない場合、モデルのパフォーマンスに悪影響を及ぼす可能性があります。トレーニングに使用されたソース分布がテストセットと異なるためです。本研究の目的は、皮膚鏡検サンプルと臨床サンプルの間のギャップを評価し、データセットの変動がトレーニングにどのように影響するかを理解することです。それは、モデルの予測を妨げる分布間の主要な違いを評価します。最後に、異なるアーキテクチャに関する実験を通じて、分布の異なるデータをどのように組み合わせ、モデルの最終的な精度への影響を減少させるかを議論します。

2025-01-15T17:18:46


Kolmogorov-Arnold Networks for Time Series Granger Causality Inference

http://arxiv.org/abs/2501.08958v1

Meiliang Liu, Yunfang Xu, Zijin Li, Zhengye Si, Xiaoxiao Yang, Xinyue Yang, Zhiwen Zhao

Beijing Normal University

私たちは、因果推論の分野にKolmogorov-Arnoldネットワーク(KAN)を拡張した革新的なアーキテクチャであるGranger因果性Kolmogorov-Arnoldネットワーク(GCKAN)を紹介します。KAN層から基準重みを抽出し、スパース誘導ペナルティとリッジ正則化を組み合わせることで、GCKANは時系列からGranger因果性を推測し、自動的な時間遅延選択を可能にします。また、推論精度を向上させるために、時間反転Granger因果性を活用するアルゴリズムを提案します。このアルゴリズムは、元の時系列と時間反転時系列から導出された予測損失とスパース誘導損失を比較し、高いスコアの因果関係を自動的に選択するか、結果を統合して偽の接続性を緩和します。Lorenz-96、遺伝子調節ネットワーク、fMRI BOLD信号、VARデータセットに対して実施された包括的な実験により、提案モデルは非線形、高次元、限られたサンプルの時系列からGranger因果性を推測する際に、最先端の手法と競争力のある性能を達成することが示されています。

2025-01-15T17:09:07


Analyzing the Ethical Logic of Six Large Language Models

http://arxiv.org/abs/2501.08951v1

  1. Russell Neuman, Chad Coleman, Manan Shah

この研究は、6つの著名な生成型大規模言語モデルの倫理的推論を検討します:OpenAI GPT-4o、Meta LLaMA 3.1、Perplexity、Anthropic Claude3.5 Sonnet、Google Gemini、およびMistral 7B。この研究は、特にトロリー問題やハインツジレンマといった道徳的ジレンマに対する反応として、これらのモデルが倫理的論理をどのように表現し適用するかを探ります。伝統的な整合性研究から出発し、この研究は説明性・透明性の枠組みを採用し、モデルに倫理的推論を説明するよう促します。このアプローチは、結果主義的-義務論的な分析、道徳的基盤理論、コールバーグの道徳的発達段階モデルという3つの確立された倫理的類型論を通じて分析されます。調査結果は、LLM(大規模言語モデル)が主に合理主義的で結果主義的な強調を持つ収束した倫理論理を示し、決定がしばしば害の最小化と公平性を優先することを明らかにします。事前学習とモデルアーキテクチャの類似にもかかわらず、モデル間には微妙で重要な倫理的推論の違いが見られ、これはファインチューニングや学習後のプロセスの違いを反映しています。モデルは常に博識、慎重、自覚的であり、道徳哲学における大学院レベルの議論に類似した倫理的推論を提示します。これらのシステムは驚くべき一致を示し、その倫理的推論を典型的な人間の道徳論理よりも洗練されたものとして描写しています。

2025-01-15T16:56:26


Visual WetlandBirds Dataset: Bird Species Identification and Behavior Recognition in Videos

http://arxiv.org/abs/2501.08931v1

Javier Rodriguez-Juan, David Ortiz-Perez, Manuel Benavent-Lledo, David Mulero-Pérez, Pablo Ruiz-Ponce, Adrian Orihuela-Torres, Jose Garcia-Rodriguez, Esther Sebastián-González

University of Alicante

現在の生物多様性喪失危機は、動物モニタリングを重要な研究分野にしています。このことを踏まえ、モニタリングを通じて収集されたデータは、生物多様性を保護するための意思決定に向けた重要な洞察や情報を提供することができます。このようなデータの重要性にもかかわらず、鳥の動画を含むデータセットは著しく不足しており、既存のデータセットには動画形式の鳥の行動についての詳細な注釈はありません。このギャップに対応するために、我々の研究は、鳥の行動検出と種の分類のために特別に設計された初の詳細な動画データセットを紹介します。このデータセットは、包括的な鳥の動画データセットの必要性に応え、鳥の行動に関する詳細なデータを提供し、人間の行動認識で最近の進展に似た形で、これらを認識するための深層学習モデルの開発を促進します。提案されたデータセットは、スペインの湿地帯で録画された178本の動画で構成されており、13種類の異なる鳥が7つの異なる行動クラスを実行している様子を捉えています。さらに、我々は、鳥の行動認識と種の分類の2つのタスクにおける最先端モデルを使用したベースライン結果も提示します。

2025-01-15T16:34:20


Disentangling Exploration of Large Language Models by Optimal Exploitation

http://arxiv.org/abs/2501.08925v1

Tim Grams, Patrick Betz, Christian Bartelt

Technical University of Clausthal, University of Mannheim

探索は自己改善やオープンエンドの問題解決において重要なスキルです。しかし、大規模言語モデルが状態空間を効果的に探索できるかどうかは不確かです。既存の評価は主に探索と活用のトレードオフに焦点を当てており、これは多腕バンディット問題でよく評価されます。それに対して、本研究では探索を唯一の目的として抽出し、エージェントに将来のリターンを向上させる情報を提供するという課題を与えます。評価のために、我々は欠如した報酬を探索と活用の成分に分解し、すでに探索された状態に対する最適達成可能リターンを測定することを提案します。さまざまなLLMでの実験を通じて、ほとんどのモデルが状態空間を十分に探索できず、弱い探索が不十分であることが明らかになりました。モデルサイズと探索性能の間には正の相関が見られ、大きなモデルが優れた能力を示しています。さらに、我々の分解がプロンプトエンジニアリング中のエージェント指示によって駆動される行動の違いに関する洞察を提供することを示し、探索タスクにおけるLLM性能を向上させるための貴重なツールとなることを示します。

2025-01-15T16:30:29


Modeling Melt Pool Features and Spatter Using Symbolic Regression and Machine Learning

http://arxiv.org/abs/2501.08922v1

Olabode T. Ajenifujah, Amir Barati Farimani

加法製造(AM)は、その複雑な形状を製造する能力により、さまざまな分野での応用を引き付けている急速に進化する技術です。しかし、AMにおける主要な課題の一つは、一貫した印刷品質を達成することです。この不一致はしばしば、欠陥を引き起こす可能性のあるスパッタによって部分的に引き起こされる制御されていないメルトプールのダイナミクスに起因しています。したがって、メルトプールの進化を捉え、制御することは、プロセスの安定性と部品の品質を向上させるために重要です。本研究では、AM操作における意思決定を支援するためのフレームワークを開発し、機械学習(ML)と多項式記号回帰モデルを介して品質管理を促進し、欠陥を最小限に抑えることを目的としました。私は、レーザーパウダーベッド融合(LPBF)プロセスから大規模なデータセットを収集するためのコスト効果の高いアプローチとして、実験的に検証された計算ツールを実装しました。281のプロセス条件からなるデータセットの中で、メルトプールの寸法(長さ、幅、深さ)、メルトプールの形状(面積、体積)、およびスパッタとして示された体積などのパラメータが抽出されました。機械学習(ML)と多項式記号回帰モデルを使用して、モデル入力としてプロセス条件(出力と速度)またはメルトプールの寸法を用いた際、トレーニングデータセットとテストデータセットの両方でメルトプールの寸法と形状の特徴を予測する際に95%を超える高いR2値が達成されました。スパッタとして示された体積の場合、モデル入力(プロセス条件またはメルトプールの寸法)を対数変換した後、R2が改善されました。調査したMLモデルの中で、ExtraTreeモデルは96.7%と87.5%の最高のR2値を達成しました。

2025-01-15T16:26:01


Projection Implicit Q-Learning with Support Constraint for Offline Reinforcement Learning

http://arxiv.org/abs/2501.08907v1

Xinchen Han, Hossam Afifi, Michel Marot

オフライン強化学習(RL)は、分布外(OOD)アクションによる外挿誤差という重要な課題に直面しています。暗黙のQ学習(IQL)アルゴリズムは、期待値回帰を使用してインサンプル学習を達成し、OODアクションに関連するリスクを効果的に軽減します。しかし、政策評価における固定ハイパーパラメータと、密度ベースの政策改善手法は、その全体的な効率を制限しています。本論文では、サポート制約を強化した射影IQLアルゴリズム「Proj-IQL」を提案します。ポリシー評価フェーズでは、Proj-IQLがベクトル射影を通じてワンステップアプローチをマルチステップアプローチに一般化し、インサンプル学習と期待値回帰のフレームワークを維持します。ポリシー改善フェーズでは、Proj-IQLがポリシー評価アプローチにより整合性のあるサポート制約を導入します。さらに、Proj-IQLが単調なポリシー改善を保証し、優れたアクションのためのより厳格な基準を享受することを理論的に示します。実証結果は、Proj-IQLがD4RLベンチマークで最先端のパフォーマンスを達成し、特に難しいナビゲーションドメインにおいて優れていることを示しています。

2025-01-15T16:17:02


Computing Game Symmetries and Equilibria That Respect Them

http://arxiv.org/abs/2501.08905v1

Emanuel Tewolde, Brian Hu Zhang, Caspar Oesterheld, Tuomas Sandholm, Vincent Conitzer

戦略的相互作用は、マルチエージェントシステム内の対称性を理解することで、より簡潔に表現され、より効率的に分析および解決される可能性があります。対称性は、平衡選択に関する概念的な意味を持つこともあります。私たちは、対称性の特定と利用に関する計算の複雑さを研究します。古典的な正規形ゲームの枠組みを使用して、私たちはプレイヤーやアクションの一部またはすべてに対するゲームの対称性を考慮します。ゲームの対称性とグラフの自己同型性の間には強い関係があることを見いだし、ゲームに存在する対称性を特徴づけるためのグラフの自己同型性およびグラフの同型性完全性の結果を得ました。一方で、アクションの考慮を2つの方法のうちの1つに制限すると問題が多項式時間で解決可能になることも示します。次に、ゲームの対称性をナッシュ均衡の計算にどのように利用できるかを調査します。与えられた対称性の集合を尊重するナッシュ均衡を見つけることは、一般総和ゲームおよびチームゲームにおいてそれぞれPPADおよびCLS完全であることを示します。これは、ブロウワーの不動点問題および勾配降下問題と同じくらい難しいということです。最後に、非常に多くの対称性を認識している特別なケースや、ゲームが2人用のゼロサムであり、対称性すら知らない場合に対する多項式時間の方法を提示します。

2025-01-15T16:15:16


Leveraging Large Language Models as Knowledge-Driven Agents for Reliable Retrosynthesis Planning

http://arxiv.org/abs/2501.08897v1

Qinyu Ma, Yuhao Zhou, Jianfeng Li

材料化学における信頼できる合成経路の特定は、特に高分子科学において複雑な作業であり、マクロ分子の複雑でしばしば非一意的な命名法がその要因です。この課題に対処するために、我々は大規模言語モデル(LLMs)と知識グラフ(KGs)を統合したエージェントシステムを提案します。LLMsの化学物質名の抽出および認識における強力な能力を活用し、抽出されたデータを構造化された知識グラフに保存することで、我々のシステムは関連文献の自動取得、反応データの抽出、データベースの照会、逆合成経路ツリーの構築、追加文献の取得によるさらなる拡張、および最適な反応経路の推奨を完全に自動化します。新しい多分岐反応経路探索(MBRPS)アルゴリズムは、すべての経路を探索できるようにし、特に多分岐経路に焦点を当てており、LLMsが多分岐経路での弱い推論を克服できるよう支援します。この研究は、LLMsによって強化された高分子に特化した完全自動逆合成計画エージェントを開発するための初めての試みを示しています。ポリイミド合成に適用した我々の新しいアプローチは、数百の経路を持つ逆合成経路ツリーを構築し、既知および新規経路を含む最適化されたルートを推奨し、その効果と広範な応用の可能性を示しています。

2025-01-15T16:06:10


Karatsuba Matrix Multiplication and its Efficient Custom Hardware Implementations

http://arxiv.org/abs/2501.08889v1

Trevor E. Pogue, Nicola Nicolici

McMaster University

カラツバアルゴリズムは大きな整数の乗算の複雑さを削減しますが、追加の加算が必要なため、より一般的に使用されるビット幅の小さな整数に対してはその利点が最小限に抑えられます。本研究では、スカラーカラツバ乗算アルゴリズムの行列乗算への拡張を提案し、この拡張が元のカラツバアルゴリズムの乗算複雑さの削減を維持しつつ、追加の加算の複雑さも削減する方法を示します。さらに、カスタムハードウェアにおいてこのカラツバアルゴリズムの拡張を効率的に活用するための新しい行列乗算ハードウェアアーキテクチャを提案します。提案されたアルゴリズムとハードウェアアーキテクチャは、スカラーカラツバや従来の行列乗算アルゴリズムに比べて整数行列乗算のための実際の面積または実行時間の改善を提供できることを示し、また、核心的な部分で実績のあるストリオリックアレイや従来の乗算器アーキテクチャを通じて実装をサポートします。アルゴリズムアーキテクチャの複雑さ分析を提供し、提案された設計をベースライン設計および同じ計算プラットフォーム上で実装された先行の最先端作品と比較して、単独でおよびエンドツーエンドのディープラーニングアクセラレーターシステム内で評価し、行列乗算ハードウェアのパフォーマンス-面積を向上させる能力を実証します。

2025-01-15T16:00:43


Incrementally Learning Multiple Diverse Data Domains via Multi-Source Dynamic Expansion Model

http://arxiv.org/abs/2501.08878v1

Runqing Wu, Fei Ye, Qihe Liu, Guoxi Huang, Jinyu Guo, Rongyao Hu

Huazhong University of Science and Technology, University of Electronic Science and Technology, University of Bristol

継続学習は、新しい情報を段階的に吸収しながら、以前の知識を保持することができるモデルの開発を目指しています。しかし、現在の研究は主に、すべてのデータサンプルが単一のデータドメインからなるという単純な学習コンテキストに焦点を当てています。本論文では、複数の異なるドメインから取得されたデータサンプルによって特徴づけられる、より複雑で現実的な学習環境に焦点を移します。この複雑な学習課題に対処するために、様々なプレトレーニングされたモデルをバックボーンとして活用し、出現するタスクに適応するために新しいエキスパートを段階的に確立する「マルチソースダイナミックエクスパンションモデル(MSDEM)」という新しい方法論を導入します。さらに、複数のバックボーンからの知識を選択的に活用するために設計された革新的なダイナミック拡張可能な注意メカニズムを提案し、これにより新しいタスクの学習を加速します。加えて、以前に取得したすべてのパラメータと表現を戦略的に再利用し、新しいタスクの学習のためにポジティブな知識転送効果を最大化するダイナミックグラフウェイトルーターを導入します。これにより、一般化性能がさらに向上します。包括的な一連の実験を実施し、実証的な結果は、私たちの提案したアプローチが最先端の性能を達成していることを示しています。

2025-01-15T15:49:46


Silent Abandonment in Text-Based Contact Centers: Identifying, Quantifying, and Mitigating its Operational Impacts

http://arxiv.org/abs/2501.08869v2

Antonio Castellanos, Galit B. Yom-Tov, Yair Goldberg, Jaeyoung Park

サービスの向上を目指す中で、企業は顧客に対してテキストを介してエージェントと対話するオプションを提供しています。このようなコンタクトセンターは、顧客体験の指標である放棄や忍耐を測定する際に不確実性が伴うため、従来のコールセンターとは異なる独自の課題に直面しています。この不確実性の重要な要因は、サイレントアバンドンメント(無言の放棄)であり、顧客がシステムに通知せずに離脱することで、エージェントの時間を無駄にし、状態を不明瞭にします。サイレントアバンドンメントは、顧客がサービスを受けられたのか離脱したのかも曖昧にします。我々の目標は、サイレントアバンドンメントの規模を測定し、その影響を軽減することです。分類モデルによると、17社において顧客の3%-70%が無言で放棄しています。ある調査では、放棄した顧客の71.3%が無言で放棄し、その結果、エージェントの効率が3.2%低下し、システムの容量が15.3%減少し、エージェント1人あたり年に$5,457のコストが発生しました。我々は不確実性の下で顧客の忍耐を推定し、影響を与える共変量を特定するための期待値最大化(EM)アルゴリズムを開発しました。我々は、企業が放棄の範囲を推定するために分類モデルを使用し、我々のEMアルゴリズムを用いて忍耐を評価すべきであると考えています。サイレントアバンドンメントの影響を運用的に軽減するために、疑わしいサイレントアバンドンメント行動を予測するか、サービスデザインを変更する戦略を提案します。具体的には、顧客に待機中にメッセージを送信させることが欠損データの課題を生む一方で、忍耐を大幅に向上させ、サービス時間を短縮し、放棄を減少させたり、スタッフの必要数を削減したりすることを示します。

2025-01-15T15:38:56


ARMOR: Shielding Unlearnable Examples against Data Augmentation

http://arxiv.org/abs/2501.08862v1

Xueluan Gong, Yuji Wang, Yanjiao Chen, Haocheng Dong, Yiming Li, Mengyuan Sun, Shuaike Li, Qian Wang, Chen Chen

Nanyang Technological University, Singapore, Zhejiang University, China, Wuhan University, China, ZJU-Hangzhou Global Scientific and Technological Innovation Center (HIC), State Key Laboratory of Blockchain and Data Security, Zhejiang University, China

私的データがオンラインで公開されると、許可されていない第三者によって収集され、深層ニューラルネットワーク(DNN)のトレーニングに使用される可能性があります。プライバシーを保護するために、DNNによる学習能力を低下させるために、元のサンプルに防御ノイズを追加することができます。最近、学習不可能な例が提案され、モデルがほとんど何も学習しないようにトレーニング損失を最小化することが目指されています。しかし、生データはトレーニングに使用される前にしばしば前処理され、これによって保護されたデータのプライベート情報が復元される可能性があります。本論文では、データ拡張が引き起こすデータプライバシーの違反を明らかにします。これは、モデルの一般化能力を向上させるための一般的に使用されるデータ前処理技術に関して、私たちが知る限り初めてのことです。我々は、データ拡張が学習不可能な例でトレーニングされたモデルの精度を21.3%から66.1%に大幅に向上させることができることを示します。この問題に対処するために、我々はARMORと呼ばれる防御フレームワークを提案し、データ拡張による潜在的なプライバシー侵害からデータプライバシーを保護します。モデルのトレーニングプロセスにアクセスできないという困難を克服するために、我々はデータ拡張の効果をよりよくキャプチャする非局所モジュール支援の代替モデルを設計しました。さらに、拡張されたサンプルと非拡張のサンプルとの間の分布アラインメントを最大化する代替拡張選択戦略を設計し、各クラスに最適な拡張戦略を選択します。また、動的ステップサイズ調整アルゴリズムを用いて防御ノイズ生成プロセスを強化します。ARMORの性能を検証するために、4つのデータセットおよび5つのデータ拡張手法に対して広範な実験が実施されました。6つの最先端防御手法との比較により、ARMORはデータ拡張下で保護されたプライベートデータの学習不可能性を維持できることが実証されました。ARMORは、拡張された保護サンプルでトレーニングされたモデルのテスト精度を、ベースラインよりも最大60%低下させます。

2025-01-15T15:22:57


Digital Phenotyping for Adolescent Mental Health: A Feasibility Study Employing Machine Learning to Predict Mental Health Risk From Active and Passive Smartphone Data

http://arxiv.org/abs/2501.08851v1

Balasundaram Kadirvelu, Teresa Bellido Bel, Aglaia Freccero, Martina Di Simplicio, Dasha Nicholls, A Aldo Faisal

背景: 青少年は特にメンタル障害に対して脆弱であり、75%以上のケースが25歳未満で現れます。研究によると、高度な抑うつや不安症状を経験している若者のうち、支援を求めるのはわずか18%から34%です。スマートフォンを活用したデジタルツールは、スケーラブルで早期介入の機会を提供します。目的: 本研究では、新しい機械学習フレームワークを使用して、非臨床の青少年におけるメンタル障害を予測するために、アクティブなデータとパッシブなスマートフォンデータを統合することの実現可能性を評価しました。具体的には、Mindcraftアプリが内部化および外部化障害、摂食障害不眠症自殺念慮のリスクを予測する上での有用性を調査しました。方法: 参加者 (N=103; 平均年齢16.1歳) は、ロンドンの3つの学校から募集されました。参加者は、Strengths and Difficulties Questionnaire、Eating Disorders-15 Questionnaire、Sleep Condition Indicator Questionnaireを完了し、自殺念慮の有無を示しました。彼らは14日間Mindcraftアプリを使用し、自己報告によるアクティブデータとスマートフォンセンサーからのパッシブデータを提供しました。ユーザー固有の特徴の安定性を高めるために、コントラスト事前学習フェーズを適用し、その後に監視されたファインチューニングを行いました。モデル評価には、バランス精度を主要メトリックとして使用したleave-one-subject-outクロスバリデーションを採用しました。結果: アクティブデータとパッシブデータの統合は、個別のデータソースと比較して優れたパフォーマンスを達成し、SDQ-高リスクでの平均バランス精度は0.71、不眠症で0.67、自殺念慮で0.77、摂食障害で0.70でした。コントラスト学習フレームワークは、日々の行動表現を安定化させ、予測の堅牢性を高めました。本研究は、メンタルヘルスリスクを予測するための高度な機械学習技術とアクティブおよびパッシブなスマートフォンデータの統合の可能性を示しています。

2025-01-15T15:05:49


Graph Counterfactual Explainable AI via Latent Space Traversal

http://arxiv.org/abs/2501.08850v1

Andreas Abildtrup Hansen, Paraskevas Pegios, Anna Calissano, Aasa Feragen

Technical University of Denmark, Imperial College London, Pioneer Centre for AI

深層ニューラルネットワークの予測を説明することは、容易ではない作業ですが、高品質な予測の説明は、実務者がこれらのモデルを信頼するための前提条件であることが多いです。反事実的説明は、事前に指定された方法で予測が変わる「最も近い」分布内の代替入力を見つけることによって予測を説明することを目的としています。しかし、この最も近い代替入力をどのように定義するかは依然として未解決の問題であり、その解決策はドメイン(例:画像、グラフ、表形式データなど)および考慮される特定のアプリケーションに依存します。グラフの場合、この問題は、i)最先端のグラフ分類器の連続的な特性に対して離散的な特性を持つこと、およびii)グラフ上で作用するノード置換群によって複雑になります。私たちは、ケース特有の置換等変グラフ変分オートエンコーダを活用して、任意の微分可能なブラックボックスグラフ分類器のための反事実的説明を生成する方法を提案します。私たちは、分類器の分類境界を越えてオートエンコーダの潜在空間を移動することで、連続的な方法で反事実的説明を生成し、離散的なグラフ構造と連続的なグラフ属性のシームレスな統合を可能にします。私たちは3つのグラフデータセットでアプローチの実証検証を行い、私たちのモデルが一貫して高性能であり、ベースラインよりも堅牢であることを示しています。

2025-01-15T15:04:10


RouteNet-Gauss: Hardware-Enhanced Network Modeling with Machine Learning

http://arxiv.org/abs/2501.08848v1

Carlos Güemes-Palau, Miquel Ferriol-Galmés, Jordi Paillisse-Vilanova, Albert López-Brescó, Pere Barlet-Ros, Albert Cabellos-Aparicio

Barcelona Neural Networking Center, Universitat Politècnica de Catalunya

ネットワークシミュレーションはネットワークモデルにおいて重要な役割を果たし、キャパシティプランニングからパフォーマンス推定に至るまでのタスクを支援します。従来の方法である離散事象シミュレーション(DES)は、計算コストと精度に関して限界があります。本論文では、これらの課題に対処するために、テストベッドネットワークと機械学習(ML)モデルの新しい統合であるRouteNet-Gaussを紹介します。テストベッドをハードウェアアクセラレーターとして使用することで、RouteNet-Gaussはトレーニングデータセットを迅速に生成し、実世界の条件に高忠実度でネットワークシナリオをシミュレートします。実験結果は、RouteNet-Gaussが予測誤差を最大95%削減し、最新のDESベースの手法と比較して推論時間を488倍に高速化することを示しています。RouteNet-Gaussのモジュラーアーキテクチャは、トポロジーやルーティングなどのネットワークシナリオの特定の特性に基づいて動的に構築されます。これにより、トレーニング中に見られたものを超えて、最大10倍大きなネットワークを含むさまざまなネットワーク構成を理解し、一般化することが可能になります。加えて、時間集約パフォーマンス推定(TAPE)をサポートし、構成可能な時間的粒度を提供し、フローパフォーマンス指標の高い精度を維持します。このアプローチは、シミュレーションの効率と精度の向上に対する前向きな可能性を示しており、ネットワークオペレーターにとって貴重なツールを提供します。

2025-01-15T15:00:11


Automatic tuning of communication protocols for vehicular ad hoc networks using metaheuristics

http://arxiv.org/abs/2501.08847v1

José García-Nieto, Jamal Toutouh, Enrique Alba

新興技術の分野である自動車アドホックネットワーク(VANET)は、既存のインフラがなくても自発的に相互接続できる一連の通信する車両を扱います。このようなネットワークでは、最終的なネットワーク展開の前に通信プロトコルの最適な構成を行うことが重要です。この方法により、人間の設計者は事前にネットワークの最適なQoSを取得できます。本研究で考慮する問題は、ファイル転送プロトコル設定(FTC)を構成し、リアルなVANETシナリオにおける転送時間、失われたパケットの数、および転送されるデータ量を最適化することを目的としています。私たちは、FTCに対して5つの代表的な最新の最適化技術に取り組み、その性能を比較します。これらのアルゴリズムは、粒子群最適化(PSO)、差分進化(DE)、遺伝的アルゴリズム(GA)、進化戦略(ES)、およびシミュレーテッドアニーリング(SA)です。私たちのテストでは、都市および高速道路シナリオのために2つの典型的な環境インスタンスのVANETが定義されています。ns-2(よく知られたリアルなVANETシミュレーター)を使用した実験は、PSOが研究対象の両方のVANETインスタンスに対して比較したすべてのアルゴリズムを上回ることを明らかにしました。

2025-01-15T14:59:00


Exploring Task-Level Optimal Prompts for Visual In-Context Learning

http://arxiv.org/abs/2501.08841v1

Yan Zhu, Huan Ma, Changqing Zhang

近年のビジョンファウンデーションモデル(VFM)の発展により、視覚的インコンテキスト学習(VICL)は、ほとんどのシナリオにおいてモデルを修正するよりも優れた選択肢となっています。再トレーニングやファインチューニングモデルとは異なり、VICLはモデルの重みやアーキテクチャを変更する必要がなく、タスクを解決する方法を教えるためにデモを含むプロンプトのみを必要とします。しかし、現在、各テストサンプルの最適なプロンプトを見つけるための重大な計算コストがVICLの展開を妨げています。なぜなら、プロンプトを構築するためにどのデモを使用するかを決定することが非常にコストがかかるからです。しかし、この論文では、ほとんどのテストサンプルが実際には同じプロンプトの下で最適なパフォーマンスを達成するという直感に反する現象を発見しました。サンプルレベルのプロンプトを検索することは追加の時間を要するだけで、完全に同一のプロンプトを生み出す結果になります。したがって、我々は推論段階でのプロンプト検索のコストを削減するために、タスクレベルのプロンプトを提案し、時間を節約しながら効果的な2つのタスクレベルプロンプト検索戦略を導入します。広範な実験結果は、我々の提案した方法が近似最適なプロンプトを特定でき、最小のコストで最高のVICLパフォーマンスに到達できることを示しています。これは以前の研究では達成できなかったものです。

2025-01-15T14:52:20


ToMATO: Verbalizing the Mental States of Role-Playing LLMs for Benchmarking Theory of Mind

http://arxiv.org/abs/2501.08838v1

Kazutoshi Shinoda, Nobukatsu Hojo, Kyosuke Nishida, Saki Mizuno, Keita Suzuki, Ryo Masumura, Hiroaki Sugiyama, Kuniko Saito

既存の心の理論(ToM)ベンチマークは、次の3つの点で現実のシナリオと乖離しています。1)信念などの限られた範囲のメンタルステートを評価する、2)虚偽の信念が包括的に探求されていない、3)キャラクターの多様な性格特性が無視されている。これらの課題に対処するために、私たちはToMATOを導入します。ToMATOは、会話における選択式QAとして構成された新しいToMベンチマークです。ToMATOは、情報の非対称性を持つLLM-LLM間の会話を通じて生成されます。ロールプレイを行うLLMが各発言の前に思考を言語化することを求めるプロンプティング手法を用いることで、信念、意図、欲望、感情、知識の5つのカテゴリにわたる一段および二段のメンタルステートを捉えます。これらの言語化された思考は、会話内のキャラクターのメンタルステートを評価するために設計された質問への回答となります。さらに、他者から思考を隠すことで生じる情報の非対称性は、さまざまなメンタルステートに関する虚偽の信念の生成を促します。LLMに異なる性格特性を割り当てることで、発言と思考の多様性がさらに増します。ToMATOは5.4kの質問、753の会話、および15の性格特性パターンで構成されています。私たちの分析は、このデータセットの構築アプローチがロールプレイを行うLLM間の情報の非対称性により虚偽の信念を頻繁に生成し、多様な性格を効果的に反映することを示しています。私たちはToMATO上で9つのLLMを評価し、たとえGPT-4oミニであっても人間のパフォーマンスに遅れをとっており、特に虚偽の信念を理解する際に弱く、さまざまな性格特性に対する堅牢性を欠いていることを発見しました。

2025-01-15T14:47:02


MMDocIR: Benchmarking Multi-Modal Retrieval for Long Documents

http://arxiv.org/abs/2501.08828v1

Kuicai Dong, Yujing Chang, Xin Deik Goh, Dexun Li, Ruiming Tang, Yong Liu

Huawei, Noah’s Ark Lab

マルチモーダル文書検索は、図、表、チャート、レイアウト情報など、さまざまな形式のマルチモーダルコンテンツを特定し、取得することを目的としています。重要性にもかかわらず、マルチモーダル文書検索におけるシステムのパフォーマンスを効果的に評価するための堅牢なベンチマークが著しく不足しています。このギャップに対処するため、本研究は、MMDocIRと呼ばれる新しいベンチマークを導入し、ページレベルとレイアウトレベルの2つの異なるタスクを含んでいます。前者は、長い文書内で最も関連性の高いページを特定することに焦点を当てており、後者は特定のレイアウトを検出することを目指しています。これは、全ページ分析よりも細かい粒度を提供します。レイアウトは、テキスト段落、数式、図、表、チャートなど、さまざまな要素を指すことができます。MMDocIRベンチマークは、1,685の質問に対する専門的に注釈されたラベルと、173,843の質問に対するブートストラップラベルを備えたリッチなデータセットで構成されており、マルチモーダル文書検索の訓練と評価を推進するための重要なリソースとなっています。厳密な実験を通じて、(i) ビジュアルリトリーバーがテキストリトリーバーを大幅に上回ること、(ii) MMDocIRのトレインセットがマルチモーダル文書検索の訓練プロセスに効果的に寄与すること、(iii) VLM-textを活用しているテキストリトリーバーがOCR-textを使用しているものよりもはるかに優れていることを明らかにしました。これらの発見は、マルチモーダル文書検索における視覚要素の統合の潜在的な利点を強調しています。

2025-01-15T14:30:13


IDEA: Image Description Enhanced CLIP-Adapter

http://arxiv.org/abs/2501.08816v1

Zhipeng Ye, Feng Jiang, Qiufeng Wang, Kaizhu Huang, Jiaqi Huang

nustti.edu.cn, xjtlu.edu.cn, duke.edu.cn

CLIP(Contrastive Language-Image Pre-training)は、パターン認識やコンピュータビジョンにおいて大きな成功を収めています。CLIPをダウンストリームタスク(例:ゼロショットまたは少数ショット分類)に転送することは、マルチモーダル学習におけるホットなトピックです。しかし、現在の研究は主にテキストのプロンプト学習またはビジョンのアダプターチューニングに焦点を当てており、画像とテキストペア間の相補的な情報および相関関係を十分に活用していません。本論文では、CLIPを少数ショット画像分類タスクに適応させるためのImage Description Enhanced CLIP-Adapter(IDEA)メソッドを提案します。この方法は、視覚的特徴と画像のテキスト記述の両方を利用することによって、細かい特徴を捉えます。IDEAはCLIPのためのトレーニングフリーの方法であり、複数のタスクにおいて最先端のモデルと同等か、それを超える性能を発揮することができます。さらに、Trainable-IDEA(T-IDEA)を導入し、プロジェクターと学習可能な潜在空間という2つの軽量な学習可能コンポーネントを追加することで、IDEAを拡張し、モデルの性能をさらに向上させ、11のデータセットでSOTA結果を達成しました。重要な貢献の1つとして、私たちはLlamaモデルを使用し、11のデータセットの画像に対するテキスト記述を生成するための包括的なパイプラインを設計し、合計1,637,795の画像-テキストペアである「IMD-11」を生成しました。私たちのコードとデータはhttps://github.com/FourierAI/IDEAで公開されています。

2025-01-15T14:12:59


SAIF: A Comprehensive Framework for Evaluating the Risks of Generative AI in the Public Sector

http://arxiv.org/abs/2501.08814v1

Kyeongryul Lee, Heehyeon Kim, Joyce Jiyoung Whang

生成AIの公共部門における急速な採用は、自動化された公共支援から福祉サービス、移民手続きに至る多様な応用を含み、その変革的な可能性を強調する一方で、徹底的なリスク評価の必要性を浮き彫りにしています。普及が進んでいるにもかかわらず、公共部門におけるAI駆動システムに関連するリスクの評価は十分に探究されていません。多様な政府の政策や企業のガイドラインから導き出された確立されたAIリスクの分類を基に、私たちは公共部門における生成AIがもたらす重要なリスクを調査し、マルチモーダルな能力を考慮に入れるように範囲を拡大しています。また、生成AIのリスク評価のための体系的なデータ生成フレームワーク(SAIF)を提案します。SAIFは、リスクの分解、シナリオの設計、脱獄手法の適用、プロンプトの種類の探求という4つの主要なステージを含みます。これにより、プロンプトデータの体系的かつ一貫した生成が確保され、包括的な評価を可能にし、リスク軽減のためのしっかりとした基盤が提供されます。さらに、SAIFは新たに出現する脱獄手法や進化するプロンプトの種類に対応するように設計されており、予期しないリスクシナリオへの効果的な対応を可能にします。この研究が生成AIを公共部門に安全かつ責任持って統合するための重要な役割を果たすと信じています。

2025-01-15T14:12:38


XMusic: Towards a Generalized and Controllable Symbolic Music Generation Framework

http://arxiv.org/abs/2501.08809v1

Sida Tian, Can Zhang, Wei Yuan, Wei Tan, Wenjie Zhu

Tencent

近年、人工知能によって生成されたコンテンツ(AIGC)において、画像合成やテキスト生成の分野で目覚ましい進展があり、人間が生み出すコンテンツに匹敵するものが生成されています。しかし、AIが生成する音楽の品質は、主に音楽の感情を効果的に制御し、高品質な出力を確保するという課題のために、まだこの基準には達していません。本論文では、感情を制御可能で高品質な記号音楽を生成するために、柔軟なプロンプト(すなわち、画像、動画、テキスト、タグ、ハミング)をサポートする一般化された記号音楽生成フレームワークであるXMusicを提案します。XMusicは、2つのコアコンポーネント、XProjectorとXComposerで構成されています。XProjectorは、さまざまなモダリティのプロンプトを投影空間内の記号音楽要素(すなわち、感情、ジャンル、リズム、音符)に解析し、対応する音楽を生成します。XComposerは、生成器(Generator)と選択器(Selector)を含みます。生成器は、革新的な記号音楽表現に基づいて、感情を制御可能でメロディックな音楽を生成し、一方で選択器は、品質評価、感情認識、ジャンル認識タスクを含むマルチタスク学習スキームを構築することで、高品質な記号音楽を特定します。さらに、我々は、精密な感情とジャンルラベルが注釈された108,023のMIDIファイルを含む大規模な記号音楽データセットXMIDIを構築しました。客観的および主観的な評価により、XMusicが現在の最先端技術を大幅に上回る印象的な音楽品質を持つことが示されました。私たちのXMusicは、WAIC 2023で「収集品のハイライト」の9つのうちの1つとして表彰されました。XMusicのプロジェクトホームページはhttps://xmusic-project.github.ioです。

2025-01-15T14:08:44


Networked Agents in the Dark: Team Value Learning under Partial Observability

http://arxiv.org/abs/2501.08778v1

Guilherme S. Varela, Alberto Sardinha, Francisco S. Melo

Universidade de Lisboa, PUC-Rio, INESC-ID

私たちは、ネットワーク化されたエージェントのための新しい協調型マルチエージェント強化学習(MARL)アプローチを提案します。以前の方法は完全な状態情報や共同観測に依存しているのに対し、私たちのエージェントは部分的な観測下で共通の目標に到達する方法を学ばなければなりません。トレーニング中、彼らは個別の報酬を収集し、ローカルな通信を通じてチームの価値関数を近似することで協調的な行動を生み出します。私たちの問題を説明するために、エージェントが切り替えトポロジー通信ネットワークを介して通信するネットワーク化された動的部分観測マルコフゲームフレームワークを導入します。私たちの分散型手法、DNA-MARLは、ローカル通信のためにコンセンサスメカニズムを使用し、ローカル計算のために勾配降下法を使用します。DNA-MARLは、プライバシーの制約があり、メッセージが受取人に届かない可能性がある現実のドメインに適しているため、ネットワーク化されたエージェントの応用範囲を広げます。私たちは、基準となるMARLシナリオを通じてDNA-MARLを評価しました。私たちの結果は、DNA-MARLが以前の方法に対して優れたパフォーマンスを示すことを強調しています。

2025-01-15T13:01:32


How Developers Interact with AI: A Taxonomy of Human-AI Collaboration in Software Engineering

http://arxiv.org/abs/2501.08774v1

Christoph Treude, Marco A. Gerosa

Singapore Management University, Northern Arizona University

人工知能(AI)、特に大規模言語モデルや生成的AIは、ソフトウェア開発において重要な力として台頭しており、開発者に開発ライフサイクル全体にわたる強力なツールを提供しています。ソフトウェア工学の研究では、AIツールがソフトウェア開発において広範囲にわたって研究されてきましたが、開発者とこれらのAI駆動ツールとの間の具体的な相互作用のタイプは、最近になってようやく注目されるようになりました。これらの相互作用を理解し改善することは、AI駆動のワークフローにおける生産性、信頼、効率を向上させる可能性を秘めています。本論文では、開発者とAIツールとの相互作用のタイプに関する分類法を提案し、コードの自動補完提案、コマンド主導のアクション、会話式の支援など、11種類の異なる相互作用タイプを特定します。この分類法に基づいて、AIとの相互作用の最適化、開発者のコントロール向上、およびAI支援開発における信頼と使いやすさの課題への対処に焦点を当てた研究アジェンダを概説します。開発者とAIとの相互作用を研究するための構造化された基盤を確立することで、本論文はソフトウェア開発のためにより効果的で適応的なAIツールの創出に向けた研究を促進することを目的としています。

2025-01-15T12:53:49


Polyp detection in colonoscopy images using YOLOv11

http://arxiv.org/abs/2501.09051v1

Alok Ranjan Sahoo, Satya Sangram Sahoo, Pavan Chakraborty

SOA University, IIIT Allahabad

大腸癌(CRC)は、世界中で最も一般的に診断される癌の一つです。大腸内膜のポリープから始まります。CRCを防ぐためには、早期のポリープ検出が必要です。大腸内視鏡検査は大腸の検査に使用されます。一般的に、内視鏡の先端に設置されたカメラで撮影された画像は、専門家によって手動で分析されます。機械学習の台頭に伴い、さまざまな伝統的な機械学習モデルが使用されています。最近では、深層学習モデルが一般化や微細な特徴の学習に優れているため、ポリープ検出においてより効果的であることが示されています。物体検出のためのこれらの深層学習モデルは、シングルステージモデルとツーステージモデルの2つに分類できます。一般的に、ツーステージモデルはシングルステージモデルよりも高い精度を持っていますが、シングルステージモデルは低い推論時間を持っています。そのため、シングルステージモデルは迅速な物体検出に容易に使用できます。YOLOは、ポリープ検出に成功裏に使用されているシングルステージモデルの一つです。推論時間が短いため、研究者の注目を集めています。研究者たちはこれまでにさまざまなバージョンのYOLOを使用しており、各新しいバージョンごとにモデルの精度が向上しています。本論文では、最近リリースされたYOLOv11のポリープ検出の効果を検証することを目的としています。Kvasirデータセットを用いて、YOLOv11のすべての5つのモデル(YOLO11n、YOLO11s、YOLO11m、YOLO11l、YOLO11x)の性能を分析しました。データセットの2つの異なるバージョンが使用されました。最初は元のデータセットで、もう一方は拡張技術を使用して作成されました。これら2つのバージョンのデータセットを用いたすべてのモデルの性能が分析されました。

2025-01-15T12:40:13


Leveraging LLM Agents for Translating Network Configurations

http://arxiv.org/abs/2501.08760v1

Yunze Wei, Xiaohui Xie, Yiwei Zuo, Tianshuo Hu, Xinyi Chen, Kaiwen Chi, Yong Cui

Tsinghua University, Australian National University

構成の翻訳はネットワーク運用において重要かつ頻繁なタスクです。ネットワークデバイスが故障したり古くなったりした場合、管理者はサービスの継続性を維持するためにそれを交換する必要があります。交換されるデバイスは異なるベンダーから来る可能性があるため、シームレスなネットワーク運用を確保するために構成の翻訳が必要になります。しかし、構成を手動で翻訳するのは労力がかかり、エラーが発生しやすいプロセスです。本稿では、大規模言語モデル(LLM)エージェントを使用したネットワーク構成翻訳のための意図ベースのフレームワークを提案します。我々のアプローチの核となるのは、構成ファイルを断片に分割し、意図を抽出し、正確な翻訳を生成する意図ベースの検索拡張生成(IRAG)モジュールです。また、翻訳された構成の構文および意味の正確性を検証するための二段階の検証方法を設計しています。我々は提案された方法を実世界のネットワーク構成に対して実装し評価しました。実験結果は、我々の方法が97.74%の構文正確性を達成し、翻訳精度において最先端の方法を上回っていることを示しています。

2025-01-15T12:25:56


Generating Realistic Synthetic Head Rotation Data for Extended Reality using Deep Learning

http://arxiv.org/abs/2501.09050v1

Jakob Struye, Filip Lemic, Jeroen Famaey

University of Antwerp - imec, Universitat Politècnica de Catalunya

拡張現実(Extended Reality)は、ユーザーにマルチメディアコンテンツを提供する革新的な方法です。この人気の大きな要因は、現実の動きが仮想体験に正確かつ即座に反映されることによって生まれる没入感とインタラクティビティです。このユーザーの動きは主に頭の回転によって引き起こされ、いくつかの技術的な課題を生じさせます。例えば、どのコンテンツが生成され、伝送されるかは、ユーザーの視線が向いている場所に大きく依存します。ユーザーの動きを積極的に考慮するシームレスなシステムを構築するためには、今後の回転に関する正確な予測が求められます。このような予測器を訓練し評価するには、膨大な量の方向入力データが必要であり、これは人間の試験対象を必要とするため、収集するのが高コストです。より実現可能なアプローチは、試験対象から適度なデータセットを収集し、それを合成データ生成方法を使用してより大きなセットに拡張することです。本研究では、時系列生成に特化して設計された有名な生成対抗ネットワーク(GAN)の拡張であるTimeGANに基づく頭の回転時系列ジェネレーターを提案します。このアプローチは、測定された時系列の分布に密接に一致する新しいサンプルで頭の回転データセットを拡張することができます。

2025-01-15T12:14:15


Dynamic-Aware Spatio-temporal Representation Learning for Dynamic MRI Reconstruction

http://arxiv.org/abs/2501.09049v1

Dayoung Baik, Jaejun Yoo

動的MRI再構成は逆問題の一つであり、深層学習技術の使用により急速に発展しています。特に、グラウンドトゥルースデータを取得することの実際的な難しさから、教師なし学習アプローチが登場しました。その中で最近注目されている有望な手法は、暗黙のニューラル表現(INR)であり、これはデータを座標値を対応する信号値にマッピングする連続関数として定義します。これにより、不完全な測定のみで欠落情報を補完し、逆問題を効果的に解決することが可能になります。しかし、この手法を取り入れた以前の研究は、長い最適化時間や広範なハイパーパラメータチューニングの必要などの欠点に直面しました。これらの問題に対処するために、我々はDynamic-Aware INR(DA-INR)を提案します。これは、動的MRI再構成のためのINR ベースのモデルであり、画像ドメインにおける動的MRIデータの空間的および時間的連続性を捉え、データの時間的冗長性をモデル構造に明示的に取り入れています。その結果、DA-INRは極端なアンダーサンプリング比でも他のモデルよりも再構成品質で優れ、最適化時間を大幅に短縮し、最小限のハイパーパラメータ調整を必要とします。

2025-01-15T12:11:33


Self-supervised Transformation Learning for Equivariant Representations

http://arxiv.org/abs/2501.08712v1

Jaemyung Yu, Jaehyun Choi, Dong-Jae Lee, HyeongGwon Hong, Junmo Kim

Korea Advanced Institute of Science and Technology (KAIST)

教師なし表現学習は、さまざまな機械学習タスクで大きく進展しました。コンピュータビジョンの分野では、最先端のアプローチがランダムクロップやカラージッターのような変換を利用して、不変の表現を実現し、変換にもかかわらず意味的に同じ入力を埋め込んでいます。しかし、これはローカリゼーションや花の分類のような、精密な特徴を必要とするタスクのパフォーマンスを低下させる可能性があります。これに対処するために、最近の研究では変換に敏感な情報を捉える対称的表現学習を取り入れています。しかし、現在の手法は変換ラベルに依存しており、相互依存性や複雑な変換に苦労しています。我々は自己監視型変換学習(STL)を提案し、変換ラベルを画像ペアから得られる変換表現に置き換えます。提案された方法は、変換表現が画像不変であることを確保し、対応する対称的変換を学習し、バッチの複雑さを増加させることなくパフォーマンスを向上させます。我々は、多様な分類および検出タスクでのアプローチの効果を示し、11のベンチマークのうち7つで既存の手法を上回り、検出において優れた結果を示します。AugMixのような複雑な変換を取り入れることで、以前の対称的手法では使用できなかったこのアプローチは、タスク全体のパフォーマンスを向上させ、その適応性と耐久性を強調しました。さらに、さまざまなベースモデルとの互換性は、その柔軟性と幅広い適用可能性を示しています。コードは https://github.com/jaemyung-u/stl で入手できます。

2025-01-15T10:54:21


SPEQ: Stabilization Phases for Efficient Q-Learning in High Update-To-Data Ratio Reinforcement Learning

http://arxiv.org/abs/2501.08669v1

Carlo Romeo, Girolamo Macaluso, Alessandro Sestini, Andrew D. Bagdanov

University of Florence, Electronic Arts

深層強化学習における重要な課題は、サンプル効率です。特に、環境との相互作用を収集することが高価またはリスクが伴う現実のアプリケーションにおいては尚更です。最近のオフポリシーアルゴリズムは、データへの更新比率(UTD比)を増加させ、環境との相互作用ごとにより多くの勾配更新を行うことでサンプル効率を改善しています。この改善はサンプル効率を向上させるものの、勾配更新数が増えるため計算コストが大幅に増加します。本論文では、勾配更新をより効果的に活用するために、トレーニングを異なる学習フェーズに分けることで計算効率を向上させるサンプル効率的な手法を提案します。私たちのアプローチは、ドロップアウトQ関数(DroQ)アルゴリズムに基づいており、オンラインで低UTD比のトレーニングフェーズとオフラインの安定化フェーズを交互に行います。安定化フェーズ中に、新しい環境の相互作用を収集することなくQ関数を微調整します。このプロセスによりリプレイバッファの効果が向上し、計算オーバーヘッドが削減されます。連続制御問題における実験結果は、私たちの手法が最新の高UTD比アルゴリズムと比較して同等の結果を達成しながら、DroQよりも56%少ない勾配更新と50%少ないトレーニング時間を必要とすることを示しています。私たちのアプローチは、より高価な最新技術と同じサンプル効率を維持しつつ、効果的で計算的に経済的な解決策を提供します。

2025-01-15T09:04:19


Spatio-Temporal Foundation Models: Vision, Challenges, and Opportunities

http://arxiv.org/abs/2501.09045v1

Adam Goodge, Wee Siong Ng, Bryan Hooi, See Kiong Ng

Institute for Infocomm Research, Agency for Science, Technology and Research (A*STAR), National University of Singapore, School of Computing, Institute of Data Science

基盤モデルは人工知能を革命的に変革し、パフォーマンスにおける新しい基準を設定し、視覚と言語タスクの幅広い分野で画期的な機能を可能にしました。しかし、交通、公共の健康、環境モニタリングなどの重要な領域における時空間データの普及にもかかわらず、時空間基盤モデル(STFMs)はまだ同様の成功を収めていません。本論文では、STFMsの将来に向けたビジョンを明確にし、それらの本質的な特徴と広範な適用のために必要な一般化能力を概説します。また、研究の現状を批判的に評価し、これらの理想的な特性に対するギャップを特定し、進展を妨げる主要な課題を強調します。最後に、効果的で広く適用可能なSTFMsを目指す研究を推進するための潜在的な機会と方向性を探ります。

2025-01-15T08:52:28


Application of Deep Reinforcement Learning to UAV Swarming for Ground Surveillance

http://arxiv.org/abs/2501.08655v1

Raúl Arranz, David Carramiñana, Gonzalo de Miguel, Juan A. Besada, Ana M. Bernardos

この論文は、航空群の最先端技術について深くまとめており、彼らの管理に関する古典的および新しい強化学習ベースのアプローチの両方をカバーしています。そして、特定の地域の監視、地上目標の探索と追跡を行うために、深層強化学習を統合したハイブリッドAIシステムを提案します。この提案されたシステムは、セキュリティおよび法執行の応用向けに特化しています。群は、協力するUAV(無人航空機)間の異なる探索および追跡タスクを配分する中央の群コントローラーによって管理されます。各UAVエージェントは、群コントローラーによって提案された異なるタスクタイプに特化したさまざまな深層強化学習モデルを使用して訓練された協力的なサブエージェントのコレクションによって制御されます。より具体的には、近接方策最適化(PPO)アルゴリズムを使用してエージェントの行動を訓練しました。さらに、この応用における群の性能を評価するためのいくつかの指標を定義しました。シミュレーションを通じて得られた結果は、私たちのシステムが運用エリアを効果的に探索し、合理的な時間内に目標を取得し、継続的かつ一貫して追跡できることを示しています。

2025-01-15T08:46:20


Fine-grained Spatio-temporal Event Prediction with Self-adaptive Anchor Graph

http://arxiv.org/abs/2501.08653v1

Wang-Tao Zhou, Zhao Kang, Sicong Liu, Lizong Zhang, Ling Tian

University of Electronic Science and Technology of China, Shenzhen Institute for Advanced Study, Kashi Institute of Electronics and Information Industry

イベント予測タスクは、多くの空間領域に分散した時間的・空間的データを扱うことがよくあります。この領域の異なる地域は、異なる特性を示しながらも、潜在的な相関関係を持っています。この空間的異質性と相関関係は、イベント発生の時空間分布に大きく影響しますが、従来の最先端モデルではこの問題に対処されていません。連続空間におけるイベントの空間的依存関係を学ぶことは、その細かい粒度と前提知識の不足のために困難です。本研究では、微細なイベント予測のための新しいグラフ時空間点過程(GSTPP)モデルを提案します。このモデルは、ニューラル常微分方程式(ODE)を使用して、空間的に局所化された領域の状態の動態を共同でモデル化するエンコーダ・デコーダアーキテクチャを採用しています。状態の進化は、空間的な依存関係を捉える新しい自己適応型アンカーグラフ(SAAG)の基盤の上に構築されています。SAAGは、空間内でアンカーノードを適応的に局所化し、これらの間の相関エッジを共同で構築することにより、モデルの複雑な空間イベントパターンの学習能力を強化します。提案されたGSTPPモデルは、微細なイベント予測の精度を大幅に向上させます。広範な実験結果は、私たちの方法が既存の時空間イベント予測手法に対して予測精度を大いに向上させることを示しています。

2025-01-15T08:38:07


MAGNET: Augmenting Generative Decoders with Representation Learning and Infilling Capabilities

http://arxiv.org/abs/2501.08648v1

Savya Khosla, Kushal Kafle, Simon Jenni, Handong Zhao, John Collomosse, Jing Shi

Adobe Research, University of Illinois Urbana-Champaign

元々は一方向の生成モデル用に設計されたデコーダのみの大規模言語モデル(LLM)は、双方向モデリングに適応されつつあります。しかし、一方向および双方向モデルは通常、生成と表現学習という異なる目的で別々に訓練されます。この分離は、より多用途な言語モデルを開発する機会や、これらの目的が相互に補完し合う可能性を見逃しています。本研究では、MAGNETを導入します。これはデコーダのみのLLMの適応であり、堅牢な表現を生成する能力を高め、欠落しているテキストの部分を補完しながら、知識やテキスト生成能力を保持します。MAGNETは3つの自己教師あり訓練目的を採用し、双方向と因果的な注意を組み合わせる注意機構を導入し、すべての目的にわたる統一訓練を可能にします。私たちの結果は、MAGNETで適応されたLLMが以下の点で優れていることを示しています:(1)トークンレベルおよび文レベルの表現学習タスクにおいて強力なテキストエンコーダを超える、(2)未来の文脈を活用して文脈に適したテキストの補完を生成する、(3)繰り返し問題を示さずにオープンエンドのテキスト生成能力を保持する、(4)事前学習中に得られた知識を保持する。

2025-01-15T08:24:03


Reassessing the Role of Chain-of-Thought in Sentiment Analysis: Insights and Limitations

http://arxiv.org/abs/2501.08641v1

Kaiyuan Zheng, Qinghua Zhao, Lei Li

言語と思考の関係は、未解決の哲学的問題であり続けています。既存の見解は、大きく二つの学派に分類できます。一つは言語と思考の独立性を主張するものであり、もう一つは言語が思考を制約するという議論を展開するものです。大規模言語モデルの文脈において、この議論は重要な質問を提起します:言語モデルの意味の理解は思考過程に依存しているのでしょうか?この問題を探るために、推論技術が意味理解を促進できるかどうかを調査します。具体的には、思考を推論と概念化し、推論技術としてチェーン・オブ・ソート・プロンプティングを採用し、その感情分析タスクへの影響を検討します。実験結果は、チェーン・オブ・ソートが感情分析タスクに与える影響は最小限であることを示しています。標準的なプロンプトとチェーン・オブ・ソートプロンプトの両方が、生成されたコンテンツにおいて感情よりも側面に関する用語に焦点を当てています。さらに、反事実的実験は、モデルの感情タスクの処理が主にデモからの情報に依存していることを示しています。実験結果は最初の見解を支持しています。

2025-01-15T08:07:22


TCMM: Token Constraint and Multi-Scale Memory Bank of Contrastive Learning for Unsupervised Person Re-identification

http://arxiv.org/abs/2501.09044v1

Zheng-An Zhu, Hsin-Che Chien, Chen-Kuo Chiang

この論文は、パッチノイズと特徴の不一致に対処するために、ViTトークン制約とマルチスケールメモリバンク(TCMM)手法を提案します。多くの優れた手法は、ViTの特徴を利用して擬似ラベルやクラスタリングプロトタイプを取得し、その後、コントラスト学習を用いてモデルをトレーニングします。しかし、ViTは画像をパッチ埋め込みによって処理するため、必然的にパッチにノイズが導入され、再識別モデルの性能が損なわれる可能性があります。一方、以前のメモリバンクに基づくコントラスト手法は、バッチサイズの制限によりデータの不一致を引き起こす可能性があります。さらに、既存の擬似ラベル手法は、クラスタリングが難しい外れ値サンプルをしばしば廃棄します。これは外れ値サンプルの潜在的な価値を犠牲にし、モデルの多様性と堅牢性を制限します。本論文では、ViTアーキテクチャに対するパッチノイズの影響を軽減するために、ViTトークン制約を導入します。提案されたマルチスケールメモリは、外れ値サンプルの探索を強化し、特徴の一貫性を維持します。実験結果は、私たちのシステムが一般的なベンチマークで最先端の性能を達成していることを示しています。本プロジェクトは、\href{https://github.com/andy412510/TCMM}{https://github.com/andy412510/TCMM}で公開されています。

2025-01-15T07:14:02


ViBidirectionMT-Eval: Machine Translation for Vietnamese-Chinese and Vietnamese-Lao language pair

http://arxiv.org/abs/2501.08621v1

Hong-Viet Tran, Minh-Quy Nguyen, Van-Vinh Nguyen

University of Engineering and Technology, Vietnam National University, Hanoi

この論文では、2022-2023年のVLSP機械翻訳共有タスクの結果を示し、ベトナム語-中国語およびベトナム語-ラオス語の機械翻訳に焦点を当てています。タスクは、ベトナム語と音声処理に関する第9回および第10回年次ワークショップ(VLSP 2022、VLSP 2023)の一環として組織されました。共有タスクの目的は、ベトナム語-中国語およびベトナム語-ラオス語の翻訳(4つの翻訳方向に対応する)を特にターゲットにした機械翻訳システムを構築することでした。提出物は、確立されたメトリック(BLEU [11]およびSacreBLEU [12]など)を使用して、1,000ペアのテストデータ(ニュースおよび一般ドメイン)で評価されました。さらに、システムの出力は、中国語およびラオス語の専門家による人間の判断でも評価されました。これらの人間による評価は、機械翻訳モデルの性能をランキングする上で重要な役割を果たし、より包括的な評価を確保しました。

2025-01-15T06:40:26


Disjoint Processing Mechanisms of Hierarchical and Linear Grammars in Large Language Models

http://arxiv.org/abs/2501.08618v1

Aruna Sankaranarayanan, Dylan Hadfield-Menell, Aaron Mueller

MIT, Northeastern University

すべての自然言語は階層的に構造化されています。人間において、この構造的制限は神経的にコード化されています:2つの文法が同一の語彙で提示されると、言語処理を担当する脳の領域は階層的文法にのみ敏感です。大規模言語モデル(LLMs)を使用して、機能的に異なる階層的処理領域が大規模な言語分布への曝露のみから生じるかどうかを調査します。英語、イタリア語、日本語、または非語(ノンス)を使用して入力を生成し、基盤となる文法を階層的または線形/位置的ルールに適合させます。これらの文法を用いて、まず言語モデルが階層的な入力と線形構造の入力で異なる挙動を示すことを観察します。次に、階層的文法を処理するための要素が線形文法を処理する要素とは異なることを発見し、切除実験で因果的にこれを確認します。最後に、階層選択的要素が非語文法でも活性化されることを観察しました。これは、階層感受性が意味に結びついておらず、分布内の入力にも依存しないことを示唆しています。

2025-01-15T06:34:34


RLHS: Mitigating Misalignment in RLHF with Hindsight Simulation

http://arxiv.org/abs/2501.08617v1

Kaiqu Liang, Haimin Hu, Ryan Liu, Thomas L. Griffiths, Jaime Fernández Fisac

Princeton University

生成AIシステム、特にファウンデーションモデル(FM)は、行動が有益で信頼できるものであることを保証するために、人間の価値観にうまく整合する必要があります。人間の判断を用いてモデルのパフォーマンスを最適化するために、強化学習に基づく人間のフィードバック(RLHF)は有望な成果を示していますが、既存のRLHFパイプラインは主に即時のフィードバックに依存しており、インタラクションがユーザーの効用に与える下流の影響を正確に反映することに失敗することがあります。私たちは、評価者の下流の結果に対する予測に基づくフィードバックが、システム的にグッドハートの法則のダイナミクスを引き起こし、迎合や欺瞞といった不整合な行動を促進し、最終的にはユーザーの結果を劣化させることを示します。これを軽減するために、RLHFを振り返りのフィードバックに再焦点を当てることで、評価を予測から切り離すことを提案します。私たちの理論的分析によれば、評価者のフィードバックを下流の観察に条件づけることで、不整合が緩和され、期待される人間の効用が向上します。たとえこれらの観察がAIシステム自身によってシミュレーションされたものであってもです。この洞察を実際の整合アルゴリズムに活かすために、後悔からの強化学習(RLHS)を導入します。これはまず、考えられる結果をシミュレーションし、その後、振り返って本当に有益だった行動を評価するためのフィードバックを求めます。私たちはRLHSを、広く用いられているオンラインおよびオフラインの好み最適化手法、近接ポリシー最適化(PPO)および直接好み最適化(DPO)に適用し、実証的に不整合が両方の手法で有意に低下することを示します。オンラインの人間ユーザースタディを通じて、RLHSが常にRLHFよりもユーザーの目標達成を支援し、高い満足度評価を得ることを示します。これは、シミュレーションされた後悔のフィードバックのみで訓練されているにもかかわらずです。これらの結果は、RLHFにおける不整合を軽減するために、たとえシミュレーションされたものであっても長期的な結果に焦点を当てることの重要性を強調しています。

2025-01-15T06:33:15


Monte Carlo Tree Search for Comprehensive Exploration in LLM-Based Automatic Heuristic Design

http://arxiv.org/abs/2501.08603v2

Zhi Zheng, Zhuoliang Xie, Zhenkun Wang, Bryan Hooi

複雑な計画タスク(例:NP困難な組合せ最適化(CO)問題)を解決するためのヒューリスティックを手作りすることは一般的な実践ですが、広範なドメイン知識を必要とします。最近、Large Language Model(LLM)に基づく自動ヒューリスティック設計(AHD)手法が手動介入なしで高品質なヒューリスティックを生成する可能性を示しています。既存のLLMベースのAHD手法は、固定数のトップパフォーマンスのLLM生成ヒューリスティックを維持するために集団を使用し、集団を反復的に強化するために進化計算(EC)を導入しています。しかし、集団に基づく手法は貪欲な特性をもたらし、しばしば局所最適解に収束する結果となります。そこで、ヒューリスティックの空間をより包括的に探索するために、すべてのLLM生成ヒューリスティック木構造で保持しながらLLMに基づくヒューリスティック進化にモンテカルロ木探索(MCTS)を使用することを提案します。新しい思考調整プロセスと探索減衰技術を用いた提案されたMCTS-AHD手法は、さまざまな複雑なタスクにおいて大幅に高品質なヒューリスティックを提供します。私たちのコードは、https://github.com/zz1358m/MCTS-AHD-master で入手可能です。

2025-01-15T06:00:50


AutoRestTest: A Tool for Automated REST API Testing Using LLMs and MARL

http://arxiv.org/abs/2501.08600v1

Tyler Stennett, Myeongsoo Kim, Saurabh Sinha, Alessandro Orso

REST APIが現代のWebサービスで広く普及するにつれて、これらのAPIの包括的なテストがますます重要になっています。操作、パラメーター、パラメーター値の広大な検索空間とそれに伴う複雑な依存関係や制約のため、現在のテストツールは低いコードカバレッジに悩まされ、最適でない障害検出につながっています。この限界に対処するために、私たちはAutoRestTestという新しいツールを提案します。これは、セマンティック操作依存グラフ(SODG)をマルチエージェント強化学習(MARL)および大規模言語モデル(LLMs)と統合し、効果的なREST APIテストを実現します。AutoRestTestは、SODGを使用して操作依存パラメーターを特定し、操作、パラメーター、値、依存関係、ヘッダーの5つの専門エージェントを使用して操作の依存関係を識別し、操作シーケンス、パラメーターの組み合わせ、および値を生成します。AutoRestTestはコマンドラインインターフェースを提供し、成功した操作のカウント、検出されたユニークなサーバーエラー、および経過時間に関する継続的なテレメトリーを提供します。完了時に、AutoRestTestは検出されたエラーと実行された操作を強調した詳細な報告書を生成します。本稿では、私たちのツールを紹介し、初期結果を示します。

2025-01-15T05:54:33


LlamaRestTest: Effective REST API Testing with Small Language Models

http://arxiv.org/abs/2501.08598v1

Myeongsoo Kim, Saurabh Sinha, Alessandro Orso

Georgia Tech, IBM T.J. Watson Research Center

現代のウェブサービスは、REST APIに大きく依存しており、通常はOpenAPI仕様を用いて文書化されています。この標準の普及は、これらの仕様に基づいてテストを生成する多くのブラックボックステストツールの開発をもたらしました。特に大規模言語モデル(LLM)を用いた自然言語処理NLP)の最近の進展は、人間が読める仕様の部分から実用的なルールを抽出し、入力値を生成することによってREST APIテストを強化しています。しかし、これらの進展は、サーバーの応答に基づいて特定されたルールやテスト入力を継続的に洗練させる可能性を見過ごしています。この制約に対処するために、我々はLlamaRestTestという新しいアプローチを提案します。これは、テストプロセス中にサーバーの応答を組み込み、現実的なテスト入力を生成し、パラメーターの依存関係を明らかにするために、2つのカスタムLLMを使用します。これらのLLMは、REST APIの例値とパラメーター間の依存関係をマイニングしたデータセットを使用して、Llama3-8bモデルをファインチューニングすることによって作成されました。我々は、LlamaRestTestを12の実世界のサービス(Spotifyなどの人気サービスを含む)で評価し、GPTを利用した仕様強化ツールであるRESTGPTおよびRESTler、MoRest、EvoMaster、ARAT-RLなどの最先端のREST APIテストツールと比較しました。我々の結果は、ファインチューニングによってより小型のLLMが、実用的なルールの検出やREST APIテストのための入力生成において大規模モデルを上回ることを示しています。ベースのLlama3-8Bからファインチューニングされたバージョンの構成を評価し、効率のために2ビット、4ビット、8ビットの量子化を探りました。LlamaRestTestは、RESTGPT強化仕様であっても、コードカバレッジとエラー検出において最先端のツールを上回り、アブレーションスタディではその新しいコンポーネントの影響が強調されています。

2025-01-15T05:51:20


OpenMLDB: A Real-Time Relational Data Feature Computation System for Online ML

http://arxiv.org/abs/2501.08591v1

Xuanhe Zhou, Wei Zhou, Liguo Qi, Hao Zhang, Dihao Chen, Bingsheng He, Mian Lu, Guoliang Li, Fan Wu, Yuqiang Chen

Shanghai Jiao Tong Univ., 4Paradigm Inc., SF Express Inc., National Univ. of Singapore, Tsinghua University

効率的かつ一貫した特徴計算は、幅広いオンライン機械学習(ML)アプリケーションにとって重要です。一般的に、特徴計算はモデル訓練のためのオフラインステージとモデル提供のためのオンラインステージの二つの異なるフェーズに分かれています。これらのフェーズはしばしば異なるインターフェース言語や関数実装を持つ実行エンジンに依存しており、重要な不一致を引き起こしています。さらに、多くのオンラインML機能は、標準的なストリーミングおよび分析クエリとは異なる複雑な時系列計算(例:さまざまな長さのテーブルウィンドウにわたる関数)を含んでいます。既存のデータ処理システム(例:Spark、Flink、DuckDB)は、これらの計算に対して数秒のレイテンシを引き起こすことが多く、タイムリーな特徴更新を要求するリアルタイムオンラインMLアプリケーションには不向きです。本論文では、4ParadigmのSageOneプラットフォームおよび100以上の実際のシナリオで展開された特徴計算システムOpenMLDBを紹介します。技術的には、OpenMLDBはまず、オフラインステージとオンラインステージ間で一貫した計算結果を得るための統一クエリプランジェネレーターを採用し、特徴デプロイのオーバーヘッドを大幅に削減します。次に、OpenMLDBは、長いウィンドウ計算(事前集計を通じて)およびマルチテーブルウィンドウの結合(データ自己調整によって)によって引き起こされるパフォーマンスのボトルネックを解決するオンライン実行エンジンを提供します。また、ウィンドウ並列最適化や時間を考慮したデータ偏りの解消を備えた高性能なオフライン実行エンジンも提供します。第三に、OpenMLDBは、メモリ使用を最大化しデータアクセスを加速するために、コンパクトなデータフォーマットとストリーム重視のインデクシングを特徴としています。テストおよび実際のワークロードでの評価は、ベースラインシステムと比較して著しいパフォーマンス改善とリソース節約を示しています。OpenMLDBのオープンコミュニティは現在150人以上の寄稿者が参加し、GitHubで1.6kのスターを獲得しています。

2025-01-15T05:20:01


Sound Scene Synthesis at the DCASE 2024 Challenge

http://arxiv.org/abs/2501.08587v1

Mathieu Lagrange, Junwon Lee, Modan Tailleur, Laurie M. Heller, Keunwoo Choi, Brian McFee, Keisuke Imoto, Yuki Okamoto

この論文は、DCASE 2024 チャレンジのタスク 7 である音響シーン合成について述べています。音声合成と生成モデルの最近の進展により、リアルで多様な音声コンテンツの作成が可能になりました。私たちは、異なる音響シーン合成システムを比較するための標準化された評価フレームワークを導入し、客観的な指標と主観的な指標の両方を組み込んでいます。このチャレンジには4つの提出物があり、Fréchet Audio Distance (FAD) と人間の知覚評価を用いて評価されました。私たちの分析は、音響シーン合成システムの現在の能力と限界に関する重要な洞察を明らかにし、この急速に進化する分野における今後の改善のための領域も強調しています。

2025-01-15T05:15:54


Evaluating SAT and SMT Solvers on Large-Scale Sudoku Puzzles

http://arxiv.org/abs/2501.08569v1

Liam Davis, Tairan Ji

Amherst College

現代のSMTソルバーは、高度な理論推論とエンコーディング技術を統合することによって、制約満足問題へのアプローチを革新しました。本研究では、Z3、CVC5、およびDPLL(T)の現代のSMTソルバーの性能を、DPLLの標準SATソルバーと比較評価します。私たちの改良された数独生成器によって作成された、さまざまな難易度の新しい多様な25x25の数独パズルをベンチマークすることで、高度な理論推論とエンコーディング技術の影響を検証します。私たちの発見は、現代のSMTソルバーが古典的なSATソルバーを大幅に上回ることを示しています。この研究は、論理ソルバーの進化を強調し、大規模な制約満足問題に対処する際のSMTソルバーの有用性の事例を示しています。

2025-01-15T04:31:56


Towards Lightweight and Stable Zero-shot TTS with Self-distilled Representation Disentanglement

http://arxiv.org/abs/2501.08566v1

Qianniu Chen, Xiaoyang Hao, Bowen Li, Yue Liu, Li Lu

ゼロショットテキスト音声合成(TTS)合成は、音声クローンを通じてパーソナライズされた音声カスタマイズに対して大きな可能性を示しています。しかし、現在のゼロショットTTSを実現する方法は、満足のいくパフォーマンスとさまざまな話者に対する一般化可能性を確保するために、大規模なモデルと広範なトレーニングデータセットに大きく依存しています。このことは、導入コストとデータセキュリティの両方に関して懸念を引き起こします。本研究では、軽量で安定したゼロショットTTSシステムを提案します。私たちは、ソース音声とプロンプト音声から、言語的内容とさまざまな話者属性を効果的にモデル化するために設計された新しいTTSアーキテクチャを紹介します。さらに、トレーニングデータの視点から言語的内容と話者を効果的に分離するために、並列データペアを構築する二段階自己蒸留フレームワークを提案します。広範な実験により、我々のシステムはゼロショットTTSタスクにおいて優れた性能と卓越した安定性を示すことがわかりました。さらに、CPUとGPUでそれぞれ0.13および0.012のRTFを示し、著しく優れた計算効率を備えています。

2025-01-15T04:17:48


DualOpt: A Dual Divide-and-Optimize Algorithm for the Large-scale Traveling Salesman Problem

http://arxiv.org/abs/2501.08565v1

Shipei Zhou, Yuandong Ding, Chi Zhang, Zhiguang Cao, Yan Jin

HUST

この論文では、大規模な旅行セールスマン問題(TSP)を解決するための二重分割最適化アルゴリズム(DualOpt)を提案します。DualOptは、解決策の質と計算効率の両方を向上させるために、2つの補完的な戦略を組み合わせています。最初の戦略は、TSPをより小さなサブ問題に分割するグリッドベースの分割統治手法で、これらを並行して解決し、ノードや部分ルートを統合することにより、逐次的に解を洗練させます。このプロセスは、1つのグリッドのみが残るまで続き、高品質の初期解が得られます。第二の戦略は、パスベースの分割最適化手法で、解をサブパスに分割し、各サブパスをニューラルソルバーを使用して最適化し、再び統合することで全体の解を段階的に向上させるものです。最大100,000ノードのランダム生成インスタンスとTSPLIBの実世界データセットを含む2つのグループのTSPベンチマークインスタンスで行った広範な実験は、DualOptの効果を示しています。提案されたDualOptは、文献中の10の最先端アルゴリズムに比べて非常に競争力のある結果を達成します。特に、DualOptは最大インスタンスTSP100Kで1.40%の改善ギャップを達成し、先進のヒューリスティックソルバーLKH3に対して104倍のスピードアップを実現しています。さらに、DualOptはTSPLIBベンチマークに対して強い一般化能力を示し、多様な実世界のTSPアプリケーションに対処する能力を確認しています。

2025-01-15T04:16:28


ANSR-DT: An Adaptive Neuro-Symbolic Learning and Reasoning Framework for Digital Twins

http://arxiv.org/abs/2501.08561v1

Safayat Bin Hakim, Muhammad Adil, Alvaro Velasquez, Houbing Herbert Song

University of Maryland, Baltimore County, University at Buffalo, University of Colorado Boulder

本論文では、「ANSR-DT」と呼ばれるデジタルツイン技術のための適応型神経シンボリック学習フレームワークを提案します。私たちのアプローチは、パターン認識アルゴリズム強化学習とシンボリック推論と組み合わせることで、リアルタイムでの学習と適応型知能を可能にします。この統合により、環境の理解が深まり、継続的な学習が促進され、人間と機械の協力が必要なアプリケーションにおいてリアルタイムでのより良く効果的な意思決定が実現します。私たちは、動的パターンに学習し適応する能力についての \textit{ANSR-DT} フレームワークを評価し、従来の最先端手法と比較して意思決定の精度、信頼性、解釈性において著しい改善を観察しました。しかし、複雑な環境においてシンボリックルールを抽出し統合する課題が依然として存在し、異種環境におけるフレームワークの完全なポテンシャルを制限しています。さらに、私たちの継続的な研究は、将来的に神経モデルのシームレスな統合を確保することでこの問題に対処することを目指しています。また、私たちのオープンソース実装は再現性を促進し、今後の研究が私たちの基盤となる作業に基づいて構築されることを奨励します。

2025-01-15T04:04:57


LAMS: LLM-Driven Automatic Mode Switching for Assistive Teleoperation

http://arxiv.org/abs/2501.08558v1

Yiran Tao, Jehan Yang, Dan Ding, Zackory Erickson

Carnegie Mellon University, University of Pittsburgh

高自由度(DoF)ロボットマニピュレーターをジョイスティックのような低自由度コントローラーで遠隔操作することは、各モードがコントローラーの動きを特定のロボット動作にマッピングする制御モード間の頻繁な切り替えを必要とします。この頻繁な切り替えを手動で行うことは、遠隔操作を厄介で非効率的にする可能性があります。一方で、既存の自動モード切り替えの解決策、たとえばヒューリスティックベースや学習ベースの方法は、しばしばタスク特化型であり、汎用性に欠けます。本文では、タスクコンテキストに基づいて制御モードを自動的に切り替えるために大規模言語モデル(LLM)を活用した新しいアプローチ、LLM駆動自動モード切り替え(LAMS)を紹介します。既存の方法とは異なり、LAMSは事前のタスクデモンストレーションを必要とせず、ユーザーによって生成されたモード切り替えの例を統合することで逐次的に改善します。LAMSを複雑な長期タスクに関する10人の参加者によるアブレーションスタディおよびユーザースタディを通じて検証し、LAMSが手動のモード切り替えを効果的に削減し、代替手法に対して好まれ、時間の経過とともにパフォーマンスが向上することを示します。プロジェクトのウェブサイトおよび補足資料は https://lams-assistance.github.io/ にあります。

2025-01-15T03:49:08


Reinforcement Learning-Enhanced Procedural Generation for Dynamic Narrative-Driven AR Experiences

http://arxiv.org/abs/2501.08552v1

Aniruddha Srinivas Joshi

University of California, Santa Cruz

手続き型コンテンツ生成(PCG)は、ゲームにおいてスケーラブルで多様な環境を作成するために広く使用されています。しかし、既存の手法、例えば波動関数崩壊(WFC)アルゴリズムは、静的なシナリオに限定されがちで、特に拡張現実(AR)ゲームにおいて動的で物語重視のアプリケーションに必要な適応性が欠けています。本論文では、モバイルAR環境向けに設計された強化学習を強化したWFCフレームワークを提案します。環境特有のルールと強化学習(RL)によって情報を得た動的なタイルの重み調整を統合することにより、提案手法は文脈的に一貫性があり、ゲームプレイのニーズに応じて応答するマップを生成します。比較評価とユーザー調査により、このフレームワークは優れたマップ品質を達成し、没入感のある体験を提供することが示されており、物語重視のARゲームに適しています。また、この手法は教育、シミュレーショントレーニング、没入型の拡張現実(XR)体験など、動的で適応可能な環境が重要となる幅広い応用の可能性を秘めています。

2025-01-15T03:23:06


The Devil is in Temporal Token: High Quality Video Reasoning Segmentation

http://arxiv.org/abs/2501.08549v1

Sitong Gong, Yunzhi Zhuge, Lu Zhang, Zongxin Yang, Pingping Zhang, Huchuan Lu

Dalian University of Technology, Harvard University

既存のビデオ推論セグメンテーション手法は、キー フレームまたは全体のビデオ内のオブジェクトを表すために単一の特別なトークンに大きく依存しており、空間的複雑さやフレーム間の動きを不十分に捉えています。これらの課題を克服するために、私たちは VRS-HQ を提案します。これは、マルチモーダル大規模言語モデル (MLLM) を活用して階層トークンに豊富な時空間特徴を注入するエンドツーエンドのビデオ推論セグメンテーションアプローチです。私たちの主要な革新には、時間的動的集約 (TDA) とトークン駆動型キー フレーム選択 (TKS) が含まれます。具体的には、MLLM の自己回帰学習を利用してローカル情報とグローバル情報の両方を効果的に捉えるフレームレベルの <SEG> トークンと時間レベルの <TAK> トークンを設計しています。その後、類似性に基づく重み付け融合およびフレーム選択戦略を適用し、SAM2 を使用してキー フレームのセグメンテーションと伝播を実行します。キー フレームのローカライズ精度を向上させるために、TKS は推論中に SAM2 の遮蔽スコアに基づいてキー フレームをフィルタリングします。VRS-HQ は ReVOS で最先端のパフォーマンスを達成し、3 つのサブセット全体で J&F スコアにおいて VISA を 5.9%/12.5%/9.1% 上回っています。これらの結果は、私たちの手法の強力な時間的推論およびセグメンテーション能力を強調しています。コードとモデルの重みは VRS-HQ で公開される予定です。

2025-01-15T03:17:24


Knowledge prompt chaining for semantic modeling

http://arxiv.org/abs/2501.08540v1

Ning Pei Ding, Jingge Du, Zaiwen Feng

Huazhong Agricultural University

構造化データ(CSVJSONXMLファイルなど)のセマンティクスを構築する作業は、知識表現の分野において非常に重要です。インターネット上には膨大な構造化データがありますが、これらをドメインオントロジーマッピングしてセマンティクスを構築することは依然として非常に難しい課題です。これは、構築モデルがグラフ構造の知識を理解し学習する必要があるからです。さもなければ、この作業は人間の努力とコストを必要とします。本論文では、新しい自動セマンティックモデリングフレームワーク「Knowledge Prompt Chaining」を提案しました。このフレームワークは、グラフ構造の知識をシリアライズし、プロンプトチェイニングアーキテクチャに適切にLLMに注入することができます。この知識の注入とプロンプトチェイニングを通じて、我々のフレームワーク内のモデルはグラフの構造情報と潜在空間を学習し、チェーンの指示に従って自然にセマンティックラベルとセマンティックグラフを生成できます。実験結果に基づくと、我々の手法は、構造化入力データを減少させたにもかかわらず、既存の先進技術よりも優れた性能を発揮します。

2025-01-15T03:00:57


Dynamic Portfolio Optimization via Augmented DDPG with Quantum Price Levels-Based Trading Strategy

http://arxiv.org/abs/2501.08528v1

Runsheng Lin, Zihan Xing, Mingze Ma, Raymond S. T. Lee

BNU-HKBU United International College

深層学習の発展に伴い、動的ポートフォリオ最適化(DPO)問題は近年、金融分野だけでなく深層学習の分野でも大きな注目を集めています。最近の先進的な研究では、DPO問題に深層強化学習(DRL)を適用する提案がされており、これがDPO問題の解決に際して従来の教師あり学習よりも有利であることが示されています。しかし、依然として解決されていない問題がいくつか存在します。1) DRLアルゴリズムは通常、学習速度が遅くサンプルの複雑性が高いという問題があり、特に複雑な金融データを扱う際には問題となります。2) 研究者たちは、高いリターンを得る目的で単純にDRLを使用していますが、リスク管理や取引戦略の問題にはあまり注目せず、これがモデルのリターンの安定性に影響を与えることになります。これらの問題に対処するために、本研究では深層決定論的ポリシー勾配(DDPG)に基づいてモデルの内在的な構造を改良し、拡張DDPGモデルを提案しました。さらに、量子ファイナンス理論(QFT)から導出された量子価格レベル(QPL)に基づく革新的なリスク管理戦略も提案しました。実験結果は、当社のモデルがベースラインモデルと比較して、DPO問題においてより良い収益性とリスク管理能力を持ち、サンプルの複雑性が少ないことを示しています。

2025-01-15T02:37:28


Doc-Guided Sent2Sent++: A Sent2Sent++ Agent with Doc-Guided memory for Document-level Machine Translation

http://arxiv.org/abs/2501.08523v1

Jiaxin Guo, Yuanchang Luo, Daimeng Wei, Ling Zhang, Zongyao Li, Hengchao Shang, Zhiqiang Rao, Shaojun Li, Jinlong Yang, Zhanglin Wu, Hao Yang

Huawei

人工知能の分野では、自然言語処理において大きな進展が見られ、これは主に大規模言語モデル(LLMs)の能力に起因しています。これらのモデルは、特に文書レベルの機械翻訳(DocMT)における長いコンテキスト依存関係に対処するために設計されたエージェントの基盤を形成しています。DocMTには独特の課題があり、評価のための重要な指標は、品質、一貫性、流暢さです。既存のアプローチ、例えばDoc2DocやDoc2Sentは、文を省略するか、流暢さを妥協しています。本論文では、隣接する文の流暢さを向上させながら、すべての文が翻訳されることを保証するために、逐次的な文レベルの強制デコーディング戦略を採用したエージェントであるDoc-Guided Sent2Sent++を紹介します。私たちのエージェントは、要約とその翻訳にのみ焦点を当てたDoc-Guided Memoryを活用しており、一貫性を保つ効率的なアプローチであることがわかりました。複数の言語およびドメインにわたる広範なテストを通じて、Sent2Sent++が品質、一貫性、流暢さの面で他の方法を上回ることを示しました。結果は、私たちのアプローチがs-COMET、d-COMET、LTCR-$1_f$、および文書レベルの困惑度(d-ppl)などの指標において大幅な改善を達成したことを示しています。本論文の貢献には、現在のDocMT研究の詳細な分析、Sent2Sent++デコーディング方法の導入、Doc-Guided Memoryメカニズムの紹介、およびさまざまな言語およびドメインにおけるその有効性の検証が含まれています。

2025-01-15T02:25:35


Mitigating Domain Shift in Federated Learning via Intra- and Inter-Domain Prototypes

http://arxiv.org/abs/2501.08521v1

Huy Q. Le, Ye Lin Tun, Yu Qiao, Minh N. H. Nguyen, Keon Oh Kim, Choong Seon Hong

Federated Learning(FL)は、クライアントがプライベートデータを共有せずに協力してグローバルモデルを訓練できる分散型機械学習技術として登場しました。しかし、ほとんどのFL研究は、各クライアントが異なる特徴分布を持つという重要な課題を無視しています。このような非均質なドメインは、実際のシナリオで一般的です。プロトタイプ学習は、同じクラス内の平均特徴ベクトルを活用し、ドメインの偏りにおける連合学習のための有力な解決策となりました。しかし、既存の連合プロトタイプ学習法は、サーバー上のドメイン間プロトタイプのみを考慮し、ドメイン内の特性を見落としています。本研究では、ドメインシフトを軽減し、連合学習における複数のドメイン間で一般化されたグローバルモデルを学習するために、$\textbf{I}$ntra-domainと$\textbf{I}$nter-domainの$\textbf{P}$rototypesを組み込んだ新しい連合プロトタイプ学習手法I$^2$PFLを提案します。ドメイン内プロトタイプを構築するために、MixUpベースの拡張プロトタイプを用いた特徴アラインメントを提案し、ローカルドメインの多様性を捉え、ローカル特徴の一般化を強化します。さらに、異なるクライアント間のドメインスキューを軽減し、ドメイン間の知識を提供するために、一般化されたプロトタイプを生成するためのドメイン間プロトタイプの再重み付けメカニズムを導入します。Digits、Office-10、およびPACSデータセットにおける広範な実験により、私たちの手法が他のベースラインと比べて優れた性能を示していることが裏付けられます。

2025-01-15T02:17:38


Easing Seasickness through Attention Redirection with a Mindfulness-Based Brain--Computer Interface

http://arxiv.org/abs/2501.08518v1

Xiaoyu Bao, Kailin Xu, Jiawei Zhu, Haiyun Huang, Kangning Li, Qiyun Huang, Yuanqing Li

South China University of Technology, South China Normal University, Pazhou Laboratory, South China Brain–Computer Interface Technology Co., Ltd.

乗り物酔いは、乗客の体験や海上クルーの運営効率に悪影響を及ぼす一般的な問題です。注意をそらす技術は、陸上環境における動揺症状を和らげるために効果的であることが示されていますが、海上旅行に関連する長期間かつ激しい動きの環境で酔いを管理するために同様の戦略を適用することには独特の課題があります。本研究では、現実の状況で酔いの症状を緩和することを目的とした、注意をそらすために特別に設計されたマインドフルネス脳-コンピュータインターフェース(BCI)を提案します。我々のシステムは、前頭部のEEG信号をキャプチャするための単一チャンネルのヘッドバンドを利用し、それをワイヤレスで計算デバイスに送信してマインドフルネス状態を評価します。結果は、マインドフルネススコアと視聴覚刺激としてリアルタイムフィードバックに転送され、生理的な不快感からマインドフルネス実践へ注意の焦点を移すことを促進します。合計43人が、リアルな海上実験に参加し、3つのセッションから成る:リアルフィードバックのマインドフルネスセッション、休息セッション、および擬似フィードバックのマインドフルネスセッションに参加しました。特筆すべきは、81.39%の参加者がマインドフルネスBCI介入が効果的だったと報告し、ミザリー尺度(MISC)によって測定された酔いの重症度の有意な低下が見られたことです。さらに、EEG分析は、酔いの症状の緩和に対応するシータ/ベータ比の低下を示しました。リアルフィードバックのマインドフルネスセッション中の全体的なEEGバンドパワーの低下は、マインドフルネスBCIがより落ち着いた抑制された脳活動を促進することを示唆しています。これにより、本研究は乗り物酔いの介入に対する新しい非薬理学的、ポータブルで効果的なアプローチを提供し、乗客と乗員の両方のクルージング体験を向上させる可能性を示しています。

2025-01-15T02:06:29


Exploring the Efficacy of Meta-Learning: Unveiling Superior Data Diversity Utilization of MAML Over Pre-training

http://arxiv.org/abs/2501.08506v1

Kavita Selva, Satita Vittayaareekul, Brando Miranda

Stanford University

現在、大規模で強力なモデルのトレーニングにおいて、データとモデルのサイズがその物語の主導権を握っています。しかし、トレーニングデータセットの他の属性がモデルのパフォーマンスに与える影響については探求が不足しています。私たちは、データセットの多様性が視覚モデルのパフォーマンスに影響を与える可能性があると仮定します。私たちの研究は、テストセットの精度とデータの多様性の間に正の相関関係があることを示しており、サイズを超えたデータセットの属性の研究を進めるための根拠を提供します。私たちは、12の一般的な視覚データセット(例:Omniglot、CIFAR-FS、Aircraft)および異なる内側の勾配ステップ数を持つMAMLのバリアントや教師あり学習を含む5つのモデル構成に対して、事前トレーニングとモデルに依存しないメタ学習手法を分析しました。精度とデータの多様性の間には中程度から強い正の相関関係(R二乗:0.15-0.42)があり、損失と多様性の間には弱いが重要な相関関係(R二乗:~0.2)が示されました。これらの発見は私たちの仮説を支持し、正式なデータ多様性がモデルのパフォーマンスにどのように影響を与えるかをより深く探求するための有望な方法を示しています。この初期の研究は、(Task2Vec)のデータ多様性が大規模学習の急速に進化する分野において貴重な指標である可能性を強調し、データセットを理解することがより強力で汎用的なモデルを構築するための鍵であることを強調しています。

2025-01-15T00:56:59


Adapting Whisper for Regional Dialects: Enhancing Public Services for Vulnerable Populations in the United Kingdom

http://arxiv.org/abs/2501.08502v1

Melissa Torgbi, Andrew Clayman, Jordan J. Speight, Harish Tayyar Madabushi

University of Bath, Wyser LTD

私たちは、公共サービスの分野で新しいデータを収集し、最先端の自動音声認識(ASR)モデルがイギリス(UK)内のアクセントの地域差を把握する能力を評価します。特に、異なる方言を持つスコットランドの2つのアクセントに焦点を当てています。この研究は、バイアスのあるASRモデルが公共サービスにおいて誤解を招く可能性がある現実の問題に対処しており、特に脆弱なグループに属する地域アクセントを持つ個人に不利な影響を及ぼします。まず、ベースラインデータセットおよび私たちのデータに対するWhisper large-v3モデルの初期性能を調べます。その後、Whisperを微調整することがイギリスの2つの地域における性能に与える影響を探り、手動でのモデルエラーの検査を通じて、私たちの現実のアプリケーションに対する既存のモデル評価技術の有効性を調査します。私たちは、Whisperモデルがテストデータセットに対する単語誤り率(WER)がベースラインデータに比べて高いことを観察しました。また、特定のデータで微調整を行うことで、同じドメインとアクセントのテストデータセットにおける性能が向上することも確認しました。微調整されたモデルは、訓練された地域外のテストデータに適用する際にも性能が改善されるようで、微調整されたモデルはUKの一部の地域内で移転可能である可能性を示唆しています。モデルの出力に対する手動分析により、WERを評価指標として使用することの利点と欠点、ならびに地域方言に適応するための微調整の効果が明らかになりました。

2025-01-15T00:39:21


2025-01-13 arXiv論文リスト(cs.AI)

About

arXivに掲載されたcs.AIの論文を検索し、一部をリスト化したものです。

※AIによってAbstractを日本語に翻訳しており、内容に誤りがある可能性があります。

リスト件数: 81件

リストから抽出されたキーワード: Cognitive Diagnosis Theory, Retrieval-Augmented Generation, Meta-Reinforcement Learning

Performance Optimization of Ratings-Based Reinforcement Learning

http://arxiv.org/abs/2501.07755v1

Evelyn Rose, Devin White, Mingkang Wu, Vernon Lawhern, Nicholas R. Waytowich, Yongcan Cao

この論文は、評価に基づく強化学習(RbRL)の性能を向上させるための複数の最適化手法を探求しています。RbRLは、人間の評価に基づくアイデアに基づいて開発された手法で、報酬なしの環境で報酬関数を推測し、標準的な強化学習による次のポリシー学習を行うために必要な報酬関数の利用可能性を求めます。具体的には、RbRLは、推測された報酬から得られた推定評価と人間の評価との違いを定量化するクロスエントロピー損失を最小限に抑えます。したがって、損失が低いということは、人間の評価と推定評価との間に高い一貫性があることを意味します。シンプルな形式にもかかわらず、RbRLはさまざまなハイパーパラメータを持ち、さまざまな要因に敏感である可能性があります。したがって、RbRLの性能に対するさまざまなハイパーパラメータの影響を理解するために、包括的な実験を行うことが重要です。この論文は進行中の作業であり、ユーザーにRbRLにおけるハイパーパラメータの選択に関する一般的なガイドラインを提供します。

2025-01-13T23:56:24


Rethinking AI Cultural Evaluation

http://arxiv.org/abs/2501.07751v1

Michal Bravansky, Filip Trhlik, Fazl Barez

University College London, University of Cambridge, University of Oxford, Tangentic

AIシステムが社会にますます統合されるにつれて、多様な文化的価値に合致する能力を評価することは、その責任ある導入にとって重要です。現在の評価方法は主に選択肢式質問(MCQ)データセットに依存しています。本研究では、MCQがオープンエンドのシナリオで表現される文化的価値の複雑さを捉えるには不十分であることを示します。我々の発見は、MCQに基づく評価と制約のない相互作用で伝えられる価値との間に重要な不一致があることを強調しています。これらの発見に基づき、MCQを超えて、AIモデルが現実的な環境において文化的価値にどのように関与するかをよりよく反映する、よりオープンエンドで文脈に特化した評価に移行することをお勧めします。

2025-01-13T23:42:37


CDS: Data Synthesis Method Guided by Cognitive Diagnosis Theory

http://arxiv.org/abs/2501.07674v1

Haokun Zhao, Jinyi Han, Jiaqing Liang, Yanghua Xiao

Fudan University, East China Normal University

大規模言語モデル(LLM)はさまざまな領域で優れた能力を示していますが、新しい課題の増加する複雑さは、向上したパフォーマンスと適応性を要求しています。従来のベンチマークは包括的であるものの、詳細な能力分析に必要な粒度を欠いていることが多いです。本研究では、認知診断理論(CDT)を用いてLLMの正確な評価とターゲット強化を行う認知診断合成(CDS)手法を紹介します。CDSは複雑なタスクを離散的な知識ポイントに分解することにより、モデルの弱点をターゲットにしたデータを正確に特定し、合成することでモデルのパフォーマンスを向上させます。このフレームワークは、知識ポイントの評価、合成、データの増強、およびフィルタリングによって駆動される包括的なパイプラインを提案しており、モデルの数学的およびコーディング能力を大幅に向上させ、最適なシナリオで最大11.12%の改善を達成します。

2025-01-13T20:13:59


Large Language Models for Interpretable Mental Health Diagnosis

http://arxiv.org/abs/2501.07653v1

Brian Hyeongseok Kim, Chao Wang

私たちは、大規模言語モデル(LLM)と制約論理プログラミング(CLP)の強みを組み合わせた、精神疾患診断のための臨床意思決定支援システム(CDSS)を提案します。CDSSを持つことは、精神的健康の専門家が使用する診断マニュアルの高い複雑さと診断エラーの危険性から重要です。私たちのCDSSは、LLMを使用して診断マニュアルを論理プログラムに翻訳し、そのプログラムを市販のCLPエンジンを使用して解決し、エンコードされたルールと提供されたデータに基づいて患者の診断を照会するソフトウェアツールです。領域の専門家にLLM生成の論理プログラムを検査し、必要に応じて修正する機会を提供することにより、私たちのCDSSは、診断が正確であるだけでなく、解釈可能であることを保証します。私たちは、LLMのみのアプローチを用いた患者診断および専門家の検査なしにLLM生成の論理プログラムを使用するという2つのベースラインアプローチと実験的に比較します。結果は、LLMが候補となる論理プログラムを生成するのに非常に役立つ一方で、これらのプログラムが公式な診断マニュアルに忠実であることを保証するためには、依然として専門家の検査と修正が必要であることを示しています。さらに、LLMに患者データを直接使用することから倫理的な懸念が生じており、私たちの提案する方法のようなより安全なハイブリッドアプローチの必要性が強調されています。

2025-01-13T19:26:09


BlobGEN-Vid: Compositional Text-to-Video Generation with Blob Video Representations

http://arxiv.org/abs/2501.07647v1

Weixi Feng, Chao Liu, Sifei Liu, William Yang Wang, Arash Vahdat, Weili Nie

UC Santa Barbara, NVIDIA

既存の動画生成モデルは、複雑なテキストプロンプトに従ったり、複数のオブジェクトを合成したりするのが困難であり、制御性を向上させるための追加のグラウンディング入力の必要性が高まっています。本研究では、動画を視覚的プリミティブに分解することを提案します。これは、制御可能な動画生成のための一般的な表現であるブロブビデオ表現です。ブロブ条件に基づいて、ユーザーがオブジェクトの動きや詳細なオブジェクトの外観を制御できるブロブグラウンデッドビデオ拡散モデルBlobGEN-Vidを開発しました。特に、フレーム間の地域的一貫性を効果的に改善するマスク付き3Dアテンションモジュールを導入します。さらに、ユーザーが特定のフレームにおける意味を制御できるように、テキスト埋め込みを補間するための学習可能なモジュールを導入し、スムーズなオブジェクトの遷移を実現します。私たちのフレームワークはモデルに依存せず、BlobGEN-VidをU-NetとDiTベースのビデオ拡散モデルの両方に基づいて構築しました。広範な実験結果は、BlobGEN-Vidが複数のベンチマークにおいて優れたゼロショット動画生成能力と最先端のレイアウト制御性を達成することを示しています。レイアウト計画のためにLLMと組み合わせると、私たちのフレームワークは構成的な精度において専有のテキストから動画への生成器を上回ります。

2025-01-13T19:17:06


SafePowerGraph-LLM: Novel Power Grid Graph Embedding and Optimization with Large Language Models

http://arxiv.org/abs/2501.07639v1

Fabien Bernier, Jun Cao, Maxime Cordy, Salah Ghamizi

University of Luxembourg, Luxembourg Institute of Science and Technology (LIST)

最適電力フロー(OPF)問題を効率的に解決することは、運用計画やグリッド管理にとって重要です。現代の電力ネットワークにおける変動性、制約、および不確実性の増加に対応できるスケーラブルなアルゴリズムの需要が高まっています。そのため、機械学習技術、特にグラフニューラルネットワーク(GNN)が有望なアプローチとして浮上しています。この文書では、OPF問題を大規模言語モデル(LLM)を使用して解決するために明示的に設計された初のフレームワーク、SafePowerGraph-LLMを紹介します。提案するアプローチは、電力網のグラフ表現と表形式の表現を組み合わせて、LLMに効果的にクエリを実行し、電力システムの複雑な関係と制約を捉えます。OPF問題に特化して調整されたLLMのインコンテキスト学習とファインチューニングプロトコルの新しい実装も導入されます。SafePowerGraph-LLMは、既製のLLMを使用して信頼性のあるパフォーマンスを示しています。我々の研究では、LLMのアーキテクチャ、サイズ、ファインチューニングの影響を明らかにし、我々のフレームワークが現実的な電力グリッドのコンポーネントと制約を処理する能力を示しています。

2025-01-13T19:01:58


Dataset Distillation via Committee Voting

http://arxiv.org/abs/2501.07575v1

Jiacheng Cui, Zhaoyi Li, Xiaochen Ma, Xinyue Bi, Yaxin Luo, Zhiqiang Shen

MBZUAI, University of Ottawa, Technical University of Denmark

データセット蒸留は、元のデータの本質的な特性を保持しつつ、小さく代表的なデータセットを合成することを目指しており、計算資源を削減しつつ効率的なモデルの訓練を可能にします。これまでの研究は、主に元のデータと合成データとの整合性またはマッチングプロセスの改善、または大規模データセットの蒸留効率の向上に焦点を当ててきました。本研究では、複数のモデルや専門家の集団的な知恵を活用して高品質な蒸留データセットを作成する新しい独自のアプローチである委員会投票によるデータセット蒸留(CV-DD)を紹介します。まず、最新の進展に基づいた思慮深い調整とモデル設計・最適化プロセスを活用することによって、すでに最先端の精度を達成する強力なベースラインを確立する方法を示します。モデルの委員会からの分布と予測を統合し、高品質のソフトラベルを生成することで、我々の方法はより広範なデータ特徴を捉え、モデル固有のバイアスや分布シフトの悪影響を軽減し、一般化の大幅な改善を実現します。この投票に基づく戦略は、蒸留データセット内の多様性とロバスト性を促進するだけでなく、過剰適合を大幅に削減し、後続の評価タスクでの性能を向上させます。さまざまなデータセットやクラスあたりの画像数(IPC)にわたる広範な実験により、委員会投票が単一または複数モデルの蒸留手法と比較して、より信頼性が高く適応可能な蒸留データをもたらすことが示され、効率的で正確なデータセット蒸留の可能性を証明しています。コードは以下から入手可能です:https://github.com/Jiacheng8/CV-DD

2025-01-13T18:59:48


UnCommon Objects in 3D

http://arxiv.org/abs/2501.07574v1

Xingchen Liu, Piyush Tayal, Jianyuan Wang, Jesus Zarzar, Tom Monnier, Konstantinos Tertikas, Jiali Duan, Antoine Toisoul, Jason Y. Zhang, Natalia Neverova, Andrea Vedaldi, Roman Shapovalov, David Novotny

私たちは、3D深層学習および3D生成AIのための新しいオブジェクト中心のデータセット「Uncommon Objects in 3D (uCO3D)」を紹介します。uCO3Dは、3Dアノテーションを備えたオブジェクトの高解像度ビデオの最大の公開コレクションであり、360度の全方位カバレッジを保証します。uCO3Dは、MVImgNetやCO3Dv2よりも多様性が大幅に高く、1,000以上のオブジェクトカテゴリーをカバーしています。また、収集されたビデオと3Dアノテーションの両方に対して広範な品質チェックが行われているため、品質も高いです。類似のデータセットと同様に、uCO3Dには3Dカメラポーズ、深度マップ、およびスパースポイントクラウドアノテーションが含まれています。さらに、各オブジェクトにはキャプションと3Dガウススプラット復元が付属しています。MVImgNet、CO3Dv2、uCO3Dのいくつかの大規模な3Dモデルを訓練し、後者を使用することで優れた結果を得られたことを示しており、uCO3Dが学習アプリケーションに適していることを示しています。

2025-01-13T18:59:20


WebWalker: Benchmarking LLMs in Web Traversal

http://arxiv.org/abs/2501.07572v2

Jialong Wu, Wenbiao Yin, Yong Jiang, Zhenglin Wang, Zekun Xi, Runnan Fang, Linhai Zhang, Yulan He, Deyu Zhou, Pengjun Xie, Fei Huang

Retrieval-augmented generation (RAG)は、オープンドメインの質問応答において驚異的なパフォーマンスを示します。しかし、従来の検索エンジンは表面的なコンテンツを取得する場合があり、これによりLLM(大規模言語モデル)が複雑で多層的な情報を扱う能力が制限されることがあります。これに対処するために、私たちはWebWalkerQAを導入します。これは、LLMがウェブの巡回を行う能力を評価するために設計されたベンチマークです。このベンチマークは、LLMがウェブサイトのサブページを巡回して高品質なデータを体系的に抽出する能力を評価します。私たちは、探査-批評パラダイムを通じて人間のようなウェブナビゲーションを模倣するマルチエージェントフレームワークであるWebWalkerを提案します。多くの実験結果は、WebWalkerQAが挑戦的であり、実世界のシナリオにおける水平的および垂直的統合を通じてWebWalkerと組み合わせたRAGの効果的な使用を示しています。

2025-01-13T18:58:07


Evaluating Agent-based Program Repair at Google

http://arxiv.org/abs/2501.07531v1

Pat Rondon, Renyao Wei, José Cambronero, Jürgen Cito, Aaron Sun, Siddhant Sanyam, Michele Tufano, Satish Chandra

Google

エージェントベースのプログラム修正は、現代のLLMの計画、ツール使用、コード生成能力を組み合わせることによって、複雑なバグを自動的にエンドツーエンドで解決することを提案します。最近の研究では、高評価のGitHubPythonプロジェクトから集めたバグのコレクションである人気のオープンソースSWE-Benchにおけるエージェントベースの修正アプローチの使用が探求されています。さらに、SWE-Agentなどのさまざまなエージェントのアプローチが、このベンチマークにおけるバグを解決するために提案されています。本論文では、企業環境におけるバグに対処するためにエージェント的アプローチを使用する可能性を探ります。これを調査するために、Googleの問題追跡システムから抽出した178のバグの評価セットを作成しました。このデータセットは、人間が報告したバグ(78)と機械が報告したバグ(100)の両方を含んでいます。このベンチマークにおける修正パフォーマンスのベースラインを確立するために、Googleの開発環境内で作業できるSWE-Agentに精神的に類似したエージェントであるPasserineを実装しました。20の軌道サンプルとGemini 1.5 Proを使用することで、Passerineは評価セットの機械報告バグの73%および人間報告バグの25.6%のバグテストに合格するパッチを生成できることを示します。手動調査の結果、機械報告バグの43%と人間報告バグの17.9%には、真のパッチと意味的に等価なパッチが少なくとも1つ存在することがわかりました。これらの結果は、工業的に関連するベンチマークにおけるベースラインを確立しており、これは、人気のあるSWE-Benchデータセットのものと比較して、言語の多様性、サイズ、変更の広がりなどの点で異なる分布から抽出されたバグを含んでいることを示します。

2025-01-13T18:09:25


RadAlign: Advancing Radiology Report Generation with Vision-Language Concept Alignment

http://arxiv.org/abs/2501.07525v1

Difei Gu, Yunhe Gao, Yang Zhou, Mu Zhou, Dimitris Metaxas

自動胸部レントゲン画像の解釈には、正確な病気の分類と詳細な放射線報告書の生成が必要であり、臨床ワークフローにおいて重要な課題となっています。現在のアプローチは、解釈可能性を犠牲にして分類精度に焦点を当てるものか、画像キャプショニング技術を通じて詳細ではあるが信頼性が低い報告書を生成するものです。本研究では、視覚と言語のモデル(VLM)による予測精度と大規模言語モデル(LLM)の推論能力を組み合わせた新しいフレームワーク「RadAlign」を提案します。放射線医のワークフローにインスパイアされたRadAlignは、最初に特化したVLMを使用して視覚的特徴を重要な医療概念と整列させ、複数の病気にわたって平均AUC 0.885を達成し、優れた病気分類を実現します。整列した視覚-言語空間でテキストベースの概念として表現されたこれらの認識された医療状態は、LLMに基づく報告書生成のトリガーとして使用されます。過去の類似ケースに基づいて出力を基盤にするリトリーバル拡張生成メカニズムによって強化されたRadAlignは、0.678のGREENスコアを持つ優れた報告書品質を提供し、最先端の手法の0.634を上回ります。私たちのフレームワークは、強い臨床解釈可能性を維持しながら、幻覚を減少させ、統合された予測および生成AIを通じて自動化された医療画像および報告書分析の進展を促進します。コードはhttps://github.com/difeigu/RadAlignで入手可能です。

2025-01-13T17:55:32


Parallel Key-Value Cache Fusion for Position Invariant RAG

http://arxiv.org/abs/2501.07523v1

Philhoon Oh, Jinwoo Shin, James Thorne

KAIST

最近の大規模言語モデル(LLM)の進展は、外部情報を活用するための情報検索強化生成(RAG)の必要性を強調しています。しかし、LLMは文脈内の関連情報の位置に敏感であり、その情報が中間に配置されると、いわゆる「中間での喪失」現象によって誤った応答を生成しがちです。本論文では、入力文脈の順序に関係なく、デコーダー専用モデルに対して一貫した出力を生成するフレームワークを紹介します。3つのオープンドメインの質問応答タスクに対する実験結果は、モデルが入力文脈の順序に敏感でない位置不変性を示し、従来のRAGパイプラインのアプローチと比較して関連のないパッセージに対する優れたロバスト性を示しています。

2025-01-13T17:50:30


The Paradox of Success in Evolutionary and Bioinspired Optimization: Revisiting Critical Issues, Key Studies, and Methodological Pathways

http://arxiv.org/abs/2501.07515v1

Daniel Molina, Javier Del Ser, Javier Poyatos, Francisco Herrera

Universidad de Granada, Tecnalia

進化的および生物模倣計算は、多様なアプリケーションドメインにおける複雑な最適化問題に効率的に対処するために重要です。進化そのものなど自然界で観察されるプロセスを模倣することによって、これらのアルゴリズムは従来の最適化手法の範囲を超えた革新的な解決策を提供します。彼らは大規模で複雑な探索空間における近似最適解を見つけるのが得意であり、多くの分野で非常に価値があります。しかし、両方の領域は、その核心において、不十分なベンチマーク、問題特有の過剰適合、不十分な理論的基盤、そして生物学的なメタファーだけで正当化された余分な提案などの課題に悩まされています。この概要は、分野内の実験研究における革新と厳密さの欠如に関する批判を要約し、深く分析します。この目的のために、既存の文献の判断的立場を調べ、研究コミュニティをこれらの分野での重要な貢献と進展の方向に導くための情報に基づいた試みを行います。我々は、進化的および生物模倣最適化器の設計、実験的比較の開発、そしてこの分野でさらなる一歩を踏み出す新しい提案の導出に関するガイドラインをまとめます。また、これらのアルゴリズムの作成プロセスを自動化することに関する簡単な注記も提供します。これにより、我々が特定した方法に従えば、メタヒューリスティック最適化研究をその主要な目的(現実世界の問題を解決すること)に沿わせるのに役立つかもしれません。結論として、これらの高度な計算技術の潜在能力を完全に実現するためには、革新への持続的な推進と将来の研究における方法論的厳密さの確保が必要であることを強調します。

2025-01-13T17:37:37


Inductive Learning of Robot Task Knowledge from Raw Data and Online Expert Feedback

http://arxiv.org/abs/2501.07507v1

Daniele Meli, Paolo Fiorini

ロボットの自律性が高まるにつれて、特に人間とロボットのインタラクションシナリオにおいて、信頼と社会的受容に関する課題が生じています。これには、タスク仕様の定義のための論理に基づく形式的手法に基づくロボットの認知能力の解釈可能な実装が必要です。しかし、複雑な現実のシナリオにおいては、事前知識はしばしば利用できません。本論文では、ノイズのある例からの帰納的論理プログラミングに基づくオフラインアルゴリズムを提案し、少数の異種(つまり、繰り返さない)ロボット実行の生データからタスク仕様(すなわち、行動前提、制約、効果)を直接抽出します。私たちのアルゴリズムは、ビデオ運動記録からの任意の教師なし行動識別アルゴリズムの出力を活用しています。また、我々の方法論の解釈可能性に寄与する、環境に関する非常に基本的でほぼタスク非依存の常識的概念の定義と組み合わせることで、行動の前提条件およびその効果をイベント計算パラダイムエンコードする論理公理を学習することが可能になります。学習した仕様の質は、主に行動識別アルゴリズムの精度に依存するため、ユーザーフィードバックからのタスク知識の増分的な洗練のためのオンラインフレームワークも提案し、安全な実行を保証します。標準的な操作タスクと安全性が重要な外科ロボティクスシナリオでのユーザートレーニングのベンチマークにおける結果は、我々の方法論の堅牢性、データおよび時間効率性を示しており、より複雑なドメインでのスケーラビリティに向けた有望な結果を示しています。

2025-01-13T17:25:46


RbRL2.0: Integrated Reward and Policy Learning for Rating-based Reinforcement Learning

http://arxiv.org/abs/2501.07502v1

Mingkang Wu, Devin White, Vernon Lawhern, Nicholas R. Waytowich, Yongcan Cao

強化学習(RL)は、意思決定の一般的なツールであり、関連する累積報酬に基づいて様々な経験からポリシーを学習しますが、これらの経験を異なるものとして扱いません。これに対し、人間は異なる性能レベルを区別し、最良のパフォーマンスのために意思決定を改善する傾向の根底にあるトレンドを抽出することを学びます。この点に着目し、本論文では、収集した経験を区別することにより、人間の意思決定プロセスを模倣する新しいRL手法を提案します。主なアイデアは、異なる性能レベルを持つ経験から重要な方向性情報を抽出することであり、これを「評価」と呼びます。これにより、異なる評価を持つ経験からの望ましい偏差に向けてポリシーを更新することが可能になります。具体的には、現在のポリシーと異なる評価を持つ失敗した経験との間の分布の類似性をペナルティとして課す新しいポリシー損失関数を提案し、評価クラスに基づいてペナルティ項に異なる重みを割り当てます。一方、これらの評価されたサンプルからの報酬学習は、評価されたサンプルからの統合報酬とポリシー学習に向けて新しいポリシー損失と統合することができます。統合された報酬とポリシー損失関数を最適化することにより、累積報酬を最大化し、最低のパフォーマンスレベルからは最もペナルティを課し、最高のパフォーマンスレベルからは最も少ないペナルティを課す方向性を発見することにつながります。提案された手法の効果を評価するために、いくつかの典型的な環境における実験結果を提示し、既存の報酬学習のみの評価ベースの強化学習手法に対する収束の改善と全体的なパフォーマンス向上を示します。

2025-01-13T17:19:34


Data and System Perspectives of Sustainable Artificial Intelligence

http://arxiv.org/abs/2501.07487v1

Tao Xie, David Harel, Dezhi Ran, Zhenwen Li, Maoliang Li, Zhi Yang, Leye Wang, Xiang Chen, Ying Zhang, Wentao Zhang, Meng Li, Chen Zhang, Linyi Li, Assaf Marron

持続可能なAIは、環境への影響を減らし、持続可能性を達成することを目指してAIシステムを開発および使用することに関わるAIの一分野です。大規模言語モデルなどのAIモデルのトレーニングや推論が大量の計算能力を消費していることから、持続可能なAIはますます重要になっています。この記事では、データ収集、データ処理、AIモデルのトレーニングと推論に関連する問題、機会、これらの問題に対処するための解決策の例、そしてデータとシステムの観点から取り組むべき将来の課題について議論します。

2025-01-13T17:04:23


Smart Learning in the 21st Century: Advancing Constructionism Across Three Digital Epochs

http://arxiv.org/abs/2501.07486v1

Ilya Levin, Alexei L. Semenov, Mikael Gorsky

この記事は、教育の枠組みとしての構成主義の進化を探求し、個人コンピュータの登場、ネットワーク社会、そして現在の生成型AIの時代という三つの重要な時代を通じてその関連性と変革を追跡します。シーモア・パパートの構成主義的哲学に基づくこの研究では、構成主義の原則が、個人および集団学習におけるデジタル技術の拡大する役割とどのように整合性を持っているかを考察します。教育環境の変化が、階層的な指導主義から学習者の自律性や対話的、創造的な関与を強調する構成主義的モデルへと移行していることについて議論します。この分析の中心には、デジタルツールやAIの統合が個人の自己認識や社会的相互作用を根本的に再形成する「拡張された自己」という概念があります。構成主義をスマート教育のパラダイムに統合することで、個別化され民主化された学習への基盤的アプローチとして提案します。我々の研究結果は、技術主導の教育の複雑さを乗り越える上での構成主義の持続的な関連性を強調し、デジタル革新を活用して適応的で学生中心の学習体験を促進しようとする教育者や政策立案者に洞察を提供します。

2025-01-13T17:04:06


TiEBe: A Benchmark for Assessing the Current Knowledge of Large Language Models

http://arxiv.org/abs/2501.07482v1

Thales Sales Almeida, Giovana Kerche Bonás, João Guilherme Alves Santos, Hugo Abonizio, Rodrigo Nogueira

Thales, AIG, State University of Campinas (UNICAMP), Maritaca AI

急速に進化する知識の風景と大規模言語モデルの採用が増加する中、これらのモデルを最新のイベントで継続的に更新する必要性が生まれています。既存のベンチマークは一般的な事実の記憶力を評価しますが、モデルが進化する知識を継続的な学習を通じて統合する能力や、パフォーマンスにおける地域的な重大な差異をしばしば見落としています。これらのギャップに対処するために、私たちはTimely Events Benchmark(TiEBe)を導入します。これは、世界的および地域的に重要なイベントに焦点を当てた11,000以上の質問と回答のペアを含むデータセットです。TiEBeは、ウィキペディアからの構造化された回顧データを活用し、LLMの進化する世界情勢に対する知識や、異なる地域でのイベントに対する理解を評価するために継続的な更新を可能にします。我々のベンチマークは、LLMが事実の記憶力においてかなりの地理的差異を示すことを実証しており、よりバランスの取れたグローバルな知識の表現が必要であることを強調しています。さらに、TiEBeは継続的学習戦略を評価するためのツールとして機能し、新しい情報を過去の知識を忘れることなく習得するモデルの能力に洞察を提供します。

2025-01-13T16:58:32


Estimating Musical Surprisal in Audio

http://arxiv.org/abs/2501.07474v1

Mathias Rose Bjare, Giorgia Cantisani, Stefan Lattner, Gerhard Widmer

Johannes Kepler University, ENS, PSL University, CNRS, Sony Computer Science Laboratories, LIT AI Lab, Linz Institute of Technology

音楽の驚き期待を計算的手法でモデル化する際、自己回帰モデルからの1ステップ予測の情報量(IC)を記号音楽の驚きの代理指標として使用することが提案されています。適切に選ばれたモデルを用いることで、音楽イベントのICは驚きや複雑性の人間の知覚、音程やリズムの複雑性を含む側面と相関があることが示されています。本研究では、この類似の方法論が音楽オーディオに適用できるかどうかを調査します。私たちは、事前学習されたオートエンコーダーネットワークの圧縮された潜在オーディオ表現を予測するために自己回帰型トランスフォーマーモデルを訓練します。繰り返しによるICの減少を推定することで学習効果を確認します。音楽セグメントタイプ(例えば、AまたはB)の平均ICを調査し、作品内で後に現れるセグメントタイプは平均して前のものよりも高いICを持つことを見つけました。また、ICと音声および音楽的特徴との関係を調査し、音色の変化や音量と相関があること、さらに、音声および音楽的特徴に関連する不協和音、リズムの複雑性、発音密度といった要素と少なからず相関があることを発見しました。最後に、ICが楽曲に対する脳波(EEG)応答を予測できるかどうかを調査し、音楽における人間の驚きをモデル化しようとします。私たちは、手法のコードをgithub.com/sonycslparis/audioicに提供します。

2025-01-13T16:46:45


A Survey of Embodied AI in Healthcare: Techniques, Applications, and Opportunities

http://arxiv.org/abs/2501.07468v1

Yihao Liu, Xu Cao, Tingting Chen, Yankai Jiang, Junjie You, Minghua Wu, Xiaosong Wang, Mengling Feng, Yaochu Jin, Jintai Chen

Cancer Research Institute, Central South University, HKUST-GZ, University of Illinois Urbana-Champaign, University of Pennsylvania, Shanghai AI Lab, School of Life Sciences, Central South University, Saw Swee Hock School of Public Health, National University of Singapore, School of Engineering, Westlake University, Hong Kong University of Science and Technology

世界中の医療システムは、効率性、アクセスのしやすさ、パーソナライズにおいて永続的な課題に直面しています。マルチモーダルの大規模言語モデルやワールドモデルなどの最新のAI技術によって推進される体現型AI(EmAI)は、これらの課題に対処するための、自律性を高め、物理的世界との相互作用を可能にする変革的な最前線を表しています。「医療におけるEmAI」は、アルゴリズム、ロボティクス、バイオメディスンなどの多様な分野にわたる、学際的かつ急速に進化する研究領域です。この複雑さは、進展を追跡し、課題に対処し、学際的なコラボレーションを促進するためのタイムリーなレビューと分析の重要性を強調しています。本論文では、医療におけるEmAIの「脳」に関する包括的な概要を提供し、知覚、作動、計画、記憶のための基礎的なAIアルゴリズムを紹介し、臨床介入、日常のケアと陪伴、インフラサポート、およびバイオメディカル研究にわたる医療アプリケーションの提示に焦点を当てています。その可能性にもかかわらず、医療向けEmAIの開発は、安全性の懸念、シミュレーションプラットフォームと実世界のアプリケーションとのギャップ、標準化されたベンチマークの欠如、および学際的分野間の不均等な進展といった重要な課題によって妨げられています。私たちは技術的な障壁について議論し、倫理的考慮事項を探求しながら、医療におけるEmAIの未来に向けた前向きな視点を提供します。また、EmAIシステムのための知能レベルの階層的フレームワークも紹介し、さらなる開発を導くことを目指しています。この研究は体系的な洞察を提供することで、イノベーションと実用的なアプリケーションを促進し、知能を備えた患者中心の医療の新たな時代を切り開くことを目指しています。

2025-01-13T16:35:52


Understanding and Benchmarking Artificial Intelligence: OpenAI's o3 Is Not AGI

http://arxiv.org/abs/2501.07458v1

Rolf Pfister, Hansueli Jud

OpenAIのo3は、知性を測定するために提案されたベンチマークARC-AGIで87.5%という高得点を達成しました。これは、特にo3を基盤とする大規模言語モデル(LLM)が知性を示し、人工汎用知能(AGI)に向けた進展を遂げているかどうかという疑問を提起します。ARC-AGIの創始者であるフランソワ・ショレが行ったスキルと知性の区別に基づいて、知性の新たな理解が導入されます:エージェントは、より少ない知識で、より多様な目標をより多様な世界で効率的に達成できるほど、より知的であるとされます。ARC-AGIベンチマークの分析では、そのタスクが事前に定義された操作の組み合わせを大規模に試行することで解決できる非常に特定のタイプの問題を表していることが示されています。この方法はo3によっても適用され、高得点を達成するために計算能力を広範に使用しています。しかし、物理的世界および人間の領域におけるほとんどの問題に関しては、解決策を事前にテストすることができず、事前に定義された操作も利用できません。したがって、o3が行っているように事前定義された操作の大規模な試行はAGIの基盤にはなり得ず、既存のスキルなしでさまざまな問題を確実に解決できる新しいアプローチが必要です。この開発を支援するために、解決すべき未知のタスクの多様性がはるかに高い新たな知性のベンチマークが提案されており、これにより知性とAGIに向けた進展の包括的な評価が可能になります。

2025-01-13T16:28:01


Online inductive learning from answer sets for efficient reinforcement learning exploration

http://arxiv.org/abs/2501.07445v1

Celeste Veronese, Daniele Meli, Alessandro Farinelli

本論文では、トレーニングの性能と説明可能性を向上させるために、帰納論理プログラミングと強化学習を組み合わせた新しいアプローチを提案します。ノイズのある例からの解答集合プログラムの帰納的学習を活用して、各経験バッチにおけるエージェントポリシーの説明可能な近似を表す論理ルールのセットを学習します。その後、学習したルールに基づいて解答集合推論を行い、効率的でない報酬シェーピングを必要とせず、ソフトバイアスを用いて最適性を保持しながら、次のバッチでの学習エージェントの探索を導きます。全体の手続きは、強化学習アルゴリズムのオンライン実行中に行われます。我々のアプローチの有効性は、二つの異なるマップにおけるパックマンシナリオのQ学習アルゴリズムに統合することで、初期の段階で検証します。私たちの方法論は、エージェントが達成する割引リターンを大幅に向上させ、トレーニングの最初のバッチにおいてさえ顕著な効果を示します。さらに、帰納的学習はQ学習に必要な計算時間を妨げることなく、学習したルールはエージェントポリシーの説明に迅速に収束します。

2025-01-13T16:13:22


Attention when you need

http://arxiv.org/abs/2501.07440v1

Lokesh Boominathan, Yizhou Chen, Matthew McGinley, Xaq Pitkow

Carnegie Mellon University, Baylor College of Medicine

タスクに関連する特徴に注意を払うことは、タスクパフォーマンスを向上させることができますが、注意を払うことには独自の代謝コストが伴います。したがって、注意の戦略的な配分は、タスクを効率的に実施するために重要です。本研究は、この戦略を理解することを目的としています。最近、de Geeらは、マウスが聴覚持続的注意価値タスクを実行する実験を行いました。このタスクでは、マウスはノイズの中で高次の音響特徴が存在するかどうかを特定するために注意を払う必要がありました。試行の時間と報酬の大きさを変化させることで、タスクはエージェントが利益を最大化しコストを最小化するために注意を戦略的に配分すべき方法を調査することを可能にします。我々の研究では、マウスの注意コストと利益のバランスを理解するための強化学習に基づいた規範モデルを開発しました。このモデルでは、マウスは各瞬間に二つの注意レベルの間で選択し、報酬を得るためにコストのかかる行動をいつ取るべきかを決定できます。我々のモデルは、注意資源の効率的な利用が高い注意のブロックと低い注意のブロックを交互に行うことを含むことを示唆しています。極端な場合、エージェントが低い注意状態で感覚入力を無視する場合、高い注意がリズミカルに使用されることがわかります。我々のモデルは、タスクの有用性、信号の統計、注意が感覚的証拠にどのように影響するかに応じて、どのように注意を配分すべきかについての証拠を提供します。

2025-01-13T16:08:47


Empirical Evaluation of the Implicit Hitting Set Approach for Weighted CSPs

http://arxiv.org/abs/2501.07432v1

Aleksandra Petrova, Javier Larrosa, Emma Rollón

Universitat Politècnica de Catalunya

SAT技術はさまざまな分野で驚くほど効果的であることが証明されています。しかし、Weighted CSP問題に関しては、専用のアルゴリズムが常に優れています。これまであまり研究されていないアプローチの一つは、SATをImplicit Hitting Setアプローチと組み合わせて使用することです。本研究では、参照の既存のアルゴリズムに対するいくつかの代替案を探ります。代替案は主に関連するブールフレームワークから借用され、IHSアプローチの二つの主要なコンポーネントトレードオフを考慮しています:低コストのヒッティングベクトルの計算と、それらを高コストのコアに変換することです。それぞれについて、4つの強度レベルを提案します。また、コスト関数の統合の有用性もテストするため、私たちの実験では32の異なる実装を考慮します。私たちの実証研究は、WCSPにおいて最良の代替案を特定することは簡単ではないことを示しています。それにもかかわらず、コスト関数の統合エンコーディングおよび最大コアの抽出は堅牢なアプローチであるようです。

2025-01-13T15:59:28


Diff-Ensembler: Learning to Ensemble 2D Diffusion Models for Volume-to-Volume Medical Image Translation

http://arxiv.org/abs/2501.07430v1

Xiyue Zhu, Dou Hoon Kwark, Ruike Zhu, Kaiwen Hong, Yiqi Tao, Shirui Luo, Yudu Li, Zhi-Pei Liang, Volodymyr Kindratenko

University of Illinois at Urbana-Champaign, National Center for Supercomputing Applications

医療画像におけるボリューム間翻訳は成功を収めていますが、既存のモデルの多くは3D表現を使用して固有のボリュメトリック分布を効果的に捉えることに苦労しています。現在の最先端のアプローチは、複数の2Dベースのネットワークを重み付け平均で組み合わせており、3Dの空間構造を無視しています。医療画像において3Dモデルを直接トレーニングすることは、高い計算要求と大規模データセットの必要性から大きな課題を呈します。これらの課題に対処するために、我々はDiff-Ensemblerと呼ばれる新しいハイブリッド2D-3Dモデルを提案します。このモデルは、各拡散ステップで直交してトレーニングされた2D拡散モデルを3Dネットワークとアンサンブルすることで、効率的かつ効果的なボリューメトリック翻訳を実現します。さらに、我々のモデルは異なるモダリティに条件付けられた拡散モデルをアンサンブルするために自然に使用でき、入力条件の柔軟で正確なフュージョンを可能にします。広範な実験により、Diff-Ensemblerが3D医療画像のスーパーレゾリューションとモダリティ翻訳において優れた精度とボリューメトリックリアリズムを達成することが示されています。また、腫瘍セグメンテーションを下流タスクとして使用することにより、我々のモデルのボリューメトリックリアリズムの強さも示しています。

2025-01-13T15:54:21


An Investigation into Seasonal Variations in Energy Forecasting for Student Residences

http://arxiv.org/abs/2501.07423v1

Muhammad Umair Danish, Mathumitha Sureshkumar, Thanuri Fonseka, Umeshika Uthayakumar, Vinura Galwaduge

Western University, London, Ontario, Canada

この研究は、エネルギー予測のためのさまざまな機械学習モデルの詳細な評価を提供し、学生の居住環境における季節的変動の独自の課題に焦点を当てています。研究では、LSTMやGRUなどのベースラインモデルの性能を、自己回帰フィードフォワードニューラルネットワークトランスフォーマー、ハイブリッドアプローチなどの最先端の予測手法とともに評価しています。季節パターン、休暇、気象変化、突発的な使用の変動を引き起こす不規則な人間の活動といった課題の中でエネルギー消費を予測することに特に注意が払われています。結果は、単一のモデルがすべての季節で他のモデルよりも一貫して優れているわけではないことを明らかにし、季節別のモデル選択やカスタマイズ設計の必要性を強調しています。特に、提案されたハイパーネットワークベースのLSTMとMiniAutoEncXGBoostモデルは、季節的変動に強い適応能力を示し、夏の月のエネルギー消費の突然の変化を効果的に捉えています。この研究は、エネルギー予測の分野を進展させ、正確な予測を達成するために季節的ダイナミクスとモデル固有の挙動の重要な役割を強調しています。

2025-01-13T15:43:22


Initial Findings on Sensor based Open Vocabulary Activity Recognition via Text Embedding Inversion

http://arxiv.org/abs/2501.07408v1

Lala Shakti Swarup Ray, Bo Zhou, Sungho Suh, Paul Lukowicz

RPTU, DFKI, Kaiserslautern

従来の人間行動認識(HAR)は、離散的な行動クラスを予測するために訓練された分類器に依存しており、トレーニングセットに明示的に存在する活動に認識を制限しています。このような分類器は、見たことのない活動に遭遇した際に必ず失敗し、ゼロの可能性を示します。私たちは、Open Vocabulary HAR(OV-HAR)を提案します。このフレームワークは、各活動を自然言語に変換し、基本的な動作のシーケンスに分解することで、この制限を克服します。この記述テキストは、その後、固定サイズの埋め込みにエンコードされます。モデルはこの埋め込みを回帰するよう訓練され、その後、事前に訓練された埋め込み逆変換モデルを使用して自然言語にデコードされます。OV-HARは、コアに自動回帰的大規模言語モデル(LLM)に依存する他の研究とは異なり、計算のオーバーヘッドなしでオープンボキャブラリ認識を実現します。生成されたテキストは、LLMプロンプトエンジニアリングを使用して単一の活動クラスに変換できます。私たちは、視覚(ポーズ)、IMU、圧力センサーを含むさまざまなモダリティでアプローチを評価し、見たことのない活動やモダリティに対して堅牢な一般化を示し、現代の分類器とは根本的に異なるパラダイムを提供します。

2025-01-13T15:24:10


PROTECT: Protein circadian time prediction using unsupervised learning

http://arxiv.org/abs/2501.07405v1

Aram Ansary Ogholbake, Qiang Cheng

University of Kentucky, Institute for Biomedical Informatics

サーカディアンリズムは、人間や動物の生理学および行動を調節します。これらのリズムを理解し、転写レベルでのサーカディアンフェーズを予測する技術は進歩しているものの、プロテオームデータからサーカディアンフェーズを予測することは依然として困難です。この課題は主に、プロテオームデータセットにおける時間ラベルの不足によるもので、これらのデータセットはしばしばサンプルサイズが小さく、高次元性があり、ノイズが多いという特性があります。さらに、転写オミクスデータからサーカディアンフェーズを予測するための既存の方法は、知られたリズミカルな遺伝子に関する前提知識に依存することが多く、プロテオームデータセットには適していません。このギャップに対処するために、時間ラベルやタンパク質や遺伝子に関する前提知識を必要とせずに、プロテオームデータからサーカディアンサンプルフェーズを予測する新しい計算方法を開発しました。私たちのモデルは、ロバストなサーカディアンフェーズ予測のために最適化された2段階のトレーニングプロセスを含んでいます。最初は情報豊かな初期パラメータを生成するための貪欲な1層ずつの事前トレーニングを行い、その後ファインチューニングを行います。ファインチューニング中には、特別な損失関数がモデルをガイドし、タンパク質発現レベルをサーカディアンパターンに合わせることで、データ内の根底にあるリズミカルな構造を正確に捉えられるようにします。私たちは、時間ラベル付きデータと未ラベルのプロテオームデータの両方でこの方法をテストしました。ラベル付きデータに対しては、既知の時間ラベルと私たちの予測を比較し、高い精度を達成しました。一方、死後脳領域や尿サンプルを含む未ラベルのヒトデータセットでは、サーカディアンの乱れを探求しました。特に、私たちの分析では、アルツハイマー病と対照群の間でこれらのサンプルにおけるリズミカルなタンパク質の乱れが特定されました。

2025-01-13T15:21:20


Derivation of effective gradient flow equations and dynamical truncation of training data in Deep Learning

http://arxiv.org/abs/2501.07400v1

Thomas Chen

University of Texas at Austin

我々は、ReLU活性化関数を用いた深層学習における累積バイアスと重みを支配する明示的な方程式を導出します。これは、入力層におけるユークリッドコストに基づく勾配降下法に基づいており、重みが活性化によって特定された座標系に適応しているという前提に基づいています。我々は、勾配降下が入力層における動的プロセスに対応し、データのクラスターが徐々に複雑性を減少させ(「切り捨てられる」)、切り捨てられたデータポイントの数が増えるにつれてその速度が指数関数的に増加することを示します。勾配流方程式のいくつかの種類の解について詳細な議論を提供します。この研究の主な動機は、教師あり学習における解釈可能性の問題に光を当てることです。

2025-01-13T15:17:28


The Essentials of AI for Life and Society: An AI Literacy Course for the University Community

http://arxiv.org/abs/2501.07392v1

Joydeep Biswas, Don Fussell, Peter Stone, Kristin Patterson, Kristen Procko, Lea Sabatini, Zifan Xu

私たちは、テキサス大学オースティン校でAIリテラシーを促進するための1単位のコースの開発について説明します。2023年秋に幅広いオーディエンスに応えるためのクラスの迅速な展開を求められ、AIの基礎から社会的問題(デマや雇用を含む)に関するトピックまでを講義する学際的な講演者グループを取り入れた14週間のセミナー形式のコースを設計しました。大学の学生、教員、スタッフ、さらには大学外の地域社会のメンバーもこのオンラインコース「生活と社会のためのAIの基本」に参加するよう招待されました。私たちは、週ごとの振り返りや最終調査を通じてコース参加者からフィードバックを収集しました。参加者は自分たちのAIリテラシーに向上を報告しており、満足のいく結果となりました。私たちは定量的および定性的な分析を通じて批判的なフィードバックを求め、一般の観客向けのコースを設計する上での課題を明らかにしました。このコースのフィードバックを基に、2024年秋に提供される3単位のバージョンを設計しました。私たちが学んだ教訓や新しいバージョンの計画は、幅広いオーディエンス向けのAIコースを設計するインストラクターへのガイドとなるかもしれません。

2025-01-13T15:08:32


Enhancing Retrieval-Augmented Generation: A Study of Best Practices

http://arxiv.org/abs/2501.07391v1

Siran Li, Linus Stenzel, Carsten Eickhoff, Seyed Ali Bahrainian

University of Tübingen

Retrieval-Augmented Generation(RAG)システムは、最近、検索メカニズムを言語モデルに統合することで顕著な進展を示しており、より正確で文脈に関連した応答を生成する能力が向上しています。しかし、RAGシステム内のさまざまな要素や構成の影響は、未だ十分に探究されていません。これらの要素を包括的に理解することは、複雑な検索タスクに合わせてRAGシステムを調整し、さまざまなアプリケーションで最適なパフォーマンスを確保するために不可欠です。本論文では、クエリの拡張、さまざまな新しい検索戦略、そして新たな対照的インコンテキスト学習RAGを組み込んだいくつかの高度なRAGシステム設計を開発します。私たちの研究は、言語モデルのサイズ、プロンプトデザイン、文書チャンクサイズ、知識ベースのサイズ、検索の歩幅、クエリ拡張技術、対照的インコンテキスト学習の知識ベース、多言語知識ベース、そして文レベルで関連するコンテキストを取得するためのフォーカスモデレーションなど、主要な要因を体系的に調査します。広範な実験を通じて、これらの要因が応答の質に与える影響について詳細な分析を提供します。我々の発見は、文脈の豊かさと検索生成の効率性とのバランスを取りながら、さまざまな現実世界のシナリオにおけるより適応可能で高性能なRAGフレームワークの開発に向けた実用的な洞察を提供します。我々のコードおよび実装の詳細は公開されています。

2025-01-13T15:07:55


Information-Theoretic Dual Memory System for Continual Learning

http://arxiv.org/abs/2501.07382v1

RunQing Wu, KaiHui Huang, HanYi Zhang, QiHe Liu, GuoJin Yu, JingSong Deng, Fei Ye

動的な環境から新しい知識を継続的に獲得することは、動物にとって基本的な能力であり、生存やさまざまな課題に対処する能力を促進します。この能力は「継続学習」と呼ばれ、以前の知識が損なわれることなく、タスクの一連を学習する能力に焦点を当てています。継続学習に取り組むための一般的な戦略は、固定サイズのメモリバッファ内に以前のタスクからの多くの重要なデータサンプルを選択して保存することです。しかし、現在のメモリベースの技術の多くは通常、単一のメモリバッファを使用し、新たに獲得したサンプルと以前に学習したサンプルを同時に管理する上で課題を抱えています。情報処理のための迅速な学習メカニズムと徐々に学習するメカニズムを定義する「補完学習システム(CLS)理論」からインスピレーションを得て、私たちは「情報理論的二重メモリシステム(ITDMS)」と呼ばれる革新的な二重メモリシステムを提案します。このシステムは、一時的かつ新しいサンプルを保持するために設計された高速メモリバッファと、重要かつ情報提供に特化したサンプルを保持するための低速メモリバッファで構成されています。高速メモリバッファは、高効率のリザーバサンプリングプロセスを用いて最適化されています。さらに、低速メモリバッファ用に多様で情報的なデータサンプルを選択的に特定し保持する新しい情報理論的メモリ最適化戦略を導入します。また、冗長な記憶サンプルを自動的に特定し排除する新しいバランスの取れたサンプル選択手続きも提案し、新しいデータの取得のためにメモリ容量を確保できるようにします。私たちの方法論は、一連の継続学習実験を通じて厳密に評価され、実証結果は提案されたシステムの効果を強調しています。

2025-01-13T15:01:12


Emergent effects of scaling on the functional hierarchies within large language models

http://arxiv.org/abs/2501.07359v1

Paul C. Bogdan

大規模言語モデル(LLM)のアーキテクチャは、機能的に階層的であるとしばしば説明されます:初期の層は構文を処理し、中間の層は意味論を解析し始め、後期の層は情報を統合します。本研究はこれらのアイデアを再検討します。この研究では、LLMに簡単なテキスト(例えば、「教会とオルガン」)を入力し、その結果得られる活性化を抽出します。その後、各層についてサポートベクターマシンとリッジ回帰を適合させて、テキストのラベルを予測し、したがって特定の層が何らかの情報をエンコードしているかどうかを調べます。小さなモデル(Llama-3.2-3b; 28層)を使用した分析は、一般的な階層的視点を部分的に支持します:アイテムレベルの意味論は初期(層2-7)に最も強く表現され、その後、2項関係(層8-12)、さらに4項類似性(層10-15)が続きます。その後、アイテムと単純な関係の表現は、よりグローバルな情報に焦点を当てた深い層で徐々に減少します。しかし、いくつかの発見は、安定した階層の見方に反します。第一に、深い層は文書全体の抽象を表現できるにもかかわらず、深い層は初期のコンテキストウィンドウの情報を意味のある抽象なしに圧縮します。第二に、より大きなモデル(Llama-3.3-70b-Instruct)を調査する際、抽象レベルにおける顕著な変動が現れます:深さが増すにつれて、2項関係と4項類似性の表現は初めに増加し、その後顕著に減少し、再び一時的に増加します。この特異なパターンは、いくつかの実験で一貫して現れます。第三に、スケーリングの別の出現効果は、隣接層の注意メカニズム間の調整です。より大きなモデルを使用した複数の実験を通じて、隣接層はそれぞれが表現する情報の専門性の間で変動します。要するに、抽象の階層は層を通じてしばしば現れますが、大規模モデルはまた興味深い方法でこの構造から逸脱します。

2025-01-13T14:27:39


TempoGPT: Enhancing Temporal Reasoning via Quantizing Embedding

http://arxiv.org/abs/2501.07335v1

Haochuan Zhang, Chunhua Yang, Jie Han, Liyang Qin, Xiaoli Wang

Central South University

マルチモーダル言語モデルは、視覚や音声において高度な進展を遂げてきましたが、時系列領域における複雑な推論タスクに取り組む際には依然として重大な課題に直面しています。その理由は二つあります。まず第一に、マルチモーダル時系列データのラベルは粗く、分析や推論プロセスが欠如しています。これらのデータでの訓練ではモデルの推論能力を向上させることができません。第二に、時系列を処理する際の正確なトークナイズが不足しているため、時間的およびテキスト情報の表現パターンに不一致が生じ、マルチモーダルアラインメントの効果を妨げています。これらの課題に対処するために、我々はマルチモーダル時系列データ構築アプローチとマルチモーダル時系列言語モデル(TLM)であるTempoGPTを提案します。具体的には、ホワイトボックスシステム内の変数システムの関係を分析することによって、複雑な推論タスクのためのマルチモーダルデータを構築します。さらに、提案されたTempoGPTは、時間的埋め込みを量子化することにより、時間的情報とテキスト情報の間で一貫した表現を実現します。ここで、時間的埋め込みは事前定義されたコードブックを使用して、一連の離散トークンに量子化され、その後、共有埋め込みレイヤーが時間的トークンとテキストトークンの両方を処理します。広範な実験により、TempoGPTは時間的情報を正確に把握し、論理的に結論を推論し、構築された複雑な時系列推論タスクにおいて最先端の性能を達成することを示しています。さらに、時間的埋め込みの量子化がマルチモーダルアラインメントの向上およびTLMの推論能力に与える効果を定量的に示します。コードとデータはhttps://github.com/zhanghaochuan20/TempoGPTで入手可能です。

2025-01-13T13:47:05


Anonymization of Documents for Law Enforcement with Machine Learning

http://arxiv.org/abs/2501.07334v1

Manuel Eberhardinger, Patrick Takenaka, Daniel Grießhaber, Johannes Maucher

Stuttgart Media University

データ駆動型の手法やアプローチが、法執行機関などの敏感な個人情報を扱う領域で着実に増加していることは、これらの機関がデータ保護ガイドラインに準拠するための努力をますます強化することを必要としています。本研究では、スキャンした文書の画像を自動的に匿名化するシステムを提案し、手作業の努力を減らしながらデータ保護の遵守を確保します。私たちの方法は、手動で匿名化された参照文書からの知識と組み合わせた敏感な領域の自動検出を活用して、自動的に修正された領域を最小限に抑えることで、匿名化後のさらなる法医学的処理の実現可能性を考慮しています。参照文書のインスタンス検索のための自己監視型画像モデルを使用して、私たちのアプローチは、同じタイプのすべての文書を効率的に修正するために、たった1つの匿名化された例のみを必要とし、処理時間を大幅に短縮します。私たちは、私たちのアプローチが純粋に自動的な修正システムと、参照の匿名化を他の文書に単純にコピー&ペーストする手法の両方よりも優れていることを、手動で作成した真実の修正データセット上で示します。

2025-01-13T13:47:00


Evaluation of Artificial Intelligence Methods for Lead Time Prediction in Non-Cycled Areas of Automotive Production

http://arxiv.org/abs/2501.07317v2

Cornelius Hake, Jonas Weigele, Frederik Reichert, Christian Friedrich

Dr. Ing. h.c. F. Porsche AG, Hochschule Karlsruhe – University of Applied Sciences, Hochschule Esslingen – University of Applied Sciences

本研究では、自動車生産環境における人工知能手法の適用効果を検討し、非サイクル制御の生産エリアにおける未知のリードタイムを予測します。データ構造を分析して文脈の特徴を特定し、その後、ワンホットエンコーディングを使用して前処理を行います。手法の選定は、監視型機械学習技術に重点を置いています。監視型学習手法では、回帰および分類手法が評価されますが、ターゲットサイズの分布に基づく連続回帰は実行不可能です。分類手法の分析では、アンサンブル学習とサポートベクターマシンが最も適していることが示されました。予備研究の結果は、勾配ブースティングアルゴリズムであるLightGBM、XGBoost、CatBoostが最良の結果を出すことを示しています。さらにテストと広範なハイパーパラメータ最適化を経て、最終的な手法選択はLightGBMアルゴリズムとなります。特徴の可用性や予測間隔の粒度に応じて、90%までの相対的な予測精度が達成可能です。さらなるテストでは、データベースを用いて複雑な生産プロセスを正確に表現するためのAIモデルの定期的な再訓練の重要性が強調されます。研究は、AI手法が高変動の生産データに効果的に適用でき、さまざまな制御タスクに対して追加の指標を提供することでビジネス価値を生み出し、現在の非AIベースシステムを上回ることを示しています。

2025-01-13T13:28:03


The Lessons of Developing Process Reward Models in Mathematical Reasoning

http://arxiv.org/abs/2501.07301v1

Zhenru Zhang, Chujie Zheng, Yangzhen Wu, Beichen Zhang, Runji Lin, Bowen Yu, Dayiheng Liu, Jingren Zhou, Junyang Lin

プロセス報酬モデル(PRM)は、大規模言語モデル(LLM)の数学的推論におけるプロセス監督の有望なアプローチとして登場し、推論プロセスにおける中間的なエラーの特定と軽減を目指しています。しかし、効果的なPRMの開発には、データ注釈や評価手法に関する重要な課題が存在します。本論文では、広範な実験を通じて、PRMのために一般的に使用されるモンテカルロ(MC)推定ベースのデータ合成が、LLMを判定者として扱う方法や人間の注釈手法と比較して、通常は劣った性能と一般化をもたらすことを示します。MC推定は完了モデルに依存して現在のステップの正確性を評価するため、不正確なステップ検証を招くことになります。さらに、私たちはPRMのための従来のベスト・オブ・N(BoN)評価戦略に潜在的なバイアスがあることを特定しました:(1)信頼できないポリシーモデルは正しい回答を持つ応答を生成しますが、プロセスには欠陥があり、それによりBoNの評価基準とPRMのプロセス検証の目標との間に不一致が生じます。(2)PRMのそのような応答に対する許容度は、BoNスコアの膨張を引き起こします。(3)既存のPRMは、最終的な回答ステップに集中している最小スコアのかなりの割合を持ち、BoN最適化PRMにおけるプロセスから成果ベースの評価へのシフトを明らかにしています。これらの課題に対処するために、私たちはMC推定とLLMを判定者として統合するコンセンサスフィルタリングメカニズムを開発し、応答レベルとステップレベルの指標を組み合わせたより包括的な評価フレームワークを提唱します。このメカニズムに基づいて、私たちはBoN評価とステップごとのエラー特定タスクにおいて、モデルの性能とデータの効率の両方を大幅に改善します。最後に、私たちは既存のオープンソース代替手段を上回る新しい最先端のPRMをリリースし、プロセス監督モデルの構築における今後の研究のための実用的なガイドラインを提供します。

2025-01-13T13:10:16


Principles for Responsible AI Consciousness Research

http://arxiv.org/abs/2501.07290v1

Patrick Butlin, Theodoros Lappas

最近の研究によれば、現在または近い将来に意識を持つAIシステムを構築することが可能かもしれないと示唆されています。意識を持つAIシステムは道徳的考慮を受けるに値する可能性があり、大量の意識を持つシステムが創造されて苦しむことも考えられます。さらに、AIシステムやAI生成のキャラクターが意識を持っているように見えることが増えており、その道徳的地位についての議論を引き起こしています。AI研究に関わる組織は、意識に関する研究と展開の選択、そして公のコミュニケーションを導くための原則やポリシーを確立する必要があります。たとえ組織がAIの意識を直接研究しないとしても、高度なAIシステムを開発する際には、意識を持つ存在を無意識に創造するリスクがあるため、ポリシーが必要になります。この可能性に対処するためには、責任ある研究と展開の実践が不可欠です。私たちは責任ある研究のための5つの原則を提案し、研究機関がこのような原則に基づく自発的で公的なコミットメントを行うべきだと主張します。我々の原則は、研究の目的と手続き、知識の共有および公のコミュニケーションに関わるものです。

2025-01-13T12:59:53


LLM-Net: Democratizing LLMs-as-a-Service through Blockchain-based Expert Networks

http://arxiv.org/abs/2501.07288v1

Zan-Kai Chong, Hiroyuki Ohsaki, Bryan Ng

Kwansei Gakuin University, Victoria University of Wellington

大型言語モデル(LLM)の開発の中央集権化は、AIの進歩に対して重要な障壁を生み出し、これらの強力な技術の民主化を制限しています。この中央集権化は、高品質なトレーニングデータの不足と、急速に拡大する知識領域全体にわたる包括的な専門知識を維持することの複雑さが相まって、LLMの成長に対して重大な課題を引き起こしています。リトリーバル強化生成(RAG)などのソリューションが潜在的な解決策を提供する一方で、専門的な情報の指数関数的な増加を考えると、多様な領域における最新の専門知識を維持することは依然として大きな課題です。本論文では、分散型の専門的LLMプロバイダーのネットワークを通じて、LLM-as-a-Serviceを民主化するブロックチェーンベースのフレームワークであるLLMs Networks(LLM-Net)を紹介します。集団的な計算資源と分散型のドメイン専門知識を活用することで、LLM-Netはさまざまな特定の領域に対応した微調整された専門モデルを組み込み、サービスの質を維持しながら知識の持続的な成長を確保するために協調的なプロンプトメカニズムを採用しています。このフレームワークの頑健な設計には、透明な取引とパフォーマンス検証のためのブロックチェーン技術が含まれており、サービス提供の不変の記録を確立します。我々のシミュレーションは、最先端のLLMであるClaude 3.5 Sonnet、Llama 3.1、Grok-2、およびGPT-4oの上に構築されており、高性能な応答者(LLMプロバイダー)を選択することによってサービス品質を維持する評判ベースのメカニズムの効果を検証します。これにより、分散型の専門知識とブロックチェーンベースの説明責任の統合を通じてAIの進歩を支えるLLM-Netの可能性が示されます。

2025-01-13T12:56:05


Lifelong Learning of Large Language Model based Agents: A Roadmap

http://arxiv.org/abs/2501.07278v1

Junhao Zheng, Chengming Shi, Xidi Cai, Qiuke Li, Duzhen Zhang, Chenxing Li, Dong Yu, Qianli Ma

South China University of Technology, Mohamed bin Zayed University of Artificial Intelligence, Tencent

生涯学習、または継続的学習とも呼ばれるものは、人工一般知能(AGI)の進展にとって重要な要素であり、システムが動的な環境で継続的に適応できるようにします。大規模言語モデル(LLM)は自然言語処理において印象的な能力を示していますが、既存のLLMエージェントは通常、静的システム向けに設計されており、新しい課題に応じて時間と共に適応する能力が欠けています。この調査は、LLMベースのエージェントに生涯学習を組み込むための潜在的な技術を体系的にまとめた初めてのものです。私たちは、これらのエージェントのコアコンポーネントを、マルチモーダル入力統合のための知覚モジュール、進化する知識を保存および取得するためのメモリモジュール、および動的環境との基盤のあるインタラクションのためのアクションモジュールの3つのモジュールに分類します。これらの柱がどのように集約されて継続的な適応を可能にし、壊滅的忘却を軽減し、長期的なパフォーマンスを向上させるかを強調します。この調査は、LLMエージェントにおける生涯学習の能力を開発しようとしている研究者や実務者向けのロードマップを提供し、新たな動向、評価指標、および応用シナリオに関する洞察を提供します。関連文献やリソースは、\href{thisurl}{https://github.com/qianlima-lab/awesome-lifelong-llm-agent}で入手可能です。

2025-01-13T12:42:04


Bridging Smart Meter Gaps: A Benchmark of Statistical, Machine Learning and Time Series Foundation Models for Data Imputation

http://arxiv.org/abs/2501.07276v1

Amir Sartipi, Joaquin Delgado Fernandez, Sergio Potenciano Menci, Alessio Magitteri

University of Luxembourg, Enovos Luxembourg S.A.

スマートグリッドにおける時系列データの整合性は、センサーの故障、伝送エラー、または中断による欠損値によってしばしば損なわれます。スマートメーターデータのギャップは、消費分析に偏りをもたらし、信頼性のある予測を妨げ、技術的および経済的非効率を引き起こす可能性があります。スマートメーターデータがそのボリュームと複雑さを増す中で、従来の技術はその非線形かつ非定常的なパターンに対応するのに苦労しています。この文脈において、生成的人工知能は、従来の統計手法を上回る可能性のある有望な解決策を提供します。本論文では、スマートメーターデータの補完のために、2つの汎用大型言語モデルと5つの時系列ファウンデーションモデルを評価し、従来の機械学習および統計モデルと比較します。匿名化された公的データセットに人工的なギャップ(30分から1日)を導入して推論能力をテストします。結果は、時系列ファウンデーションモデルがその文脈理解とパターン認識により、特定のケースで補完精度を大幅に向上させる可能性があることを示しています。しかし、計算コストとパフォーマンスの向上との間のトレードオフは、依然として重要な考慮事項です。

2025-01-13T12:41:27


Skip Mamba Diffusion for Monocular 3D Semantic Scene Completion

http://arxiv.org/abs/2501.07260v1

Li Liang, Naveed Akhtar, Jordan Vice, Xiangrui Kong, Ajmal Saeed Mian

3Dセマンティックシーン補完は、自律システムにおける複数の下流タスクにとって重要です。これは、取得したシーンデータにおける欠損した幾何学的およびセマンティック情報を推定します。困難な実世界の条件により、このタスクは通常、複雑なモデルを要求し、マルチモーダルデータを処理して許容可能なパフォーマンスを達成します。我々は、モノキュラー画像入力で優れた3Dセマンティックシーン補完性能を達成するために、状態空間と拡散生成モデルの進展を活用したユニークなニューラルモデルを提案します。我々の手法は、変分オートエンコーダの条件付き潜在空間でデータを処理し、革新的な状態空間技術を用いて拡散モデルリングを行います。我々のニューラルネットワークの重要な要素は、長いシーケンスデータを効率的に処理するのに優れた提案されたSkimba(SkipMamba)デノイザーです。Skimba拡散モデルは、我々の3Dシーン補完ネットワークに不可欠であり、トリプルマンバ構造、次元分解残差、そして三方向にわたる異なるダイレーションを組み込んでいます。また、このネットワークの変種を我々の手法のその後のセマンティックセグメンテーション段階にも採用しています。標準のSemanticKITTIおよびSSCBench-KITTI360データセットに関する広範な評価は、我々のアプローチが他のモノキュラーテクニックに対して大きな差を持って勝るだけでなく、ステレオ手法に対しても競争力のある性能を達成することを示しています。コードはhttps://github.com/xrkong/skimbaで入手できます。

2025-01-13T12:18:58


MOS-Attack: A Scalable Multi-objective Adversarial Attack Framework

http://arxiv.org/abs/2501.07251v1

Ping Guo, Cheng Gong, Xi Lin, Fei Liu, Zhichao Lu, Qingfu Zhang, Zhenkun Wang

City University of Hong Kong

敵対的例を作成することは、深層ニューラルネットワーク(DNN)の堅牢性を評価し向上させるために重要であり、微分不可能な0-1損失関数を最大化することと同等の課題です。しかし、既存の単一目的手法、特に敵対的攻撃は代理損失関数に焦点を当てており、その相乗的で対立する性質についての理解が不十分なため、複数の損失関数を活用する利点を十分に引き出していません。これらの制限を克服するために、我々はMulti-Objective Set-based Attack(MOS Attack)を提案します。これは、複数の損失関数を活用し、それらの相互関係を自動的に明らかにする新しい敵対的攻撃フレームワークです。MOS Attackは、セットベースの多目的最適化戦略を採用しており、追加のパラメータなしで多数の損失関数を組み込むことを可能にします。また、さまざまな損失間の相乗的パターンを自動的に発見し、より少ない目的で強力な敵対的攻撃を生成することを促進します。広範な実験により、我々のMOS Attackは単一目的の攻撃よりも優れていることが示されました。さらに、特定された相乗的パターンを活用することで、MOS Attackは損失関数の数を減らしても引き続き優れた結果を示します。

2025-01-13T12:00:34


Lessons From Red Teaming 100 Generative AI Products

http://arxiv.org/abs/2501.07238v1

Blake Bullwinkel, Amanda Minnich, Shiven Chawla, Gary Lopez, Martin Pouliot, Whitney Maxwell, Joris de Gruyter, Katherine Pratt, Saphir Qi, Nina Chikanov, Roman Lutz, Raja Sekhar Rao Dheekonda, Bolor-Erdene Jagdagdorj, Eugenia Kim, Justin Song, Keegan Hines, Daniel Jones, Giorgio Severi, Richard Lundeen, Sam Vaughan, Victoria Westerhoff, Pete Bryan, Ram Shankar Siva Kumar, Yonatan Zunger, Chang Kawaguchi, Mark Russinovich

近年、AIのレッドチーミングは生成AIシステムの安全性とセキュリティを探るための実践として浮上しています。この分野はまだ新しいため、レッドチーミング作業をどのように行うべきかについて多くの疑問が残っています。マイクロソフトにおいて100以上の生成AI製品のレッドチーミングを行った経験に基づき、私たちの内部脅威モデルオントロジーと学んだ8つの主要な教訓を提示します。

  1. システムが何をできるのか、どこで使用されているのかを理解する
  2. AIシステムを破るために勾配を計算する必要はない
  3. AIのレッドチーミングは安全性のベンチマークではない
  4. 自動化はリスクの範囲をより広くカバーするのに役立つ
  5. AIのレッドチーミングにおける人間の要素は重要である
  6. 責任あるAIによる害は広範囲に及ぶが測定が難しい
  7. LLM(大規模言語モデル)は既存のセキュリティリスクを増幅し、新たなリスクを導入する
  8. AIシステムのセキュリティを確保する作業は決して完了しない

これらの洞察を、私たちの運営に関するケーススタディと共に共有することで、実際のリスクに沿ったレッドチーミングの努力を調整するための実践的な推奨事項を提供します。また、AIのレッドチーミングにおいてしばしば誤解されがちな側面を強調し、この分野が考慮すべきオープンクエスチョンについても議論します。

2025-01-13T11:36:33


Breaking Memory Limits: Gradient Wavelet Transform Enhances LLMs Training

http://arxiv.org/abs/2501.07237v1

Ziqing Wen, Ping Luo, Jiahuan Wang, Xiaoge Deng, Jinping Zou, Kun Yuan, Tao Sun, Dongsheng Li

nudt.edu.cn, pku.edu.cn

大規模言語モデル(LLM)は、さまざまな自然言語処理タスクで印象的なパフォーマンスを示しています。しかし、膨大な数のパラメータは、特にAdamのようなメモリ集約型オプティマイザを使用する際に、トレーニング中に深刻なメモリの課題を引き起こします。既存のメモリ効率的なアルゴリズムは、しばしば特異値分解投影や重み固定のような技術に依存しています。これらのアプローチはメモリの制約を緩和するのに役立ちますが、一般的にはフルランク更新に比べて最適な結果を得ることができません。本論文では、低ランクトレーニングを超えたメモリ効率的な方法を調査し、オプティマイザの状態を維持するためのメモリ要件を大幅に削減するために、勾配にウェーブレット変換を適用する新しいソリューション「Gradient Wavelet Transform(GWT)」を提案します。GWTがメモリ集約型オプティマイザとシームレスに統合でき、パフォーマンスを犠牲にすることなく効率的なトレーニングを可能にすることを示します。事前トレーニングとファインチューニングのタスクに関する広範な実験を通じて、GWTは、メモリ使用量およびトレーニングパフォーマンスの両面で、先進的なメモリ効率的オプティマイザやフルランクアプローチと比較して最先端のパフォーマンスを達成することを示しました。

2025-01-13T11:35:09


Exploring the Use of Contrastive Language-Image Pre-Training for Human Posture Classification: Insights from Yoga Pose Analysis

http://arxiv.org/abs/2501.07221v1

Andrzej D. Dobrzycki, Ana M. Bernardos, Luca Bergesio, Andrzej Pomirski, Daniel Sáez-Trigueros

画像と動画における正確な人間の姿勢分類は、作業安全、身体リハビリテーション、スポーツトレーニング、日常生活の支援など、さまざまな分野での自動化アプリケーションにとって重要です。最近、Contrastive Language-Image Pretraining(CLIP)などのマルチモーダル学習手法が、画像とテキストを共同で理解する点で大幅に進展しました。本研究は、ヨガにおけるCLIPの適用に焦点を当て、人間の姿勢を分類する効果を評価することを目的としています。ゼロショットアプローチの初期の制限にもかかわらず、82クラスの15,301画像(実画像と合成画像)に対して転移学習を適用した結果、有望な成果が得られました。この記事では、画像の説明構文の選択、モデルおよびハイパーパラメータの調整を含むファインチューニングの全過程を説明します。ファインチューニングされたCLIPモデルは、3,826画像でテストされ、85%以上の精度を達成し、同じデータセットに関する従来の最先端技術を約6%上回りました。また、そのトレーニング時間はYOLOv8ベースのモデルをファインチューニングするのに必要な時間の3.5倍少なくなっています。さらに、6つの姿勢ごとの小規模データセット(それぞれ1,301および401のトレーニング画像)を用いたより応用指向のシナリオでは、ファインチューニングされたモデルがそれぞれ98.8%および99.1%の精度を達成しています。さらに、我々の実験は、ポーズごとにわずか20画像でトレーニングすることで、6クラスのデータセットで約90%の精度を得られることを示しています。本研究は、このマルチモーダル技術がヨガポーズの分類、ひいては一般的な人間の姿勢分類に効果的に利用できることを証明しています。加えて、CLIPの推論時間(約7ms)は、このモデルが姿勢評価のための自動化システムに統合できることを支持しています。例えば、パフォーマンス評価のためのリアルタイムなパーソナルヨガアシスタントの開発に用いることができます。

2025-01-13T11:20:44


Multi-face emotion detection for effective Human-Robot Interaction

http://arxiv.org/abs/2501.07213v1

Mohamed Ala Yahyaoui, Mouaad Oujabour, Leila Ben Letaifa, Amine Bohi

CESI

モバイルデバイスにおける対話インターフェースの統合は普及しており、さまざまなサービスを提供しています。技術が進歩するにつれて、人間らしい特徴を持ち、人間と効果的に対話するように設計されたヒューマノイドロボットの重要性が増しており、高度なヒューマンロボット対話インターフェースの利用が常に拡大しています。この文脈において、感情認識は人間の意図を理解することを可能にすることで、人間とロボットのインタラクションを向上させる上で重要な役割を果たします。本研究では、モバイルヒューマノイドロボットに統合された顔の感情検出インターフェースを提案し、複数の個人のリアルタイムの感情をユーザーインターフェース上に表示できるようにします。この目的のために、顔の表情認識のためのさまざまな深層ニューラルネットワークモデルが開発され、一貫したコンピュータベースの条件下で評価され、有望な結果が得られました。その後、このアプリケーションをモバイルヒューマノイドロボットに効果的に実装するために、精度とメモリフットプリントのトレードオフを慎重に考慮しました。

2025-01-13T11:12:47


Crowdsourced human-based computational approach for tagging peripheral blood smear sample images from Sickle Cell Disease patients using non-expert users

http://arxiv.org/abs/2501.07196v1

José María Buades Rubio, Gabriel Moyà-Alcover, Antoni Jaume-i-Capó, Nataša Petrović

Universidad de las Islas Baleares

この論文では、鎌状赤血球症(SCD)患者の末梢血塗抹標本(PBS)画像の分析のための人間ベースの計算アプローチを提案します。私たちは、PBS画像のラベリングをクラウドソーシングするために、Mechanical Turkのマイクロタスク市場を利用しました。次に、専門家によってタグ付けされた赤血球IDBデータセットを使用して、提案の精度と信頼性を評価しました。私たちの結果は、Mechanical Turkの作業者の間で強固な合意が得られた場合、専門家の分析との比較に基づいて、誤りの可能性が非常に低いことを示しました。これは、私たちの提案したアプローチがPBS画像のデータセットを注釈付けするために使用でき、これによりSCDの診断のための自動化されたメソッドのトレーニングに利用できる可能性を示唆しています。将来の研究では、私たちの発見と自動化手法によって得られた結果との潜在的な統合を探る計画です。これにより、SCDの診断のためのより正確で信頼性の高い方法の開発につながる可能性があります。

2025-01-13T10:42:55


Generalizable Graph Neural Networks for Robust Power Grid Topology Control

http://arxiv.org/abs/2501.07186v1

Matthijs de Jong, Jan Viebahn, Yuliya Shapovalova

エネルギー移行には新しい混雑管理方法が必要です。その一つの方法が、機械学習(ML)を使ってグリッドトポロジーを制御することです。このアプローチは、「パワーネットワークを運営するための学習(L2RPN)」コンペティションの後で人気を博しています。グラフニューラルネットワーク(GNN)は、計算にグラフ構造を反映させるMLモデルのクラスであり、これが電力網モデルに適している理由です。そのため、トポロジー制御のためのさまざまなGNNアプローチが提案されています。私たちは、GNN層のみを使用したグリッドトポロジー制御のための最初のGNNモデルを提案します。さらに、人気のある均質なグラフ表現が抱えるバスバー情報の非対称性問題を特定し、それを解決するための異質なグラフ表現を提案します。私たちは、模倣学習タスクに基づいて、均質および異質なGNNと全結合ニューラルネットワーク(FCNN)のベースラインをトレーニングします。モデルの評価は、分類精度とグリッド運用能力に基づいて行います。その結果、異質なGNNが分布内ネットワークで最も良い性能を示し、次にFCNN、最後に均質なGNNという結果が得られました。また、両方のGNNタイプは、FCNNよりも分布外ネットワークに対して一般化性能が優れていることもわかりました。

2025-01-13T10:31:36


Kriging and Gaussian Process Interpolation for Georeferenced Data Augmentation

http://arxiv.org/abs/2501.07183v1

Frédérick Fabre Ferber, Dominique Gay, Jean-Christophe Soulié, Jean Diatta, Odalric-Ambrym Maillard

データ拡張は、特に限られたデータセットを扱う際に、堅牢な教師あり学習モデルの開発において重要なステップです。本研究は、レユニオンのサトウキビ畑におけるCommeline benghalensis L.の存在を予測することを目的として、地理的に参照されたデータの拡張のための補間手法を探索します。データの空間的特性とデータ収集の高コストを考慮して、異なるカーネルを持つガウス過程(GP)と、さまざまなバリオグラムを持つクリギングの2つの補間アプローチを評価しました。本研究の目的は三つあり、(i)さまざまな回帰アルゴリズムに対して最良の予測性能を提供する補間手法を特定すること、(ii)追加された観測数に応じた性能の進化を分析すること、(iii)拡張されたデータセットの空間的一貫性を評価することです。結果は、特に結合カーネル(GP-COMB)を用いたGPベースの手法が回帰アルゴリズムの性能を大幅に改善し、追加のデータを少なく必要とすることを示しています。クリギングはやや低い性能を示すものの、より均一な空間カバレッジに特徴づけられ、特定の文脈において潜在的な利点を持ちます。

2025-01-13T10:29:09


The Spoils of Algorithmic Collusion: Profit Allocation Among Asymmetric Firms

http://arxiv.org/abs/2501.07178v1

Simon Martin, Hans-Theo Normann, Paul Püplichhuisen, Tobias Werner

University of Vienna, CESifo, CEPR, Düsseldorf Institute for Competition Economics (DICE), Heinrich-Heine-Universität Düsseldorf, Max Planck Institute for Research on Collective Goods, Bonn, E.CA Economics GmbH, Max Planck Institute for Human Development, Berlin, Centre for Information and Media Technology

私たちは、独立したアルゴリズムが繰り返しコルノー二重独占ゲームで共謀する傾向を研究します。具体的には、企業間の非対称性の影響に関するさまざまな寡占および交渉解決策の予測力を調査します。私たちは、消費者と企業の両方が非対称性から利益を得る可能性があることを発見しました。企業が対称的な場合、アルゴリズムはより競争的な結果を生み出しますが、非常に非対称な場合にはその競争性が低下します。静的ナッシュ均衡は総量に対する影響を過小評価し、利益に対する影響を過大評価していますが、総福祉に関しては驚くほど正確な予測を提供します。私たちの結果を最もよく説明するのは、均等相対利益解決策です。特に、私たちはアルゴリズムがあらゆる非対称性の度合いに対してパレートフロンティア上またはその近くの利益に合意することを発見しました。私たちの結果は、対称的な産業が共謀に陥りやすいという一般的な信念は、アルゴリズム経営判断をますます推進する際にはもはや当てはまらないかもしれないことを示唆しています。

2025-01-13T10:16:48


Anomalous Agreement: How to find the Ideal Number of Anomaly Classes in Correlated, Multivariate Time Series Data

http://arxiv.org/abs/2501.07172v1

Ferdinand Rewicki, Joachim Denzler, Julia Niebling

異常なシステム状態を検出し分類することは状態監視において重要ですが、監視学習法は異常の希少性とラベル付けされたデータの不足のためにうまく機能しないことがよくあります。したがって、クラスタリングは同様の異常な挙動をグループ化するためにしばしば使用されます。しかし、真の情報がない状態でクラスタの品質を評価することは難しく、シルエットスコア(SSC)などの既存の指標は、クラスタの一貫性と分離性のみを評価し、データに関する先行知識を無視します。この課題に対処するために、マルチバリアント時系列における異常の同期性を活用してクラスタの品質を評価するための「同期異常合意インデックス(SAAI)」を導入します。私たちは、SAAIを最大化することで、相関のある時系列における真の異常クラス数Kを見つけるタスクの精度がSSCと比較して0.23、X-Meansと比較して0.32向上することを示すことで、SAAIの有効性を実証します。また、SAAIを最大化して得られたクラスタは、SSCと比較して解釈が容易であることも示します。

2025-01-13T10:04:55


Natural Language-Assisted Multi-modal Medication Recommendation

http://arxiv.org/abs/2501.07166v1

Jie Tan, Yu Rong, Kangfei Zhao, Tian Bian, Tingyang Xu, Junzhou Huang, Hong Cheng, Helen Meng

The Chinese University of Hong Kong, DAMO Academy, Alibaba Group, Hupan Lab, Beijing Institute of Technology, University of Texas at Arlington

組み合わせ薬剤推奨(CMR)は、医療の基本的なタスクであり、臨床医が複雑な健康状態の患者に対してより正確な処方を提供する機会を与えます。特に長期的な医療ケアのシナリオにおいて重要です。これまでの研究努力は、電子健康記録(EHR)から意味のある情報を抽出し、組み合わせ薬剤の推奨を促進することを目指してきました。既存の学習ベースのアプローチは薬剤の化学構造を考慮していますが、機能が明確に記述されたテキスト薬剤説明を無視しています。さらに、患者のEHRから得られるテキスト知識は、大部分が十分に活用されていません。これらの問題に対処するため、私たちは自然言語支援マルチモーダル薬剤推奨(NLA-MMR)を提案します。これは、患者と薬剤の視点から知識を共同で学習するように設計されたマルチモーダル整合性フレームワークです。具体的に言うと、NLA-MMRは患者と薬剤のモダリティからの整合性問題としてCMRを定式化します。この観点から、事前学習された言語モデル(PLM)を使用して、患者と薬剤に関するドメイン内知識を抽出し、両方のモダリティの基礎となる表現を提供します。薬剤モダリティでは、化学構造とテキスト説明の両方を活用して薬剤表現を作成します。患者モダリティでは、診断、手順、症状のテキスト説明に基づいて患者表現を生成します。3つの公開データセットで実施された広範な実験により、NLA-MMRが新たな最先端の性能を達成し、Jaccardスコアで平均4.72%の顕著な改善を示すことが確認されました。私たちのソースコードは、https://github.com/jtan1102/NLA-MMR_CIKM_2024 で公開されています。

2025-01-13T09:51:50


QuantuneV2: Compiler-Based Local Metric-Driven Mixed Precision Quantization for Practical Embedded AI Applications

http://arxiv.org/abs/2501.07161v1

Jeongseok Kim, Jemin Lee, Yongin Kwon, Daeyoung Kim

KAIST, ETRI

ミックスドプレシジョン量子化手法が提案され、モデルサイズの削減と精度の劣化の最小化が図られています。しかし、既存の研究は再学習を必要とし、コンパイルプロセス中に生成される計算オーバーヘッドや中間表現(IR)を考慮していないため、コンパイラレベルでの適用が制限されています。この計算オーバーヘッドとは、推論時に頻繁に発生する量子化および逆量子化操作による実行時の遅延を指します。個別の演算子レベルでこれらの操作を行うと、重大な実行時遅延が発生します。これらの問題に対処するために、実用的な組み込みAIアプリケーション向けに設計されたコンパイラベースのミックスドプレシジョン量子化手法であるQuantuneV2を提案します。QuantuneV2は、量子化前と量子化後の2回だけ推論を行い、モデルパラメータの数に応じて線形に増加するO(n)の計算複雑度で動作します。また、重み、活性化値、量子化ノイズ比、平均二乗誤差などのローカルメトリックを使用することで、感度解析をより安定させました。さらに、最適なIRを選択し、演算子の融合を利用することで計算オーバーヘッドを削減しました。実験結果から、QuantuneV2はResNet18v1、ResNet50v1、SqueezeNetv1、VGGNet、MobileNetv2の5つのモデルに対して、既存の手法と比較して最大10.28%の精度向上と12.52%の速度向上を達成しました。これは、QuantuneV2がモデルの性能を向上させると同時に計算効率を維持していることを示しており、組み込みAI環境での展開に適していることを示しています。

2025-01-13T09:41:54


Eye Sclera for Fair Face Image Quality Assessment

http://arxiv.org/abs/2501.07158v1

Wassim Kabbani, Kiran Raja, Raghavendra Ramachandra, Christoph Busch

Norwegian University of Science and Technology

公正な運用システムは、顔認識システム(FRS)に対する社会の信頼を得て維持するために不可欠です。FRSは、画像をキャプチャし、その品質を評価することから始まり、その後、登録または検証に使用されます。したがって、公正な顔画像品質評価(FIQA)スキームは、公正なFRSの文脈において同様に重要です。本研究では、公正なFIQAを得るための品質評価領域として強膜(sclera)を検討します。強膜領域は、顔画像の品質を評価する際に、人口統計的変動や肌の色に影響されないため、重要です。私たちは、3つの肌のトーンに関連するISO/IECの顔画像品質評価指標を分析し、FIQを評価するための代替領域として強膜領域を評価します。異なる肌のトーンを持つ異なる人口統計群の個人からの顔データセットの分析は、強膜を用いて顔のダイナミックレンジや過剰露出および不足露出を測定する代替手段として位置付けます。強膜領域は肌の色、つまり人口統計要因に影響されないため、私たちのエラー対破棄特性(EDC)曲線分析によって示されるように、公正なFIQAとして同様の有用性を提供します。

2025-01-13T09:33:03


CureGraph: Contrastive Multi-Modal Graph Representation Learning for Urban Living Circle Health Profiling and Prediction

http://arxiv.org/abs/2501.07157v1

Jinlin Li, Xiao Zhou

Renmin University of China

高齢者の健康状態の低下を地域レベルで早期に検出し予測することは、都市計画や公衆衛生政策の策定にとって非常に重要です。既存の研究では生活環境と健康成果の関連性が確認されていますが、大部分は単一のデータモダリティに依存するか、複数モーダル情報の単純な特徴結合に基づいており、健康志向の都市環境を包括的に把握する能力が制限されています。このギャップを埋めるために、私たちはCureGraphを提案します。これは、都市健康予測のための対照的マルチモーダル表現学習フレームワークであり、各地域の都市生活圏内の高齢者の一般的な慢性疾患の普及を推測するためにグラフベースの技術を利用します。CureGraphは、住宅地域や周辺の関心スポットの写真やテキストレビューなど、豊富なマルチモーダル情報を活用して都市近隣の埋め込みを生成します。事前に学習された視覚的およびテキスト的エンコーダーとグラフモデリング技術を統合することで、CureGraphはクロスモーダルの空間依存性を捉え、高齢者の健康を考慮した都市環境の包括的理解を提供します。実世界のデータセットに対する広範な実験により、CureGraphは高齢者疾患リスク予測タスクにおいて$R2$の平均で最良のベースラインを$28\%$向上させることが示されています。さらに、このモデルは段階的な慢性疾患の進行を特定するのを可能にし、地域間の比較公衆衛生分析をサポートし、持続可能な都市開発と生活の質の向上のための実用的な洞察を提供します。コードは https://github.com/jinlin2021/CureGraph で公開されています。

2025-01-13T09:30:38


TIMRL: A Novel Meta-Reinforcement Learning Framework for Non-Stationary and Multi-Task Environments

http://arxiv.org/abs/2501.07146v1

Chenyang Qi, Huiping Li, Panfeng Huang

Northwestern Polytechnical University, IEEE

近年、メタ強化学習(メタRL)アルゴリズムが提案され、意思決定と制御の分野においてサンプル効率を改善し、エージェントが少数のサンプルから新しい知識を学習できるようにしています。しかし、ほとんどの研究はタスク表現を抽出するためにガウス分布を使用しており、非定常環境で変化するタスクには適応が不十分です。この問題に対処するために、ガウス混合モデルとトランスフォーマーネットワークを利用してタスク推論モデルを構築する新しいメタ強化学習手法を提案します。ガウス混合モデルはタスク表現を拡張し、タスクの明示的なエンコーディングを行うために利用されます。具体的には、タスクの分類はトランスフォーマーネットワークを通じてエンコードされ、タスクに対応するガウス成分を特定します。タスクラベルを活用することで、トランスフォーマーネットワークは教師あり学習を用いて訓練されます。私たちは、非定常かつマルチタスク環境におけるMuJoCoベンチマークでこの方法を検証しました。実験結果は、提案手法がサンプル効率を大幅に改善し、タスクの分類を正確に認識しながら、環境内で非常に優れた性能を発揮することを示しています。

2025-01-13T09:11:33


FlexQuant: Elastic Quantization Framework for Locally Hosted LLM on Edge Devices

http://arxiv.org/abs/2501.07139v1

Yuji Chai, Mujin Kwen, David Brooks, Gu-Yeon Wei

Harvard John A. Paulson School Of Engineering And Applied Sciences

エッジデバイス上でのLLMの展開は、深刻な技術的課題を呈します。メモリの弾力性は、メモリが共有され動的に変動する統一メモリを持つエッジデバイスにとって非常に重要です。既存のソリューションは、移行の粒度が低いか、ストレージコストが高いという問題があります。我々はFlexQuantという新しい弾力性フレームワークを提案します。これは、量子化されたモデルのアンサンブルを生成し、従来の最先端手法と比較して、15倍の粒度向上と10倍のストレージ削減を実現する弾力的なホスティングソリューションを提供します。FlexQuantはほとんどの量子化方法で機能し、我々のプルーニング手法を通じてさまざまなストレージ制限におけるトレードオフオプションのファミリーを作成します。これにより、LLMのエッジデプロイメントにおいて優れたパフォーマンスと柔軟性がもたらされます。

2025-01-13T08:58:00


How GPT learns layer by layer

http://arxiv.org/abs/2501.07108v1

Jason Du, Kelly Hong, Alishba Imran, Erfan Jahanparast, Mehdi Khfifi, Kaichun Qiao

University of California, Berkeley

大規模言語モデル(LLM)は、言語処理、戦略ゲーム、推論などのタスクにおいて優れた性能を発揮しますが、エージェントの適応的な意思決定に必要な一般化可能な内部表現を構築することに苦労しています。エージェントが複雑な環境を効果的にナビゲートするためには、信頼できる世界モデルを構築する必要があります。LLMは特定のベンチマークでは高いパフォーマンスを示しますが、一般化に失敗することが多く、実世界での効果を制限するもろい表現につながります。LLMが内部の世界モデルを構築する方法を理解することは、タスク全体で一貫した適応行動を可能にするエージェントを開発するための鍵です。私たちは、オセロのゲームプレイに基づいて訓練されたGPTベースのモデル、OthelloGPTを、表現学習を研究するための制御されたテストベッドとして分析します。次のトークン予測のみでランダムな有効移動に基づいて訓練されているにもかかわらず、OthelloGPTはボード状態とゲームプレイの理解において意味のある層ごとの進展を示しています。初期の層はボードの端のような静的属性を捉え、一方で深い層は動的なタイルの変化を反映します。これらの表現を解釈するために、スパースオートエンコーダー(SAE)と線形プローブを比較し、SAEが構成特徴に対してより頑健で解きほぐされた洞察を提供するのに対し、線形プローブは主に分類に有用な特徴を検出することを見つけました。SAEを使用して、タイルの色やタイルの安定性に関連する特徴をデコードします。タイルの安定性は、ボードコントロールや長期計画のような複雑なゲームプレイの概念を反映する以前に調査されていなかった特徴です。私たちは、SAEと線形プローブの両方を使用して、線形プローブの精度とタイルの色の進展を調査し、モデルが学んでいる内容を捉えるための有効性を比較します。私たちは小さい言語モデルであるOthelloGPTから始めますが、この研究はGPTモデル、トランスフォーマー、およびより広範なLLMが学んだ内部表現を理解するためのフレームワークを確立します。私たちのコードは公開されています:https://github.com/ALT-JS/OthelloSAE

2025-01-13T07:42:55


AdaCS: Adaptive Normalization for Enhanced Code-Switching ASR

http://arxiv.org/abs/2501.07102v1

The Chuong Chu, Vu Tuan Dat Pham, Kien Dao, Hoang Nguyen, Quoc Hung Truong

VinBrain, Hanoi, Vietnam

文中コードスイッチング(CS)とは、単一の発話内で異なる言語が交互に使用されることを指し、音声認識システム(ASR)にとって重要な課題です。例えば、ベトナム語話者が発話の中で外国の固有名詞や専門用語を使用する場合などです。ASRシステムは、単言語データでの訓練に基づいているため、文中のコードスイッチングを正確に転写することにしばしば苦労します。この問題はリソースが限られた言語においてさらに顕著であり、データの利用可能性が限られているため、堅牢なモデルの開発が妨げられます。本研究では、適応型バイアス注意モジュール(BAM)をエンコーダ・デコーダネットワークに統合した正規化モデルAdaCSを提案します。この新しいアプローチは、未知のドメインにおけるCS ASRに対して堅牢なソリューションを提供し、この分野への貢献を大幅に向上させます。BAMを利用してCSフレーズを特定し正規化することで、AdaCSは推論時に提供される偏った単語リストを使ってその適応能力を向上させます。我々の方法は、優れた性能を示し、さまざまなドメインで未知のCSフレーズを扱う能力を持っています。実験結果は、AdaCSがベトナム語のCS ASR正規化において、提案した2つのテストセットでそれぞれ56.2%および36.8%のWER(単語誤り率)削減を達成し、以前の最先端方法を大幅に上回ることを示しています。

2025-01-13T07:27:00


Collaborative Learning for 3D Hand-Object Reconstruction and Compositional Action Recognition from Egocentric RGB Videos Using Superquadrics

http://arxiv.org/abs/2501.07100v1

Tze Ho Elden Tse, Runyang Feng, Linfang Zheng, Jiho Park, Yixing Gao, Jihie Kim, Ales Leonardis, Hyung Jin Chang

エゴセントリックな3Dハンド・オブジェクトインタラクションデータセットの利用可能性に伴い、ハンド・オブジェクトのポーズ推定とアクション認識のための統一モデルの開発への関心が高まっています。しかし、既存の手法は、3D境界ボックスを用いたオブジェクトの形状と動きの表現に限界があるため、未見のオブジェクトに対して見知ったアクションを認識するのに苦労しています。さらに、テスト時のオブジェクトテンプレートへの依存は未見のオブジェクトに対する一般化能力を制限します。これらの課題に対処するために、我々はバウンディングボックスの代替としてスーパーオブジェクトを活用することを提案し、テンプレートフリーのオブジェクト再構成およびアクション認識タスクにおけるその効果を示します。さらに、純粋な外観ベースの手法が統一手法を上回ることがあるため、3D幾何学情報から得られる潜在的な利益は不明確です。したがって、訓練時の動詞と名詞の組み合わせがテスト分割と重複しない、より困難なタスクを考慮することで、アクションの構成要素を研究します。我々は、H2OおよびFPHAデータセットを構成分割で拡張し、手と操作されるオブジェクト間の幾何関係について明示的に推論できる新たな共同学習フレームワークを設計しました。広範な定量的および定性的評価を通じて、(構成的)アクション認識において従来の最先端技術に対して重要な改善を示します。

2025-01-13T07:26:05


MathReader : Text-to-Speech for Mathematical Documents

http://arxiv.org/abs/2501.07088v1

Sieun Hyeon, Kyudan Jung, Nam-Joon Kim, Hyun Gon Ryu, Jaeyoung Do

Seoul National University, Chung-Ang University, NVIDIA

MicrosoftAdobeApple、OpenAIのTTS(テキスト読み上げ)ドキュメントリーダーは、世界中でサービスを提供しています。これらは一般のプレーンテキストに対して比較的良好なTTS結果を提供しますが、時々内容を省略したり、数学的表現に対して満足のいく結果を提供しないことがあります。これは、現代の学術論文のほとんどがLaTeXで書かれており、LaTeXの数式がコンパイルされると、文書内で特有のテキスト形式としてレンダリングされるためです。しかし、従来のTTSドキュメントリーダーは、数式の数学的意味を考慮せず、認識されたテキストのみを出力します。この問題に対処するために、私たちはOCR、微調整されたT5モデル、TTSを効果的に統合したMathReaderを提案します。MathReaderは、数学的な数式を含む文書を処理する際に、Microsoft EdgeAdobe Acrobatなどの既存のTTSドキュメントリーダーよりも低い単語誤り率(WER)を示しました。MathReaderは、Microsoft Edgeに対してWERを0.510から0.281に、Adobe Acrobatに対しては0.617から0.281に低減しました。これは、特に視覚障碍者のユーザーが文書を聞きたいと思ったときの不便を緩和するのに大いに貢献するでしょう。コードはhttps://github.com/hyeonsieun/MathReaderで入手可能です。

2025-01-13T06:47:05


Video Quality Assessment for Online Processing: From Spatial to Temporal Sampling

http://arxiv.org/abs/2501.07087v1

Jiebin Yan, Lei Wu, Yuming Fang, Xuelin Liu, Xue Xia, Weide Liu

Jiangxi University of Finance and Economics, Harvard Medical School, Harvard University

マルチメディア処理と深層学習技術、特にビデオ理解の分野における急速な発展に伴い、ビデオ品質評価(VQA)は重要な進展を遂げています。研究者たちは、効率的なビデオ品質マッピングモデルの設計からさまざまな研究方向に移行しているものの、VQAモデルにおける時空間モデリングの有効性と効率性のトレードオフを深く探求することはまだ十分ではありません。ビデオが非常に冗長な情報を持っているという事実を考慮して、本論文では共同空間および時間サンプリングの観点からこの問題を検討し、VQAモデルにビデオを入力する際に、どれだけの情報を保持すれば良いのか、そしてどれだけの性能犠牲を許容するべきかという答えを見つけることを目指しています。そのために、私たちはビデオの情報を空間的および時間的次元の両方から大幅にサンプリングし、極端に圧縮されたビデオを安定したVQAモデルに供給します。共同空間および時間サンプリングに関する包括的な実験を6つの公表されたビデオ品質データベースで実施し、ほとんどのビデオ情報を捨てている場合でもVQAモデルの受け入れ可能な性能を示しました。さらに、提案された共同空間および時間サンプリング戦略を用いて、可能な限りシンプルな空間特徴抽出器、時間特徴融合モジュール、グローバル品質回帰モジュールから構成されるオンラインVQAモデルの設計に初めて挑戦しています。定量的および定性的実験を通じて、入力を簡素化し、VQAモデルの実現可能性を検証しました。

2025-01-13T06:45:32


ADKGD: Anomaly Detection in Knowledge Graphs with Dual-Channel Training

http://arxiv.org/abs/2501.07078v1

Jiayang Wu, Wensheng Gan, Jiahao Zhang, Philip S. Yu

Jinan University, South China Normal University, University of Illinois Chicago

現在の大規模言語モデル(LLM)の開発において、基盤となるデータソースの正確性と信頼性を確保することが重要です。LLMはさまざまなアプリケーションにとって重要ですが、トレーニングデータの知識のギャップによって、しばしば幻覚や不正確さに悩まされます。知識グラフ(KG)は強力な構造的ツールとして、前述の問題を緩和するための重要な外部情報源として機能することができます。KGは現実世界のデータの構造化された包括的な理解を提供することで、LLMの性能と信頼性を向上させます。しかし、KGを構築するために非構造化データから三重項を抽出する際に、エラーが存在することはよくあります。これにより、質問応答やレコメンデーションシステムなどの下流タスクでの性能が低下する可能性があります。したがって、KGにおける異常検出は、これらのエラーを特定し修正するために重要です。本論文では、デュアルチャネル学習を用いた知識グラフにおける異常検出アルゴリズム(ADKGD)を提案します。ADKGDは、エンティティビューと三重項ビューの両方の視点から表現学習を強化するために、デュアルチャネル学習アプローチを活用します。さらに、クロスレイヤーアプローチを使用して、内部情報の集約とコンテキスト情報の集約を統合します。デュアルチャネル間のスコアリング関数の精度を改善するために、クルバック・ライブラー(KL)損失成分を導入します。ADKGDの性能を評価するために、WN18RR、FB15K、NELL-995の3つの実世界のKGに関する実証研究を行いました。実験結果は、ADKGDが最先端の異常検出アルゴリズムを上回ることを示しています。ソースコードとデータセットは、https://github.com/csjywu1/ADKGD で公開されています。

2025-01-13T06:22:52


Representation Learning of Point Cloud Upsampling in Global and Local Inputs

http://arxiv.org/abs/2501.07076v1

Tongxu Zhang, Bei Wang

近年、ポイントクラウドのアップサンプリングは、3D再構築などの分野で広く適用されています。本研究では、表現学習を通じて、ポイントクラウドのアップサンプリングに影響を与える要因を、グローバルおよびローカルの両方のレベルで調査します。具体的には、この論文では、同一のポイントクラウドモデルオブジェクトのグローバルおよびローカル情報を二つのエンコーダに入力し、これらの特徴を抽出し、それを結合してからアップサンプリングデコーダにフィードします。目的は、グローバルとローカルの入力からの事前知識を活用することで、ポイントクラウドにおけるスパース性やノイズの問題に対処することです。提案されたフレームワークは、最先端のポイントクラウドアップサンプリングニューラルネットワークに適用できます。深層学習を利用した一連のオートエンコーダベースのモデルで実験を行い、グローバルおよびローカルの入力に対する解釈可能性を得ました。結果として、我々の提案したフレームワークが以前のSOTA(最先端技術)作品におけるアップサンプリング効果をさらに改善できることが証明されました。同時に、サリエンシーマップは、グローバルおよびローカルの特徴入力の違いや、両方の入力を並行してトレーニングすることの効果を反映しています。

2025-01-13T06:13:25


Value Compass Leaderboard: A Platform for Fundamental and Validated Evaluation of LLMs Values

http://arxiv.org/abs/2501.07071v1

Jing Yao, Xiaoyuan Yi, Shitong Duan, Jindong Wang, Yuzhuo Bai, Muhua Huang, Peng Zhang, Tun Lu, Zhicheng Dou, Maosong Sun, Xing Xie

Microsoft Research Asia, Fudan University, Tsinghua University, The University of Chicago, Renmin University of China, College of William & Mary

大規模言語モデル(LLM)が素晴らしいブレークスルーを達成する中で、人間の価値観との整合性を確保することは、彼らの責任ある開発とカスタマイズされたアプリケーションにとって不可欠なものとなっています。しかし、LLMの価値を評価するための評価が、望ましい3つの目標を果たしていないのが現状です。(1) 価値の明確化: 我々は、LLMの根底にある価値を正確かつ包括的に明確にすることを期待している一方で、現在の評価はバイアスや有害性などの安全リスクに狭く焦点を当てています。(2) 評価の妥当性: 既存の静的なオープンソースベンチマークは、データの汚染にさらされており、LLMが進化するにつれてすぐに陳腐化します。さらに、これらの識別的な評価は、LLMの価値に関する知識を明らかにするだけであり、価値に対するLLMの行動の適合性を妥当に評価するものではありません。(3) 価値の多元主義: 個人や文化にわたる人間の価値の多元的な性質は、LLMの価値整合性の測定において大きく無視されています。これらの課題に対処するために、我々は「Value Compass Leaderboard」を提案し、それに対応する3つのモジュールを設計しました。(i) LLMの根底にある価値をより包括的に明確にするために、動機的に異なる基本的な価値に基づいて評価を行いつつ、(ii) 進化するLLMのための適応的なテスト項目を用いた生成的な進化評価フレームワークを適用し、現実的なシナリオにおける行動からの直接的な価値認識を促進し、(iii) 特定の価値に対するLLMの整合性を、多様な次元にわたる重み付き合計として定量化するメトリックを提案します。重みは多元的な価値によって決定されます。

2025-01-13T05:53:56


Logic Meets Magic: LLMs Cracking Smart Contract Vulnerabilities

http://arxiv.org/abs/2501.07058v1

ZeKe Xiao, Qin Wang, Hammond Pearce, Shiping Chen

UNSW Sydney, CSIRO Data61

スマートコントラクトの脆弱性は、ブロックチェーンアプリケーションにおいて重大な経済的損失を引き起こしました。大規模言語モデル(LLM)は、この時間のかかるタスクに対処するための新たな可能性を提供します。しかし、最先端のLLMベースの検出ソリューションは、高い誤検出率に悩まされることが多いです。本論文では、既存の研究の限界を2つの重要な方法で押し広げます。まず、評価は最新のSolidity v0.8に基づいており、古いバージョン(v0.4)に焦点を当てた以前の研究と比較して最も最新の洞察を提供します。第二に、最新の5つのLLMモデル(企業を横断)を活用し、分野の最も先進的な能力を包括的にカバーしています。私たちは、一連の厳格な評価を行いました。実験では、うまく設計されたプロンプトが誤検出率を60%以上低下させることができることを示しました。驚くべきことに、Solidity v0.8における特定の脆弱性を検出するための再現率が、以前のバージョン(すなわちv0.4)と比較してわずか13%に低下していることも発見しました。さらなる分析により、この低下の根本原因は、検出時に新たに導入されたライブラリやフレームワークの変化を特定するLLMの依存にあることが明らかになりました。

2025-01-13T04:42:45


PoAct: Policy and Action Dual-Control Agent for Generalized Applications

http://arxiv.org/abs/2501.07054v1

Guozhi Yuan, Youfeng Liu, Jingli Yang, Wei Jia, Kai Lin, Yansong Gao, Shan He, Zilin Ding, Haitao Li

Zhipu AI, Amarcredit, Central South University, Tsinghua University, Beihang University

彼らの優れた理解力と推論能力に基づき、大規模言語モデル(LLM)駆動のエージェントフレームワークは、多くの複雑な推論タスクで大きな成功を収めています。ReActのようなエージェントは、進行中の計画とツール呼び出しを通じて、さまざまな複雑な問題をステップバイステップで解決し、環境からのフィードバックに基づいて新しいステップを反復的に最適化します。しかし、LLMの計画能力が向上するにつれて、ReActのようなフレームワークでツール呼び出しによって引き起こされるアクションは、複雑な計画や困難なデータ整理としばしば不一致になります。Code Actionはこれらの問題に対処し、より複雑なアクション空間とより難しいアクションの整理という課題を導入します。Code Actionを活用し、その複雑さの課題に取り組むために、本論文では一般的なアプリケーション向けにポリシーとアクションの二重制御エージェント(PoAct)を提案します。目的は、推論ポリシーを動的に切り替え、アクション空間を修正することで、より高品質なコードアクションとより正確な推論経路を達成することです。法的および一般的なシナリオにおけるエージェントベンチマークでの実験結果は、複雑なタスクにおける我々のアプローチの優れた推論能力とトークン消費の削減を示しています。LegalAgentBenchでは、我々の方法はベースラインに対して20パーセントの改善を示し、より少ないトークンを必要とします。私たちはGPT-4oおよびGLM-4シリーズモデルに対して実験と分析を実施し、複雑な問題を解決するための我々のアプローチの大きな潜在能力とスケーラビリティを示しました。

2025-01-13T04:28:40


Unveiling the Potential of Text in High-Dimensional Time Series Forecasting

http://arxiv.org/abs/2501.07048v1

Xin Zhou, Weiqing Wang, Shilin Qu, Zhiqiang Zhang, Christoph Bergmeir

Monash University, Southeast University, University of Granada

時系列予測は伝統的に単変量および多変量の数値データに焦点を当ててきましたが、特にテキストデータを含むマルチモーダル情報の利点を見落とすことが多いです。本論文では、高次元の時系列予測を改善するために、時系列モデルと大規模言語モデルを統合した新しいフレームワークを提案します。マルチモーダルモデルに触発された私たちの手法は、デュアルタワー構造で時系列データとテキストデータを組み合わせます。この情報の融合は包括的な表現を生み出し、その後、線形層を通じて処理されて最終予測を生成します。広範な実験により、テキストを取り入れることで高次元時系列予測の性能が向上することが示されました。この研究は、マルチモーダル時系列予測に関するさらなる研究への道を開きます。

2025-01-13T04:10:45


ACCon: Angle-Compensated Contrastive Regularizer for Deep Regression

http://arxiv.org/abs/2501.07045v1

Botao Zhao, Xiaoyang Qu, Zuheng Kang, Junqing Peng, Jing Xiao, Jianzong Wang

深い回帰において、特徴空間内の連続的なラベル間の関係を捉えることは、ますます関心を集めている基本的な課題です。この問題に対処することで、さまざまな回帰タスクにおいてモデルが最適でない解に収束するのを防ぎ、特に不均衡な回帰や限られたサンプルサイズ条件下での性能を向上させることができます。しかし、既存のアプローチはしばしば順序を考慮した表現学習や距離に基づく重み付けに依存しています。本論文では、回帰タスクにおけるラベル距離と表現類似性の間に線形の負の相関関係があるという仮説を提唱します。これを実現するために、コントラスト学習フレームワーク内でアンカーサンプルと負のサンプル間のコサイン距離を調整するための角度補正コントラスト正則化器を深い回帰のために提案します。我々の方法は、回帰タスクに対してほとんどの既存のコントラスト学習方法を拡張する互換性のあるプラグアンドプレイソリューションを提供します。広範な実験と理論的分析により、我々が提案する角度補正コントラスト正則化器は、競争力のある回帰性能を達成するだけでなく、データの効率性と不均衡データセットにおける効果においても優れていることが示されています。

2025-01-13T03:55:59


A Proposed Large Language Model-Based Smart Search for Archive System

http://arxiv.org/abs/2501.07024v1

Ha Dung Nguyen, Thi-Hoang Anh Nguyen, Thanh Binh Nguyen

この研究は、デジタルアーカイブシステムにおけるスマート検索のための新しいフレームワークを提示し、情報検索を強化するために大規模言語モデル(LLM)の能力を活用しています。Retrieval-Augmented Generation(RAG)アプローチを採用することで、このフレームワーク自然言語クエリの処理を可能にし、非テキストデータを意味のあるテキスト表現に変換します。このシステムは、高度なメタデータ生成技術、ハイブリッド検索メカニズム、ルータークエリエンジン、堅牢な応答合成を統合しており、結果として検索の精度と関連性を向上させることが証明されました。システムのアーキテクチャと実装を提示し、LLMの効率、ハイブリッド検索の最適化、多言語クエリ処理、個々のコンポーネントの影響に関する4つの実験でその性能を評価しました。得られた結果は、従来のアプローチに対して重要な改善を示しており、AI駆動システムが現代のアーカイブ実践を変革する可能性を実証しています。

2025-01-13T02:53:07


Neural Probabilistic Circuits: Enabling Compositional and Interpretable Predictions through Logical Reasoning

http://arxiv.org/abs/2501.07021v1

Weixin Chen, Simon Yu, Huajie Shao, Lui Sha, Han Zhao

University of Illinois Urbana-Champaign, College of William and Mary

エンドツーエンドの深層ニューラルネットワークは、さまざまな分野で目覚ましい成功を収めていますが、解釈可能性の欠如についてしばしば批判されます。事後的説明方法はこの問題に対処しようとしますが、これらのブラックボックスモデルを正確に表現することができず、誤解を招いたり不完全な説明を生じることが多いです。これらの課題を克服するために、論理的推論を通じて構成的かつ解釈可能な予測を可能にする、内因的に透明なモデルアーキテクチャ「ニューラル確率回路(NPC)」を提案します。具体的には、NPCは2つのモジュールで構成されています。1つは、さまざまな属性の確率を予測する属性認識モデルであり、もう1つは、認識された属性に対して論理的推論を行い、クラス予測を行うための確率回路に基づくタスク予測器です。NPCをトレーニングするために、属性認識、回路構築、共同最適化という3段階のトレーニンアルゴリズムを導入します。さらに、NPCの誤差がそのモジュールからの誤差の線形結合によって上限されることを理論的に示します。NPCの解釈可能性をさらに示すために、最も可能性の高い説明と反事実的説明の両方を提供します。4つのベンチマークデータセットに関する実証結果は、NPCが解釈可能性とパフォーマンスのバランスを取っており、エンドツーエンドのブラックボックスモデルと競争力のある結果を達成しながら、強化された解釈可能性を提供することを示しています。

2025-01-13T02:47:49


ViSoLex: An Open-Source Repository for Vietnamese Social Media Lexical Normalization

http://arxiv.org/abs/2501.07020v1

Anh Thi-Hoang Nguyen, Dung Ha Nguyen, Kiet Van Nguyen

University of Information Technology, Vietnam National University

ViSoLexは、ベトナムソーシャルメディアテキストにおける語彙の正規化に関する独自の課題に対処するために設計されたオープンソースシステムです。このプラットフォームは、非標準語(NSW)ルックアップと語彙正規化という2つのコアサービスを提供し、ユーザーが非公式な言語の標準形を取得し、NSWを含むテキストを標準化できるようにします。ViSoLexのアーキテクチャは、事前にトレーニングされた言語モデルと弱い監視学習技術を統合し、ベトナム語におけるラベル付きデータの不足を克服しながら、正確かつ効率的な正規化を実現します。この論文では、システムの設計、機能、および研究者や非技術的ユーザーへの応用について詳述します。さらに、ViSoLexは、さまざまなデータセットや研究要件に適応可能な柔軟でカスタマイズ可能なフレームワークを提供しています。ソースコードを公開することで、ViSoLexは、より堅牢なベトナム自然言語処理ツールの開発に寄与し、語彙の正規化に関するさらなる研究を促進することを目指しています。将来的な方向性としては、追加の言語に対するシステムの能力を拡張し、より複雑な非標準言語パターンの処理能力を向上させることが含まれます。

2025-01-13T02:47:13


UNetVL: Enhancing 3D Medical Image Segmentation with Chebyshev KAN Powered Vision-LSTM

http://arxiv.org/abs/2501.07017v1

Xuhui Guo, Tanmoy Dam, Rohan Dhamdhere, Gourav Modanwal, Anant Madabhushi

3D医療画像のセグメンテーションは、畳み込みニューラルネットワーク(CNN)やビジョントランスフォーマー(ViT)の進歩により大いに進展しましたが、これらの手法は長距離依存関係の取得と計算効率のバランスを取るのに苦労しています。この課題に対処するために、我々はUNETVL(U-Net Vision-LSTM)と呼ばれる新しいアーキテクチャを提案します。UNETVLは、最近の時間情報処理の進展を活用しています。UNETVLは、スケーラビリティとメモリ機能の向上を目的としたVision-LSTM(ViL)と、複雑で長距離の依存パターンをより効果的に処理するための効率的なチェビシェフコルモゴロフ・アーノルドネットワーク(KAN)を組み込んでいます。我々は、ACDCおよびAMOS2022(ポストチャレンジタスク2)ベンチマークデータセットで我々の手法を検証し、特に前のモデルであるUNETRと比較して、平均Diceスコアで7.3%(ACDC)および15.6%(AMOS)の大幅な改善を示しました。UNETVLの各コンポーネントの影響を示すために、大規模なアブレーションスタディを実施し、そのアーキテクチャについての包括的な理解を提供しました。我々のコードは、https://github.com/tgrex6/UNETVLで利用可能であり、この分野におけるさらなる研究や応用を促進します。

2025-01-13T02:33:28


A Multi-Modal Deep Learning Framework for Pan-Cancer Prognosis

http://arxiv.org/abs/2501.07016v1

Binyu Zhang, Shichao Li, Junpeng Jian, Zhu Meng, Limei Guo, Zhicheng Zhao

予後タスクは、患者の生存分析、治療計画の最適化、資源の配分に密接に関連しているため、非常に重要です。既存の予後モデルは特定のデータセットで有望な結果を示していますが、2つの側面において制約があります。一つは、患者の組織病理学的WSIや遺伝子発現分析など、特定の種類のモーダルデータのみを探究していることです。もう一つは、がんごとにモデルを構築するという枠組みを採用しているため、トレーニングされたモデルは単一のがんタイプの予後効果しか予測できず、一般化能力が弱いという点です。本論文では、UMPSNetという深層学習ベースのモデルを提案します。具体的には、患者の状態を包括的に理解するために、組織病理画像および遺伝子発現プロファイルのそれぞれにエンコーダーを構築するだけでなく、UMPSNetはさらに4種類の重要なメタデータ(人口統計情報、がんタイプ情報、治療プロトコル、および診断結果)をテキストテンプレートに統合し、テキストエンコーダーを導入してテキスト特徴を抽出します。さらに、最適輸送(OT)に基づく注意メカニズムを利用して、異なるモーダルの特徴を整列および融合します。さらに、多数のがんデータセット間の分布差の問題を効果的に解決するために、ガイダンスされたソフトミクスチャーオブエキスパート(GMoE)メカニズムが導入されます。患者データのマルチモーダリティと共同トレーニングを取り入れることにより、UMPSNetはすべての最先端アプローチを上回り、さらに、複数のがんタイプに対する単一モデルの提案された学習パラダイムの効果と一般化能力を示しています。UMPSNetのコードはhttps://github.com/binging512/UMPSNetで入手可能です。

2025-01-13T02:29:42


AlgoRxplorers | Precision in Mutation -- Enhancing Drug Design with Advanced Protein Stability Prediction Tools

http://arxiv.org/abs/2501.07014v1

Karishma Thakrar, Jiangqin Ma, Max Diamond, Akash Patel

Georgia Institute of Technology

単一アミノ酸変異がタンパク質安定性に与える影響を予測することは、疾患メカニズムの理解と薬の開発を進めるために重要です。タンパク質の安定性は、ギブズ自由エネルギーの変化($\Delta\Delta G$)によって定量化され、これらの変異によって影響を受けます。しかし、データの不足やモデル解釈の複雑さが、安定性変化の正確な予測を難しくしています。この研究では、深層ニューラルネットワークを適用し、転移学習を活用して異なるモデルからの補完情報を融合させることにより、タンパク質安定性の風景を特徴豊かな表現で作成することを提案します。私たちは4つのモデルを開発し、特に第3のモデルであるThermoMPNN+が、$\Delta\Delta G$値の予測において最良のパフォーマンスを示しました。このアプローチは、多様な特徴セットと埋め込みを潜在的な輸血技術を通じて統合し、$\Delta\Delta G$の予測を洗練させ、タンパク質の動態に対するより深い理解に寄与することを目指しています。これは、疾患研究や薬の発見の進展につながる可能性があります。

2025-01-13T02:17:01


Likelihood Training of Cascaded Diffusion Models via Hierarchical Volume-preserving Maps

http://arxiv.org/abs/2501.06999v1

Henry Li, Ronen Basri, Yuval Kluger

Yale University, Meta AI, Weizmann Institute of Science

カスケードモデルは、印象的で高解像度のサンプルを生成する能力に優れたマルチスケール生成モデルです。本研究では、それらが優れた尤度モデルでもあることを示します。ただし、確率的マルチスケールモデルの根本的な難しさである尤度関数の不適切性を克服する必要があります。具体的には、カスケードモデルでは各中間スケールが尤度評価のために適切に周辺化できない余分な変数を導入します。この問題は、階層的体積保存写像と呼ばれる変換のクラスによって誘導された潜在空間における拡散プロセスをモデル化することで解消されます。これにより、空間的に構造化されたデータを階層的に分解し、潜在空間内の局所的な歪みを導入することなく行うことができます。文献では、ラプラシアンピラミッドとウェーブレット変換という2つのマップがマルチスケールモデリングにおいて良く知られています。このような再パラメータ化により、尤度関数をスケールの結合尤度として直接表現できるだけでなく、ラプラシアンピラミッドとウェーブレット変換が、密度推定、ロスレス圧縮、分布外検出を含む尤度モデリングにおいて、最先端の技術に対しても大幅な改善をもたらすことを示します。実証的な成果の理論的基盤を調査することで、我々は、知覚的類似性の良く知られた代理であるアースムーバー距離(EMD)に基づくスコアマッチングとの深いつながりを発見しました。コードはこちらのURLで入手できます。

2025-01-13T01:20:23


Motion Tracks: A Unified Representation for Human-Robot Transfer in Few-Shot Imitation Learning

http://arxiv.org/abs/2501.06994v1

Juntao Ren, Priya Sundaresan, Dorsa Sadigh, Sanjiban Choudhury, Jeannette Bohg

日常的なタスクを自律的に完了できるロボットの教育は依然として課題です。模倣学習(IL)は、デモを通じてロボットにスキルを授ける強力なアプローチですが、テレオペレーションされたロボットデータを収集する労力がかかるという制約があります。人間の動画は、スケーラブルな代替手段を提供しますが、ロボットのアクションラベルが不足しているため、ILポリシーを直接訓練することは困難です。これに対処するために、私たちはアクションを画像上の短期水平2D軌道として表現することを提案します。これらのアクション、すなわち運動トラックは、人間の手またはロボットのエンドエフェクタの動きの予測方向を捉えます。私たちは、画像観察を受け取り、アクションとして運動トラックを出力するILポリシー「モーショントラックポリシー(MT-pi)」を実装しました。この統一された、クロスエンボディメントアクション空間を活用することで、MT-piはごくわずかの人間の動画と限られた追加のロボットデモンストレーションだけでタスクを高い成功率で完了します。テスト時には、2つのカメラビューから運動トラックを予測し、マルチビュー合成を通じて6DoF軌道を復元します。MT-piは4つの現実のタスク全体で平均86.5%の成功率を達成し、人間のデータや私たちのアクション空間を活用していない最先端のILベースラインを40%上回り、人間の動画でしか見られないシナリオにも一般化します。コードと動画は私たちのウェブサイトhttps://portal-cornell.github.io/motion_track_policy/で利用可能です。

2025-01-13T01:01:44


Graph Contrastive Learning on Multi-label Classification for Recommendations

http://arxiv.org/abs/2501.06985v1

Jiayang Wu, Wensheng Gan, Huashen Lu, Philip S. Yu

Jinan University, University of Illinois Chicago

ビジネス分析において、効果的な推奨を提供することは、企業の利益を向上させるために不可欠です。二部グラフのようなグラフベースの構造の利用は、複雑なデータ関係の分析能力により人気を集めています。リンク予測は、特定のアイテムをユーザーに推奨するために重要です。この分野の従来の方法は、グラフ構造内のパターンを特定したり、グラフニューラルネットワーク(GNN)のような表現技術を使用したりすることがよくあります。しかし、これらのアプローチはデータ量が増加するにつれて困難に直面します。これらの課題に対処するために、私たちは「マルチラベル分類のためのグラフ対照学習(MCGCL)」と呼ばれるモデルを提案します。MCGCLは、対照学習を活用して推奨の効果を高めます。このモデルには、主なタスクとサブタスクという2つのトレーニング段階が含まれています。主なタスクは、ユーザーとアイテムの関係を把握するための包括的なユーザーアイテムグラフ学習です。サブタスクでは、ユーザー間およびアイテム間の関係を把握するために、同質のユーザー-ユーザー(アイテム-アイテム)サブグラフが構築されます。私たちは、Amazonレビューからの実世界のデータセットを使用して、マルチラベル分類タスクにおける性能を評価しました。最先端の方法との比較実験により、MCGCLの効果が確認され、推薦システムの改善に向けた可能性が強調されました。

2025-01-13T00:29:29


Data Enrichment Work and AI Labor in Latin America and the Caribbean

http://arxiv.org/abs/2501.06981v1

Gianna Williams, Maya De Los Santos, Alexandra To, Saiph Savage

Northeastern University, Universidad Nacional Autónoma de México (UNAM)

世界的なAIの急増は、多様な言語と文化を持つクラウドワーカーを必要としています。彼らは、グローバルなAIシステムを可能にするためのデータラベリングにおいて重要な役割を果たしています。グローバルな重要性にもかかわらず、研究は主に米国とインドのクラウドワーカーの視点や経験の理解に焦点を当てており、顕著なギャップが残っています。このギャップを埋めるために、私たちは16のラテンアメリカおよびカリブ海諸国の100人のクラウドワーカーを対象に調査を実施しました。私たちは、これらの労働者がデジタル労働に対して誇りと尊敬を持ち、家族からの強い支援と賞賛を受けていることを発見しました。特に、クラウドワークは経済的および職業的独立へのステップと見なされていました。驚くべきことに、より多くのつながりを求めているにもかかわらず、これらの労働者は仲間から孤立していると感じ、他者の労働の質に疑念を抱いていました。彼らはコラボレーションや性別に基づくツールに抵抗し、性別の中立性を重視していました。私たちの研究は、ラテンアメリカおよびカリブ海におけるクラウドワークのHCIの理解を前進させ、この地域のデジタル抵抗ツールに関する洞察を提供します。

2025-01-13T00:11:47


Combining LLM decision and RL action selection to improve RL policy for adaptive interventions

http://arxiv.org/abs/2501.06980v1

Karine Karine, Benjamin M. Marlin

University of Massachusetts Amherst

強化学習(RL)は、特に個別化健康適応介入の開発において、医療分野でますます利用されています。大規模言語モデル(LLM)の成功に触発され、私たちはリアルタイムでRLポリシーを更新するためにLLMを使用することに関心を持っています。その目的は、個別化の加速です。私たちは、テキストベースのユーザーの好みを利用して、ユーザーの好みを即座に取り入れるために、アクション選択に影響を与えます。「ユーザーの好み」という用語は、ユーザーの個人的な好み、制約、健康状態、または好き嫌いを表現する声明などを指す広い意味の用語です。私たちの新しいアプローチは、LLMの応答とRLのアクション選択を組み合わせてRLポリシーを改善するハイブリッド手法です。ユーザーの好みを取り入れたLLMのプロンプトを用いることで、LLMは典型的なRLアクション選択のフィルターとして機能します。私たちは、さまざまなプロンプティング戦略とアクション選択戦略を調査します。私たちのアプローチを評価するために、テキストベースのユーザーの好みを生成し、行動ダイナミクスに影響を与える制約をモデル化するシミュレーション環境を実装します。私たちは、アプローチがテキストベースのユーザーの好みを考慮しながら、RLポリシーを改善し、したがって適応介入における個別化を向上させることができることを示します。

2025-01-13T00:03:20


2025-01-12 arXiv論文リスト(cs.AI)

About

arXivに掲載されたcs.AIの論文を検索し、一部をリスト化したものです。

※AIによってAbstractを日本語に翻訳しており、内容に誤りがある可能性があります。

リスト件数: 45件

リストから抽出されたキーワード: Kolmogorov-Arnold Recurrent Network (KARN), Large Language Models (LLMs) in healthcare, Generative Adversarial Network (GAN) in defect detection

Kolmogorov-Arnold Recurrent Network for Short Term Load Forecasting Across Diverse Consumers

http://arxiv.org/abs/2501.06965v1

Muhammad Umair Danish, Katarina Grolinger

需要予測はエネルギー管理において重要な役割を果たし、電力網の安定性、運用効率、コスト削減、環境の持続可能性に直接影響します。従来のバニラ再帰神経ネットワーク(RNN)は、消失勾配や爆発勾配といった問題に直面していますが、LSTMなどの高度なRNNはこの領域でかなりの成功を収めています。しかし、これらのモデルは複雑で突然のエネルギー消費の変動を正確に捉えるのに苦労し、その適用可能性は通常、オフィスや学校など特定の消費者タイプに制限されます。これらの課題に対処するため、本論文ではコルモゴロフ・アーノルド再帰ネットワーク(KARN)という新しい負荷予測アプローチを提案します。KARNは、コルモゴロフ・アーノルドネットワークの柔軟性とRNNの時間モデル化能力を組み合わせたものです。KARNは学習可能な時間スプライン関数とエッジベースの活性化を利用して、負荷データの非線形関係をよりよくモデル化し、多様な消費者タイプに適応可能にします。提案されたKARNモデルは、学生寮、戸建住宅、電気自動車充電のある家、タウンハウス、工業ビルなど、さまざまな実世界データセットで厳密に評価されました。これらのすべての消費者カテゴリにおいて、KARNは従来のバニラRNNを一貫して上回り、6つのビルではLSTMおよびゲート付き再帰ユニット(GRU)を超えました。結果は、KARNの優れた精度と適用性を示しており、多様なエネルギー管理シナリオにおける負荷予測の向上に貢献する有望なツールであることを示しています。

2025-01-12T22:49:41


Enhancing Patient-Centric Communication: Leveraging LLMs to Simulate Patient Perspectives

http://arxiv.org/abs/2501.06964v1

Xinyao Ma, Rui Zhu, Zihao Wang, Jingwei Xiong, Qingyu Chen, Haixu Tang, L. Jean Camp, Lucila Ohno-Machado

大規模言語モデル(LLMs)は、特に特定のドメインの専門家を模擬するためのカスタマイズされたプロンプトを使用したロールプレイシナリオにおいて、印象的な能力を示しています。この能力により、LLMsは特定のバックグラウンドを持つ個人のペルソナを採用でき、従来のリソース集約型ユーザースタディのコスト効率的かつ効率的な代替手段を提供します。人間の行動を模倣することで、LLMsは具体的な人口統計や職業プロファイルに基づいて反応を予測できます。本論文では、LLMsが多様なバックグラウンドを持つ個人を模擬する効果を評価し、これらの模擬された行動が現実の結果とどの程度一致しているかを分析します。特に、集中治療室(ICU)を退院する患者に提供される退院サマリーを解釈し、反応するLLMsの可能性を探ります。我々は、さまざまな教育背景を持つ個人間での退院サマリーの理解度を評価し、人間の反応と比較することで、LLM駆動のシミュレーションの強みと限界を評価します。注目すべきは、LLMsが教育背景情報でプライミングされると、88%の確率で正確で実用的な医療ガイダンスを提供することです。しかし、他の情報が提供された場合、パフォーマンスは大幅に低下し、ランダムな確率レベルを下回ります。この予備的な研究は、さまざまな人口からの患者特有の健康情報を自動的に生成することの潜在的な利点と落とし穴を示しています。LLMsは健康関連のペルソナを模擬する可能性を見せていますが、我々の結果は、臨床環境で信頼性を持って使用できるようになる前に対処すべき重要なギャップを浮き彫りにしています。我々の発見は、単純なクエリ応答モデルが健康情報を提供する際に、よりカスタマイズされたアプローチを上回る可能性があることを示唆しています。これは、LLMsが正確さを維持しながら個別化された健康コミュニケーションに最適化される方法を理解するための重要な第一歩です。

2025-01-12T22:49:32


Generative Artificial Intelligence-Supported Pentesting: A Comparison between Claude Opus, GPT-4, and Copilot

http://arxiv.org/abs/2501.06963v1

Antonio López Martínez, Alejandro Cano, Antonio Ruiz-Martínez

Universidad de Murcia, Legitec

生成型人工知能(GenAI)の登場は、私たちの社会に大きな変化をもたらしました。GenAIは多くの分野に適用可能であり、特にサイバーセキュリティにおいて重要な関連性を持っています。さまざまな応用分野の中でも、ペネトレーションテスト(ペンテスト)や倫理的ハッキングプロセスにおける利用が特に注目されています。本論文では、ペネトレーションテスト行基準(PTES)によって定義されたペネトレーションテストプロセスを強化するための主要な汎用GenAIツール、Claude Opus、ChatGPTのGPT-4、およびCopilotの可能性を分析しました。我々の分析では、制御された仮想環境内で各ツールをPTESのすべてのフェーズにわたって評価しました。その結果、これらのツールはペンテストプロセスを完全に自動化することはできないものの、特定のタスクにおいて効率と効果を向上させることで大きな支援を提供することが明らかになりました。特に、すべてのツールは有用性を示したものの、我々の実験シナリオではClaude Opusが他のツールを常に上回る性能を示しました。

2025-01-12T22:48:37


Compact Bayesian Neural Networks via pruned MCMC sampling

http://arxiv.org/abs/2501.06962v1

Ratneel Deo, Scott Sisson, Jody M. Webster, Rohitash Chandra

ベイジアンニューラルネットワーク(BNN)は、モデル予測における堅牢な不確実性定量化を提供しますが、これらをトレーニングすることは大きな計算上の課題を伴います。これは主に、マルコフ連鎖モンテカルロMCMC)サンプリングと変分推論アルゴリズムを使用して多峰性の事後分布をサンプリングする際の問題に起因しています。さらに、モデルパラメータの数は、追加の隠れ層、ニューロン、およびデータセット内の特徴が増えるにつれて指数関数的にスケールします。通常、これらの密接に接続されたパラメータのかなりの部分は冗長であり、ニューラルネットワークの剪定は可搬性を改善するだけでなく、より優れた一般化能力を持つ可能性もあります。本研究では、冗長なパラメータを除去したコンパクトな確率モデルを得るために、MCMCサンプリングとネットワーク剪定を活用することで、いくつかの課題に取り組みます。モデルパラメータ(重みとバイアス)の事後分布をサンプリングし、重要度の低い重みを剪定して、コンパクトなモデルを得ます。コンパクトなBNNが事後分布を介して不確実性を推定する能力を維持し、モデルのトレーニングと一般化性能の精度を保持するために、剪定後の再サンプリングを適用します。回帰および分類問題のために選択したベンチマークデータセットにおいて、我々のMCMC剪定戦略の有効性を実証結果分析を通じて評価します。また、複雑な現実世界のデータセットにおける剪定モデルの堅牢性をテストするために、2つのサンゴ礁コアリットロジー分類データセットも考慮します。さらに、コンパクトなBNNの精製が性能の損失を維持できるかどうかを調査します。我々の結果は、一般化性能を保持しつつ、ネットワークサイズを75%以上削減しながらMCMCを使用してBNNをトレーニングおよび剪定する実現可能性を示しています。これは、現実世界のアプリケーションに対する不確実性推定を提供するコンパクトなBNNモデルの開発への道を開きます。

2025-01-12T22:48:04


Patent Novelty Assessment Accelerating Innovation and Patent Prosecution

http://arxiv.org/abs/2501.06956v1

Kapil Kashyap, Sean Fargose, Gandhar Dhonde, Aditya Mishra

急速に進化する技術革新の環境の中で、特許を通じた知的財産権の保護は、進歩を促進し、研究開発への投資を刺激するために重要です。このレポートでは、知的財産の発明的側面を詳細に分析し、広範な特許請求データへのアクセスを簡素化するために精密に設計された画期的な特許新規性評価および請求生成システムを紹介します。学術機関における重要なギャップに対処するために、私たちのシステムは、大学生や研究者に特許請求の複雑さをナビゲートし理解するための直感的なプラットフォームを提供します。特に中国特許のニュアンスに合わせて特化されています。従来の分析システムとは異なり、私たちの取り組みは、比類のない精度と関連性を確保するために、専用の中国APIを活用しています。主な課題は、多様な特許請求へのアクセスと理解の複雑さであり、既存のアイデアに基づく効果的な革新を妨げています。私たちの解決策は、これらの障壁を克服し、中国特許の特性に合わせて微調整された包括的な請求情報をシームレスに取得するためのカスタマイズされたアプローチを提供することを目指しています。ユーザーに包括的な特許請求情報への効率的なアクセスを提供することで、私たちの革新的なプラットフォームは、知的財産の絶えず進化する領域において、情報に基づいた探求と革新を促進することを目指しています。その期待される影響は、個々の大学を超え、研究開発に適した環境を育成し、学術コミュニティ内で特許技術の理解を深めるものです。

2025-01-12T22:25:46


The Einstein Test: Towards a Practical Test of a Machine's Ability to Exhibit Superintelligence

http://arxiv.org/abs/2501.06948v1

David Benrimoh, Nace Mikus, Ariel Rosenfeld

創造的で破壊的な洞察(CDI)は、相対性理論の発展のように、人間の歴史において重要な転換点を示すものであり、私たちの知的な軌道に大きな変化をもたらしてきました。最近の人工知能(AI)の進展は、最先端のモデルがCDIを生成する能力を持つかどうかについて議論を巻き起こしています。私たちは、CDIを創出する能力は機械の超知能(SI)の重要な特徴として考えられるべきだと主張します。この目的のために、SIを目指すAIアプローチがこの種の新たな洞察を生み出せるかどうかを評価するための実践的なテストを提案します。私たちは「アインシュタインテスト」を提案します。すなわち、既知のCDIが出現する前に入手可能なデータを基に、AIがその洞察(または形式的に同等のもの)を独立に再現できるかどうかです。このようなマイルストーンを達成することで、機械は少なくとも人類の過去の最高の知的業績と匹敵すると見なされ、その結果、これらを超える可能性を持つとされます。

2025-01-12T21:55:04


An Empirical Study of Deep Reinforcement Learning in Continuing Tasks

http://arxiv.org/abs/2501.06937v1

Yi Wan, Dmytro Korenkevych, Zheqing Zhu

Meta

強化学習(RL)において、継続タスクとは、エージェントと環境の相互作用が継続的であり、エピソードに分割できないタスクを指します。これらのタスクは、環境のリセットが利用できない場合、エージェントが制御する場合、または事前に定義された場合に適していますが、リセットの後の報酬を含むすべての報酬が重要です。このようなシナリオは、実世界のアプリケーションで頻繁に発生し、エピソードタスクではモデル化できません。現代の深層RLアルゴリズムは、エピソードタスクで広く研究され、よく理解されていますが、継続タスクにおけるその挙動はまだ十分に探求されていません。このギャップに対処するために、MujocoおよびAtari環境に基づく継続タスクのテストベッドのスイートを使用して、いくつかの有名な深層RLアルゴリズムの実証的研究を提供し、継続タスクに関するいくつかの重要な洞察を強調します。これらのテストベッドを使用して、Naik et al.(2024)が提案した報酬のセンタリングによる、継続タスクにおける時間差学習に基づくRLアルゴリズムの改善方法の有効性も調査します。彼らの研究は主にQ学習と組み合わせてこの方法に焦点を当てていましたが、私たちの結果は、この方法がより広範なアルゴリズムに対して効果的であり、より大きなタスクにスケールし、他の2つの報酬センタリングアプローチを上回ることを示すことで、彼らの発見を拡張します。

2025-01-12T21:24:27


Why are we living the age of AI applications right now? The long innovation path from AI's birth to a child's bedtime magic

http://arxiv.org/abs/2501.06929v1

Tapio Pitkäranta

Aalto University

今日、読み書きができない4歳の子供が、AIツールを使用して、音声をテキストに変換し、ビジュアルを生成し、テキストを自然かつ魅力的な方法で音声に戻すことができるグラフィカルなイラストとナレーション付きの就寝前の物語を作成できるようになりました。この素晴らしい例は、私たちがAIアプリケーションの時代に生きている理由を示しています。この論文では、現代の主要なAIアプリケーションを検討し、その歴史的な発展を追跡し、それらの実現を可能にした主要な進展を強調します。以下の5つの重要な要因が特定されています。1) 複雑なAIモデルのトレーニングを可能にする計算ハードウェア(CPUとGPU)の進化 2) AIシステムの基盤となるデータリソースを提供するワールドワイドウェブの膨大なデジタルアーカイブ 3) スマートフォンが数十億の手の中で強力でアクセス可能な小型コンピュータとして機能する、モバイルコンピューティングの普及 4) AIのトレーニングと展開のための弾力的な計算能力を提供する産業規模のクラウドインフラの台頭 5) ニューラルネットワークバックプロパゲーション、「Attention is All You Need」フレームワークを含むAI研究のブレークスルー、これが現代のAI能力の基盤を成しています。これらの革新は、AIが狭いタスクを解決するだけでなく、さまざまな使用ケースに適応可能なChatGPTのようなアプリケーションを実現し、人間とコンピュータの相互作用を再定義することを可能にしました。これらの発展を歴史的な文脈の中で位置づけることにより、この論文はAIの現在の能力が可能で広くアクセス可能となるための重要なマイルストーンを強調し、社会に対する深い意味を提供します。

2025-01-12T20:50:24


Risk-Averse Finetuning of Large Language Models

http://arxiv.org/abs/2501.06911v1

Sapana Chaudhary, Ujwal Dinesha, Dileep Kalathil, Srinivas Shakkottai

Texas A&M University, Amazon Web Services

私たちは、特定のプロンプトに対して大規模言語モデル(LLM)によって生成されるネガティブまたは有害なコンテンツを軽減するという課題を考えています。私たちは、有害な出力の発生を最小限に抑えるために、LLMのファインチューニングにリスク回避の原則を統合することを提案します。特に稀だが重要なイベントに焦点を当てています。条件付きバリュー・アット・リスク(CVaR)のリスク測定を最適化することで、私たちの方法論はLLMに毒性出力を避ける優れたパフォーマンスを示しつつ、生成タスクにおける効果を維持できるように訓練します。感情の修正や毒性軽減タスクに関する実証評価は、リスク回避型強化学習と人間のフィードバック(RLHF)が、安全でより建設的なオンラインディスコース環境を促進する上での有効性を示しています。

2025-01-12T19:48:21


MedGrad E-CLIP: Enhancing Trust and Transparency in AI-Driven Skin Lesion Diagnosis

http://arxiv.org/abs/2501.06887v1

Sadia Kamal, Tim Oates

University of Maryland Baltimore County

医療データにおいてディープラーニングモデルが注目される中、透明性と信頼性のある意思決定を確保することが不可欠です。皮膚癌の診断においては、病変の検出と分類の進展により精度が向上した一方で、これらの手法のブラックボックス的な性質が、意思決定プロセスの理解において課題を引き起こし、医師の信頼に影響を及ぼしています。この研究では、異なる皮膚病変データセットで訓練されたCLIP(Contrastive Language-Image Pretraining)モデルを活用し、視覚的特徴と診断基準用語との間の意味のある関係を捉えます。さらに透明性を高めるために、複雑な医療画像(皮膚病変など)に特化した重み付きエントロピーカニズムを組み込んだMedGrad E-CLIPという手法を提案します。このアプローチは、特定の診断説明に関連する重要な画像領域を浮き彫りにします。開発された統合パイプラインは、対応する説明と照らし合わせることにより皮膚病変を分類するだけでなく、特に医療データのために開発された重要な説明性の層を追加します。画像内のさまざまな特徴が診断基準にどのように関連しているかを視覚的に説明することにより、このアプローチは医療画像分析における先進的な視覚と言語モデルの可能性を示し、最終的にはAI駆動の診断システムにおける透明性、堅牢性、信頼性を向上させることを目指します。

2025-01-12T17:50:47


Defect Detection Network In PCB Circuit Devices Based on GAN Enhanced YOLOv11

http://arxiv.org/abs/2501.06879v1

Jiayi Huang, Feiyun Zhao, Lieyang Chen

この研究は、生成的敵対ネットワーク(GAN)で強化された改良版YOLOv11モデルを使用して、印刷回路基板(PCB)の表面欠陥検出のための高度な方法を提案します。このアプローチは、欠陥の種類として、欠落した穴、齧り痕、開放回路、短絡、バリ、および仮想溶接の6つの一般的な欠陥タイプの特定に焦点を当てています。GANを利用して合成欠陥画像を生成することにより、データセットは多様で現実的なパターンで拡張され、特にバリのような複雑で稀な欠陥に対するモデルの一般化能力が向上します。強化されたYOLOv11モデルはPCB欠陥データセットで評価されており、特に複雑な環境や小さなターゲットにおける欠陥に対処する際に、精度、再現率、および堅牢性において大幅な改善が示されています。この研究は、効率的な欠陥検出が高品質なPCB製造を確保するための重要なステップである電子設計自動化(EDA)の広範な分野に貢献しています。高度な深層学習技術を統合することにより、このアプローチは欠陥検出の自動化と精密さを向上させ、手動検査への依存を減少させ、設計から生産へのワークフローを加速します。研究結果は、EDAプロセスにおけるGANベースのデータ拡張と最適化された検出アーキテクチャの統合の重要性を強調し、産業応用におけるPCB欠陥検出の信頼性と効率を改善するための貴重な洞察を提供します。

2025-01-12T17:26:24


A Foundational Generative Model for Breast Ultrasound Image Analysis

http://arxiv.org/abs/2501.06869v1

Haojun Yu, Youcheng Li, Nan Zhang, Zihan Niu, Xuantong Gong, Yanwen Luo, Haotian Ye, Siyu He, Quanlin Wu, Wangyan Qin, Mengyuan Zhou, Jie Han, Jia Tao, Ziwei Zhao, Di Dai, Di He, Dong Wang, Binghui Tang, Ling Huo, James Zou, Qingli Zhu, Yong Wang, Liwei Wang

基盤モデルは、臨床設定における様々なタスクに対応するための強力なツールとして登場しています。しかし、乳房超音波解析への応用の可能性は未開発のままです。本論文では、乳房超音波画像分析のために特別に設計された最初の基盤生成モデルであるBUSGenを紹介します。BUSGenは350万枚以上の乳房超音波画像で事前学習されており、乳房の構造、病理的特徴、臨床的変動についての広範な知識を習得しています。少数のショット適応で、BUSGenは現実的かつ情報量の多いタスク特化型データのリポジトリを生成でき、様々な下流タスク向けのモデル開発を促進します。広範な実験は、BUSGenの卓越した適応性を強調し、乳がんのスクリーニング、診断、予後において実データで訓練された基盤モデルを大きく上回ることを示しました。乳がんの早期診断において、私たちのアプローチは全てのボード認定放射線科医(n=9)を上回り、平均感度が16.5%向上しました(P値<0.0001)。さらに、生成データのスケーリング効果を特徴づけ、収集した実世界のデータと同等に診断モデルの訓練に効果的であることを示しました。加えて、広範な実験により、私たちのアプローチが下流モデルの一般化能力を向上させることを示しました。重要なのは、BUSGenが完全に匿名化されたデータ共有を可能にすることで、患者のプライバシーを保護し、安全な医療データ利用に向けた進展を成し遂げたことです。BUSGenのオンラインデモはhttps://aibus.bioで利用できます。

2025-01-12T16:39:13


Transfer Learning of Tabular Data by Finetuning Large Language Models

http://arxiv.org/abs/2501.06863v1

Shourav B. Rabbani, Ibna Kowsar, Manar D. Samad

Tennessee State University

人工知能(AI)革命にもかかわらず、深層学習は異種の特徴空間や、実用的な転移学習がない限られたサンプルサイズのため、表形式データに対して多くの成功を収めていません。大規模言語モデル(LLM)によって推進される生成AIの新たな時代は、多様なデータやドメインに前例のない学習機会をもたらします。本論文は、表形式データの分類におけるLLMアプリケーションプログラミングインターフェース(API)とLLMの転移学習の効果を調査します。LLM APIは、入力テキストのプロンプトに対してトークン化されたデータと指示で応答します。一方、転移学習は特定の分類タスクのためにLLMをファインチューニングします。本論文では、トランスファーラーニングを促進するための大規模事前学習済み表形式データモデルが存在しない場合に、十のベンチマークデータセットでのクロスデータ転移学習を示すために、LLMのエンドツーエンドファインチューニングを提案します。提案されたLLMファインチューニング手法は、表形式データにおいて十未満の特徴を持つものに対し、最先端の機械学習および深層学習手法を上回る性能を示します。この転移学習アプローチは、他の深層学習やAPIベースのソリューションの計算コストの一部を使用しながら、競争力のあるまたはそれ以上の分類性能を確保します。

2025-01-12T16:23:18


LarvSeg: Exploring Image Classification Data For Large Vocabulary Semantic Segmentation via Category-wise Attentive Classifier

http://arxiv.org/abs/2501.06862v1

Haojun Yu, Di Dai, Ziwei Zhao, Di He, Han Hu, Liwei Wang

大規模なセマンティックセグメンテーションモデルの語彙を拡張することは、マスクラベルの大規模なアノテーションが労働集約的で時間がかかるため、非常に困難です。最近、この課題に対処するために言語ガイド付きセグメンテーションモデルが提案されました。しかし、これらのモデルは、分布外のカテゴリに適用されると、そのパフォーマンスが大幅に低下します。本論文では、LarvSegと呼ばれる新しい大語彙セマンティックセグメンテーションフレームワークを提案します。従来の研究とは異なり、LarvSegは画像分類データを利用して、セマンティックセグメンテーションモデルの語彙を拡張します。なぜなら、大語彙分類データセットは通常、バランスの取れたカテゴリを含み、取得がはるかに容易だからです。しかし、分類タスクにおいては、カテゴリは画像レベルであるのに対し、セグメンテーションではピクセルレベルでラベルを予測する必要があります。この問題に対処するために、まずピクセルレベルのセグメンテーションモデルのトレーニングプロセスに画像レベルの監督を組み込む一般的なベースラインフレームワークを提案します。この方法により、トレーニングされたネットワークは、分類データに新たに導入されたカテゴリに対してセマンティックセグメンテーションを実行します。そして、セグメンテーションデータで訓練されたモデルが、トレーニング語彙を超えたカテゴリのピクセル特徴をグループ化できることに気付きました。この発見に触発されて、対応するカテゴリの正確な領域に対して監督を適用するためのカテゴリごとの注意を払った分類器を設計し、モデルのパフォーマンスを向上させます。広範な実験により、LarvSegは特にマスクラベルのないカテゴリにおいて、大語彙セマンティックセグメンテーションのパフォーマンスを大幅に向上させることを実証しました。私たちは初めて、ImageNet21Kの助けを借りて21Kカテゴリのセマンティックセグメンテーションモデルを提供します。コードはhttps://github.com/HaojunYu1998/large_voc_segで入手できます。

2025-01-12T16:22:17


A Comprehensive Evaluation of Large Language Models on Mental Illnesses in Arabic Context

http://arxiv.org/abs/2501.06859v1

Noureldin Zahran, Aya E. Fouda, Radwa J. Hanafy, Mohammed E. Fouda

メンタルヘルス障害はアラブ諸国において増大する公衆衛生上の懸念を提起しており、アクセス可能な診断および介入ツールの必要性を強調しています。大規模言語モデル(LLMs)は有望なアプローチを提供しますが、アラビア語におけるその適用には、限られたラベル付きデータセット、言語の複雑さ、翻訳バイアスなどの課題があります。本研究では、AraDepSu、Dreaddit、MedMCQAなどの多様なメンタルヘルスデータセットに対して、一般的な多言語モデルおよびバイリンガルモデルを含む8つのLLMを包括的に評価し、プロンプトの設計、言語設定(母国語のアラビア語対翻訳された英語、およびその逆)、および少数ショットプロンプトが診断性能に与える影響を調査します。私たちは、プロンプトエンジニアリングが主に指示の遵守の低下によりLLMのスコアに大きな影響を与えることを発見し、私たちの構造化されたプロンプトは、構造が少ないバリアントよりもマルチクラスデータセットで優れた性能を示し、平均で14.5%の差がありました。言語の影響は性能に対して控えめでしたが、モデル選択が重要であることが証明されました:Phi-3.5 MoEはバイナリ分類において特にバランスの取れた精度で優れており、Mistral NeMoは重症度予測タスクにおいて平均絶対誤差で優れた性能を示しました。少数ショットプロンプトは常に性能を改善し、特にGPT-4o Miniがマルチクラス分類で観察された大きな向上により、精度を平均1.58倍向上させました。これらの発見は、アラビア語を話す人々のために文化的に敏感で効果的なLLMベースのメンタルヘルスツールの開発におけるプロンプト最適化、多言語分析、少数ショット学習の重要性を強調しています。

2025-01-12T16:17:25


What Is a Counterfactual Cause in Action Theories?

http://arxiv.org/abs/2501.06857v1

Daxin Liu, Vaishak Belle

ハルパーンとパールの提案以来、実際の因果性に関する推論は、モデルチェックや検証から行動や知識に関する推論まで、人工知能の分野でますます注目を集めています。最近では、バトゥソフとスーチャンスキーが状況計算における実際の達成原因の概念を提案しました。これによって、彼らは与えられたアクション履歴における定量的な効果の原因を特定できます。この因果の概念は直観的には魅力的ですが、反実仮想の視点からは定義されていません。本論文では、反実仮想分析に基づく因果の概念を提案します。アクション履歴の文脈において、私たちの因果の概念は自然に達成原因の概念に一般化できることを示します。私たちの達成原因の概念とバトゥソフとスーチャンスキーによる達成原因との関係を分析します。最後に、私たちの因果の説明をハルパーンとパールの実際の因果性の説明に関連付けます。特に、実際の原因の定義に共通の苦境である選言的目標に反実仮想的視点を適用する際のいくつかのニュアンスに注意を払います。

2025-01-12T16:15:12


SPAM: Spike-Aware Adam with Momentum Reset for Stable LLM Training

http://arxiv.org/abs/2501.06842v1

Tianjin Huang, Ziquan Zhu, Gaojie Jin, Lu Liu, Zhangyang Wang, Shiwei Liu

大規模言語モデル(LLM)は、多様なタスクで優れたパフォーマンスを示していますが、トレーニングは非常にリソース集約的であり、トレーニングの不安定さなどの重要な課題にさらされています。この不安定さの主な原因は、勾配や損失のスパイクであり、これが学習プロセスを混乱させ、しばしばチェックポイントの回復や実験の再起動などのコストのかかる介入を引き起こし、非効率性をさらに増大させます。本論文では、LLMトレーニング中に観察された勾配スパイクについての包括的な調査を実施し、複数のアーキテクチャやデータセットにわたるその普遍性を明らかにします。私たちの分析では、これらのスパイクは通常の勾配よりも最大で1000倍大きくなり、モデルのパフォーマンスを著しく悪化させることが示されています。この問題に対処するために、私たちはモーメントリセットを用いたスパイク認識アダム(SPAM)という新しい最適化手法を提案します。この手法は、モーメントリセットとスパイク認識勾配クリッピングを通じて勾配スパイクに対抗するように設計されています。事前トレーニングとファインチューニングを含む広範な実験により、SPAMは常にアダムおよびそのバリアントをさまざまなタスクで上回ることが示されます。(1) 60Mから1BまでのLLMの事前トレーニング、(2) 4ビットLLMの事前トレーニング、(3) 強化学習、(4) 時系列予測において、SPAMは優れた成果を上げています。さらに、SPAMはスパースモーメントを可能にすることでメモリ効率の良いトレーニングを促進します。この手法では、モーメント用語のサブセットのみが維持され、更新されます。メモリ制約の下で運用する際、SPAMはGaLoreやAdam-Miniなどの最新のメモリ効率的な最適化手法を上回ります。我々の研究は、LLMトレーニングにおける勾配スパイクの緩和の重要性を強調し、トレーニングの安定性とリソース効率をスケールアップで向上させる効果的な最適化戦略を紹介します。コードはhttps://github.com/TianjinYellow/SPAM-Optimizer.gitで入手可能です。

2025-01-12T15:21:22


An efficient approach to represent enterprise web application structure using Large Language Model in the service of Intelligent Quality Engineering

http://arxiv.org/abs/2501.06837v1

Zaber Al Hassan Ayon, Gulam Husain, Roshankumar Bisoi, Waliur Rahman, Dr Tom Osborn

Atalgo Engineering, Atalgo Computing Pty Ltd

本論文では、企業のウェブアプリケーション構造を表現するための新しいアプローチを提示します。これは、大規模なインテリジェント品質工学を可能にするために、Large Language Models(LLMs)を使用しています。私たちは、ウェブアプリケーション内の複雑な関係と相互作用を保持しながら、LLMsの少数ショット学習能力を最適化する階層的表現方法論を導入します。このアプローチは、包括的なDOM分析、マルチページ合成、テストスイート生成、実行、および結果分析の5つの重要なフェーズを含みます。私たちの方法論は、インコンテキスト学習を通じてLLMsがウェブアプリケーションアーキテクチャを理解できるようにする構造化フォーマットを開発することによって、従来の自動ソフトウェアテストにおける生成AI技術の使用に関する課題に対処しています。私たちは、二つの異なるウェブアプリケーション、すなわちECプラットフォーム(Swag Labs)と、Atalgoエンジニアリング環境内で展開されるヘルスケアアプリケーション(MediBox)を使用して、私たちのアプローチを評価しました。その結果、自動テストを達成する成功率はそれぞれ90%と70%であり、複数の評価基準にわたってテストケースの高い関連スコアが得られました。この成果は、私たちの表現アプローチがLLMsの文脈に関連したテストケースを生成する能力を著しく向上させ、全体的な品質保証を改善しつつ、テストに必要な時間と労力を削減することを示唆しています。

2025-01-12T15:10:57


LLMs Model Non-WEIRD Populations: Experiments with Synthetic Cultural Agents

http://arxiv.org/abs/2501.06834v1

Augusto Gonzalez-Bonorino, Monica Capra, Emilio Pantoja

Pomona College, Claremont Graduate University, University of Arizona, Pitzer College

その重要性にもかかわらず、多様で非WEIRD(西洋、教育を受けた、工業化された、裕福で民主的)な集団における経済行動の研究には大きな課題があります。この問題に対処するために、これらの集団を代表する合成文化的エージェント(SCA)を作成するために、大規模言語モデル(LLM)を使用する新しい方法論を導入します。私たちはこれらのSCAを独裁者ゲームや最終通告ゲームなどの古典的な行動実験にかけます。私たちの結果は、実験行動における文化間の大きな変動性を示しています。特に、データが利用できる集団においては、SCAの行動は実際の被験者のそれと質的に類似しています。研究されていない集団に対しては、私たちの方法が経済行動に関する新しいテスト可能な仮説を生成することができます。AIを実験経済学に統合することで、このアプローチは難易度の高い集団に対する実験を試み、プロトコルを洗練するための効果的かつ倫理的な方法を提供します。私たちの研究は、文化間の経済研究のための新しいツールを提供し、LLMが実験的行動研究にどのように貢献できるかを示しています。

2025-01-12T15:06:28


Towards Counterfactual and Contrastive Explainability and Transparency of DCNN Image Classifiers

http://arxiv.org/abs/2501.06831v1

Syed Ali Tariq, Tehseen Zia, Mubeen Ghafoor

COMSATS University Islamabad, University of Lincoln

深層畳み込みニューラルネットワーク(DCNN)の説明可能性は、DCNNモデルの決定の背後にある理由を明らかにし、高リスク環境における理解と信頼性の向上を目指す重要な研究分野です。この点において、我々はDCNNモデルのための解釈可能な反実仮想的および対照的な説明を生成する新しい手法を提案します。提案された手法はモデルに介入し、説明を生成するために入力画像を変更するのではなく、DCNNの内部動作を探るものです。入力画像が与えられると、我々はDCNN内で最も重要なフィルタを特定することによって、画像を元の推測クラスと他の指定された変異クラスの間で分類するモデルの決定を分離する特徴や概念を表現する対照的な説明を提供します。一方で、反実仮想説明は、そのようなフィルタにおいて対照的な出力を得るために必要な最小限の変更を指定することによって提供されます。特定されたフィルタや概念を用いることで、我々の手法はモデルの決定の背後にある対照的および反実仮想的理由を提供し、モデルをより透明にします。この手法の興味深い応用の一つは、誤分類分析です。特定の入力画像から特定された概念を取り出し、それをクラス固有の概念と比較してモデルの決定の妥当性を確立します。提案された手法は最先端の技術と比較され、提供される説明の有用性を示すために、Caltech-UCSD Birds (CUB) 2011データセットで評価されます。

2025-01-12T14:54:02


Leveraging Taxonomy and LLMs for Improved Multimodal Hierarchical Classification

http://arxiv.org/abs/2501.06827v1

Shijing Chen, Mohamed Reda Bouadjenek, Shoaib Jameel, Usman Naseem, Basem Suleiman, Flora D. Salim, Hakim Hacid, Imran Razzak

University of New South Wales, Deakin University, University of Southampton, Macquarie University, Technology Innovation Institute, MBZUAI

マルチレベル階層分類(MLHC)は、複雑で多層なクラス構造内でアイテムを分類するという課題に取り組みます。しかし、従来のMLHC分類器は、独立した出力層を持つバックボーンモデルに依存することが多く、クラス間の階層関係を無視しがちです。この見落としは、基礎となる分類体系に反する不整合な予測を引き起こす可能性があります。大規模言語モデル(LLM)を活用し、マルチモーダリティ分類のための新しい分類体系を組み込んだ遷移型LLM非依存型フレームワークを提案します。この進展の基盤は、モデルが階層レベル間で一貫性を強制する能力にあります。さまざまな階層レベルを持つマルチモーダルEコマース商品データセットであるMEP-3Mデータセットでの評価は、従来のLLM構造と比較して大幅な性能向上を示しました。

2025-01-12T14:43:06


MEXA-CTP: Mode Experts Cross-Attention for Clinical Trial Outcome Prediction

http://arxiv.org/abs/2501.06823v1

Yiqing Zhang, Xiaozhong Liu, Fabricio Murai

Worcester Polytechnic Institute

臨床試験は、疾患治療のための薬の効果と安全性を評価するためのゴールドスタンダードです。薬物分子の設計空間が広範であり、財政的コストが高く、試験の期間が数年にわたることを考えると、臨床試験の結果予測に関する研究は急速に進展しています。正確な予測を行うためには、薬物分子、標的疾患、適格基準などの多様なモードのデータを活用して成功と失敗を推測する必要があります。これまでの深層学習アプローチ(例えばHINT)は、合成された分子からのウェットラボデータを必要としたり、モデルアーキテクチャの一部として相互作用をエンコードするために事前知識に依存したりすることがよくありました。これらの制限に対処するために、我々はMEXA-CTPという軽量の注意ベースのモデルを提案します。このモデルは、容易に入手可能なマルチモーダルデータを統合し、「モードエキスパート」と呼ばれる特化モジュールを介して効果的な表現を生成し、モデル設計における人間のバイアスを避けます。MEXA-CTPをカウシー損失で最適化し、モード間の関連する相互作用を捉えます。我々のTrial Outcome Prediction (TOP) ベンチマークにおける実験は、MEXA-CTPがHINTと比較してF1スコアで最大11.3%、PR-AUCで12.2%、ROC-AUCで2.5%の改善を示すことを実証しています。提案手法の各コンポーネントの効果を定量化するためにアブレーションスタディも提供しています。

2025-01-12T14:35:31


A Study on Educational Data Analysis and Personalized Feedback Report Generation Based on Tags and ChatGPT

http://arxiv.org/abs/2501.06819v1

Yizhou Zhou, Mengqiao Zhang, Yuan-Hao Jiang, Xinyu Gao, Naijie Liu, Bo Jiang

National University of Singapore, East China Normal University, Nanyang Technological University, Zhejiang University of Technology, Shandong University of Finance and Economics

この研究は、タグ注釈とChatGPT言語モデルを組み合わせた新しい手法を紹介し、学生の学習行動を分析し、個別のフィードバックを生成します。このアプローチの中心は、複雑な学生データを広範なタグセットに変換し、それをカスタマイズされたプロンプトを通じてデコードして、学生を奮い立たせる建設的なフィードバックを提供することです。この方法論は、学生データを大規模言語モデルに正確に供給し、フィードバックの建設的な性質を高めるプロンプトを作成することに焦点を当てています。このアプローチの効果は、20人以上の数学教師を対象に行った調査によって検証され、生成されたレポートの信頼性が確認されました。この方法は、インテリジェントな適応学習システムにシームレスに統合されるか、教師の作業負担を大幅に軽減するツールとして提供され、学生に正確かつタイムリーなフィードバックを提供します。生の教育データを解釈可能なタグに変換することで、この方法は、個々の学習者のニーズに合わせた建設的な提案を提供する効率的でタイムリーな個別学習フィードバックを提供することをサポートします。

2025-01-12T14:23:17


Unifying Two Types of Scaling Laws from the Perspective of Conditional Kolmogorov Complexity

http://arxiv.org/abs/2501.06802v1

Jun Wan

UBS AG

2020年、OpenAIは最初のスケーリング法則を提案し、モデルの性能とパラメータ、データ、計算との関係を説明しました。2024年には、OpenAIは2番目のスケーリング法則を提案し、モデルの推論性能と推論計算の関係を説明しました。本論文では、条件付きコルモゴロフ複雑性を用いて損失のない圧縮の観点からLLMのトレーニングと推論プロセスを分析し、これら2種類のスケーリング法則を統一します。両方の種類のスケーリング法則が、実行ステップ$t$を増加させることで条件付きコルモゴロフ複雑性の近似を改善することを発見しました。最初のスケーリング法則は、モデルパラメータ$y$を増加させることで$t$を増加させます。2番目のスケーリング法則は、出力トークンの数を増加させることで$t$を増加させます。

2025-01-12T12:52:52


Bridging the Fairness Gap: Enhancing Pre-trained Models with LLM-Generated Sentences

http://arxiv.org/abs/2501.06795v1

Liu Yu, Ludie Guo, Ping Kuang, Fan Zhou

University of Electronic Science and Technology of China

事前に学習された言語モデル(PLM)は、固有の性別バイアスを含むデータで訓練されており、望ましくない影響を引き起こします。従来のデバイアス手法はしばしば外部コーパスに依存しており、これは質、多様性、または人口統計のバランスを欠くことがあり、デバイアスの効果に影響を与えます。大規模な言語モデルの台頭とその広範な知識を背景に、我々は、整合性があり、属性がバランスの取れた、意味的に豊かな文を取り入れることによって、PLMにおける公平性(Fair-Gender)を強化することを提案します。しかし、これらの文は整合性の問題や負の移転のリスクがあるため、直接デバイアスに使用することはできません。そこで、因果分析を適用して因果効果を推定し、整合しない文をフィルタリングし、PLMに取り入れるための整合した文を特定することで、ポジティブな移転を確保します。実験の結果、我々のアプローチはPLMの性別バイアスを大幅に低減し、言語の表現力を保持することが示されました。

2025-01-12T12:32:43


Improving Pain Classification using Spatio-Temporal Deep Learning Approaches with Facial Expressions

http://arxiv.org/abs/2501.06787v1

Aafaf Ridouan, Amine Bohi, Youssef Mourchid

痛みの管理と重症度の検出は効果的な治療にとって極めて重要ですが、従来の自己報告方法は主観的であり、非言語的な人々(限られた会話能力を持つ人々)には不適切な場合があります。この制約に対処するために、私たちは顔の表情を使用した自動的な痛みの検出を探求します。私たちの研究は、Pain Emotion Faces Database(PEMF)からの顔画像を分析することにより、痛みの評価を改善するためにディープラーニング技術を活用しています。私たちは、以下の2つの新しいアプローチを提案します。1つ目は、ビデオフレームを分析し痛みの存在を予測するためにLong Short-Term Memory(LSTM)ブロックと組み合わせたハイブリッドConvNeXtモデル、2つ目は、痛みの検出のために顔画像からのランドマークを処理するためにLSTMと統合された空間・時間グラフ畳み込みネットワーク(STGCN)です。私たちの研究は、PEMFデータセットを二項痛み分類のために初めて使用したものであり、広範な実験を通してこれらのモデルの有効性を示しています。結果は、空間的および時間的特徴を組み合わせることで痛みの検出が向上する可能性を強調しており、客観的な痛み評価手法の有望な進展を提供しています。

2025-01-12T11:54:46


Cost-Effective Robotic Handwriting System with AI Integration

http://arxiv.org/abs/2501.06783v1

Tianyi Huang, Richard Xiong

この論文では、高精度で人間のような手書きを再現するために設計されたコスト効果の高いロボット手書きシステムを紹介します。Raspberry Pi Picoマイクロコントローラ、3Dプリントされた部品、及びTensorFlow.jsを用いて実装された機械学習ベースの手書き生成モデルを組み合わせることで、システムはユーザーが提供したテキストをリアルなストローク軌道に変換します。軽量な3Dプリント素材と効率的な機械設計を活用することで、システムは約56ドルの合計ハードウェアコストを実現し、商業的代替品に比べて大幅にコストを削減しています。実験評価では、手書きの精度が±0.3ミリメートル以内で、書き速度が約200 mm/分であることが示されており、このシステムは教育、研究、支援アプリケーションに対する実行可能なソリューションとして位置づけられています。この研究は、個別化された手書き技術への障壁を下げ、より広いオーディエンスがアクセスできるようにすることを目指しています。

2025-01-12T11:42:28


Eliza: A Web3 friendly AI Agent Operating System

http://arxiv.org/abs/2501.06781v1

Shaw Walters, Sam Gao, Shakker Nerd, Feng Da, Warren Williams, Ting-Chien Meng, Hunter Han, Frank He, Allen Zhang, Ming Wu, Timothy Shen, Maxwell Hu, Jerry Yan

MIT, Eliza Labs, AI Labs, Heurist AI, GoPlus, Zero Gravity Labs, PipLabs, TownSquare Labs

AIエージェントは、大規模言語モデル(LLM)を認知コアとして駆動し、ユーザーの指示のもとで自律的に制御し、実行経路を決定できるインテリジェントなエージェントシステムです。LLMとRAG、テキストから画像・動画・3Dへの変換などのさまざまなプラグインの能力の急速な向上により、AIエージェントの可能性は大きく拡大し、その機能は日々強化されています。しかし、AIとweb3の交差点では、現在のところ、web3アプリケーションをAIエージェントの機能にシームレスに統合できる理想的なエージェントフレームワークは存在していません。本論文では、web3アプリケーションの展開を容易にする最初のオープンソースのweb3フレンドリーなエージェントフレームワーク「Eliza」を提案します。Elizaのすべての要素が通常のTypescriptプログラムであり、ユーザーの完全な制御のもとにあることを強調します。また、Elizaのランタイムの主要コンポーネントの実践的な実装を通じて、安定したパフォーマンスがどのように達成されるかを示します。私たちのコードは、https://github.com/ai16z/eliza で公開されています。

2025-01-12T11:35:04


On the Complexity of Global Necessary Reasons to Explain Classification

http://arxiv.org/abs/2501.06766v1

Marco Calautti, Enrico Malizia, Cristian Molinaro

説明可能なAIは近年注目を集めており、AIシステムが行う決定や予測の背後にある理由を理解することが、その成功した導入にとって重要です。分類器の動作を説明することは、特に重要な問題の一つです。この分野の研究では、具体的なインスタンスに対する分類器の動作を説明する「ローカル説明」と、特定のインスタンスに関係なく全体の分類器の動作を説明する「グローバル説明」という2つの概念が提案されています。本稿では、グローバル説明に焦点を当て、分類器が一般的なインスタンスに特定のクラスを割り当てるために「最小の」必要条件に関して分類を説明します。我々は、文献において考慮されている自然な最小性基準および重要な分類器のファミリーに対して、この問題の徹底的な複雑性分析を行います。

2025-01-12T10:25:14


Static Segmentation by Tracking: A Frustratingly Label-Efficient Approach to Fine-Grained Segmentation

http://arxiv.org/abs/2501.06749v1

Zhenyang Feng, Zihe Wang, Saul Ibaven Bueno, Tomasz Frelek, Advikaa Ramesh, Jingyan Bai, Lemeng Wang, Zanming Huang, Jianyang Gu, Jinsu Yoo, Tai-Yu Pan, Arpita Chowdhury, Michelle Ramirez, Elizabeth G. Campolongo, Matthew J. Thompson, Christopher G. Lawrence, Sydne Record, Neil Rosser, Anuj Karpatne, Daniel Rubenstein, Hilmar Lapp, Charles V. Stewart, Tanya Berger-Wolf, Yu Su, Wei-Lun Chao

The Ohio State University, Princeton University, University of Maine, University of Miami, Virginia Tech, Duke University, Rensselaer Polytechnic Institute

私たちは生物学的領域における画像セグメンテーション、特に標本画像からの特性および部分セグメンテーションを研究しています(例:蝶の翅のストライプや甲虫の体の部分)。これは生物の理解に役立つ重要で詳細なタスクです。従来のアプローチは手作業でマスクをラベル付けすることが含まれ、通常は種ごとに数百枚の画像に対して行われ、これを他の画像に一般化するためにセグメンテーションモデルを訓練することは非常に労力を要します。私たちは「追跡による静的セグメンテーション(SST)」というラベル効率的な方法を提案します。SSTは、同種の標本には固有の変異がある一方で、セグメンテーションを目指す特性や部分は一貫して現れるという洞察に基づいて構築されています。これが、標本画像を「擬似ビデオ」に連結し、特性および部分セグメンテーションを追跡問題として再構成することを可能にします。具体的には、SSTは「擬似前の」画像から注釈付きまたは予測されたマスクを伝播させることによって、ラベルのない画像に対してマスクを生成します。ビデオセグメンテーションのために元々開発されたSegmentAnything Model 2(SAM~2)を活用することで、SSTが種ごとにわずか1枚のラベル付き画像で高品質な特性および部分セグメンテーションを達成できることを示します - これは標本画像の分析における大きなブレークスルーです。さらに、私たちはモデルを微調整するためにサイクル一貫性損失を発展させ、再び1枚のラベル付き画像を使用します。加えて、SSTのより広い可能性を強調します。これには、野生で撮影された画像に対するワンショットインスタンスセグメンテーションや、特性に基づく画像検索が含まれます。

2025-01-12T08:27:14


Multi-Label Scene Classification in Remote Sensing Benefits from Image Super-Resolution

http://arxiv.org/abs/2501.06720v1

Ashitha Mudraje, Brian B. Moser, Stanislav Frolov, Andreas Dengel

衛星画像は、多くのリモートセンシング(RS)アプリケーションの基盤ですが、限られた空間解像度がこれらのシステムの精度を妨げることがあり、特にマルチラベルシーン分類タスクでは、より高い詳細レベルと特徴の差別化が求められます。本研究では、画像の超解像(SR)が衛星画像の品質を向上させ、下流の分類性能を向上させる前処理ステップとしての有効性を探ります。SRResNet、HAT、SeeSR、RealESRGANの4つのSRモデルを検討し、ResNet-50、ResNet-101、ResNet-152、およびInception-v4を含むさまざまなCNNアーキテクチャにおけるマルチラベルシーン分類への影響を評価します。私たちの結果は、SRを適用することで、さまざまな指標にわたって下流の分類性能が大幅に改善され、マルチラベルタスクにとって重要な空間的詳細を保持する能力を示しています。全体として、この研究はリモートセンシングにおけるマルチラベル予測のためのSR技術の選択に貴重な洞察を提供し、既存のRSシステムを改善するための統合しやすいフレームワークを提示しています。

2025-01-12T05:25:16


ZNO-Eval: Benchmarking reasoning capabilities of large language models in Ukrainian

http://arxiv.org/abs/2501.06715v1

Mykyta Syromiatnikov, Victoria Ruvinskaya, Anastasiya Troynina

大規模言語モデルの使用が単純なテキスト理解や生成の問題を超えて増加する中、それらの能力と限界を評価することが重要になっています。この分野では過去数年で重要な進展がありましたが、ほとんどの研究は英語のベンチマークに焦点を当てており、他の言語はあまり探求されていません。このため、ウクライナ語における言語モデルの推論能力や堅牢性の評価は特に困難です。本研究の目的は、ウクライナ語における大規模言語モデルの推論能力評価のための包括的なベンチマークを確立することです。本論文では、ウクライナの標準化された教育試験システム、すなわち外部独立評価および国家多科目試験からの実際の試験課題に基づいたZNO-Evalベンチマークを紹介します。このデータセットは、ウクライナ語、数学、歴史、地理などのさまざまな科目からの単一選択肢、複数選択肢、一致させる問題、オープンエンドの質問を含んでおり、異なるドメインや複雑さにおける推論能力の徹底的な分析への道を開きます。このベンチマークでのGPT-3.5-Turbo、GPT-4o、GPT-4-Turbo、Mistral Large、Claude 3 Opus、およびGemini-1.5 Proなどのいくつかの著名な言語モデルの評価は、一般的な知識に関する推論と複雑な言語課題の両方においてGPT-4oの優位性を示しました。一方で、Gemini ProとGPT-4 Turboは算数のドメインで優れており、単一回答とオープンエンドの数学問題でリードしました。全てのモデルは歴史や地理のようなテキストのみの一般的な知識課題において最高パフォーマンスに近いものでしたが、ウクライナ語と数学にはまだギャップがあり、これは異なる言語や文脈におけるモデルの能力と限界をより正確に評価するための専門的な言語ベンチマークを開発する重要性を強調しています。

2025-01-12T04:49:06


MiniRAG: Towards Extremely Simple Retrieval-Augmented Generation

http://arxiv.org/abs/2501.06713v1

Tianyu Fan, Jingyuan Wang, Xubin Ren, Chao Huang

University of Hong Kong

効率的で軽量なリトリーバル強化生成(RAG)システムに対する需要の高まりは、既存のRAGフレームワークにおける小型言語モデル(SLM)の展開における重大な課題を浮き彫りにしています。現在のアプローチは、SLMの限られた意味理解能力とテキスト処理能力により、パフォーマンスが著しく低下し、資源が制約されたシナリオでの広範な採用に対する障壁を生み出しています。これらの根本的な限界に対処するために、私たちはMiniRAGを提案します。MiniRAGは、極限のシンプルさと効率性を考慮して設計された新しいRAGシステムです。MiniRAGは以下の2つの重要な技術革新を導入しています:(1)テキストチャンクと固有名詞を統一された構造で結合する意味認識型の異種グラフインデックスメカニズム。これにより、複雑な意味理解への依存を減らします。そして(2)高度な言語能力を必要とせずに効率的な知識発見を実現するためにグラフ構造を活用した軽量なトポロジ強化型リトリーバルアプローチです。広範な実験により、MiniRAGはSLMを使用してもLLMベースの方法と同等のパフォーマンスを達成し、ストレージスペースはわずか25%の使用で済むことが示されています。さらに、现实的なオンデバイスシナリオで複雑なクエリに対する軽量RAGシステムを評価するための包括的なベンチマークデータセットを提供します。私たちは、実装とデータセットを完全にオープンソースで公開しています:https://github.com/HKUDS/MiniRAG

2025-01-12T04:44:06


Multi-task Visual Grounding with Coarse-to-Fine Consistency Constraints

http://arxiv.org/abs/2501.06710v1

Ming Dai, Jian Li, Jiedong Zhuang, Xian Zhang, Wankou Yang

マルチタスクビジュアルグラウンディングは、テキスト表現に基づいて画像内での位置特定とセグメンテーションを同時に実行することを含みます。ほとんどの高度な手法は、頑健なマルチモーダル表現を抽出することを目的としたトランスフォーマーに基づくマルチモーダル融合に主に焦点を当てています。しかし、参照表現理解(REC)と参照画像セグメンテーション(RIS)の間の曖昧さはエラーを引き起こしやすく、多タスクの予測間に不一致をもたらします。さらに、不十分なマルチモーダル理解は、偏ったターゲット認識に直接寄与します。これらの課題を克服するために、我々は粗から細への一貫性制約ビジュアルグラウンディングアーキテクチャ($\text{C}^3\text{VG}$)を提案します。このアーキテクチャは、二段階のフレームワーク内で、暗黙的および明示的なモデリングアプローチを統合します。最初に、クエリデコーダーとピクセルデコーダーを使用して、初期の検出およびセグメンテーション出力を生成します。このプロセスは粗いセマンティック知覚(RSP)ステージと呼ばれます。これらの粗い予測は、その後、提案されたマスクガイド付きインタラクションモジュール(MIM)と新しい明示的双方向一貫性制約損失を通じて精緻化され、タスク間で一貫した表現を確保します。このプロセスは洗練された一貫性インタラクション(RCI)ステージと呼ばれます。さらに、不十分なマルチモーダル理解の課題に対処するために、視覚と言語の融合表現に基づく事前学習モデルを活用します。RefCOCO、RefCOCO+、およびRefCOCOgデータセットにおける実験的評価は、$\text{C}^3\text{VG}$の有効性と妥当性を示しており、これは最先端のRECおよびRIS手法を大幅に上回る結果を示しています。コードとモデルは、\url{https://github.com/Dmmm1997/C3VG}にて入手可能です。

2025-01-12T04:30:13


Evaluating Sample Utility for Data Selection by Mimicking Model Weights

http://arxiv.org/abs/2501.06708v1

Tzu-Heng Huang, Manjot Bilkhu, Frederic Sala, Javier Movellan

Apple, University of Wisconsin

ファウンデーションモデルは、大規模なウェブクローリングデータセットに依存しており、これらのデータセットには頻繁にノイズの多いデータ、バイアス、および無関係なコンテンツが含まれています。既存のデータ選択技術は一般的に人間のヒューリスティック下流の評価データセット、または専門的なスコアリングモデルを使用しており、サンプルのトレーニングプロセスにおける有用性を見落とす可能性があります。そこで、我々は新しいアプローチ「ミミックスコア」を提案します。これは、新しいモデルをトレーニングするためのデータサンプルの有用性を評価する指標であり、事前学習した参照モデルをガイドとして使用します。このアプローチは、新しいモデルのパラメータの勾配と重み空間における参照モデルを指すベクトルとの整合性に依存しています。この方向と不整合なサンプルは価値が低いと見なされ、除外されることができます。ミミックスコアに触発されて、我々は「グラッド・ミミック」を開発しました。これは有用なサンプルを特定し優先するデータ選択フレームワークであり、選択プロセスを自動化して効果的なフィルターを作成します。経験的に、ミミックスコアを用いてモデルのトレーニングを指導すると、6つの画像データセット全体で一貫した性能向上をもたらし、CLIPモデルの性能も向上させます。さらに、ミミックスコアとそれに関連するフィルターは、既存のフィルタリング手法を改善し、データセットの品質に関する正確な推定を提供します。

2025-01-12T04:28:14


ELIZA Reanimated: The world's first chatbot restored on the world's first time sharing system

http://arxiv.org/abs/2501.06707v1

Rupert Lane, Anthony Hay, Arthur Schwarz, David M. Berry, Jeff Shrager

Sussex, Stanford

エリザ(ELIZA)は、1960年代初頭にMITのジョセフ・ワイゼンバウムによって作成され、通常、世界初のチャットボットと見なされています。これは、IBM 7094上のMITのCTSS、世界初のタイムシェアリングシステムで、MAD-SLIPで開発されました。私たちは、MITのワイゼンバウム教授のアーカイブにあるオリジナルのエリザのプリントアウトを発見しました。そこには、有名なDOCTORスクリプトの初期バージョン、MAD-SLIPコードのほぼ完全なバージョン、及びMADとFAPのさまざまなサポート関数が含まれています。ここでは、エミュレートされたIBM 7094上で稼働する復元されたCTSS上でこのオリジナルのエリザを再生することについて説明します。全体のスタックはオープンソースであるため、UnixのようなOSを使用するユーザーは、世界初のタイムシェアリングシステム上で世界初のチャットボットを実行できます。

2025-01-12T04:23:34


AIOpsLab: A Holistic Framework to Evaluate AI Agents for Enabling Autonomous Clouds

http://arxiv.org/abs/2501.06706v1

Yinfang Chen, Manish Shetty, Gagan Somashekar, Minghua Ma, Yogesh Simmhan, Jonathan Mace, Chetan Bansal, Rujia Wang, Saravan Rajmohan

IT運用のためのAI(AIOps)は、障害の特定や根本原因分析などの複雑な運用作業を自動化し、人間の作業負荷を軽減し、顧客への影響を最小限に抑えることを目指しています。従来のDevOpsツールやAIOpsアルゴリズムは、孤立した運用タスクへの対応に焦点を当てることが多いですが、大規模言語モデル(LLM)やAIエージェントの最近の進展により、エンドツーエンドかつマルチタスクの自動化が可能となり、AIOpsが革命的に変化しています。本論文では、AIエージェントがインシデントライフサイクル全体を通じて自律的に運用タスクを管理する未来を展望し、これにより自己修復型のクラウドシステムを実現することを提案します。このパラダイムをAgentOpsと呼びます。このビジョンを実現するには、これらのエージェントの設計、開発、評価を導く包括的なフレームワークが必要です。この目的のために、AIOPSLABというフレームワークを提案します。AIOPSLABは、マイクロサービスクラウド環境を展開し、障害を注入し、ワークロードを生成し、テレメトリーデータをエクスポートするだけでなく、これらのコンポーネントオーケストレーションし、エージェントとの相互作用と評価のためのインターフェースを提供します。このような包括的なフレームワークの主要要件について議論し、AIOPSLABが次世代AIOpsエージェントの評価を支援できる方法を示します。AIOPSLABによって作成されたベンチマーク内での最先端のLLMエージェントの評価を通じて、クラウド環境における複雑な運用タスクを処理する際の彼らの能力と限界についての洞察を提供します。

2025-01-12T04:17:39


Fine-tuning ChatGPT for Automatic Scoring of Written Scientific Explanations in Chinese

http://arxiv.org/abs/2501.06704v1

Jie Yang, Ehsan Latif, Yuze He, Xiaoming Zhai

University of Georgia, Beijing Normal University, None

科学現象に対する説明の開発は科学評価において不可欠ですが、学生が書いた説明を評価することは依然として難しく、リソースを多く消費します。大規模言語モデル(LLM)は、この問題に対処する可能性を示しており、特に英語のようなアルファベット言語において有望です。しかし、象形文字言語への適用はあまり探求されていません。この研究では、リーディングLLMであるChatGPTを微調整し、中国語で書かれた科学的説明を自動的にスコアリングする可能性を調査します。7つの科学的説明タスクへの学生の応答を収集し、自動的にスコアリングを行いました。スコアリングの精度は、ケンドールの相関を使用して推論の複雑さに関連付けて調査されました。質的分析では、言語的特徴がスコアリングの精度にどのように影響するかを探りました。結果は、領域特有の適応がChatGPTに中国語の科学的説明を高精度でスコアリングできることを示しています。しかし、スコアリングの精度は推論の複雑さと相関関係があります:低レベルの応答には負の相関、高レベルの応答には正の相関があります。モデルは、複雑な文構造を持つ低レベルの応答において複雑な推論を過大評価し、簡潔な因果推論を使用する高レベルの応答を過小評価しています。これらの相関関係は、言語的特徴から生じています。簡潔さと明確さは低レベルの応答の精度を高め、一方で包括性は高レベルの応答の精度を向上させます。より単純で短い応答は、低レベルでより正確なスコアを得る傾向がありますが、長く情報豊富な応答は高レベルでの精度を向上させます。これらの発見は、中国語の文脈における自動スコアリングにおけるLLMの有効性を示し、教育評価のためのスコアリングモデルの微調整における言語的特徴と推論の複雑さの重要性を強調しています。

2025-01-12T04:10:56


Large Language Models, Knowledge Graphs and Search Engines: A Crossroads for Answering Users' Questions

http://arxiv.org/abs/2501.06699v1

Aidan Hogan, Xin Luna Dong, Denny Vrandečić, Gerhard Weikum

Universidad de Chile, Meta Reality Labs, Wikimedia Foundation, Max Planck Institute for Informatics

大量の言語モデル、知識グラフ、検索エンジンが相乗効果をもたらす形でどのように組み合わされるかについて、多くの議論がなされてきました。しかし、現在の学術的な議論では、ユーザーの視点がほとんど欠けています。特に、ユーザーの多様な情報ニーズに対処するための最良の方法に関して、さまざまな側面や難易度を考慮した多くの未解決の問題が残っています。本論文では、ユーザーの情報ニーズの分類法を紹介し、それをもとに、大量の言語モデル、知識グラフ、検索エンジンの利点、欠点、および潜在的な相乗効果を調査することを目的としています。この研究から、将来の研究のためのロードマップを導き出します。

2025-01-12T03:32:12


Mamba-MOC: A Multicategory Remote Object Counting via State Space Model

http://arxiv.org/abs/2501.06697v1

Peng Liu, Sen Lei, Heng-Chao Li

Southwest Jiaotong University

マルチカテゴリのリモートオブジェクトカウントは、リモート画像内のさまざまなカテゴリのオブジェクト数を正確に推定することを目的としたコンピュータビジョンの基本的なタスクです。既存の手法はCNNやトランスフォーマーに依存していますが、CNNはグローバルな依存関係を捉えるのが難しく、トランスフォーマーは計算コストが高いため、リモートアプリケーションにおける効果が制限されています。最近、Mambaがコンピュータビジョンの分野で有望なソリューションとして浮上しており、グローバルな依存関係をモデリングするための線形複雑性を提供しています。これを受けて、私たちはマルチカテゴリのリモートオブジェクトカウントのために設計されたMambaベースのネットワーク「Mamba-MOC」を提案します。これは、Mambaをリモートセンシングのオブジェクトカウントに初めて適用するものです。具体的には、階層的特徴の深い統合を促進するためのクロススケール相互作用モジュールを提案します。そして、グローバルおよびローカルの文脈情報を捉え、スキャンプロセス中にローカルな近傍情報を提供するためのコンテキスト状態空間モデルを設計します。大規模な現実的シナリオでの実験結果は、提案する手法がいくつかの主流のカウントアルゴリズムと比較して最先端の性能を達成することを示しています。

2025-01-12T03:13:54


DVM: Towards Controllable LLM Agents in Social Deduction Games

http://arxiv.org/abs/2501.06695v1

Zheng Zhang, Yihuai Lan, Yangsen Chen, Lei Wang, Xiang Wang, Hao Wang

The Hong Kong University of Science and Technology (Guangzhou), Singapore Management University, University of Science and Technology of China

大規模言語モデル(LLM)は、ソーシャル・ディダクション・ゲーム(SDG)におけるゲームエージェントの能力を向上させています。これらのゲームは主に会話に基づくインタラクションに依存しており、エージェントはそのような情報に基づいて推論し、意思決定し、表現する必要があります。この進展は、SDGにおけるより洗練された戦略的なノンプレイヤーキャラクター(NPC)を生み出しますが、これらのエージェントの能力を制御する必要があります。この制御は、NPCがゲームプレイ中に異なる難易度に適応できることを保証するだけでなく、LLMエージェントの安全性と公平性についての洞察も提供します。本論文では、SDG用の制御可能なLLMエージェントを開発するための新しいフレームワークであるDVMを提案し、最も人気のあるSDGの1つである人狼ゲームでの実装を示します。DVMは、予測者、決定者、議論者の三つの主要なコンポーネントで構成されています。勝率制約付きの意思決定チェーン報酬メカニズムと強化学習を統合することにより、エージェントは指定された勝率を達成するためにゲームプレイの能力を動的に調整できるようにします。実験結果は、DVMが人狼ゲームで既存の手法を上回るだけでなく、事前に定義された勝率目標を達成するためにその性能レベルを正常に調整することを示しています。これらの結果は、SDGにおけるLLMエージェントの適応的でバランスの取れたゲームプレイへの道を開き、制御可能なゲームエージェントに関する新たな研究の道を拓きます。

2025-01-12T03:11:20


PGP-SAM: Prototype-Guided Prompt Learning for Efficient Few-Shot Medical Image Segmentation

http://arxiv.org/abs/2501.06692v1

Zhonghao Yan, Zijin Yin, Tianyu Lin, Xiangzhu Zeng, Kongming Liang, Zhanyu Ma

Segment Anything Model(SAM)は、強力で多様なセグメンテーション能力を示し、直感的なプロンプトベースのインタラクションを提供しています。しかし、医療画像セグメンテーションのためにSAMをカスタマイズするには、大量のピクセルレベルの注釈と正確な点またはボックスベースのプロンプト設計が必要です。これらの課題に対処するために、私たちはPGP-SAMを提案します。これは、限られたサンプルを使用して煩雑な手動プロンプトを置き換える新しいプロトタイプベースの少数ショットチューニングアプローチです。私たちの主要なアイデアは、クラス間およびクラス内のプロトタイプを活用して、クラス特有の知識と関係をキャプチャすることです。私たちは、2つの主要なコンポーネントを提案します:(1)マルチスケール情報を統合するプラグアンドプレイのコンテキスト変調モジュール、および(2)プロトタイプと特徴を融合して自動プロンプト生成を行うクラスガイド付きクロスアテンションメカニズムです。公的なマルチオルガンデータセットとプライベートな心室データセットでの実験により、PGP-SAMは既存のプロンプトフリーSAMのバリアントと比較して優れた平均Diceスコアを達成し、2Dスライスのわずか10%を使用しています。

2025-01-12T02:57:04


Generative AI in Education: From Foundational Insights to the Socratic Playground for Learning

http://arxiv.org/abs/2501.06682v1

Xiangen Hu, Sheng Xu, Richard Tong, Art Graesser

この論文では、人間の認知と大規模言語モデル(LLM)の相乗効果を探求し、生成AIがどのようにして大規模な個別学習を促進できるかを強調しています。LLMと人間の認知との類似点について議論し、AIシステムを教育に統合することの可能性と新たな視点を強調します。技術と教育法を整合させる際の課題を検討した後、最も初期のインテリジェントチュータリングシステム(ITS)の一つであるAutoTutorをレビューし、その成功、限界、未達成の望みを詳述します。その後、次世代のITSであるSocratic Playgroundを紹介し、AutoTutorの制約を克服し、個別化された適応型指導を提供するために高度なトランスフォーマーモデルを使用します。その進化する能力を示すために、誤解を追跡しながら学習者の内省を系統的に導くJSONベースのチュータリングプロンプトを提示します。通して、教育法を最前面に置くことの重要性を強調し、技術の力が教育と学習を強化するために活用されるようにし、これを覆い隠さないようにすることが不可欠であると述べています。

2025-01-12T01:43:39


Application of Vision-Language Model to Pedestrians Behavior and Scene Understanding in Autonomous Driving

http://arxiv.org/abs/2501.06680v1

Haoxiang Gao, Yu Zhao

Motional, University of Toronto

自律運転(AD)は、最近数年で大きな進歩を遂げ、期待される3D検出、分類、及び位置特定の成果を達成しました。しかし、歩行者の行動に対する意味理解や、歩行者との相互作用のための下流処理など、依然として多くの課題が残っています。最近の研究では、大規模言語モデル(LLM)や視覚と言語のモデル(VLM)の応用が、多様な交通シナリオにおけるシーン理解や高レベルのマニューバ計画で期待される成果を上げています。しかし、10億パラメータのLLMを車両に展開することは、膨大な計算及びメモリリソースを必要とします。本論文では、複雑なシーンの意味表現のために使用できる小型の視覚ネットワークへのセマンティックラベルの効果的な知識蒸留を分析しました。これは、計画とコントロールのための下流の意思決定に役立ちます。

2025-01-12T01:31:07


Imbalanced Medical Image Segmentation with Pixel-dependent Noisy Labels

http://arxiv.org/abs/2501.06678v1

Erjian Guo, Zicheng Wang, Zhen Zhao, Luping Zhou

University of Sydney, Australian Research Council

正確な医療画像のセグメンテーションは、医療画像の注釈付けの難しさにより、トレーニングデータ内のノイズのあるラベルによってしばしば妨げられます。ノイズのあるラベルに対処する以前の研究は、クラス依存の仮定を行う傾向があり、ほとんどのノイズのあるラベルのピクセル依存の性質を見逃しています。さらに、既存の手法は通常、ノイズのあるラベルをフィルタリングするために固定の閾値を適用し、マイノリティクラスを削除するリスクがあり、それによってセグメンテーションの性能を劣化させる可能性があります。これらのギャップを埋めるために、私たちの提案するフレームワーク、カリキュラム選択による協調学習(CLCS)は、クラスの不均衡を伴うピクセル依存のノイズのあるラベルに対処します。CLCSは、i) ノイズのあるラベルをピクセル依存と見なし、協調学習フレームワークを通じて対処すること、ii) モデルの学習進捗に適応するカリキュラム動的閾値アプローチを用いて、クラスの不均衡の問題を軽減するためにクリーンなデータサンプルを選択すること、iii) ノイズのあるデータサンプルに対してノイズバランス損失を適用し、データを outright に捨てるのではなく、データ利用を改善することによって、既存の研究を進展させます。具体的には、私たちのCLCSは、カリキュラムノイズラベルサンプル選択(CNS)とノイズバランス損失(NBL)の2つのモジュールで構成されています。CNSモジュールでは、協調学習のために相違損失を持つ2ブランチネットワークを設計し、同一インスタンスの異なる特徴表現を異なるビューから抽出し、ピクセルのクラス確率を投票するために使用します。さらに、確率投票を通じてクリーンラベルサンプルを選択するために、カリキュラム動的閾値が採用されます。NBLモジュールでは、疑わしいノイジーラベルを直接削除するのではなく、そうしたインスタンスを活用してパフォーマンスを向上させるためにロバスト損失をさらに採用します。

2025-01-12T00:59:57


2025-01-11 arXiv論文リスト(cs.AI)

About

arXivに掲載されたcs.AIの論文を検索し、一部をリスト化したものです。

※AIによってAbstractを日本語に翻訳しており、内容に誤りがある可能性があります。

リスト件数: 41件

リストから抽出されたキーワード: Preference Optimization, Multimodal Large Language Models, Anomaly Detection

FocalPO: Enhancing Preference Optimizing by Focusing on Correct Preference Rankings

http://arxiv.org/abs/2501.06645v1

Tong Liu, Xiao Yu, Wenxuan Zhou, Jindong Gu, Volker Tresp

LMU Munich, Columbia University, University of Southern California, University of Oxford, Munich Center for Machine Learning

効率的な優先順位最適化アルゴリズム、例えば直接的な優先順位最適化(DPO)は、大規模言語モデル(LLM)を人間の好みに合わせるための人気のあるアプローチとなっています。これらのアルゴリズムは、LLMを報酬モデルとして暗黙的に扱い、誤ってランク付けされた優先順位ペアを修正するためのトレーニングに焦点を当てています。しかし、最近の研究~\citep{chen2024preference}では、DPOトレーニングがこれらの誤ランク付けされた優先順位ペアを\textit{ほとんど改善しない}ことが実証的に示されています。これにもかかわらず、勾配がこれらのケースを強調しています。我々はFocalPOを導入します。これはDPOのバリアントで、誤ランク付けされた優先順位ペアの重みを\textit{減少させ}、既に正しくランク付けできるペアに対するモデルの理解を強化することを優先します。視覚タスクで使用されるFocal Lossに触発されて、FocalPOはDPO損失を動的にスケールするために調整因子を追加することによってこれを実現します。私たちの実験は、FocalPOがMistral-Base-7BおよびLlama-3-Instruct-8Bを使用して、Alpaca Eval 2.0などの人気ベンチマークでDPOおよびそのバリアントを上回ることを示しています。さらに、FocalPOが正しいおよび誤ったサンプルグループのトレーニングにどのように影響を与えるかを実証的に明らかにし、その効果をさらに強調しています。

2025-01-11T21:41:27


Common Sense Is All You Need

http://arxiv.org/abs/2501.06642v1

Hugo Latapie

人工知能(AI)は近年目覚ましい進展を遂げていますが、すべての動物に存在する認知の根本的な側面、つまり常識には引き続き苦労しています。現在のAIシステム、特に自律運転のような複雑なタスクや、抽象化と推論コーパス(ARC)などの問題解決の課題、そしてチューリングテストのような会話ベンチマークを目的としたものは、新しい状況に適応する能力が充分な前提知識なしにはしばしば欠けています。本稿では、AIシステムに常識を統合することが真の自律性を達成し、AIの社会的および商業的価値を最大限に引き出すために不可欠であると主張しています。私たちは、知識獲得の順序を見直し、最小限の前提知識から出発し、文脈学習や適応推論、具現化が可能なAIシステムの開発の重要性を強調します。これは抽象的な領域内でも有効です。さらに、この基礎的な課題に取り組むために、AIソフトウェアスタックを再考する必要性を強調します。常識がなければ、AIシステムは真の自律性に到達できず、無限のリソースや計算要求のために理論的な理想、たとえばAIXIに接近する非実現的なパフォーマンスを示す可能性があります。AIモデルを拡大し、チューリングテストのようなベンチマークをクリアすることで、自律性を必要としない応用で重要な進展が得られましたが、これらのアプローチだけでは常識を備えた自律的なAIを達成するには不十分です。既存のベンチマークや課題を再定義し、真の常識を必要とする制約を強化し、具現化の理解を物理的および抽象的な領域の両方を含むように広げることで、現実の複雑さや抽象的な環境にうまく対処できるAIシステムの開発を促進できます。

2025-01-11T21:23:41


Enhancing Path Planning Performance through Image Representation Learning of High-Dimensional Configuration Spaces

http://arxiv.org/abs/2501.06639v1

Jorge Ocampo Jimenez, Wael Suleiman

この論文では、障害物がある未知のシーンにおける経路計画タスクを加速するための新しい方法を提案します。この方法では、Wasserstein Generative Adversarial Networks(WGANs)とGradient Penalty(GP)を利用して、Rapidly-exploring Random Treeアルゴリズムを使用した衝突回避経路のためのウェイポイントの分布を近似します。我々のアプローチは、連続潜在空間におけるフォワード拡散プロセスを用いてWGAN-GPを条件付けし、多様なデータセットを効果的に処理します。また、衝突回避経路のウェイポイントを行列としてエンコードすることを提案し、ウェイポイントの多次元オーダーが自然に保持されるようにします。この方法は、モデルの学習を改善するだけでなく、トレーニングの収束も向上させます。また、トレーニングされたモデルが真のウェイポイントを正確にキャプチャできない場合を評価する方法も提案します。そのような場合には、アルゴリズムの確率的完全性を確保するために均一サンプリングに戻ります。このプロセスは、他の機械学習ベースの方法では、シナリオごとに最適な比率を手動で決定することを伴います。我々の実験は、重要な時間制約下での経路計画タスクを加速するという有望な結果を示しています。ソースコードは以下のリンクでオープンに利用可能です:https://bitbucket.org/joro3001/imagewgangpplanning/src/master/.

2025-01-11T21:14:52


Quantifying Relational Exploration in Cultural Heritage Knowledge Graphs with LLMs: A Neuro-Symbolic Approach

http://arxiv.org/abs/2501.06628v1

Mohammed Maree

本論文では、文化遺産知識グラフにおける関係の探求のための神経シンボリックアプローチを紹介し、大規模言語モデル(LLM)を利用して説明生成を行い、関係の面白さを定量化する革新的な数学的枠組みを提供します。面白さの指標が提案したシステムの全体的な性能、特に精度、再現率、F1スコアに与える影響を強調することによって、この指標の重要性を定量的な分析で示しています。Wikidata Cultural Heritage Linked Open Data (WCH-LOD) データセットを使用した私たちのアプローチは、精度0.70、再現率0.68、F1スコア0.69を達成しており、グラフベース(精度0.28、再現率0.25、F1スコア0.26)および知識ベースのベースライン(精度0.45、再現率0.42、F1スコア0.43)と比較して改善が見られます。さらに、私たちのLLM駆動の説明は、BLEU(0.52)、ROUGE-L(0.58)、METEOR(0.63)スコアにおいて高い品質を示しており、すべてベースラインアプローチよりも優れています。面白さの指標と生成された説明の質との間には強い相関関係(0.65)があり、その有効性が裏付けられています。この発見は、文化遺産知識グラフにおける関係の探求の効果を高めるために、LLMと面白さの数学的定式化の重要性を強調しており、結果は測定可能でテスト可能です。さらに、このシステムが純粋な知識ベースおよびグラフベースのアプローチと比較して、より効果的な探求を可能にすることを示しています。

2025-01-11T19:50:09


Guided Code Generation with LLMs: A Multi-Agent Framework for Complex Code Tasks

http://arxiv.org/abs/2501.06625v1

Amr Almorsi, Mohanned Ahmed, Walid Gomaa

Egypt-Japan University of Science and Technology, Alexandria University

大規模言語モデル(LLM)は、コード生成タスクにおいて驚異的な能力を示していますが、複雑で長い文脈のプログラミング課題を扱う際や複雑な構成的推論能力を示す際には、重要な制約に直面しています。この論文では、これらの制約に対処するために意図的に構造化された細かいアプローチを用いた「ガイド付きコード生成」の新しいエージェントフレームワークを紹介します。私たちのフレームワークは、長い逐次的推論や長文脈理解における弱点を軽減しつつ、LLMの強みであるあいまい検索者および近似情報検索者としての特性を活用します。MetaのLlama 3.1 8Bモデル(int4精度)を用いたOpenAIのHumanEvalベンチマークを使った実証評価では、直接のワンショット生成と比較してソリューションの正確性が23.79\%向上することが示されました。私たちの結果は、構造化されたガイド付きアプローチが、ソフトウェア開発におけるLLMの実用性を大幅に向上させ、構成的推論や文脈処理における固有の制約を克服できることを示唆しています。

2025-01-11T19:21:53


ChartCoder: Advancing Multimodal Large Language Model for Chart-to-Code Generation

http://arxiv.org/abs/2501.06598v1

Xuanle Zhao, Xianzhen Luo, Qi Shi, Chi Chen, Shuo Wang, Wanxiang Che, Zhiyuan Liu, Maosong Sun

Tsinghua University, Harbin Institute of Technology

マルチモーダル大規模言語モデル(MLLM)は、チャート理解タスクにおいて驚異的な能力を示しています。しかし、テキスト説明とともにチャートを解釈することは、チャートに埋め込まれた密な情報を完全に捉えることができず、情報損失を引き起こすことがあります。それに対して、チャートをコードに解析することは、すべての重要な詳細を効果的に含むロスレス表現を提供します。既存のオープンソースのMLLMはチャート理解タスクで成功を収めていますが、チャートからコードへのタスクに適用する際には、依然として2つの主要な課題に直面しています。(1) 生成されたコードにおけるチャートの詳細の実行可能性が低く、復元が不十分であること、(2) 大規模かつ多様なトレーニングデータが不足していることです。これらの課題に対処するために、私たちは \textbf{ChartCoder} を提案します。これは、生成されたコードの実行可能性を向上させるためにコードLLMを言語のバックボーンとして利用する初の専用のチャートからコードへのMLLMです。さらに、チャートからコード生成のための初の大規模で多様なデータセットである \textbf{Chart2Code-160k} を導入し、直接的なチャートからコード生成データをステップバイステップの生成に変換する \textbf{Snippet-of-Thought (SoT)} メソッドを提案します。実験の結果、ChartCoderはわずか7Bのパラメータで、チャートからコードへのベンチマークで既存のオープンソースのMLLMを上回り、優れたチャート復元とコードの実行可能性を達成しました。私たちのコードは https://github.com/thunlp/ChartCoder で入手可能です。

2025-01-11T17:52:22


Exploring Pose-Based Anomaly Detection for Retail Security: A Real-World Shoplifting Dataset and Benchmark

http://arxiv.org/abs/2501.06591v1

Narges Rashvand, Ghazal Alinezhad Noghre, Armin Danesh Pazho, Shanle Yao, Hamed Tabkhi

University of North Carolina at Charlotte

万引きは小売業者にとって大きな課題であり、年間数十億ドルの損失を招いています。従来のセキュリティ対策はしばしば不十分であり、リアルタイムで万引き行動を検出できるインテリジェントなソリューションの必要性が浮き彫りになっています。本論文では、万引き検出を異常検出問題として位置づけ、典型的なショッピングパターンからの逸脱を特定することに焦点を当てています。私たちは、万引き検出のために特別に設計されたプライバシーを保護するデータセット「PoseLift」を紹介し、データの不足、プライバシーへの懸念、モデルのバイアスといった課題に取り組みます。PoseLiftは、小売店との協力のもとに構築され、実際のシナリオからの匿名化された人間のポーズデータを含んでいます。アイデンティティを匿名化しながら重要な行動情報を保持することで、PoseLiftはプライバシーと有用性のバランスをとっています。私たちは、このデータセットで最先端のポーズに基づく異常検出モデルのベンチマークを行い、包括的な指標セットを用いて性能を評価しました。その結果、ポーズに基づくアプローチが高い検出精度を達成し、従来の手法に内在するプライバシーおよびバイアスの懸念に効果的に対応できることを示しました。実際の万引き行動を捉えた最初のデータセットの1つとして、PoseLiftは研究者にコンピュータビジョンの倫理的な発展を促進する貴重なツールを提供し、革新と協力を促進するために公に利用可能となります。このデータセットは、https://github.com/TeCSAR-UNCC/PoseLift で入手可能です。

2025-01-11T17:19:53


ChemAgent: Self-updating Library in Large Language Models Improves Chemical Reasoning

http://arxiv.org/abs/2501.06590v1

Xiangru Tang, Tianyu Hu, Muyang Ye, Yanjun Shao, Xunjian Yin, Siru Ouyang, Wangchunshu Zhou, Pan Lu, Zhuosheng Zhang, Yilun Zhao, Arman Cohan, Mark Gerstein

化学的推論は通常、正確な計算を必要とする複雑で多段階のプロセスを含んでおり、些細な誤りでも連鎖的な失敗につながる可能性があります。さらに、大規模言語モデル(LLM)は、化学的推論タスクに取り組む際に、ドメイン固有の式を扱うこと、推論ステップを正確に実行すること、コードを効果的に統合することにおいて困難に直面しています。これらの課題に対処するために、私たちはChemAgentという新しいフレームワークを提案します。これは、動的で自己更新型のライブラリを通じてLLMの性能を向上させることを目的としています。このライブラリは、化学的タスクをサブタスクに分解し、これらのサブタスクを構造化されたコレクションにまとめて、将来のクエリの参照に供されます。そして、新しい問題が提示されると、ChemAgentはライブラリから関連情報を抽出および精緻化し、効果的なタスク分解と解決策の生成を促進します。私たちの手法は、3種類のメモリとライブラリ拡張推論コンポーネントを設計し、LLMが経験を通じて時間と共に改善できるようにしています。SciBenchからの4つの化学的推論データセットにおける実験結果は、ChemAgentが最大46%(GPT-4)の性能向上を達成し、既存の手法を大幅に上回ることを示しています。私たちの発見は、創薬や材料科学などのタスクを含む将来の応用のための大きな可能性を示唆しています。私たちのコードは、https://github.com/gersteinlab/chemagent で見つけることができます。

2025-01-11T17:10:30


Transforming Social Science Research with Transfer Learning: Social Science Survey Data Integration with AI

http://arxiv.org/abs/2501.06577v1

Ali Amini

american.edu

大規模な全国代表調査は、アメリカの政治学の研究に多大な影響を与えてきましたが、関連はあるものの異なる領域を表しており、これは転移学習アプリケーションの重要な条件となります。これらの調査は、共通の人口統計、政党識別、およびイデオロギー変数を通じて関連していますが、個々の調査は研究者に必要な特定の政策選好に関する質問がしばしば欠けているという点で異なります。本研究では、これらのギャップを解決するための転移学習(TL)の新しい適用法を導入し、調査データの文脈におけるTLパラダイムの初の体系的利用を示します。具体的には、協同選挙研究(CES)データセットで事前にトレーニングされたモデルを、アメリカ国立選挙研究(ANES)データセットでの人口統計変数に基づく政策質問の予測に利用するためにファインチューニングします。単純なアーキテクチャであっても、私たちの転移学習アプローチは、調査全体で欠けている変数の予測において約92%の精度を達成し、この方法の強力な可能性を示しています。この特定の適用を超えて、本論文では転移学習が既存の調査データの有用性を最大化するための有望なフレームワークであると主張します。私たちは、人工知能、特に転移学習が、共通の変数を共有する一方で関心のある結果が異なる適切に管理された調査間での体系的な知識移転を可能にすることにより、社会科学の方法論に新たなフロンティアを開くと考えています。

2025-01-11T16:01:44


Active Rule Mining for Multivariate Anomaly Detection in Radio Access Networks

http://arxiv.org/abs/2501.06571v1

Ebenezer R. H. P. Isaac, Joseph H. R. Isaac

Global AI Accelerator (GAIA), Ericsson

多変量異常検知は、多様なアプリケーションにおいて重要性を持っています。この問題を解決するための多くの検出器が存在するにもかかわらず、検出器によって得られた異常がなぜ異常であるのかを単純に定義することはできません。この理由付けは、ネットワークオペレーターが異常の根本原因を理解し、その発生を抑制するために講じるべき是正措置を把握するために必要です。既存の説明可能なAIソリューションは、異常に影響を与える特徴の手がかりを与えるかもしれませんが、ドメイン専門家が評価できる一般化可能なルールを策定することはできません。さらに、ビジネスの観点からすべての外れ値が異常とは限りません。多変量異常検知器によって予測された異常を解釈し、これらのパターンを実行可能なルールにマッピングできるシステムに対する未充足のニーズがあります。本論文では、セミオートノマス異常ルールマイナーを提案することでこのニーズを満たすことを目的としています。この提案された手法は、離散データと時系列データの両方に適用可能であり、無線アクセスネットワーク(RAN)異常検知のユースケースに特化しています。本論文では、この提案された手法を時系列RANデータを用いて実証します。

2025-01-11T15:42:25


Discrete Speech Unit Extraction via Independent Component Analysis

http://arxiv.org/abs/2501.06562v1

Tomohiko Nakamura, Kwanghee Choi, Keigo Hojo, Yoshiaki Bando, Satoru Fukayama, Shinji Watanabe

自己教師あり音声モデル (S3M) は、音声処理コミュニティにおいて一般的なツールとなっており、下流タスクのための表現を活用しています。S3Mの表現をクラスタリングすることで、音声信号のコンパクトな表現として機能する離散音声単位 (DSU) を得ることができます。DSUは通常、k-meansクラスタリングによって取得されます。DSUを使用することは、音声認識(ASR)を含むさまざまなタスクで優れたパフォーマンスを発揮することが多いですが、高次元性と冗長性を持つS3Mの表現にもかかわらず、DSUの質に影響を与える可能性があるにもかかわらず、より良いクラスタリングのためのS3M表現の前処理は未探求のままとなっています。本論文では、DSUを抽出するための線形前処理手法の可能性を研究します。DSUベースのASRベンチマークに対して、標準化、主成分分析、ホワイトニング、独立成分分析 (ICA) を評価し、k-meansの前処理としての効果を示します。また、ICAの個々の要素の直交性や解釈可能性などの挙動の詳細な分析も行います。

2025-01-11T14:45:03


Where to Go Next Day: Multi-scale Spatial-Temporal Decoupled Model for Mid-term Human Mobility Prediction

http://arxiv.org/abs/2501.06561v1

Zongyuan Huang, Weipeng Wang, Shaoyu Huang, Marta C. Gonzalez, Yaohui Jin, Yanyan Xu

Shanghai Jiao Tong University, University of California, Berkeley, Lawrence Berkeley National Laboratory

個人の移動パターンを予測することは、さまざまなアプリケーションにおいて重要です。現在の手法は、主に推薦のような個別のサービスのために次の位置を予測することに焦点を当てていますが、交通管理や疫病制御のような広範なアプリケーションを支援するには不十分であり、これは人間の移動の長期的な予測を必要とします。本研究は中期の移動予測に取り組み、日々の旅行パターンを捉え、今後の日または週の軌跡を予測することを目指しています。私たちは、日々の軌跡を異なる位置-期間チェーンに分解することで空間的および時間的情報を効率的に抽出するために設計された新しいマルチスケール空間-時間デカップル予測器(MSTDP)を提案します。私たちのアプローチは、日々の再発や週単位の周期性を含むマルチスケールの時間的パターンをモデル化するために階層的エンコーダを使用し、位置または期間チェーン内の予測情報にグローバルに注目するためにトランスフォーマーベースのデコーダを利用します。さらに、私たちは多様な空間関係を捉えるために空間的異種グラフ学習器を導入し、意味のある豊かな表現を強化します。ボストン、ロサンゼルス、サンフランシスコ・ベイエリア、上海、東京の5都市における大規模な携帯電話記録を用いた広範な実験、統計物理分析を行い、MSTDPの利点を示します。ボストンの疫病モデルに適用した結果、MSTDPは最も良い基準モデルを大幅に上回り、累積新規ケースのMAEを62.8%削減するという驚異的な成果を達成しました。

2025-01-11T14:41:47


A Survey on Spoken Italian Datasets and Corpora

http://arxiv.org/abs/2501.06557v1

Marco Giordano, Claudia Rinaldi

音声言語データセットは、言語研究、自然言語処理、音声技術の進展にとって重要です。しかし、言語的に豊かで多様なロマンス語であるイタリア語に特化したリソースは、英語や普通話のような主要な言語と比べると十分に探査されていません。この調査は、66のイタリア語の音声データセットの包括的な分析を提供し、それらの特性、方法論、および応用を強調しています。データセットは、音声の種類、ソースとコンテキスト、人口統計および言語的特性によって分類され、自動音声認識、感情検出、教育などの分野における有用性に焦点を当てています。データセットの不足、代表性、アクセスのしやすさに関する課題について議論し、データセットの作成と利用を向上させるための推奨事項も提供しています。完全なデータセット目録はGitHubを通じて公にアクセスでき、Zenodoにアーカイブされており、研究者や開発者にとって貴重なリソースとなっています。現在のギャップに対処し将来の方向性を提案することで、この研究はイタリアの音声技術と言語研究の進展を支援することを目指しています。

2025-01-11T14:33:57


Hierarchical Reinforcement Learning for Optimal Agent Grouping in Cooperative Systems

http://arxiv.org/abs/2501.06554v1

Liyuan Hu

London School of Economics

この論文では、協調型マルチエージェントシステムにおけるエージェントのグルーピングまたはペアリング問題に対処するための階層的強化学習(RL)アプローチを提案します。目的は、最適なグルーピングとエージェントポリシーを同時に学習することです。階層的RLフレームワークを採用することで、グルーピングの高次の意思決定とエージェントの低次の行動を区別します。私たちのアプローチは、中央集権的なトレーニングと分散型の実行(CTDE)パラダイムを利用して、効率的な学習とスケーラブルな実行を実現します。エージェント間の均質性や協力を処理するために、順列不変なニューラルネットワークを組み込み、効果的なコーディネーションを可能にします。オプション・クリティックアルゴリズムを適応させ、階層的な意思決定プロセスを管理し、動的かつ最適なポリシーの調整を可能にします。

2025-01-11T14:22:10


Natural Language Supervision for Low-light Image Enhancement

http://arxiv.org/abs/2501.06546v1

Jiahui Tang, Kaihua Zhou, Zhijian Luo, Yueen Hou

Jiaying University

ディープラーニングの進展に伴い、低光量画像強化(LLIE)のための多数の手法が驚異的な性能を示しています。主流のLLIE手法は通常、低光量画像と通常光量画像のペアに基づくエンドツーエンドのマッピングを学習します。しかし、異なる照明条件下での通常光量画像はリファレンス画像として機能するため、「完璧な」リファレンス画像を定義することが難しくなります。これは、メトリック指向の結果と視覚的に好ましい結果を調和させるという課題を引き起こします。最近、多くのクロスモーダル研究において、他の関連するモダリティからのサイド情報が視覚表現学習をガイドできることがわかりました。これに基づいて、我々は自然言語監視(NLS)戦略を導入し、画像に対応するテキストから特徴マップを学習し、異なる照明条件下で画像を記述する一般的で柔軟なインターフェースを提供します。しかし、テキスト記述に条件付けられた画像分布は非常に多様体的であり、トレーニングが難しくなります。この問題に対処するために、画像領域と文の単語のつながりを組み込むテキストガイダンス条件付けメカニズム(TCM)を設計し、画像とテキストの細かいクロスモーダルキューをキャッチする能力を高めます。この戦略は、より広範な監視源を利用するだけでなく、視覚的およびテキスト的特徴のアライメントに基づくLLIEの新しいパラダイムを提供します。さまざまなレベルの画像およびテキスト情報から特徴を効果的に特定し統合するために、異なるレベルでさまざまな領域を強化するための情報融合アテンション(IFA)モジュールを設計します。我々は提案したTCMとIFAをLLIEのための自然言語監視ネットワークに統合し、NaLSuperと名付けました。最後に、広範な実験を通じて、我々の提案したNaLSuperのロバスト性と優れた効果を実証します。

2025-01-11T13:53:10


Determination of galaxy photometric redshifts using Conditional Generative Adversarial Networks (CGANs)

http://arxiv.org/abs/2501.06532v1

  1. Garcia-Fernandez

universidadeuropea

正確で信頼性のあるフォトメトリック赤方偏移の決定は、広域フォトメトリック調査における重要な側面の一つです。銀河のフォトメトリック赤方偏移の決定は、従来、フォトメトリとスペクトロメトリの両方が決定された銀河のキャリブレーションサンプルに基づいて訓練された機械学習人工知能技術を使用して解決されてきました。本論文では、条件付き生成的敵対ネットワーク(CGAN)を使用して銀河のフォトメトリック赤方偏移を決定するための新しいアルゴリズミックアプローチを提案します。提案されたCGANの実装は、フォトメトリック赤方偏移の決定を確率的回帰としてアプローチします。銀河の推定赤方偏移の単一の値を決定するのではなく、完全な確率密度を計算します。提案された方法論は、ダークエネルギー調査(DES)のY1データを用いてテストされ、ランダムフォレスト回帰器などの他の既存のアルゴリズムと比較されます。

2025-01-11T12:42:07


Scaffolding Creativity: Integrating Generative AI Tools and Real-world Experiences in Business Education

http://arxiv.org/abs/2501.06527v1

Nicole C. Wang

New York University Shanghai

このケーススタディは、ビジネス教育における生成AIツールと実世界の経験の統合を探ります。革新的な学部課程の研究を通じて、AI支援学習と体験的要素を組み合わせることで、学生の創造的プロセスと学習成果にどのような影響を与えるかを調査します。我々の研究成果は、この統合的アプローチが知識取得を加速させ、学生が従来の創造的障壁を克服できるようにし、AI生成の洞察と実世界の観察との間に動的な相互作用を促進することを示しています。また、この研究は、高いAIリテラシーを持つインストラクターの必要性や、急速に進化するAIツールがカリキュラム設計における動的なターゲットを作り出すなどの課題も浮き彫りにしています。これらの洞察は、教育におけるAIに関する文献の増大に寄与し、現代ビジネス環境の複雑さに備える学生を育成するための実行可能な提言を教育者に提供します。

2025-01-11T12:31:10


Neural Codec Source Tracing: Toward Comprehensive Attribution in Open-Set Condition

http://arxiv.org/abs/2501.06514v1

Yuankun Xie, Xiaopeng Wang, Zhiyong Wang, Ruibo Fu, Zhengqi Wen, Songjun Cao, Long Ma, Chenxing Li, Haonnan Cheng, Long Ye

Communication University of China, Chinese Academy of Sciences, University of Chinese Academy of Sciences, Tsinghua University, Beijing National Research Center for Information Science and Technology, AI Lab, YouTu Lab, State Key Laboratory of Media Convergence and Communication, Institute of Automation

音声ディープフェイク検出に関する現在の研究は、バイナリ分類からマルチクラスタスク、すなわち音声ディープフェイクソーストレースタスクへの移行が徐々に進んでいます。しかし、既存のソーストレースに関する研究は、クローズドセットシナリオのみを考慮しており、オープンセット条件によって生じる課題には触れていません。本論文では、オープンセットの神経コーデック分類と解釈可能なALM検出を行う能力を持つ神経コーデックソーストレース(NCST)タスクを定義します。具体的には、11種類の最先端神経コーデック手法によって生成された二国語音声サンプルと、ALMに基づく分布外(OOD)テストサンプルを含むST-CodecfakeデータセットをNCSTタスクのために構築しました。さらに、オープンセット条件下でNCSTモデルを評価するための包括的なソーストレースベンチマークを確立しました。実験結果は、NCSTモデルが分布内(ID)分類およびOOD検出においては優れた性能を示す一方で、未知の実音声を分類する際には堅牢性に欠けていることを明らかにしています。ST-Codecfakeデータセットとコードは利用可能です。

2025-01-11T11:15:58


Resource Allocation under the Latin Square Constraint

http://arxiv.org/abs/2501.06506v1

Yasushi Kawase, Bodhayan Roy, Mohammad Azharuddin Sanpui

ラテン正方形とは、各行および各列にそれぞれ1回ずつ現れるn個の異なるシンボルで満たされたn × nの行列のことです。私たちは、ラテン正方形の制約を満たしながら、n人のエージェントにn個の個別のアイテムをnラウンドにわたって配分する問題を提起します。この制約は、各エージェントが各ラウンドにアイテムを1つしか受け取れず、各アイテムを1回しか受け取れないことを保証します。各エージェントには、アイテム-ラウンドペアに対する加法的な評価があります。スケジューリング、資源管理、実験デザインなどの現実世界の応用においては、配分の公正さやバランスを満たすためにラテン正方形の制約が必要です。私たちの目標は、エージェントの評価の合計(功利主義社会福祉)またはエージェントの評価の最小値(平等主義的社会福祉)を最大化する部分的または完全な配分を見つけることです。功利主義社会福祉を最大化する問題について、評価が二項加法的である場合でもNP困難性を証明します。その後、部分的設定と完全設定に対してそれぞれ$(1-1/e)$および$(1-1/e)/4$の近似アルゴリズムを提供します。さらに、部分的および完全設定の両方に対してラテン正方形の順序と最適値に関する固定パラメータ計算可能(FPT)アルゴリズムを提示します。平等主義的社会福祉を最大化する問題については、最適値が1以下であるか2以上であるかを判断することが、部分的設定および完全設定の両方においてNP困難であることを示します。さらに、同一の評価であっても、嫉妬がない、比例的、平等、公平に、あるアイテムまで嫉妬がない、あるアイテムまで比例的、またはあるアイテムまで平等である完全配分の存在をチェックすることがNP困難であることを示します。

2025-01-11T10:53:48


PASS: Presentation Automation for Slide Generation and Speech

http://arxiv.org/abs/2501.06497v1

Tushar Aggarwal, Aarohi Bhand

IIT Goa

今日の急速に進展する世界では、効果的なプレゼンテーションはオンラインおよびオフラインの会議におけるコミュニケーションのための不可欠なツールとなっています。魅力的なプレゼンテーションを作成するには、重要な洞察を集めることから、情報を明確かつ簡潔に伝えるスライドをデザインするまで、かなりの時間と労力が必要です。しかし、豊富なリソースが存在するにもかかわらず、多くの人々は重要なポイントを手動で抽出し、データを分析し、明瞭さとインパクトを確保するためにコンテンツを整理することに苦労しています。さらに、成功するプレゼンテーションはスライドだけではなく、リハーサルや聴衆を完全に引き込む魅力的なストーリーを織り交ぜる能力も求められます。文書をスライドに変換する自動化が一部探求されているものの、既存の研究は主に研究論文の変換に焦点が当てられています。また、これらのプレゼンテーションの提供自動化についてもまだ取り組まれていません。そこで、私たちは一般的なWord文書からスライドを生成するためのパイプライン「PASS」を紹介します。このパイプラインは、研究論文だけでなく、生成されたスライドの口頭流暢さを自動化します。PASSはユーザードキュメントを分析し、AI生成の声で動的かつ魅力的なプレゼンテーションを作成します。さらに、私たちはプレゼンテーションの重要な三つの次元、関連性、一貫性、冗長性を評価するためのLLMベースの評価指標を開発しました。データとコードはhttps://github.com/AggarwalTushar/PASSで入手可能です。

2025-01-11T10:22:04


TopoFormer: Integrating Transformers and ConvLSTMs for Coastal Topography Prediction

http://arxiv.org/abs/2501.06494v1

Santosh Munian, Oktay Karakuş, William Russell, Gwyn Nelson

Cardiff University, Wales Coastal Monitoring Centre

この論文では、\textit{TopoFormer}という新しいハイブリッド深層学習アーキテクチャを紹介します。このアーキテクチャは、変換器ベースのエンコーダと畳み込み型長短期記憶(ConvLSTM)層を統合して、標高データに基づく正確な地形ビーチプロファイルの予測を実現します。特に、平均低潮線(MLWS)と平均低潮干潮線(MLWN)に焦点を当てています。MLWSまでの正確な地形推定は、沿岸管理、航行安全、環境監視にとって重要です。ウェールズ沿岸監視センター(WCMC)からの網羅的なデータセットを活用し、36の沿岸調査ユニットにわたる2,000を超える調査から構成されるTopoFormerは、地形予測における主要な課題、つまり調査測定における時間的変動やデータギャップに対処します。このアーキテクチャは、マルチヘッドアテンションメカニズムとConvLSTM層を独自に組み合わせることで、ビーチプロファイルデータに固有の長期的依存関係と局所的な時間パターンを捉えます。TopoFormerの予測性能は、DenseNet、1D/2D CNN、LSTMなどの最先端モデルと厳密に比較評価されました。すべてのモデルが強力な性能を示しましたが、\textit{TopoFormer}は平均絶対誤差(MAE)が最も低く、2 cmという値に達し、分布内(ID)および分布外(OOD)評価の両方で優れた精度を提供しました。

2025-01-11T09:46:02


Improving Requirements Classification with SMOTE-Tomek Preprocessing

http://arxiv.org/abs/2501.06491v1

Barak Or

Meta, Google, Reichman University

この研究は、PROMISEデータセットにおけるクラス不均衡に対処するために、層化K分割交差検証と組み合わせたSMOTE-Tomek前処理手法を適用することで、要求工学の領域を強調しています。このデータセットは、機能的および非機能的なタイプに分類された969件のカテゴリ付き要求から構成されています。提案されたアプローチは、バリデーションフォールドの整合性を維持しながらマイノリティクラスの表現を強化し、分類精度の顕著な改善を実現します。ロジスティック回帰は76.16%を達成し、ベースラインの58.31%を大きく上回りました。これらの結果は、機械学習モデルの適用可能性と効率性を示しており、スケーラブルで解釈可能なソリューションとしての有用性を強調しています。

2025-01-11T09:36:14


NVS-SQA: Exploring Self-Supervised Quality Representation Learning for Neurally Synthesized Scenes without References

http://arxiv.org/abs/2501.06488v1

Qiang Qu, Yiran Shen, Xiaoming Chen, Yuk Ying Chung, Weidong Cai, Tongliang Liu

University of Sydney, Shandong University, Beijing Technology and Business University

ニューロンビューシンセシスNVS)、例えばNeRFや3Dガウススプラッティングは、効果的にスパースな視点からフォトリアリスティックなシーンを生成します。これらは通常、PSNR、SSIM、LPIPSなどの品質評価手法によって評価されます。しかしながら、合成されたビューと参照ビューを比較するこれらのフルリファレンス手法は、特に密な参照ビューの入手可能性が限られているため、神経合成されたシーン(NSS)の知覚品質を完全には捕捉できない可能性があります。さらに、人間の知覚ラベルを取得することの難しさは、広範なラベル付きデータセットの作成を妨げ、モデルの過剰適合や一般化能力の低下のリスクを引き起こします。これらの問題に対処するために、私たちはNVS-SQAというNSS品質評価手法を提案します。この手法は、人間のラベルに依存せず、自己監視を通じてノーリファレンス品質表現を学習します。従来の自己監視学習は「同じインスタンス、類似の表現」という仮定と広範なデータセットに主に依存しています。しかし、これらの条件がNSS品質評価には適用されないため、私たちはヒューリスティックな手がかりと品質スコアを学習目的として利用し、学習の効果と効率を向上させるために特化したコントラストペア準備プロセスを採用しています。結果は、NVS-SQAが17のノーリファレンス手法に対して大幅に性能を上回ることを示しています(すなわち、SRCCで平均109.5%、PLCCで98.6%、KRCCで91.5%の2番目に良い方法に対して)し、さらに16のフルリファレンス手法をすべての評価指標において上回っています(すなわち、SRCCで22.9%、PLCCで19.1%、KRCCで18.6%の2番目に良い方法に対して)。

2025-01-11T09:12:43


A Diffusive Data Augmentation Framework for Reconstruction of Complex Network Evolutionary History

http://arxiv.org/abs/2501.06485v1

En Xu, Can Rong, Jingtao Ding, Yong Li

Tsinghua University, National Natural Science Foundation of China

複雑なシステムの進化プロセスは、それらの機能的特徴に関する重要な情報を含んでいます。エッジの生成時間は、タンパク質 - タンパク質相互作用ネットワーク、生態系、社会ネットワークなど、さまざまなネットワーク型複雑システムの歴史的進化に関する洞察を提供します。これらの進化プロセスを復元することは、タンパク質 - タンパク質相互作用ネットワークの進化の解釈を助けることを含め、重要な科学的価値を持っています。しかし、既存の方法は部分的な時間ネットワークが与えられた場合、残りのエッジの生成時間を予測する能力はありますが、ネットワーク間予測タスクではしばしば性能が低下します。これらの方法は、タイムスタンプがない静的ネットワークのエッジ生成時間復元タスクでは頻繁に失敗します。本研究では、複数のネットワークを統合してトレーニングを行う比較パラダイムベースのフレームワークを採用し、ネットワーク構造とエッジ生成時間との関係に関するネットワーク間学習を可能にします。個別のトレーニングと比較して、このアプローチは平均精度を16.98%向上させます。さらに、時間的ネットワークの収集が難しいことを考慮し、多数の時間的ネットワークを生成するための新しい拡散モデルベースの生成方法を提案します。実際の時間的ネットワークと生成されたネットワークを組み合わせてトレーニングを行うことで、共同トレーニングを通じてさらに平均精度を5.46%向上させることができます。

2025-01-11T08:39:33


YO-CSA-T: A Real-time Badminton Tracking System Utilizing YOLO Based on Contextual and Spatial Attention

http://arxiv.org/abs/2501.06472v1

Yuan Lai, Zhiwei Shi, Chengxi Zhu

シャトルコックの3D軌道は、人間とロボットの競技用バドミントンロボットに必要であり、高精度でリアルタイムなパフォーマンスを要求します。しかし、シャトルコックの高速飛行、さまざまな視覚効果、コートのラインや照明などの環境要素との融合傾向は、迅速かつ正確な2D検出の課題となります。本論文では、まず、YOLOv8sモデルのバックボーン、ネック、ヘッドを最適化および再構築するYO-CSA検出ネットワークを提案します。このネットワークは、文脈的および空間的な注意メカニズムを取り入れることで、モデルがグローバルおよびローカルの特徴を抽出・統合する能力を向上させます。次に、検出、予測、および補償という3つの主要なサブタスクをリアルタイム3Dシャトルコック軌道検出システムに統合します。具体的には、我々のシステムは、YO-CSAによって抽出された2D座標シーケンスをステレオビジョンを使用して3D空間にマッピングし、過去の情報に基づいて将来の3D座標を予測し、それを左と右のビューに再投影して2D検出のための位置制約を更新します。さらに、システムには補償モジュールが含まれており、欠落した中間フレームを補完することで、より完全な軌道を確保します。我々は、YO-CSAの性能とシステムの有効性を評価するために、自身のデータセットで広範な実験を行います。実験結果は、YO-CSAが90.43%の[email protected]という高精度を達成し、YOLOv8sおよびYOLO11sを上回ることを示しています。我々のシステムは優れた性能を発揮し、12のテストシーケンス全体で130 fpsを超える速度を維持します。

2025-01-11T08:00:25


The Internet of Large Language Models: An Orchestration Framework for LLM Training and Knowledge Exchange Toward Artificial General Intelligence

http://arxiv.org/abs/2501.06471v1

Wilson Wei, Nicholas Chen, Yuxuan Li

EureXa Labs, Peking University, University of Waterloo

この論文では、大規模言語モデル(LLM)の開発中に直面する多次元的な課題について探求します。具体的には、モデルパラメータとファイルサイズの大規模、開発環境設定の複雑さ、モデル機能の特異性、計算リソースの高コストが含まれます。これらの課題に対処するために、本論文では三つの主要な技術的解決策を提案します:LLM共有プロトコル、LLMユニバーサル環境フレームワーク、エージェント最適パスモジュールです。研究初期段階における計算リソースの制約を解決するために、私たちはさらに革新的な共同マイニングメカニズムを提案し、計算リソース提供者とモデル設計者の間での相互価値共有を実現します。これには、最適モデルパスに対する突破口報酬や長期利益分配が含まれ、これにより研究者にコスト最適化された計算リソースのサポートを提供し、LLMの研究と応用の持続的な発展を促進します。

2025-01-11T08:00:24


First Token Probability Guided RAG for Telecom Question Answering

http://arxiv.org/abs/2501.06468v1

Tingwei Chen, Jiayi Chen, Zijian Zhao, Haolong Chen, Liang Zhang, Guangxu Zhu

Shenzhen Research Institute of Big Data, The Chinese University of Hong Kong (Shenzhen), Sun Yat-sen University

大規模言語モデル(LLM)は、その優れた汎用能力のために大きな注目を集めています。複雑なドメイン知識を必要とするアプリケーションにおいては、取得強化生成(RAG)がドメイン特化の情報をLLMに組み込む上で明確な利点を示しています。しかし、既存のRAG研究は、特に通信分野における選択肢型質問応答(MCQA)の課題、特に取得品質や幻覚を軽減することについて十分に対処していません。これらの課題に対処するために、私たちは新しいファーストトークン確率ガイドのRAGフレームワークを提案します。このフレームワークは、信頼度スコアを利用して、チャンク数やチャンクウィンドウサイズなどの主要なハイパーパラメータを最適化し、コンテキストを動的に調整します。私たちの手法は、最も関連性の高いチャンクを取得することから始まり、潜在的な答えとして単一のトークンを生成します。その後、すべてのオプションの確率が正規化され、信頼度スコアとして機能し、コンテキストの動的調整を導きます。これらの信頼度スコアに基づいてハイパーパラメータを反復的に最適化することで、RAGのパフォーマンスを継続的に向上させることができます。私たちは、フレームワークの有効性を検証する実験を行い、ドメイン特化のMCQAタスクにおける精度向上の可能性を示しました。

2025-01-11T07:47:31


MedCT: A Clinical Terminology Graph for Generative AI Applications in Healthcare

http://arxiv.org/abs/2501.06465v1

Ye Chen, Dongdong Huang, Haoyun Xu, Cong Fu, Lin Sheng, Qingli Zhou, Yuqiang Shen, Kai Wang

Zhejiang University, Tiger Research

私たちは、中国の医療コミュニティのための世界初の臨床用語集であるMedCTを紹介します。このMedCTには、臨床基盤モデルのMedBERTとエンティティリンクモデルのMedLinkが伴います。MedCTシステムは、中国の臨床データの標準化されたプログラム可能な表現を可能にし、新しい医薬品、治療経路、および人口の多い中国コミュニティにおける患者の結果の改善を促進します。さらに、MedCTの知識グラフは、大規模言語モデル(LLM)の幻覚問題を最小限に抑えるための原則に基づいたメカニズムを提供し、LLMベースの臨床アプリケーションにおいて高い精度と安全性を達成します。LLMの生成能力と表現力を活用することで、私たちは迅速に生産品質の用語システムを構築し、3ヶ月以内に実際の臨床現場に展開しました。一方、SNOMED CTのような従来の用語集は、20年以上の開発を経ています。私たちの実験では、MedCTシステムがセマンティックマッチングおよびエンティティリンクタスクにおいて最先端(SOTA)のパフォーマンスを達成できたことを示しています。これは中国語だけでなく英語にも当てはまります。また、私たちは、MedCTとLLMを使用して、電子健康記録(EHR)の自動生成や診断意思決定のための医療文書検索を含む代表的な臨床タスクの幅広いスぺクトルに適用する縦断的なフィールド実験を実施しました。私たちの研究は、新しいジャンルの臨床LLMアプリケーションにおいて、臨床ワークフローと患者の成果に対するMedCTの多くの価値を示しています。私たちのアプローチは十分なエンジニアリングの詳細を持って提示されており、他の非英語社会のための臨床用語集を実装することは容易に再現可能であるはずです。私たちは、用語集、モデル、およびアルゴリズムを公開し、開発のための実世界の臨床データセットも提供します。

2025-01-11T07:35:51


Assessing instructor-AI cooperation for grading essay-type questions in an introductory sociology course

http://arxiv.org/abs/2501.06461v1

Francisco Olivos, Tobias Kamelski, Sebastián Ascui-Gac

この研究は、高等教育におけるエッセイ型質問の採点に対する補完ツールとしての人工知能(AI)の利用を探求しており、人間の採点との一貫性やバイアスを減少させる可能性に焦点を当てています。入門社会学コースの70件の手書き試験を用いて、生成事前学習トランスフォーマー(GPT)モデルの学生の回答を転写し、採点する際のパフォーマンスを評価しました。GPTモデルは、転写および採点タスクのさまざまな設定の下でテストされました。結果は、人間とGPTの転写の間に高い類似性があることを示しており、特にGPT-4o-miniがGPT-4よりも正確性で優れていることがわかりました。採点において、GPTは人間の採点者のスコアとの強い相関を示し、特にテンプレート回答が提供された場合に顕著でした。しかし、相違点も残り、GPTの役割は「第二の採点者」として、一貫性のない部分を指摘し、評価の見直しのために使われるべきであり、人間の評価を完全に置き換えるものではないことが強調されました。この研究は、教育におけるAIに関する文献を拡充するものであり、エッセイ型質問の採点における公平性と効率性を向上させる可能性を示しています。

2025-01-11T07:18:12


On the Computational Capability of Graph Neural Networks: A Circuit Complexity Bound Perspective

http://arxiv.org/abs/2501.06444v1

Xiaoyu Li, Yingyu Liang, Zhenmei Shi, Zhao Song, Wei Wang, Jiahao Zhang

The University of Hong Kong, University of Wisconsin-Madison, The Simons Institute for the Theory of Computing at UC Berkeley, UC Berkeley

グラフニューラルネットワーク(GNN)は、メッセージパッシング機構を活用して、ノードの埋め込みをグラフ構造に沿って反復的に伝播させることにより、関係データに対して学習および推論を行うための標準的なアプローチとなっています。GNNは実証的な成功を収めていますが、その理論的限界は現在も研究の活発な分野です。既存の研究は主に、ウィスファイラー=レビマン(WL)グラフ同型性テストを通じてGNNの表現力を特徴付けることに焦点を合わせています。本論文では、回路の複雑さの観点からGNNの計算上の限界を探るという根本的に異なるアプローチを取ります。具体的には、一般的なGNNアーキテクチャの回路複雑性を分析し、定数深さの層、線形または部分線形の埋め込みサイズ、および多項式精度の制約の下では、GNNがグラフの接続性やグラフの同型性といった重要な問題を解決できないことを証明します。これは、$\mathsf{TC}^0= \mathsf{NC}^1$の場合を除いてです。これらの結果は、GNNの経験的成功の背後にある本質的な表現力の限界を明らかにし、より広範なGNNモデルとグラフの決定問題に拡張可能なGNNの表現力を分析する新しい枠組みを紹介します。

2025-01-11T05:54:10


ARES: Auxiliary Range Expansion for Outlier Synthesis

http://arxiv.org/abs/2501.06442v1

Eui-Soo Jung, Hae-Hun Seo, Hyun-Woo Jung, Je-Geon Oh, Yoon-Yeong Kim

University of Seoul

最近の人工知能と深層学習の成功は、トレーニングデータセットがテストデータセットと同一の分布を持つことが前提とされているため、よく収集されたデータセットに依存している。しかし、この前提条件、すなわちクローズドセット学習は、深層学習モデルを実際のシナリオに展開する上では満たすのが難しい。 この前提を緩和するための解決策の一つとして、アウトオブディストリビューション(OOD)検出に関する研究が様々な分野で活発に探求されている。 OOD検出では、トレーニングフェーズで見られなかった新しいクラスのデータ、すなわち異常値が評価フェーズで与えられると仮定する。 OOD検出の最終的な目標は、このような見えない異常データを新しい「未知の」クラスとして検出し、分類することである。 OOD検出の様々な研究分野の中で、トレーニングフェーズにおける仮想異常値の生成が提案されている。しかし、従来の生成に基づく方法論は、異常値のインスタンスを模倣するためにインディストリビューションのトレーニングデータセットを利用しており、合成された仮想異常値インスタンスの質に制限をもたらしている。 本論文では、アウトオブディストリビューション検出のための新しい方法論、補助的範囲拡張による異常値合成(ARES)を提案する。 ARESは、インディストリビューション領域の境界近くに留まるのではなく、与えられたインディストリビューション領域から脱出してアウトオブディストリビューションインスタンスを生成する領域をモデル化する。 ARESは、最終的に価値のあるOOD様の仮想インスタンスを生成するための様々なステージで構成されている。 エネルギースコアに基づく識別器が、インディストリビューションデータと異常データを効果的に分離するためにトレーニングされる。 幅広い設定に対する定量的実験では、我々の方法による性能の改善が示され、定性的な結果はそのメカニズムの背後にある論理的説明を提供する。

2025-01-11T05:44:33


Synthetic Feature Augmentation Improves Generalization Performance of Language Models

http://arxiv.org/abs/2501.06434v1

Ashok Choudhary, Cornelius Thiels, Hojjat Salehinejad

Mayo Clinic

限られたデータセットや不均衡なデータセットでの深層学習モデル、特に大規模言語モデル(LLM)のトレーニングとファインチューニングは、重大な課題を抱えています。これらの問題はしばしば、モデルが主導的なクラスに過剰適合し、少数派クラスでパフォーマンスが低下するという悪循環を引き起こし、偏った予測や現実のアプリケーションにおけるロバスト性の低下につながります。これらの課題を克服するために、さまざまな技術を使用して合成サンプルを生成し、埋め込み空間の特徴を拡張することを提案します。少数派クラスをアップサンプリングすることで、この方法はモデルのパフォーマンスを向上させ、データの不均衡を緩和します。私たちは、このアプローチの効果を複数のオープンソースのテキスト分類ベンチマークで検証し、不均衡なデータシナリオにおけるモデルのロバスト性と一般化を向上させる可能性を示しています。

2025-01-11T04:31:18


Deep Learning on Hester Davis Scores for Inpatient Fall Prediction

http://arxiv.org/abs/2501.06432v1

Hojjat Salehinejad, Ricky Rojas, Kingsley Iheasirim, Mohammed Yousufuddin, Bijan Borah

Mayo Clinic, Mayo Clinic Health System

入院患者における転倒リスクの予測は、臨床現場における患者の安全性の重要な側面であり、正確なモデルは有害事象を予防するのに役立ちます。ヘスター・デイビス・スコア(HDS)は、転倒リスクを評価するためによく用いられ、現在の臨床実践はしきい値に基づくアプローチに依存しています。この手法では、HDSがあらかじめ定められたしきい値を超えると患者は高リスクと分類されます。 しかし、このアプローチは、転倒リスクの動的なパターンを時間経過に伴い捉えることができない場合があります。本研究では、しきい値に基づくアプローチをモデル化し、転倒予測の向上のために2つの機械学習アプローチを提案します:1ステップ先の転倒予測とシーケンスからポイントへの転倒予測です。1ステップ先のモデルは、現在のタイムスタンプでのHDSを使用して次のタイムスタンプでのリスクを予測し、一方、シーケンスからポイントへのモデルは、ディープラーニングを利用してすべての前のHDS値から転倒リスクを予測します。これらのアプローチを比較し、転倒リスク予測の精度を評価し、ディープラーニングが時間パターンを捉え、予測の信頼性を向上させることで従来のしきい値ベースの手法を上回ることを示します。これらの発見は、データ駆動型アプローチがより信頼性の高い転倒予防戦略を通じて患者の安全性を向上させる可能性を示しています。

2025-01-11T04:20:13


Aug3D: Augmenting large scale outdoor datasets for Generalizable Novel View Synthesis

http://arxiv.org/abs/2501.06431v1

Aditya Rauniyar, Omar Alama, Silong Yong, Katia Sycara, Sebastian Scherer

Carnegie Mellon University, Defense Science and Technology Agency Singapore

最近、フォトリアリスティックな新しい視点合成(NVS)の進展がますます注目を集めています。しかし、これらのアプローチは小規模な屋内シーンに制約されています。最適化ベースのNVSモデルはこれに対応しようとしていますが、重要な利点を提供する一般化可能なフィードフォワード方式は依然として十分に探求されていません。本研究では、大規模なUrbanScene3Dデータセットを使用して、フィードフォワードNVSモデルであるPixelNeRFを訓練します。このデータセットクラスタリングし、訓練するための4つの訓練戦略を提案し、ビューの重複が限られていることでパフォーマンスが制約されていることを明らかにします。これに対処するため、我々は従来の構造から動きへの復元(SfM)を利用したAug3Dという増強手法を導入します。Aug3Dは、グリッドおよびセマンティックサンプリングを通じて、フィードフォワードNVSモデルの学習を強化するために、適切に条件付けされた新しい視点を生成します。我々の実験では、クラスタごとのビュー数を20から10に減らすことでPSNRが10%向上することが明らかになりましたが、パフォーマンスは依然として最適ではありません。Aug3Dはさらに、新たに生成された新しい視点を元のデータセットと組み合わせることで、モデルの新しい視点を予測する能力を向上させる効果を示しています。

2025-01-11T04:13:26


Tensor Product Attention Is All You Need

http://arxiv.org/abs/2501.06425v1

Yifan Zhang, Yifeng Liu, Huizhuo Yuan, Zhen Qin, Yang Yuan, Quanquan Gu, Andrew Chi-Chih Yao

Tsinghua University, Shanghai Qi Zhi Institute, University of California, Los Angeles, TapTap

言語モデルをスケーリングしてより長い入力シーケンスを処理するには、通常、大きなキー-バリュー(KV)キャッシュが必要となり、推論時のメモリオーバーヘッドが大幅に増加します。この論文では、テンサープロダクトアテンション(TPA)という新しい注意機構を提案します。これは、テンソル分解を用いてクエリ、キー、およびバリューをコンパクトに表現し、推論時のKVキャッシュサイズを大幅に縮小します。これらの表現を文脈低ランク成分(文脈分解)に因数分解し、RoPEとシームレスに統合することで、TPAはメモリ効率とともにモデルの品質を向上させます。TPAに基づいて、シーケンスモデリングのための新しいモデルアーキテクチャであるテンサープロダクトアテンショントランスフォーマー(T6)を導入します。言語モデリングタスクの広範な実証評価を通じて、T6は、ペープレキシティやさまざまな著名な評価ベンチマークを含むメトリクスにおいて、MHA、MQA、GQA、MLAなどの標準トランスフォーマーベースラインの性能を上回ることを示します。特に、TPAのメモリ効率により、固定リソース制約の下でかなり長いシーケンスを処理でき、現代の言語モデルにおける重要なスケーラビリティの課題に対応できます。コードはhttps://github.com/tensorgi/T6で入手可能です。

2025-01-11T03:37:10


AlgoPilot: Fully Autonomous Program Synthesis Without Human-Written Programs

http://arxiv.org/abs/2501.06423v1

Xiaoxin Yin

プログラム合成は、従来、人間が提供した仕様、例、または事前知識に依存して機能的なアルゴリズムを生成してきました。既存の方法は、主に人間が書いたアルゴリズムを模倣するか、特定のタスクを解決するものであり、再利用可能なプログラムロジックを生成することなく、新しいアルゴリズムを作成する能力を制限しています。私たちは、AlgoPilotという画期的なアプローチを紹介します。これは、人間が書いたプログラムや軌跡なしで完全に自動化されたプログラム合成を実現します。AlgoPilotは、軌跡言語モデル(TLM)に導かれた強化学習(RL)を活用して、ゼロからアルゴリズムを合成します。TLMは、ランダムなPython関数によって生成された軌跡で訓練され、RLプロセス中のソフト制約として機能し、生成されたシーケンスを有効なアルゴリズムを表す可能性のあるパターンに整合させます。ソートをテストケースとして使用し、AlgoPilotは、事前のアルゴリズム知識なしでBubble Sortなどの古典的なアルゴリズムとして解釈可能な軌跡を生成する能力を示しています。この研究はアルゴリズム発見の新しいパラダイムを確立し、自律プログラム合成の将来の進展のための基盤を築きます。

2025-01-11T03:29:14


DiscQuant: A Quantization Method for Neural Networks Inspired by Discrepancy Theory

http://arxiv.org/abs/2501.06417v1

Jerry Chee, Arturs Backurs, Rainie Heck, Li Zhang, Janardhan Kulkarni, Thomas Rothvoss, Sivakanth Gopi

Cornell University, Microsoft Research, University of Washington

ニューラルネットワークの重みを量子化するには、2つのステップがあります:(1)重みに対する良好な低ビット・複雑度表現を見つけること(これを量子化グリッドと呼びます)と、(2)元の重みを量子化グリッド内の値に丸めることです。本論文では、任意の量子化グリッドに対して最適に丸める問題を研究します。最も単純で一般的に使用される丸め方は「最寄りの値に丸める(RTN)」です。しかし、データに依存する方法で丸めることで、量子化されたモデルの品質を大幅に改善できます。我々は、連続的な解を離散的な解に丸める際に、解の品質をあまり損なわずにどれだけ良くできるかを研究する「不均衡理論」の観点から丸めの問題を検討します。データ分布からの$m=\mathrm{poly}(1/\epsilon)$サンプルが与えられた場合、元のモデルの勾配空間がほぼ低ランクである限り、$O(m)$以外のすべてのモデル重みを丸めることができ、量子化されたモデルの真のデータ分布に対する期待近似誤差が$\le \epsilon$になります(これを経験的に検証します)。我々のアルゴリズムに基づく証明は、\emph{DiscQuant}と呼ばれるシンプルで実用的な丸めアルゴリズムを発想しました。我々の実験では、DiscQuantがPhi3mini-3.8BおよびLlama3.1-8Bにおけるさまざまなベンチマークで、従来の最先端の丸め手法であるGPTQやベースラインのRTNを大幅に改善することを示します。例えば、DiscQuantを使用してPhi3mini-3.8Bをパラメータごとに3.25ビットの固定量子化グリッドに丸めると、GSM8kデータセットで64%の精度を達成しますが、GPTQは54%、RTNは31%(元のモデルは84%を達成)です。我々のコードは、https://github.com/jerry-chee/DiscQuantで入手可能です。

2025-01-11T03:14:43


Influencing Humans to Conform to Preference Models for RLHF

http://arxiv.org/abs/2501.06416v1

Stephane Hatgis-Kessell, W. Bradley Knox, Serena Booth, Scott Niekum, Peter Stone

Stanford University, The University of Texas at Austin, Brown University, University of Massachusetts Amherst, Sony AI

人間のフィードバックから強化学習(RLHF)アルゴリズムを設計して人間の非可観測報酬関数を近似するには、暗黙的または明示的に人間の好みのモデルを仮定する必要があります。人間が好みを生成する方法を適切に説明できない好みモデルは、人間の報酬関数の不正確な近似を学習するリスクがあります。本論文では、実際の人間の好みの表現を望ましい好みモデルにより密接に適合させるために影響を与えることができるかどうかを評価するために、3つの人間に関する研究を実施しました。重要なのは、私たちのアプローチは人間の非可観測報酬関数を変えようとするものではありません。むしろ、私たちは人間がこの報酬関数を使用して好みを生成する方法を変更し、特定のRLHFアルゴリズムが仮定する好みモデルによりよく一致させることを目指します。私たちは3つの介入を導入します:通常は報酬関数から導き出される非可観測情報である好みモデルの基盤となる量を人間に示すこと、特定の好みモデルに従うように人を訓練すること、そして好みの引き出し質問を修正することです。すべての介入タイプは有意な効果を示し、好みデータの質を向上させ、学習された報酬関数の整合性を高めるための実用的なツールを提供します。全体として、モデル整合性に関する新しい研究の方向性を確立します:人間が入力から学ぶアルゴリズムモデリング仮定に対する適合を高めるためのインターフェースと訓練介入の設計です。

2025-01-11T03:12:53


FocusDD: Real-World Scene Infusion for Robust Dataset Distillation

http://arxiv.org/abs/2501.06405v1

Youbing Hu, Yun Cheng, Olga Saukh, Firat Ozdemir, Anqi Lu, Zhiqiang Cao, Zhijun Li

Harbin Institute of Technology, Swiss Data Science Center, Zurich, Switzerland, Graz University of Technology, Austria, Complexity Science Hub Vienna, Austria

データセット蒸留は、効率的なトレーニングのためにリアルワールドデータセットを圧縮する戦略として登場しました。しかし、大規模かつ高解像度のデータセットに対しては課題があり、その実用性が制限されています。本論文では、焦点を当てたデータセット蒸留法(FocusDD)という新しい解像度非依存のデータセット蒸留方法を紹介します。この方法は、重要な情報パッチを特定することで、蒸留されたデータの多様性と現実性を実現し、異なるネットワークアーキテクチャ間での蒸留データセットの汎化能力を保証します。具体的には、FocusDDは事前学習されたビジョントランスフォーマー(ViT)を活用して重要な画像パッチを抽出し、それらを1つの蒸留画像に合成します。複数のターゲットを捉えたこれらの蒸留画像は、分類タスクだけでなく、物体検出などの密なタスクにも適しています。さらに、蒸留データセットの汎化能力を向上させるために、各合成画像には元の画像のダウンサンプリングされたビューが拡張されます。ImageNet-1Kデータセットでの実験結果は、クラスあたり100画像(IPC)の場合、ResNet50とMobileNet-v2がそれぞれ71.0%と62.6%の検証精度を達成し、それぞれ最新の手法を2.8%および4.7%上回ったことを示しています。特に、FocusDDは物体検出タスクに蒸留データセットを使用する最初の方法です。COCO2017データセットでは、IPCが50のときに、YOLOv11nとYOLOv11sがそれぞれ24.4%と32.1%のmAPを達成し、我々のアプローチの有効性をさらに検証しています。

2025-01-11T02:06:29


Has an AI model been trained on your images?

http://arxiv.org/abs/2501.06399v1

Matyas Bohacek, Hany Farid

Stanford University, University of California, Berkeley

単純なテキストプロンプトから、生成的AI画像モデルは、驚くほどリアルで創造的な画像を生成することができます。これらは、私たちの想像力によってのみ限界があるようです。これらのモデルがこの驚くべき成果を達成できたのは、部分的にはインターネットのほぼすべての隅から収集された数十億の画像を取り込んだおかげです。多くのクリエイターは、彼らの知的財産が許可なく取り込まれたり、トレーニングからオプトアウトするメカニズムがなかったりすることに対して理解できるほど懸念を表明しています。その結果、フェアユース著作権侵害に関する問題が迅速に浮上してきました。私たちは、特定の画像または画像のセットに基づいてモデルがトレーニングされたかどうかを判断する方法を説明します。この方法は計算効率が良く、モデルのアーキテクチャや重みについての明示的な知識を必要としません(いわゆるブラックボックスメンバーシップ推論)。私たちは、この方法が既存のモデルの監査に重要であり、将来的には生成的AIモデルのより公正な開発と展開を確保するために役立つと考えています。

2025-01-11T01:12:23


Unispeaker: A Unified Approach for Multimodality-driven Speaker Generation

http://arxiv.org/abs/2501.06394v1

Zhengyan Sheng, Zhihao Du, Heng Lu, Shiliang Zhang, Zhen-Hua Ling

University of Science and Technology of China, Alibaba Group

最近のパーソナライズされた音声生成の進展により、合成音声はターゲットスピーカーの録音にますます近づいていますが、マルチモーダルスピーカー生成は依然として進展しています。本論文では、マルチモダリティ駆動のスピーカー生成のための統一アプローチであるUniSpeakerを紹介します。具体的には、KV-Formerに基づいた統一音声集約器を提案し、ソフトコントラスト損失を適用して多様な音声記述モダリティを共有音声空間にマッピングします。これにより、生成された音声が入力記述とより密接に一致することを確保します。マルチモーダリティ駆動の音声制御を評価するために、音声適合性、音声多様性、およびスピーチ品質に焦点を当てた最初のマルチモダリティに基づく音声制御(MVCベンチマークを構築しました。UniSpeakerはMVCベンチマークを使用して5つのタスクで評価され、実験結果はUniSpeakerが以前のモダリティ特定モデルを上回ることを示しています。音声サンプルは\url{https://UniSpeaker.github.io}で入手可能です。

2025-01-11T00:47:29