SHOEISHA iD

※旧SEメンバーシップ会員の方は、同じ登録情報(メールアドレス&パスワード)でログインいただけます

連載記事

CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

CodeZine BOOKS(コードジン・ブックス)は、CodeZineの連載からカットアップした、開発現場の課題解決に役立つ書籍シリーズです。

書籍に関する記事を見る

'); googletag.cmd.push(function() { googletag.pubads().addEventListener('slotRenderEnded', function(e) { var ad_id = e.slot.getSlotElementId(); if (ad_id == 'div-gpt-ad-1659428980688-0') { var ad = $('#'+ad_id).find('iframe'); if ($(ad).width() == 728) { var ww = $(window).width(); ww = ww*0.90; var style = document.createElement("style"); document.head.appendChild( style ); var sheet = style.sheet; sheet.insertRule( "#div-gpt-ad-1659428980688-0 iframe {-moz-transform: scale("+ww/728+","+ww/728+");-moz-transform-origin: 0 0;-webkit-transform: scale("+ww/728+","+ww/728+");-webkit-transform-origin: 0 0;-o-transform: scale("+ww/728+","+ww/728+");-o-transform-origin: 0 0;-ms-transform: scale("+ww/728+","+ww/728+");-ms-transform-origin: 0 0;}", 0 ); sheet.insertRule( "#div-gpt-ad-1659428980688-0 div{ height:"+(90*ww/728)+"px;width:"+728+"px;}", 0 ); } else { if ($(window).width() < 340) { var ww = $(window).width(); ww = ww*0.875; var style = document.createElement("style"); document.head.appendChild( style ); var sheet = style.sheet; sheet.insertRule( "#div-gpt-ad-1659428980688-0 iframe {-moz-transform: scale("+ww/320+","+ww/320+");-moz-transform-origin: 0 0;-webkit-transform: scale("+ww/320+","+ww/320+");-webkit-transform-origin: 0 0;-o-transform: scale("+ww/320+","+ww/320+");-o-transform-origin: 0 0;-ms-transform: scale("+ww/320+","+ww/320+");-ms-transform-origin: 0 0;}", 0 ); sheet.insertRule( "#div-gpt-ad-1659428980688-0 div{ height:"+(180*ww/320)+"px;width:"+320+"px;}", 0 ); } } } }); }); } else { document.write('
'); document.write('
'); }
Developers X Summit 2024 セッションレポート(AD)

日本経済新聞社の最新研究事例に学ぶ、マルチモーダルAI活用の勘所

【Session3】マルチモーダル AI 実装の課題と解決策

  • X ポスト
  • このエントリーをはてなブックマークに追加

 2023年のGoogle I/Oで発表されたGeminiはGoogle DeepMindが開発したマルチモーダルな生成AIモデルだ。テキスト、画像、音声、動画など、複数の異なるデータ形式を理解して処理することができる。このGeminiの活用事例として、日本経済新聞社の日経イノベーション・ラボではマルチモーダルAIの概念検証として、政治資金収支報告書の解析や、画像からおすすめ記事を選出するなどを評価している。

  • X ポスト
  • このエントリーをはてなブックマークに追加

 本記事の内容は、講演当日である2024年11月14日時点の情報です。

複数のモダリティを統合的に処理できるマルチモーダルAIの可能性

 Googleは2023年5月のGoogle I/Oで、マルチモーダルAI「Gemini」を発表した。グーグル・クラウド・ジャパン合同会社 AI Consultant 葛木美紀氏は「Geminiの最大の優位性として、複数のモダリティを統合して処理していることが挙げられます」と話す。多くのAIモデルはテキストや画像など特定のモダリティに特化しているが、Geminiは複数のモダリティを一元的に処理できて、よりシームレスで直感的な応答が可能となる。

グーグル・クラウド・ジャパン合同会社 AI Consultant 葛木 美紀氏
グーグル・クラウド・ジャパン合同会社 AI Consultant 葛木 美紀氏

 なおGeminiにはUltra、Pro、Nanoの3種類のサイズがある。Ultraは最も能力が高いモデルで、有償版のGemini Advancedで利用できる。Proは汎用的なサイズで、Google Cloudで利用できる。Nanoはモバイル向けの軽量モデルで、Androidで利用できる。

 例えばピンクと青の毛糸玉が並んで表示されている画像をGeminiに与えて「ここから何を作るかアイデアをください」と質問してみると、毛糸の色から着想を得て「(編み物の)タコを作るのはどうですか?」と回答する。また楽譜の画像をGeminiに与えて「これはどういう意味ですか」と質問すると、「8分の6小節です。強弱記号は……」と専門的な内容も含めて回答することができる。

 またGeminiはマルチモーダルだけではなく、言語モデルとしての能力も優れている。MMLU(専門知識を問う大規模言語モデルのベンチマーク)では既存の生成AIの最高スコアを更新し、人間の専門家のスコアを超えた初めてのモデルとなった。

 Google Cloudからの紹介の最後に、葛木氏は「Project Astra」のデモ動画を披露した。まだ開発段階ではあるものの、これは新しいタイプのAIアシスタントとなる。Google Pixelスマートフォンやメガネデバイスのカメラを通じて画像を与え、人間の音声での質問に答える。例えば「この中で音を発するものは?」と質問するとカメラ画像から「スピーカーがあります」、また「この部分は何と呼ばれていますか?」と特定の部位を指すと「ツイーターです」と答える様子が分かる。ぜひリンクから全編を見てほしい。

 葛木氏は「GeminiのようなマルチモーダルAIをご利用いただくと、よりビジネスの可能性が広がります」と話す。

次のページ
紙媒体の資料をマルチモーダルAIで読み解く

この記事は参考になりましたか?

  • X ポスト
  • このエントリーをはてなブックマークに追加
Developers X Summit 2024 セッションレポート連載記事一覧

もっと読む

この記事の著者

加山 恵美(カヤマ エミ)

フリーランスライター。茨城大学理学部卒。金融機関のシステム子会社でシステムエンジニアを経験した後にIT系のライターとして独立。エンジニア視点で記事を提供していきたい。EnterpriseZine/DB Onlineの取材・記事や、EnterpriseZine/Security Onlineキュレーターも担当しています。Webサイト:http://emiekayama.net

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

山出 高士(ヤマデ タカシ)

雑誌や広告写真で活動。東京書籍刊「くらべるシリーズ」でも写真を担当。

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

CodeZine編集部(コードジンヘンシュウブ)

CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

提供:グーグル・クラウド・ジャパン合同会社

【AD】本記事の内容は記事掲載開始時点のものです 企画・制作 株式会社翔泳社

この記事は参考になりましたか?

この記事をシェア

  • X ポスト
  • このエントリーをはてなブックマークに追加
CodeZine(コードジン)
https://codezine.jp/article/detail/20506 2025/01/09 12:00
" ); }

おすすめ

アクセスランキング

  1. 1
    ガントチャートをWebアプリに組み込める「ガントシート」でプロジェクト管理機能を作成してみよう
  2. 2
    Renewer、Tips集「生成AI × 勉強法ガイドブック 2025」を公開
  3. 3
    Firefox 134 リリース、拡張機能のデバッグのサポートなど改善 NEW
  4. 4
    1/10まで全文無料公開、人気の入門書シリーズ『いきなりプログラミング Androidアプリ開発』
  5. 5
    Node.js v23.6.0 リリース、TypeScriptの実行が容易に NEW
  1. 6
    大企業を芯からアジャイルに──20年以上アジャイル実践してきた市谷氏が語る変革への道
  2. 7
    8割超が目標を達成。約7割が収入増を実感、「プログラミングスクール受講による成果と実績」調査をTAG STUDIOが実施
  3. 8
    Linuxディストリビューション「Nobara 41」が公開
  4. 9
    ゲーム業界で働くZ世代の約8割が「ゲーム業界でキャリアを積んでいきたい」と回答、Hiraku agentが調査実施
  5. 10
    オープンソース監視システム「Prometheus 3.0」が公開

アクセスランキング

  1. 1
    ガントチャートをWebアプリに組み込める「ガントシート」でプロジェクト管理機能を作成してみよう
  2. 2
    Renewer、Tips集「生成AI × 勉強法ガイドブック 2025」を公開
  3. 3
    Firefox 134 リリース、拡張機能のデバッグのサポートなど改善 NEW
  4. 4
    1/10まで全文無料公開、人気の入門書シリーズ『いきなりプログラミング Androidアプリ開発』
  5. 5
    Node.js v23.6.0 リリース、TypeScriptの実行が容易に NEW
  6. 6
    大企業を芯からアジャイルに──20年以上アジャイル実践してきた市谷氏が語る変革への道
  7. 7
    8割超が目標を達成。約7割が収入増を実感、「プログラミングスクール受講による成果と実績」調査をTAG STUDIOが実施
  8. 8
    Linuxディストリビューション「Nobara 41」が公開
  9. 9
    ゲーム業界で働くZ世代の約8割が「ゲーム業界でキャリアを積んでいきたい」と回答、Hiraku agentが調査実施
  10. 10
    オープンソース監視システム「Prometheus 3.0」が公開
  1. 1
    いいエンジニアになるための2つのポイント ──元Google技術者・石原氏が説く「シリコンバレー流ソフトウェア開発術」
  2. 2
    アジャイル開発の推進において、必ずしも"すごい人"は必要ない──現場のエンジニアがDevOps推進で実現する組織改革
  3. 3
    1/10まで全文無料公開、人気の入門書シリーズ『いきなりプログラミング Androidアプリ開発』
  4. 4
    デスクトップアプリ開発に必要な「Rust」の文法を理解しよう
  5. 5
    ガントチャートをWebアプリに組み込める「ガントシート」でプロジェクト管理機能を作成してみよう
  6. 6
    "けしからん"精神が切り拓く未来──IPA登氏が語る、技術大国・日本が目指す復活戦略
  7. 7
    Google、社内AIエージェント「Google Agentspace」発表
  8. 8
    「CUDA」 ~マンガでプログラミング用語解説
  9. 9
    JavaScriptのWebフレームワーク、「Astro 5.1」リリース
  10. 10
    デスクトップアプリを開発しよう! 「Rust」と「Tauri 2.0」の基本情報と環境整備の仕方を解説

イベント

CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

新規会員登録無料のご案内

メールバックナンバー

アクセスランキング

  1. 1
    ガントチャートをWebアプリに組み込める「ガントシート」でプロジェクト管理機能を作成してみよう
  2. 2
    Renewer、Tips集「生成AI × 勉強法ガイドブック 2025」を公開
  3. 3
    Firefox 134 リリース、拡張機能のデバッグのサポートなど改善 NEW
  4. 4
    1/10まで全文無料公開、人気の入門書シリーズ『いきなりプログラミング Androidアプリ開発』
  5. 5
    Node.js v23.6.0 リリース、TypeScriptの実行が容易に NEW
  1. 6
    大企業を芯からアジャイルに──20年以上アジャイル実践してきた市谷氏が語る変革への道
  2. 7
    8割超が目標を達成。約7割が収入増を実感、「プログラミングスクール受講による成果と実績」調査をTAG STUDIOが実施
  3. 8
    Linuxディストリビューション「Nobara 41」が公開
  4. 9
    ゲーム業界で働くZ世代の約8割が「ゲーム業界でキャリアを積んでいきたい」と回答、Hiraku agentが調査実施
  5. 10
    オープンソース監視システム「Prometheus 3.0」が公開

アクセスランキング

  1. 1
    ガントチャートをWebアプリに組み込める「ガントシート」でプロジェクト管理機能を作成してみよう
  2. 2
    Renewer、Tips集「生成AI × 勉強法ガイドブック 2025」を公開
  3. 3
    Firefox 134 リリース、拡張機能のデバッグのサポートなど改善 NEW
  4. 4
    1/10まで全文無料公開、人気の入門書シリーズ『いきなりプログラミング Androidアプリ開発』
  5. 5
    Node.js v23.6.0 リリース、TypeScriptの実行が容易に NEW
  6. 6
    大企業を芯からアジャイルに──20年以上アジャイル実践してきた市谷氏が語る変革への道
  7. 7
    8割超が目標を達成。約7割が収入増を実感、「プログラミングスクール受講による成果と実績」調査をTAG STUDIOが実施
  8. 8
    Linuxディストリビューション「Nobara 41」が公開
  9. 9
    ゲーム業界で働くZ世代の約8割が「ゲーム業界でキャリアを積んでいきたい」と回答、Hiraku agentが調査実施
  10. 10
    オープンソース監視システム「Prometheus 3.0」が公開
  1. 1
    いいエンジニアになるための2つのポイント ──元Google技術者・石原氏が説く「シリコンバレー流ソフトウェア開発術」
  2. 2
    アジャイル開発の推進において、必ずしも"すごい人"は必要ない──現場のエンジニアがDevOps推進で実現する組織改革
  3. 3
    1/10まで全文無料公開、人気の入門書シリーズ『いきなりプログラミング Androidアプリ開発』
  4. 4
    デスクトップアプリ開発に必要な「Rust」の文法を理解しよう
  5. 5
    ガントチャートをWebアプリに組み込める「ガントシート」でプロジェクト管理機能を作成してみよう
  6. 6
    "けしからん"精神が切り拓く未来──IPA登氏が語る、技術大国・日本が目指す復活戦略
  7. 7
    Google、社内AIエージェント「Google Agentspace」発表
  8. 8
    「CUDA」 ~マンガでプログラミング用語解説
  9. 9
    JavaScriptのWebフレームワーク、「Astro 5.1」リリース
  10. 10
    デスクトップアプリを開発しよう! 「Rust」と「Tauri 2.0」の基本情報と環境整備の仕方を解説