谷歌发布多模态直播 API:解锁看、听、说,开启 AI 音视频交互新体验

谷歌昨日在发布 Gemini 2.0 的同时,还发布了全新的多模态直播(Multimodal Live)API帮助开发人员开发具有实时音频和视频流功能的应用程序。

谷歌发布多模态直播 API:解锁看、听、说,开启 AI 音视频交互新体验

该 API 实现了低延迟、双向的文本、音频和视频交互,以音频和文本形式输出,带来更自然流畅、如同人类对话般的交互体验。用户可以随时打断模型,并通过共享摄像头输入或屏幕录像与其进行互动,就内容提问。

该模型的视频理解功能扩展了通信模式,用户能够使用摄像头实时拍摄或共享桌面并提出相关问题。该 API 已经向开发者开放,同时也向用户提供了一个多模态实时助手的演示应用。

声明:内容均采集自公开的网站等各类媒体平台,若收录的内容侵犯了您的权益,请联系邮箱,本站将第一时间处理。
资讯

生成式 AI 的版权困境:新线索表明 OpenAI 用游戏内容训练 Sora 视频生成模型

2024-12-13 9:00:24

资讯

哈佛大学、谷歌发布 100 万本公共领域书籍,为 AI训练提供合法数据

2024-12-13 17:19:25

搜索