-
谷歌发布多模态直播 API:解锁看、听、说,开启 AI 音视频交互新体验
谷歌昨日在发布 Gemini 2.0 的同时,还发布了全新的多模态直播(Multimodal Live)API,帮助开发人员开发具有实时音频和视频流功能的应用程序。 该 API 实现了低延迟、双向的文本、音频和视频交互,以音频和文本形式输出,带来更自然流畅、如同人类对话般的交互体验。用户可以随时打断模型,并通过共享摄像头输入或屏幕录像与其进行互动,就内容提问。 该模型的视频理解功能扩展了通信模式,…- 579
-
三星多模态 AI 模型 Gauss 2 登场,赋能 Galaxy 智能生态
三星公司今天(10 月 21 日)发布博文,在韩国举办的开发者大会上,宣布推出第二代生成式AI模型 Samsung Gauss2。 这款多模态语言模型能够同时处理文本、代码和图像等多种数据类型,显著提升性能和效率。 Gauss2 提供“精简版”(Compact)、“均衡版”(Balanced)和“至尊版”(Supreme)三种不同规格的模型,以满足不同计算环境和应用场景的需求,IT之家简要梳理如下…- 1k
-
Mistral 发布 Pixtral Large 多模态 AI模型:登顶复杂数学推理,图表 / 文档推理超过 GPT-4o
11 月 19 日消息,Mistral AI 公司昨日(11 月 18 日)发布公告,宣布了全新的多模态 AI模型 Pixtral Large。该模型拥有 1240 亿参数,基于 Mistral Large 2,主要用于处理文本和图片。 Pixtral Large 现已在 Mistral 研究许可证和商业许可证下提供,适用于研究、教育以及商业用途。 Pixtral Large 是 Mistral …- 1.1k
-
开源多模态巨兽登场!Meta将于7月23日推出Llama 3 405B模型
Meta又要搞大事情了!他们即将推出一款名为Llama3405B的开源语言模型,这不仅是他们迄今为止最大的模型,而且还是史上最大的开源语言模型。这个巨无霸,拥有惊人的4050亿参数,能在图像和文本之间自如穿梭,彻底颠覆了以往只能处理文本的老黄历。 关键看点: Meta将在7月23日发布Llama3405B,这是一款具有4050亿参数的多模态模型。 决定将Llama3405B及其权重开源,可能会彻底…- 6.7k
-
谷歌推出多模态 VLOGGER AI:让静态肖像图动起来“说话”
谷歌近日在 GitHub 页面发布博文,介绍了 VLOGGER AI模型,用户只需要输入一张肖像照片和一段音频内容,该模型可以让这些人物“动起来”,富有面部表情地朗读音频内容。 VLOGGER AI 是一种适用于虚拟肖像的多模态 Diffusion 模型,使用 MENTOR 数据库进行训练,该数据库中包含超过 80 万名人物肖像,以及累计超过 2200 小时的影片,从而让 VLOGGER 生成不同…- 3.1k
-
扳回一局!Gemini-Pro多模态能力和GPT-4V不相上下
近期的Gemini-Pro评测报告显示其在多模态领域取得了显著的进展,与GPT-4V不相上下,甚至在某些方面表现更为出色。首先,在多模态专有基准MME上的综合表现中,Gemini-Pro以1933.4的高分超越了GPT-4V,展现出在感知和认知方面的全面优势。而在37个视觉理解任务中,Gemini-Pro在文本翻译、颜色/地标/人物识别以及OCR等任务中表现突出,显示了其在基础感知领域的卓越能力。…- 3.1k
-
Gemini:由 Google 开发的写作、规划和学习的AI 助手
Gemini是谷歌DeepMind推出的新一代人工智能系统。它能够进行多模态推理,支持文本、图像、视频、音频和代码之间的无缝交互。Gemini在语言理解、推理、数学、编程等多个领域都超越了之前的状态,成为迄今为止最强大的AI系统之一。它有三个不同规模的版本,可满足从边缘计算到云计算的各种需求。Gemini可以广泛应用于创意设计、写作辅助、问题解答、代码生成等领域。 Gemini功能 写作助手:Ge…- 2.3k
❯
搜索
扫码打开当前页
返回顶部
幸运之星即将降临……
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠
-
¥優惠使用時效:无法使用使用時效:
之前
使用時效:预期有效优惠编号:×
没有优惠可用!