-
中国信通院:正式启动多模态智能体技术规范编制工作
3 月 10 日消息,据人民财讯报道,为进一步加速智能体赋能产业应用,推动多模态智能体高质量发展,中国信通院正式启动多模态智能体技术规范编制工作。 为充分完善技术规范内容,增进产业交流,中国信通院人工智能研究所将于 3 月 13 日召开多模态智能体技术沙龙暨技术规范研讨会,邀请业内专家围绕多模态智能体技术的发展动态、应用落地等展开研讨,并介绍多模态智能体技术规范框架。 1AI注意到,去年 5 月中…- 1.4k
-
微软 Phi-4 多模态及迷你模型上线,语音视觉文本全能
2 月 27 日消息,微软于 2024 年 12 月发布了 Phi-4,这是一款在同类产品中表现卓越的小型语言模型(SLM)。今日,微软进一步扩展 Phi-4 家族,推出了两款全新模型:Phi-4 多模态(Phi-4-multimodal)和 Phi-4 迷你(Phi-4-mini)。 Phi-4 多模态模型是微软首款集成语音、视觉和文本处理的统一架构多模态语言模型,参数量达 56 亿。在多项基准…- 1.7k
-
微软开源多模态 AI Agent“Magma”:购物时可自动下单,还能推测视频人物行为
2 月 26 日消息,北京时间今日凌晨,微软在官网开源了多模态 AI Agent 基础模型 ——Magma。与传统 Agent 相比,Magma 具备跨数字、物理世界的多模态能力,能自动处理图像、视频、文本等不同类型数据,此外,Magma 还能内置了心理预测功能,增强了对未来视频帧中时空动态的理解能力,能够准确推测视频中人物或物体的意图和未来行为。 用户可以用 Magma 来自动下电商订单、查询天…- 1.2k
-
自主操作电脑的多模态 Agent 升级,智谱 GLM-PC 开放体验
1 月 23 日消息,北京智谱华章科技有限公司今日发文宣布,旗下智谱 GLM-PC 开放体验,宣称“自主操作电脑的多模态 Agent 再升级”。 据介绍,GLM-PC 是基于智谱多模态大模型 CogAgent,全球首个面向公众、回车即用的电脑智能体(agent)。它能像人类一样「观察」和「操作」计算机,协助用户完成各类电脑任务。GLM-PC v1.0 于 2024 年 11 月 29 日发布并开放…- 2.5k
-
月之暗面发布 Kimi k1.5 多模态思考模型,实现 SOTA 级多模态推理能力
月之暗面1 月 20 日宣布推出 Kimi 全新 SOTA 模型 ——k1.5 多模态思考模型,其实现了 SOTA (state-of-the-art)级别的多模态推理和通用推理能力。 官方表示,在 short-CoT 模式下,Kimi k1.5 的数学、代码、视觉多模态和通用能力大幅超越了全球范围内短思考 SOTA 模型 GPT-4o 和 Claude 3.5 Sonnet 的水平,领先达到 5…- 6.1k
-
Kimi 多模态图片理解模型 API 发布,1M tokens 定价 12 元起
1 月 15 日消息,月之暗面今日发布了 Kimi 多模态图片理解模型 API,全新多模态图片理解模型 moonshot-v1-vision-preview(以下简称“Vision 模型”)完善了 moonshot-v1 模型系列的多模态能力。 模型能力说明 图像识别 Vision 模型具备图像识别能力,能够识别出图像中的复杂细节和细微的差别,无论是食物还是动物,能够区分出相似但又不相同的对象。 …- 3k
-
多模态 AI 助力癌症治疗,更准确预测癌症复发概率,生存率等
1 月 15 日消息,来自斯坦福医学院的科研团队研发了名为 MUSK 的 AI 模型,结合医学图像和文本数据,可以精准预测癌症患者的预后和治疗反应。 注:预后(英语:Prognosis)是一个医学名词,是指基于病人当前的状况,结合疾病的了解,例如临床表现、化验结果、影像学检查、病因、病理、病情规律等,以及治疗时机、方法和过程中出现的新情况,来推估治疗后的可能结果。 MUSK 模型的亮点在于,突破性…- 2.7k
-
谷歌发布多模态直播 API:解锁看、听、说,开启 AI 音视频交互新体验
谷歌昨日在发布 Gemini 2.0 的同时,还发布了全新的多模态直播(Multimodal Live)API,帮助开发人员开发具有实时音频和视频流功能的应用程序。 该 API 实现了低延迟、双向的文本、音频和视频交互,以音频和文本形式输出,带来更自然流畅、如同人类对话般的交互体验。用户可以随时打断模型,并通过共享摄像头输入或屏幕录像与其进行互动,就内容提问。 该模型的视频理解功能扩展了通信模式,…- 3.1k
-
三星多模态 AI 模型 Gauss 2 登场,赋能 Galaxy 智能生态
三星公司今天(10 月 21 日)发布博文,在韩国举办的开发者大会上,宣布推出第二代生成式AI模型 Samsung Gauss2。 这款多模态语言模型能够同时处理文本、代码和图像等多种数据类型,显著提升性能和效率。 Gauss2 提供“精简版”(Compact)、“均衡版”(Balanced)和“至尊版”(Supreme)三种不同规格的模型,以满足不同计算环境和应用场景的需求,IT之家简要梳理如下…- 2.8k
-
Mistral 发布 Pixtral Large 多模态 AI模型:登顶复杂数学推理,图表 / 文档推理超过 GPT-4o
11 月 19 日消息,Mistral AI 公司昨日(11 月 18 日)发布公告,宣布了全新的多模态 AI模型 Pixtral Large。该模型拥有 1240 亿参数,基于 Mistral Large 2,主要用于处理文本和图片。 Pixtral Large 现已在 Mistral 研究许可证和商业许可证下提供,适用于研究、教育以及商业用途。 Pixtral Large 是 Mistral …- 2.5k
-
开源多模态巨兽登场!Meta将于7月23日推出Llama 3 405B模型
Meta又要搞大事情了!他们即将推出一款名为Llama3405B的开源语言模型,这不仅是他们迄今为止最大的模型,而且还是史上最大的开源语言模型。这个巨无霸,拥有惊人的4050亿参数,能在图像和文本之间自如穿梭,彻底颠覆了以往只能处理文本的老黄历。 关键看点: Meta将在7月23日发布Llama3405B,这是一款具有4050亿参数的多模态模型。 决定将Llama3405B及其权重开源,可能会彻底…- 8.8k
-
谷歌推出多模态 VLOGGER AI:让静态肖像图动起来“说话”
谷歌近日在 GitHub 页面发布博文,介绍了 VLOGGER AI模型,用户只需要输入一张肖像照片和一段音频内容,该模型可以让这些人物“动起来”,富有面部表情地朗读音频内容。 VLOGGER AI 是一种适用于虚拟肖像的多模态 Diffusion 模型,使用 MENTOR 数据库进行训练,该数据库中包含超过 80 万名人物肖像,以及累计超过 2200 小时的影片,从而让 VLOGGER 生成不同…- 3.5k
-
扳回一局!Gemini-Pro多模态能力和GPT-4V不相上下
近期的Gemini-Pro评测报告显示其在多模态领域取得了显著的进展,与GPT-4V不相上下,甚至在某些方面表现更为出色。首先,在多模态专有基准MME上的综合表现中,Gemini-Pro以1933.4的高分超越了GPT-4V,展现出在感知和认知方面的全面优势。而在37个视觉理解任务中,Gemini-Pro在文本翻译、颜色/地标/人物识别以及OCR等任务中表现突出,显示了其在基础感知领域的卓越能力。…- 3.6k
-
Gemini:由 Google 开发的写作、规划和学习的AI 助手
Gemini是谷歌DeepMind推出的新一代人工智能系统。它能够进行多模态推理,支持文本、图像、视频、音频和代码之间的无缝交互。Gemini在语言理解、推理、数学、编程等多个领域都超越了之前的状态,成为迄今为止最强大的AI系统之一。它有三个不同规模的版本,可满足从边缘计算到云计算的各种需求。Gemini可以广泛应用于创意设计、写作辅助、问题解答、代码生成等领域。 Gemini功能 写作助手:Ge…- 2.9k