多模态

中国信通院：正式启动多模态智能体技术规范编制工作

3 月 10 日消息，据人民财讯报道，为进一步加速智能体赋能产业应用，推动多模态智能体高质量发展，中国信通院正式启动多模态智能体技术规范编制工作。为充分完善技术规范内容，增进产业交流，中国信通院人工智能研究所将于 3 月 13 日召开多模态智能体技术沙龙暨技术规范研讨会，邀请业内专家围绕多模态智能体技术的发展动态、应用落地等展开研讨，并介绍多模态智能体技术规范框架。 1AI注意到，去年 5 月中…
头条
- 1.4k
3 周前
微软 Phi-4 多模态及迷你模型上线，语音视觉文本全能

2 月 27 日消息，微软于 2024 年 12 月发布了 Phi-4，这是一款在同类产品中表现卓越的小型语言模型（SLM）。今日，微软进一步扩展 Phi-4 家族，推出了两款全新模型：Phi-4 多模态（Phi-4-multimodal）和 Phi-4 迷你（Phi-4-mini）。 Phi-4 多模态模型是微软首款集成语音、视觉和文本处理的统一架构多模态语言模型，参数量达 56 亿。在多项基准…
资讯
- 1.7k
1 个月前
微软开源多模态 AI Agent“Magma”：购物时可自动下单，还能推测视频人物行为

2 月 26 日消息，北京时间今日凌晨，微软在官网开源了多模态 AI Agent 基础模型 ——Magma。与传统 Agent 相比，Magma 具备跨数字、物理世界的多模态能力，能自动处理图像、视频、文本等不同类型数据，此外，Magma 还能内置了心理预测功能，增强了对未来视频帧中时空动态的理解能力，能够准确推测视频中人物或物体的意图和未来行为。用户可以用 Magma 来自动下电商订单、查询天…
资讯
- 1.2k
1 个月前
自主操作电脑的多模态 Agent 升级，智谱 GLM-PC 开放体验

1 月 23 日消息，北京智谱华章科技有限公司今日发文宣布，旗下智谱 GLM-PC 开放体验，宣称“自主操作电脑的多模态 Agent 再升级”。据介绍，GLM-PC 是基于智谱多模态大模型 CogAgent，全球首个面向公众、回车即用的电脑智能体（agent）。它能像人类一样「观察」和「操作」计算机，协助用户完成各类电脑任务。GLM-PC v1.0 于 2024 年 11 月 29 日发布并开放…
资讯
- 2.5k
2 个月前
月之暗面发布 Kimi k1.5 多模态思考模型，实现 SOTA 级多模态推理能力

月之暗面1 月 20 日宣布推出 Kimi 全新 SOTA 模型 ——k1.5 多模态思考模型，其实现了 SOTA （state-of-the-art）级别的多模态推理和通用推理能力。官方表示，在 short-CoT 模式下，Kimi k1.5 的数学、代码、视觉多模态和通用能力大幅超越了全球范围内短思考 SOTA 模型 GPT-4o 和 Claude 3.5 Sonnet 的水平，领先达到 5…
资讯
- 6.2k
2 个月前
Kimi 多模态图片理解模型 API 发布，1M tokens 定价 12 元起

1 月 15 日消息，月之暗面今日发布了 Kimi 多模态图片理解模型 API，全新多模态图片理解模型 moonshot-v1-vision-preview（以下简称“Vision 模型”）完善了 moonshot-v1 模型系列的多模态能力。模型能力说明图像识别 Vision 模型具备图像识别能力，能够识别出图像中的复杂细节和细微的差别，无论是食物还是动物，能够区分出相似但又不相同的对象。 …
资讯
- 3k
2 个月前
多模态 AI 助力癌症治疗，更准确预测癌症复发概率，生存率等

1 月 15 日消息，来自斯坦福医学院的科研团队研发了名为 MUSK 的 AI 模型，结合医学图像和文本数据，可以精准预测癌症患者的预后和治疗反应。注：预后（英语：Prognosis）是一个医学名词，是指基于病人当前的状况，结合疾病的了解，例如临床表现、化验结果、影像学检查、病因、病理、病情规律等，以及治疗时机、方法和过程中出现的新情况，来推估治疗后的可能结果。 MUSK 模型的亮点在于，突破性…
资讯
- 2.7k
2 个月前
谷歌发布多模态直播 API：解锁看、听、说，开启 AI 音视频交互新体验

谷歌昨日在发布 Gemini 2.0 的同时，还发布了全新的多模态直播（Multimodal Live）API，帮助开发人员开发具有实时音频和视频流功能的应用程序。该 API 实现了低延迟、双向的文本、音频和视频交互，以音频和文本形式输出，带来更自然流畅、如同人类对话般的交互体验。用户可以随时打断模型，并通过共享摄像头输入或屏幕录像与其进行互动，就内容提问。该模型的视频理解功能扩展了通信模式，…
资讯
- 3.1k
3 个月前
三星多模态 AI 模型 Gauss 2 登场，赋能 Galaxy 智能生态

三星公司今天（10 月 21 日）发布博文，在韩国举办的开发者大会上，宣布推出第二代生成式AI模型 Samsung Gauss2。这款多模态语言模型能够同时处理文本、代码和图像等多种数据类型，显著提升性能和效率。 Gauss2 提供“精简版”（Compact）、“均衡版”（Balanced）和“至尊版”（Supreme）三种不同规格的模型，以满足不同计算环境和应用场景的需求，IT之家简要梳理如下…
资讯
- 2.8k
4 个月前
Mistral 发布 Pixtral Large 多模态 AI模型：登顶复杂数学推理，图表 / 文档推理超过 GPT-4o

11 月 19 日消息，Mistral AI 公司昨日（11 月 18 日）发布公告，宣布了全新的多模态 AI模型 Pixtral Large。该模型拥有 1240 亿参数，基于 Mistral Large 2，主要用于处理文本和图片。 Pixtral Large 现已在 Mistral 研究许可证和商业许可证下提供，适用于研究、教育以及商业用途。 Pixtral Large 是 Mistral …
资讯
- 2.5k
4 个月前
开源多模态巨兽登场！Meta将于7月23日推出Llama 3 405B模型

Meta又要搞大事情了!他们即将推出一款名为Llama3405B的开源语言模型，这不仅是他们迄今为止最大的模型，而且还是史上最大的开源语言模型。这个巨无霸，拥有惊人的4050亿参数，能在图像和文本之间自如穿梭，彻底颠覆了以往只能处理文本的老黄历。关键看点: Meta将在7月23日发布Llama3405B，这是一款具有4050亿参数的多模态模型。决定将Llama3405B及其权重开源，可能会彻底…
资讯
- 8.8k
8 个月前
谷歌推出多模态 VLOGGER AI：让静态肖像图动起来“说话”

谷歌近日在 GitHub 页面发布博文，介绍了 VLOGGER AI模型，用户只需要输入一张肖像照片和一段音频内容，该模型可以让这些人物“动起来”，富有面部表情地朗读音频内容。 VLOGGER AI 是一种适用于虚拟肖像的多模态 Diffusion 模型，使用 MENTOR 数据库进行训练，该数据库中包含超过 80 万名人物肖像，以及累计超过 2200 小时的影片，从而让 VLOGGER 生成不同…
资讯
- 3.5k
1 年前
扳回一局！Gemini-Pro多模态能力和GPT-4V不相上下

近期的Gemini-Pro评测报告显示其在多模态领域取得了显著的进展，与GPT-4V不相上下，甚至在某些方面表现更为出色。首先，在多模态专有基准MME上的综合表现中，Gemini-Pro以1933.4的高分超越了GPT-4V，展现出在感知和认知方面的全面优势。而在37个视觉理解任务中，Gemini-Pro在文本翻译、颜色/地标/人物识别以及OCR等任务中表现突出，显示了其在基础感知领域的卓越能力。…
资讯
- 3.6k
1 年前
Gemini：由 Google 开发的写作、规划和学习的AI 助手

Gemini是谷歌DeepMind推出的新一代人工智能系统。它能够进行多模态推理,支持文本、图像、视频、音频和代码之间的无缝交互。Gemini在语言理解、推理、数学、编程等多个领域都超越了之前的状态,成为迄今为止最强大的AI系统之一。它有三个不同规模的版本,可满足从边缘计算到云计算的各种需求。Gemini可以广泛应用于创意设计、写作辅助、问题解答、代码生成等领域。 Gemini功能写作助手：Ge…
产品
- 2.9k
1 年前