智谱 AI 开源视频理解模型 CogVLM2-Video，可回答时间相关问题

智谱AI 宣布，训练了一种新的视频理解模型 CogVLM2-Video，并将其开源。

据介绍，当前大多数的视频理解模型使用帧平均和视频标记压缩方法，导致时间信息的丢失，无法准确回答与时间相关的问题。一些专注于时间问答数据集的模型过于局限于特定格式和适用领域，使得模型失去了更广泛的问答能力。

▲ 官方效果演示

智谱 AI 提出了一种基于视觉模型的自动时间定位数据构建方法，生成了 3 万条与时间相关的视频问答数据。基于这个新数据集和现有的开放领域问答数据，引入了多帧视频图像和时间戳作为编码器输入，训练出 CogVLM2-Video 模型。

智谱 AI 表示，CogVLM2-Video 不仅在公共视频理解基准上达到了最新的性能，还在视频字幕生成和时间定位方面表现出色。

附相关链接：

声明：内容均采集自公开的网站等各类媒体平台，若收录的内容侵犯了您的权益，请联系邮箱，本站将第一时间处理。

{{userData.name}}已认证

智谱 AI 开源视频理解模型 CogVLM2-Video，可回答时间相关问题

全球首个发短信就能用的 AI 大模型，中国电信推出“星辰慧答”服务

首届“AI 小姐”选美结果出炉，但背后争议远未停歇

AI微博

AI应用

5000+AI应用！每日更新

AIAICLUB

强烈推荐！官方品牌微博

AI教程

海量教程看不完

AI基础训练营

零基础入门，带你成为AI高手

1ai抖音

1ai大神

抖音号：1ai.net

1ai大神

抖音号：1ai.net

1ai微信

每天五分钟

一年变大神

扫码关注

{{userData.name}}已认证

相关内容：

全球首个发短信就能用的 AI 大模型，中国电信推出“星辰慧答”服务

首届“AI 小姐”选美结果出炉，但背后争议远未停歇

智谱AI宣布开源 GLM 第四代模型 GLM-4-9B

微软开源多模态模型LLaVA-1.5媲美GPT-4V效果

俄罗斯科技巨头 Yandex 宣布开源“YaFSDP”大语言模型训练工具：大幅提升 GPU 利用率，对 Llama 3 可实现 26% 加速

B站开源轻量级 Index-1.9B 系列模型：2.8T 训练数据，支持角色扮演

AI应用

5000+AI应用！每日更新

AIAICLUB

强烈推荐！官方品牌微博

AI教程

海量教程看不完

AI基础训练营

零基础入门，带你成为AI高手

1ai大神

抖音号：1ai.net

1ai大神

抖音号：1ai.net

每天五分钟

一年变大神

扫码关注