智谱AI发布GLM-4-Plus:媲美GPT-4,首创C端视频通话功能

智谱AI近日发布了其最新基座大模型GLM-4-Plus,展示了堪比OpenAI GPT-4的强大视觉能力,宣布于8月30日开放使用。

主要更新亮点:

  • 语言基础模型GLM-4-Plus:在语言解析、指令执行和长文本处理能力上实现了质的飞跃,持续保持在国际竞争中的领先地位。
  • 文生图模型CogView-3-Plus:性能与业界顶尖的MJ-V6和FLUX模型相媲美。
  • 图像/视频理解模型GLM-4V-Plus:不仅在图像理解方面表现出色,还具备基于时间序列分析的视频理解能力。该模型即将在开放平台bigmodel.cn上线,并成为国内首个通用的视频理解模型API。
  • 视频生成模型CogVideoX:继2B版本发布并开源后,5B版本也正式对外开源,性能得到显著提升,成为目前开源视频生成模型中的佼佼者。
  • 智谱开源模型的累计下载量已超过2000万次,为开源社区的繁荣发展做出了显著贡献。

智谱AI发布GLM-4-Plus:媲美GPT-4,首创C端视频通话功能

GLM-4-Plus在多个关键领域均表现出色。在语言能力方面,该模型在理解、指令遵循和长文本处理等方面已达到国际领先水平,其表现与GPT-4和拥有405B参数的Llama3.1不相上下。特别值得一提的是,GLM-4-Plus通过精准的长短文本数据混合策略,提升了长文本推理效果。

智谱AI发布GLM-4-Plus:媲美GPT-4,首创C端视频通话功能

在视觉智能领域,GLM-4V-Plus展现出卓越的图像和视频理解能力。它不仅具备时间感知能力,还能处理和理解复杂的视频内容。值得注意的是,该模型将在智谱开放平台上线,成为国内首个通用视频理解模型API,为开发者和研究人员提供强大的工具。

智谱AI发布GLM-4-Plus:媲美GPT-4,首创C端视频通话功能

比如,你给它一段这样的视频,并询问它穿绿色衣服的球员在整个视频都做了什么?它可以精准地描述球员的球员所做的动作,还能准确地告诉你视频的精彩时刻在第几秒:

智谱AI发布GLM-4-Plus:媲美GPT-4,首创C端视频通话功能

截图自官方

CogView-3-Plus在文生图性能上已接近目前最优的MJ-V6和FLUX等模型。同时,视频生成模型CogVideoX推出了性能更强的5B版本,被认为是当前开源视频生成模型中的最佳选择。

智谱AI发布GLM-4-Plus:媲美GPT-4,首创C端视频通话功能

最令人期待的是,智谱的清言APP即将推出"视频通话"功能,这是国内首个面向C端开放的AI视频通话功能。该功能跨越了文本、音频和视频三大模态,具备实时推理能力。用户可以与AI进行流畅对话,即便频繁打断也能迅速反应。

只要打开摄像头,AI就能看到并理解用户所看到的画面,同时准确执行语音指令。

视频通话功能8月30日上线,首批面向清言部分用户开放,同时接受外部申请。

参考资料:https://mp.weixin.qq.com/s/Ww8njI4NiyH7arxML0nh8w

声明:内容均采集自公开的网站等各类媒体平台,若收录的内容侵犯了您的权益,请联系邮箱,本站将第一时间处理。
资讯

突发!Runway偷偷删库跑路 Stable Diffusion v1.5没了

2024-8-31 9:18:46

头条资讯

韩国 N号房卷土重来:这一次是 Deepfake,波及超 200 所学校

2024-8-31 10:07:03

搜索