智谱AI近日发布了其最新基座大模型GLM-4-Plus,展示了堪比OpenAI GPT-4的强大视觉能力,宣布于8月30日开放使用。
主要更新亮点:
- 语言基础模型GLM-4-Plus:在语言解析、指令执行和长文本处理能力上实现了质的飞跃,持续保持在国际竞争中的领先地位。
- 文生图模型CogView-3-Plus:性能与业界顶尖的MJ-V6和FLUX模型相媲美。
- 图像/视频理解模型GLM-4V-Plus:不仅在图像理解方面表现出色,还具备基于时间序列分析的视频理解能力。该模型即将在开放平台bigmodel.cn上线,并成为国内首个通用的视频理解模型API。
- 视频生成模型CogVideoX:继2B版本发布并开源后,5B版本也正式对外开源,性能得到显著提升,成为目前开源视频生成模型中的佼佼者。
- 智谱开源模型的累计下载量已超过2000万次,为开源社区的繁荣发展做出了显著贡献。
GLM-4-Plus在多个关键领域均表现出色。在语言能力方面,该模型在理解、指令遵循和长文本处理等方面已达到国际领先水平,其表现与GPT-4和拥有405B参数的Llama3.1不相上下。特别值得一提的是,GLM-4-Plus通过精准的长短文本数据混合策略,提升了长文本推理效果。
在视觉智能领域,GLM-4V-Plus展现出卓越的图像和视频理解能力。它不仅具备时间感知能力,还能处理和理解复杂的视频内容。值得注意的是,该模型将在智谱开放平台上线,成为国内首个通用视频理解模型API,为开发者和研究人员提供强大的工具。
比如,你给它一段这样的视频,并询问它穿绿色衣服的球员在整个视频都做了什么?它可以精准地描述球员的球员所做的动作,还能准确地告诉你视频的精彩时刻在第几秒:
截图自官方
CogView-3-Plus在文生图性能上已接近目前最优的MJ-V6和FLUX等模型。同时,视频生成模型CogVideoX推出了性能更强的5B版本,被认为是当前开源视频生成模型中的最佳选择。
最令人期待的是,智谱的清言APP即将推出"视频通话"功能,这是国内首个面向C端开放的AI视频通话功能。该功能跨越了文本、音频和视频三大模态,具备实时推理能力。用户可以与AI进行流畅对话,即便频繁打断也能迅速反应。
只要打开摄像头,AI就能看到并理解用户所看到的画面,同时准确执行语音指令。
视频通话功能8月30日上线,首批面向清言部分用户开放,同时接受外部申请。
参考资料:https://mp.weixin.qq.com/s/Ww8njI4NiyH7arxML0nh8w