智谱开源图生视频模型 CogVideoX - 5B - I2V

智谱开源图生视频模型CogVideoX - 5B - I2V及其标注模型cogvlm2 - llama3 - caption。CogVideoX - 5B - I2V支持“一张图”加“提示词”生成视频，cogvlm2 - llama3 - caption负责将视频内容转成文本描述。网友对CogVideoX - 5B - I2V的评价褒贬不一，实测中该模型存在一些问题，如生成速度慢、效果不理想等，但团队也展示了一些成功作品。有三大技术亮点：一是团队自研高效的3D VAE结构，可大幅减少训练成本和难度，模型结构包含多个部分，训练分两阶段且损失函数结合多种损失；二是专家Transformer，将视频和文本嵌入拼接后送入专家Transformer块堆栈处理再解码重建视频；三是数据方面，开发负面标签排除低质量视频，标注筛选20000个视频数据点，调整阈值确保质量，还提出从图像字幕生成视频字幕的管道并微调相关模型以获得更密集字幕，加速视频字幕生成过程。

开源地址：
https://github.com/THUDM/CogVideo/blob/main/README_zh.md
https://huggingface.co/THUDM/CogVideoX-5b-I2V

体验地址：
https://huggingface.co/spaces/THUDM/CogVideoX-5B-Space