AI开源项目

Clone Voice：开源的声音克隆工具，使用你的音色或任意声音来录制音频

Clone voice是开源的声音克隆工具，基于深度学习技术分析和模拟人类声音，实现声音的高质量克隆。工具支持包括中文、英文、日语、韩语等在内的16种语言，能将文本转换为语音或将一种声音风格转换为另一种。界面友好，操作简单，不需要高性能的硬件支持，适合个人和专业领域使用。Clone-voice的应用场景广泛，包括娱乐、教育、媒体广告和语音交互等，为数字内容创作和个性化声音资源提供新的可能性。 Cl…
产品
- 891
6 天前
MAGI-1：图生视频模型，Sand Al 开源的首个自回归视频生成模型

MAGI-1 是 Sand AI开源的全球首个自回归视频生成大模型，采用自回归架构，通过逐块预测视频序列生成流畅自然的视频，支持无限扩展和一镜到底的长视频生成。模型原生分辨率可达 1440x2568，生成的视频动作流畅且细节逼真，具备可控生成能力，可通过分块提示实现平滑场景转换和细粒度控制。 MAGI-1功能高效视频生成：MAGI-1能在短时间内生成高质量视频片段，例如生成5秒视频仅需3秒，生成…
产品
- 1.1k
1 周前
FramePack：开源AI视频生成项目，低显存可用的AI图生视频工具

FramePack是一种革命性的视频扩散技术，使得在消费级GPU上快速、高质量的视频生成成为可能，且对显存要求较低。它通过创新的帧上下文打包方法，允许用户预测下一帧，使得高级视频创作在标准硬件上变得可行。 FramePack功能低显存需求：仅需6GB显存即可运行，适合在笔记本电脑GPU上使用。高效的帧生成能力：基于13B模型30fps的帧率生成数千帧视频。快速生成：个人RTX 4090显卡的…
产品
- 1.8k
1 周前
FastGPT：AI知识库问答平台，帮助用户构建和优化基于大型语言模型(LLM)的应用程序

FastGPT 是一个基于 LLM 大语言模型的知识库问答系统，提供开箱即用的数据处理、模型调用等能力。同时可以通过 Flow 可视化进行工作流编排，从而实现复杂的问答场景！ FastGPT功能专属 AI 客服：通过导入文档或已有问答对进行训练，让 AI 模型能根据你的文档以交互式对话方式回答问题。简单易用的可视化界面：FastGPT 采用直观的可视化界面设计，为各种应用场景提供了丰富实用的功…
产品
- 2.2k
1 个月前
Mochi 1：开源视频生成模型，免费的AI视频生成神器

Mochi 1是Genmo公司推出的开源 AI 视频生成模型，可将文本提示转换为高质量视频。它是根据 Apache 2.0 许可发布的，代表了 AI 视频技术民主化的重要里程碑，支持个人和商业用途的免费使用。模型目前提供480p的基础版本，计划在年底前推出支持720p的高清版本Mochi 1 HD，提供更高保真度和更流畅的动作。Mochi 1的模型权重和架构在Hugging Face平台上找到，G…
产品
- 4.4k
4 个月前
MMAudio：一键AI视频配音，将无声视频转为有声电影

MMAudio 是一项基于多模态联合训练的AI音频合成技术，基于多模态联合训练，让模型能在广泛的视听和音频文本数据集上进行训练。技术的核心是同步模块，确保生成的音频与视频帧精确匹配，实现高度同步。MMAudio适用于多种应用场景，包括影视制作和游戏开发，根据视频内容或文本描述生成相应的音频，提升用户体验。 MMAudio功能视频到音频合成：自动生成与视频内容高度匹配的音频。文本到音频合成：根据…
产品
- 5.3k
4 个月前
Diffutoon：真人转动漫视频工具，基于扩散模型将真人视频转换成动漫风格

Diffutoon是由阿里巴巴和华东师大的研究人员推出的一个将视频转换为卡通动漫风格的AI框架，基于扩散模型的可编辑卡通着色技术，能够将真实感视频转换成动漫风格。该技术通过分解为风格化、一致性增强、结构引导和着色等子任务，实现了对视频的高分辨率和长时间渲染。Diffutoon还具备内容编辑功能，可以根据文本提示调整视频细节，在处理视频时保持了高度的视觉效果和一致性，实现了对视频动画的高效、高质量处…
产品
- 17.3k
8 个月前
ProPainter：AI视频编辑工具，一键视频修复和去水印

ProPainter 是一款先进的视频修复工具，利用AI 技术去除视频中的特定对象和水印。通过循环流补全网络和Transformer 技术，ProPainter 能够智能检测并移除视频中的移动物体，修复损坏区域，恢复视频的完整性。无论是去除水印还是修复视频，ProPainter 都能提供高质量的解决方案。 ProPainter功能去除移动物体/人物：利用先进的 E2FGV1技术，ProPaint…
产品
- 49k
9 个月前
ChatTTS：一款专为对话场景设计的语音生成模型，免费文本转语音生成工具

ChatTTS是一款专为对话场景设计的语音生成模型，支持中文和英文，经过大规模数据训练，能够生成高质量、自然的语音合成。该产品旨在为大型语言模型助手的对话任务、生成对话语音、视频介绍、教育和培训内容语音合成等应用提供支持。 ChatTTS功能多语言支持：支持中文和英文，适用于多语言环境。大规模数据训练：使用约100,000小时的中文和英文数据进行训练，确保高质量、自然的语音合成。对话任务兼容…
产品
- 5.5k
10 个月前
StoryDiffusion：专业漫画绘本生成AI工具

StoryDiffusion 是由南开大学HVision团队开发的创新人工智能工具。它的核心功能是生成连贯的图像和视频故事，尤其擅长于漫画创作。该工具采用了先进的一致性自注意力（Consistent Self-Attention）技术，可以在无需额外训练的情况下，生成主题一致的图像序列，这些图像非常适合用于叙述故事或作为进一步内容创作的基础。 StoryDiffusion 是由字节跳动和南开大学合…
产品
- 6.6k
11 个月前
IDM-VTON：一键AI换衣，实现真实的虚拟试穿的开源ai换装工具

IDM-VTON是一种新型的扩散模型，用于基于图像的虚拟试穿任务，它通过结合视觉编码器和UNet网络的高级语义以及低级特征，生成具有高度真实感和细节的虚拟试穿图像。该技术通过提供详细的文本提示，增强了生成图像的真实性，并通过定制方法进一步提升了真实世界场景下的保真度和真实感。 IDM-VTON是一种先进的虚拟试穿技术，它通过结合视觉编码器和UNet模型来生成高质量的虚拟试穿图像，并且可以通过定制来…
产品
- 34.9k
11 个月前
Rope：免费开源的AI换脸工具

Rope是一款专注于图形用户界面的AI换脸工具，它结合了insightface的inswapper_ 128 模型，提供了一个功能丰富的图形界面。这款工具的亮点在于其快速的面部交换速度、图像升级器、相似度调整器和方向管理功能。此外，Rope支持图像和视频的面部交换，并具备自动保存文件名生成、视频播放器的停靠/解除停靠、实时播放、特定帧的图像设置标记等高级功能。 Rope功能 AI换脸：利用最先进的…
产品
- 28.3k
11 个月前