上海科技大学推新AI模型CLAY:从文字和图像生成详细3D物体

上海科技大学的科学家们最近开发了一款名为CLAY人工智能模型,这款模型可以从文字描述或二维图像中生成详细的3D物体。与以往的技术相比,CLAY在生成3D物体的质量和多样性方面都取得了显著突破。

上海科技大学推新AI模型CLAY:从文字和图像生成详细3D物体

CLAY模型的核心包括一个多分辨率变分自编码器(VAE)和一个扩散变换器(DiT)。VAE负责将不同细节层次的3D几何形状编码到潜在空间中,而DiT则负责生成这些几何形状。与许多其他系统不同的是,CLAY能够直接处理3D内容,无需先转换为2D图像。

CLAY的训练数据超过了50万种3D模型,涵盖了从简单的日常物品到复杂的幻想生物的各种对象。此外,CLAY还具备通过额外输入进行控制的能力,用户可以通过指定粗略形状(如体素结构、点云)或边界框来实现对生成结果的精确控制。这种灵活性使得CLAY可以生成整个城市场景,甚至从手绘草图中重建详细的3D模型。

在与其他系统(如Shap-E、DreamFusion、Wonder3D)进行比较时,CLAY表现出了明显的优势。无论是文字转3D还是图像转3D,CLAY都能够生成更一致的几何形状,表面更加光滑,细节更加精细。CLAY生成高质量3D资产的速度也十分惊人,仅需约45秒,而一些比较系统可能需要几小时来优化。

CLAY的潜在应用非常广泛,包括游戏开发、电影制作和3D打印等领域。尽管如此,研究人员也意识到AI生成虚拟内容的潜在风险,因此他们计划增加更多的安全措施,以确保负责任的使用。

未来,研究人员还计划进一步扩展训练数据,提高模型质量,并将几何生成和材料合成整合到一个单一模型中,以实现更全面的功能。可以通过3D-Gen 服务 Rodin 访问 CLAY 的一个版本。

产品入口:https://hyperhuman.deemos.com/rodin

 

声明:内容均采集自公开的网站等各类媒体平台,若收录的内容侵犯了您的权益,请联系邮箱,本站将第一时间处理。
资讯

美国参议院通过了一项法案,打击深度伪造色情内容

2024-7-26 9:30:57

资讯

​AI视频生成器Runway被曝使用盗版YouTube内容进行训练

2024-7-26 9:35:02

搜索