韩国科学团队近日研发了名为 KOALA 的新型人工智能图像生成模型,大幅降低了对硬件的需求,而且可以在 2 秒内生成高质量图片。
该模型的关键在于采用了“知识蒸馏”(knowledge distillation)的新技术,极大地压缩了开源图像生成工具 Stable Diffusion XL 的大小。
Stable Diffusion XL 目前共有 25.6 亿个参数,而韩国科学团队利用“知识蒸馏”技术,可以将参数减少到 7 亿个。
因此 KOALA 模型不需要高端图形处理器和复杂的设备就能流畅运行,只需要 8GB 内存就能生成图片,而且生成时间缩短到 2 秒内。
从本质上讲,知识蒸馏技术可以在不影响质量和性能的前提下,将大型模型中的信息筛选到小型模型中。这样,较小的模型就能更快地生成高质量的图像。
根据团队测试结果,以相同的“a picture of an astronaut reading a book under the moon on Mars”(一张宇航员在火星卫星下看书的图片)提示词,KOALA 模型生成时间为 1.6 秒,而 OpenAI 的 DALL-E 3 模型需要 13.7 秒,DALL-E 2 模型需要 12.3 秒。