超快速生成视觉智能模型仅需 2 秒即可创建图像

日期：2024-02-23 15:00:59 栏目：综合

导读 ETRI 的研究人员推出了一项将生成式人工智能和视觉智能相结合的技术，只需 2 秒即可根据文本输入创建图像，推动超快速生成式视觉智能领

ETRI 的研究人员推出了一项将生成式人工智能和视觉智能相结合的技术，只需 2 秒即可根据文本输入创建图像，推动超快速生成式视觉智能领域的发展。

电子电信研究所(ETRI)宣布向公众发布五种型号。其中包括三个模型“KOALA”，它从文本输入生成图像的速度比现有方法快五倍，以及两个会话视觉语言模型“Ko-LLaVA”，它可以用图像或视频进行问答。

“KOALA”模型使用知识蒸馏技术，将参数从公共 SW 模型的 2.56B(25.6 亿)显着减少到 700M(7 亿)。大量参数通常意味着更多计算，导致处理时间更长并增加运营成本。研究人员将模型大小减少了三分之一，并将高分辨率图像的生成速度提高到以前的两倍，与 DALL-E 3 相比快了五倍。

ETRI 成功地大幅减小了模型的大小(1.7B(Large)、1B(Base)、700M(Small))，并将生成速度提高到 2 秒左右，使其能够在仅 8GB 内存的低成本 GPU 上运行国内外文本到图像生成的竞争格局。

ETRI 内部开发的三个“KOALA”模型已在 HuggingFace 环境中发布。

在实践中，当研究团队输入句子“宇航员在火星上的月球下读书的图片”时，ETRI开发的KOALA 700M模型仅用了1.6秒就创建了图像，明显快于Kakao Brain的Kallo(3.8秒) 、OpenAI 的 DALL-E 2(12.3 秒)和 DALL-E 3(13.7 秒)。

免责声明：本文由用户上传，如有侵权请联系删除！

标签：