ETRI 的研究人员推出了一项将生成式人工智能和视觉智能相结合的技术,只需 2 秒即可根据文本输入创建图像,推动超快速生成式视觉智能领域的发展。
电子电信研究所(ETRI)宣布向公众发布五种型号。其中包括三个模型“KOALA”,它从文本输入生成图像的速度比现有方法快五倍,以及两个会话视觉语言模型“Ko-LLaVA”,它可以用图像或视频进行问答。
“KOALA”模型使用知识蒸馏技术,将参数从公共 SW 模型的 2.56B(25.6 亿)显着减少到 700M(7 亿)。大量参数通常意味着更多计算,导致处理时间更长并增加运营成本。研究人员将模型大小减少了三分之一,并将高分辨率图像的生成速度提高到以前的两倍,与 DALL-E 3 相比快了五倍。
ETRI 成功地大幅减小了模型的大小(1.7B(Large)、1B(Base)、700M(Small)),并将生成速度提高到 2 秒左右,使其能够在仅 8GB 内存的低成本 GPU 上运行国内外文本到图像生成的竞争格局。
ETRI 内部开发的三个“KOALA”模型已在 HuggingFace 环境中发布。
在实践中,当研究团队输入句子“宇航员在火星上的月球下读书的图片”时,ETRI开发的KOALA 700M模型仅用了1.6秒就创建了图像,明显快于Kakao Brain的Kallo(3.8秒) 、OpenAI 的 DALL-E 2(12.3 秒)和 DALL-E 3(13.7 秒)。