当您想到与生成人工智能(AI)相关的语言模型时,您可能想到的第一个术语是大语言模型(LLM)。这些法学硕士为最流行的聊天机器人提供支持,例如ChatGPT、Bard和Copilot。然而,微软的新语言模型表明小语言模型(SLM)在生成人工智能领域也有很大的前景。
周三,微软发布了Phi-2,这是一种能够进行常识推理和语言理解的小型语言模型,现已在AzureAIStudio模型目录中提供。
不过,不要让“小”这个词欺骗了你。Phi-2在其模型中包含27亿个参数,这比Phi-1.5的13亿个参数有了很大的飞跃。
微软表示,尽管Phi-2很紧凑,但它在参数少于130亿的语言模型中展示了“最先进的性能”,甚至在复杂基准测试中的性能比其他模型高出25倍。
在几个不同的基准测试中,Phi-2的表现优于模型,包括Meta的Llama-2、Mistral,甚至Google的GeminiNano2(这是Google最强大的LLMGemini的最小版本),如下所示。
Phi-2的性能结果与Microsoft的目标一致,即开发具有紧急功能和性能可与更大规模模型相媲美的SLM。
微软表示:“一个问题是,是否可以通过使用训练策略选择(例如数据选择)在较小的规模上实现这种新兴能力。”
“我们对Phi模型的研究旨在通过训练SLM来回答这个问题,这些SLM的性能可与更大规模的模型相媲美(但距离前沿模型还很远)。”
在训练Phi-2时,微软对所使用的数据非常挑剔。该公司首先使用了所谓的“教科书质量”数据。然后,微软通过添加精心挑选的网络数据来扩充语言模型数据库,这些数据根据教育价值和内容质量进行过滤。
那么,为什么Microsoft专注于SLM?
SLM是LLM的一种经济高效的替代方案。当较小的模型用于执行要求不高、不需要法学硕士能力的任务时,它们也很有用。
此外,运行SLM所需的计算能力比LLM低得多。这种需求的减少意味着用户不必投资昂贵的GPU来满足其数据处理需求。