微软发布新模型Phi-3: mini版超越Llama 3，手机可流畅运行

最近，开源模型世界相当热闹，前有WizardLM-2由自我合成数据训练而成达到近乎于gpt-4的水平，后有Meta重磅发布Llama 3。昨日，微软推出了开源模型Phi-3，这是一款专为手机设计的高效语言模型，目的是将强大的语言能力带入日常设备中。

Phi-3-mini是一款具有3.8亿参数的模型，在3.3万亿令牌上接受训练，能够在多项学术基准上展现出卓越性能。最大的特点是能够在手机等移动设备上本地运行，高级语言处理功能更加普及。

模型名称	参数数量	训练数据量	MMLU 成绩	MT-bench 成绩	特点描述
phi-3-mini	3.8B	3.3T	69%	8.38	部署于手机，数据集创新，聚焦对话格式
phi-3-small	7B	4.8T	75%	8.7	优于mini，适合复杂任务场景
phi-3-medium	14B	4.8T	78%	8.9	参数大，数据多，性能高

表1 Phi-3各模型参数

数据的选择和预处理经过了严格的筛选和优化，使用了从互联网精选的高质量文本和精心设计的合成数据。这种方法不仅提高了模型对真实世界语言使用的适应能力，也强化了模型在面对各种输入时的安全性和鲁棒性。
与传统的大模型如GPT-3.5相比，Phi-3尽管参数量少得多，但通过技术上的精细调整，其性能并未受太大影响，依然能够在多种任务上表现出色。
Phi-3的设计允许它在资源有限的环境——如智能手机等移动设备上运行，这在部署灵活性和资源效率上展现了显著的优势，大大拓宽了其应用场景的想象力空间。

由于是性能较好在移动设备上能运行的模型，天然具备了延迟低、私密性、不受网络影响的特性，以下是我认为可预见的几个应用场景：

个性化智能助理：Phi-3可以在本地处理用户的语言输入，提供更快速、更私密的响应，从而支持一个高度个性化的智能助理，适用于日常事务管理、旅行规划等。
实时语言翻译：在没有网络连接的情况下，Phi-3可以实现即时的语言翻译，支持用户在国外旅行或在无网络环境下的沟通。
增强现实交互：Phi-3能够在增强现实（AR）应用中处理用户的指令和查询，提供实时的互动体验。例如，在博物馆的AR导览中，用户可以自然语言询问关于展品的问题，系统能即刻提供详细解说。

明确Phi-3的优点之后，我同样列出几点其局限之处希望大家从多维度进行了解。

有限的事实知识储存能力：由于Phi-3-mini的参数规模较小，它在存储大量事实知识方面存在局限，这一点在TriviaQA等知识密集型任务上的表现不佳中可见一斑。
语言能力的局限：目前，Phi-3-mini主要支持英语，其对其他语言的支持和理解能力有限。虽然后续版本phi-3-small已经在多语言处理上取得了一些进展，但多语言能力的扩展仍是一个挑战。
RAI（Responsible AI）问题：与大多数大型语言模型一样，Phi-3-mini也面临事实不准确（幻觉）、偏见的再现或放大、不当内容生成和安全问题等挑战。尽管通过精心策划的训练数据和有针对性的后期培训等措施已经在一定程度上已经缓解，但仍然需更多工作来全面解决。

对与我们中国用户来讲，我认为中文支持度低是最大的缺点，相信很快会有国人中文微调版本出现，我会再写文章分享，请持续关注AiKits的知识库。

{{userData.name}}已认证