-
字节发布视觉基础模型ViTamin,多项任务实现SOTA
引言 在计算机视觉领域,随着大规模图像-文本对的兴起,视觉-语言模型(VLMs)已成为研究的热点。ViTamin,全称为“Vision TrAnsforMer for vIsion-laNguage”,是由 Johns Hopkins University 和 ByteDance 的研究者共同开发的一种新型视觉模型,旨在为视觉-语言时代设计可扩展的视觉模型。ViTamin 在多项任务中取得了显著的…... -
微软发布新模型Phi-3: mini版超越Llama 3,手机可流畅运行
引言 最近,开源模型世界相当热闹,前有WizardLM-2由自我合成数据训练而成达到近乎于gpt-4的水平,后有Meta重磅发布Llama 3。昨日,微软推出了开源模型Phi-3,这是一款专为手机设计的高效语言模型,目的是将强大的语言能力带入日常设备中。 Phi-3模型概述 Phi-3-mini是一款具有3.8亿参数的模型,在3.3万亿令牌上接受训练,能够在多项学术基准上展现出卓越性能。最大的特点…...