Mistral发布Pixtral 12B,这是其第一个多模态模型

一句话总结

法国AI初创公司Mirstral发布Pixtral 12B模型,可处理图像和文本。

核心要点

  • Pixtral 12B是Mirstral首个图像和文本处理模型。
  • 模型参数约120亿,大小约24GB。
  • 理论上能执行图像描述和计数等多模态任务。
  • 可通过GitHub和Hugging Face平台下载,使用Apache 2.0许可。

新闻简报

法国人工智能初创公司Mirstral推出了其首个能够同时处理图像和文本的模型Pixtral 12B。该模型拥有约120亿参数,大小约为24GB。Pixtral 12B基于Mirstral的文本模型Nemo 12B构建,能够处理任意数量和大小的图像,无论是通过URLs还是使用base64编码的图像。理论上,Pixtral 12B能够执行包括图像描述和图片中对象计数在内的多模态任务。该模型可以通过GitHub和AI及机器学习开发平台Hugging Face下载,并在Apache 2.0许可下无限制使用。目前尚不清楚Mirstral在开发Pixtral 12B时使用了哪些图像数据。Mirstral在完成一轮由General Catalyst领投的6.45亿美元融资后推出了Pixtral 12B,公司估值达到60亿美元。Mirstral的策略包括发布免费的“开源”模型,为这些模型的托管版本收费,并为企业提供咨询服务。

信息来源:techcrunch

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
error: