Mistral发布Pixtral 12B，这是其第一个多模态模型

一句话总结

法国AI初创公司Mirstral发布Pixtral 12B模型，可处理图像和文本。

核心要点

Pixtral 12B是Mirstral首个图像和文本处理模型。
模型参数约120亿，大小约24GB。
理论上能执行图像描述和计数等多模态任务。
可通过GitHub和Hugging Face平台下载，使用Apache 2.0许可。

新闻简报

法国人工智能初创公司Mirstral推出了其首个能够同时处理图像和文本的模型Pixtral 12B。该模型拥有约120亿参数，大小约为24GB。Pixtral 12B基于Mirstral的文本模型Nemo 12B构建，能够处理任意数量和大小的图像，无论是通过URLs还是使用base64编码的图像。理论上，Pixtral 12B能够执行包括图像描述和图片中对象计数在内的多模态任务。该模型可以通过GitHub和AI及机器学习开发平台Hugging Face下载，并在Apache 2.0许可下无限制使用。目前尚不清楚Mirstral在开发Pixtral 12B时使用了哪些图像数据。Mirstral在完成一轮由General Catalyst领投的6.45亿美元融资后推出了Pixtral 12B，公司估值达到60亿美元。Mirstral的策略包括发布免费的“开源”模型，为这些模型的托管版本收费，并为企业提供咨询服务。

信息来源：techcrunch

{{userData.name}}已认证

一句话总结

核心要点

新闻简报