4月28日

字节发布视觉基础模型ViTamin，多项任务实现SOTA，入选CVPR2024
在使用相同的数据集和训练方案时，ViTamin在ImageNet零样本准确率上比ViT提高了2.0%。
此外在分类、检索、开放词汇检测和分割、多模态大语言模型等60个不同基准上都表现出了良好的结果。
当进一步扩展参数规模时，ViTamin-XL仅有436M参数，却达到了82.9%的ImageNet零样本准确率，超过了拥有十倍参数（4.4B）的EVA-E。
最终这一成果，入选计算机视觉顶会CVPR2024。

来源：量子位

一键换装神器爆火，老黄换上抱抱脸 T 恤，CEO 本人：我被替代了，和他争 CEO 职位争不过
IDM–VTON 基于扩散模型，通过设计精细的注意力模块来提高服装图像的一致性，并生成真实的虚拟试穿图像。

来源：IT之家

搭载星火 AI 大模型，科大讯飞下月将推出语音台历产品
科大讯飞周六透露，公司将于 5 月在京东、天猫等电商平台上新搭载星火大模型的语音台历，具备更广泛的知识覆盖、更强的理解能力及更自然的人机交互。

来源：IT之家

使用 Sora 技术生成的短视频的创作者们解释了其优势和局限性
OpenAI 的视频生成工具 Sora 在二月份给 AI 社区带来了惊喜，其流畅、逼真的视频似乎领先竞争对手许多。但仔细策划的首次亮相略过了许多细节，这些细节已被一位电影制作者填补，他获得了提前使用 Sora 来制作短片的权限。

来源：Techcrunch

{{userData.name}}已认证

AI资讯-4月第4周

4月28日