4月28日
字节发布视觉基础模型ViTamin,多项任务实现SOTA,入选CVPR2024
在使用相同的数据集和训练方案时,ViTamin在ImageNet零样本准确率上比ViT提高了2.0%。
此外在分类、检索、开放词汇检测和分割、多模态大语言模型等60个不同基准上都表现出了良好的结果。
当进一步扩展参数规模时,ViTamin-XL仅有436M参数,却达到了82.9%的ImageNet零样本准确率,超过了拥有十倍参数(4.4B)的EVA-E。
最终这一成果,入选计算机视觉顶会CVPR2024。
在使用相同的数据集和训练方案时,ViTamin在ImageNet零样本准确率上比ViT提高了2.0%。
此外在分类、检索、开放词汇检测和分割、多模态大语言模型等60个不同基准上都表现出了良好的结果。
当进一步扩展参数规模时,ViTamin-XL仅有436M参数,却达到了82.9%的ImageNet零样本准确率,超过了拥有十倍参数(4.4B)的EVA-E。
最终这一成果,入选计算机视觉顶会CVPR2024。
来源:量子位
一键换装神器爆火,老黄换上抱抱脸 T 恤,CEO 本人:我被替代了,和他争 CEO 职位争不过
IDM–VTON 基于扩散模型,通过设计精细的注意力模块来提高服装图像的一致性,并生成真实的虚拟试穿图像。
IDM–VTON 基于扩散模型,通过设计精细的注意力模块来提高服装图像的一致性,并生成真实的虚拟试穿图像。
来源:IT之家
搭载星火 AI 大模型,科大讯飞下月将推出语音台历产品
科大讯飞周六透露,公司将于 5 月在京东、天猫等电商平台上新搭载星火大模型的语音台历,具备更广泛的知识覆盖、更强的理解能力及更自然的人机交互。
科大讯飞周六透露,公司将于 5 月在京东、天猫等电商平台上新搭载星火大模型的语音台历,具备更广泛的知识覆盖、更强的理解能力及更自然的人机交互。
来源:IT之家
使用 Sora 技术生成的短视频的创作者们解释了其优势和局限性
OpenAI 的视频生成工具 Sora 在二月份给 AI 社区带来了惊喜,其流畅、逼真的视频似乎领先竞争对手许多。但仔细策划的首次亮相略过了许多细节,这些细节已被一位电影制作者填补,他获得了提前使用 Sora 来制作短片的权限。
OpenAI 的视频生成工具 Sora 在二月份给 AI 社区带来了惊喜,其流畅、逼真的视频似乎领先竞争对手许多。但仔细策划的首次亮相略过了许多细节,这些细节已被一位电影制作者填补,他获得了提前使用 Sora 来制作短片的权限。
来源:Techcrunch