以多层级描述生成法提升图像识别准确性丰富性

2023-12-14 作者：明海英汪伟颋高翔来源：中国社会科学网

微信公众号

— 分享 —

链接已复制

　　中国社会科学网讯（记者明海英通讯员汪伟颋高翔）近日，华中科技大学软件学院教授白翔领衔的VLRLab团队发布了多模态大模型——“Monkey”，该模型能够对图片进行深入的问答交流和精确描述。　　

　　多模态大模型是一类可以同时处理和整合多种感知数据（例如文本、图像、音频等）的AI架构，近年来在众多场景中展现了惊人的能力。该模型在18个数据集上的实验中表现出色，特别是在图像描述和视觉问答任务方面。此外，在文本密集的问答任务中也有显著优势。该模型的显著特点是：出色的“看图说话”能力。在详细描述任务中，能够察觉到很多多模态大模型所忽略的内容。　　

　　这样惊人的描述能力是怎么做到的？目前，几乎所有多模态大模型都需要运用网上爬取的图文数据集，这些数据集只能进行简单的图文描述、无法满足大分辨率图片的需求。Monkey巧妙利用现有的工具构建了一种多层级的描述生成方法，即通过五个步骤依次对图片进行整体简述、空间定位、模块化识别、描述赋分选取和最终总结，此举可以充分结合不同工具的特性，打出一套 “组合拳”，因而，大幅度提升了描述的准确性和丰富程度。“一个个工具就好比不同的零件，合理的排列组合才能使其发挥最大作用，”白翔介绍，团队从2003年开始从事图像识别研究，去年又从海外引进了专攻多模态大模型的青年人才，Monkey的最终方案是大家一起反复讨论，尝试了10余种方案后最终确定的。　　

　　Monkey的另一亮点是能够处理分辨率高达1344×896像素的图像，这是目前其他多模态大模型所能处理的最大尺寸的6倍。这意味着Monkey能对更大尺寸的图片进行更准确、丰富、细致的描述甚至推理。　　

　　目前业内能处理的图片最大分辨率为448×448像素。而想要进一步提升处理能力，需投入十分高昂的算力成本。如何更低成本扩大输入分辨率？该团队青年骨干刘禹良介绍，团队采用了创新性的“裁剪”方法，将原始输入图片分割成多个块，每块尺寸小于448×448像素，并为每个块配备了一个“放大镜”，放到合适的位置可以“看”清更多细节。多个“放大镜”同时工作，分别“放大”不同的图片块，就能提取更多局部特征。　　

　　“未来，我们希望Monkey更强大，真正成为神通广大的‘孙悟空’！”白翔说，他对这只“小猴子”信心满满！

关键词：多模态大模型;Monkey

转载请注明来源：中国社会科学网【编辑：赛音】

社科推荐

学科体系

新媒体矩阵

以多层级描述生成法提升图像识别准确性丰富性