AI突破:增强型多模态模型与高效模型融合

AI突破:增强型多模态模型与高效模型融合

今天的AI新闻展示了多模态模型能力和高效模型融合技术的重大进展。研究人员正在突破大型语言模型(LLM)的可能性边界,并探索新的训练方法以提高其性能和效率。

几篇论文中反复出现的主题是大型多模态模型(LMM)在几何推理方面的改进。清华大学(THU-KEG)的研究人员开发了MMGeoLM,这是一个具有70亿参数的LMM,在三个几何推理基准测试中显著优于其他开源模型。他们的方法侧重于“硬负对比学习”,这项技术通过向模型呈现具有挑战性的、精心构建的例子来完善模型的理解,迫使模型区分相似的概念。这涉及图像和文本对比学习的巧妙结合,使用扰动图表生成代码和修改的几何描述来创建这些“硬负例”。由此产生的MMGeoLM实现了与GPT-4等强大的闭源模型相媲美的性能,展示了LLM处理复杂几何问题的巨大进步。研究人员已公开发布其代码和数据集,促进了该关键领域的进一步研究。MMGeoLM的成功突出了改进对比学习方法以提高LLM推理能力的潜力。

另一个突破集中在当前神经网络中用于处理多集和图的多集函数的局限性上。一篇论文探讨了分段线性Janossy池化(一种常用的多集函数)的单射性——函数将不同的输入映射到不同的输出的能力。研究人员证明,没有分段线性Janossy池化函数可以是单射的。虽然看似是一个负面结果,但这严格地确立了一个理论限制,指导未来的研究转向更高效的多集表示。这一发现强调了在为特定任务设计神经网络架构时仔细考虑底层函数的数学性质的重要性。然而,这篇论文也提供了一个积极的结果:当限制在没有重复的多集时,更简单的深度集模型可以实现单射性和双利普希茨性,为特定环境下的更高效解决方案开辟了途径。

在医学影像领域,据报道,用于OCT(光学相干断层扫描)图像分类的少样本学习在罕见视网膜疾病方面取得了显著改进。研究人员成功地提高了OCT图像分类的准确性,特别是那些代表罕见疾病且数据稀缺的图像,方法是结合基于GAN的数据增强、数据平衡技术以及具有CBAM注意机制的微调InceptionV3模型。总准确率达到97.85%,这代表着人工智能在医学诊断中的应用取得了实质性进展,特别是对于数据集有限的疾病。这项工作突出了少样本学习和数据增强技术在应对罕见疾病分类挑战方面的潜力。

最后,LLM融合领域随着SeMe(基于语义的融合)的引入取得了重大进展。这种创新的方法提供了一种无需训练和无需数据的细粒度融合多个LM的方法,利用潜在语义对齐。与以前的方法不同,SeMe保留了模型行为并稳定了内部知识,从而在各种架构和任务中实现了优越的性能和效率。这项进步至关重要,因为它允许研究人员结合不同模型的优势,而无需进行计算成本高昂的再训练过程,从而提高LLM开发和部署的效率和可扩展性。SeMe代表了一种强大的新型模型组合范式,为更可扩展和可解释的AI系统铺平了道路。


本综述信息来源于全球AI动态整理而成。参考链接:
Hard Negative Contrastive Learning for Fine-Grained Geometric Understanding in Large Multimodal Models (arXiv (cs.AI))
Hard Negative Contrastive Learning for Fine-Grained Geometric Understanding in Large Multimodal Models (arXiv (cs.CL))
Hard Negative Contrastive Learning for Fine-Grained Geometric Understanding in Large Multimodal Models (arXiv (cs.CV))
On the (Non) Injectivity of Piecewise Linear Janossy Pooling (arXiv (cs.AI))
On the (Non) Injectivity of Piecewise Linear Janossy Pooling (arXiv (cs.LG))

Comments are closed.