当前位置：首页>科技资讯>医疗AI领域迎来新进展：MMed-RAG多模态RAG系统大幅提高诊断准确率至43.8%

医疗AI领域迎来新进展：MMed-RAG多模态RAG系统大幅提高诊断准确率至43.8%

时间：2024-11-14 03:12:50

人气：0

编辑：96006资源网

近年来，随着人工智能技术在医疗领域的应用日益广泛，特别是在疾病诊断与治疗方案制定方面，医学大型视觉语言模型（Med-LVLMs）的出现为开发更加智能化的诊断工具开辟了新的道路。

尽管如此，这些先进的AI系统在实际操作中仍面临着一个关键挑战——事实幻觉问题。这种现象指的是模型可能会生成看似合理但实际上并不准确或完全虚构的信息。

为了解决这个困扰医学 AI 的问题，研究人员们开发了一种全新的多模态检索增强生成系统，命名为 MMed-RAG。这个系统的设计目标是提高 Med-LVLMs 的事实准确性，从而增强医疗诊断的可靠性。MMed-RAG 的最大亮点在于它具备域感知检索机制，这使得它能够在处理不同类型的医学影像时表现得更加高效和准确。

具体来说，MMed-RAG 采用了一个域识别模块，这个模块的作用是根据输入的医学影像，自动选择最合适的检索模型。这种自适应的选择方式，不仅提高了检索的准确性，还确保了系统能够快速响应各种医学影像的需求。比如，当医生上传一张放射学的图像时，系统能够即时识别出这是哪个领域的图像，并选择相应的模型进行分析。

除此之外，MMed-RAG 还引入了一种自适应校准的方法，用于智能选择检索到的上下文数量。以往，很多系统在检索时会一次性获取大量信息，但这些信息未必都对最终的诊断有帮助。MMed-RAG 通过自适应校准，能够在不同场景下选择最合适的上下文信息，从而提升信息的利用效率。

在这套系统的基础上，MMed-RAG 还结合了基于 RAG 的偏好微调策略。这一策略的目的在于改善模型在生成回答时的跨模态对齐和整体对齐。

具体来说，系统设计了一些偏好对，鼓励模型在生成回答时充分利用医学影像，即使某些回答在没有影像的情况下是正确的，也要尽量避免。这样一来，不仅提高了诊断的准确性，也能帮助模型在面对不确定性时更好地理解检索到的上下文信息，避免受到无关数据的干扰。

通过在多个医学数据集上的测试，MMed-RAG 的表现非常出色。研究人员发现，这个系统平均提高了43.8% 的事实准确性，极大地增强了医学 AI 的可靠性。这一成果不仅为医疗领域的智能化进程注入了新的动力，也为未来的医疗诊断工具发展提供了可借鉴的思路。

随着 MMed-RAG 的问世，我们可以期待，未来的医疗 AI 将能够更准确地服务于医生和患者，真正实现智能医疗的愿景。

我国科研团队领跑健康AI，DeepDR-LLM：国际首个多模态糖尿病诊疗大模型问世

7月25日消息，上海交通大学医学院附属第六人民医院的贾伟平与李华婷教授团队，联合上海交通大学电院及清华大学、新加坡国立大学的科研队伍，在医学与工程学的交叉领域取得重大突破。他们共同研发了DeepDR-LLM系统，这是全球首个专为糖尿病诊疗设计的视觉-大语言模型多模态集成智能平台。

我国科研团队领跑健康AI，DeepDR-LLM：国际首个多模态糖尿病诊疗大模型问世

该研究成果已于2024年7月19日在《Nature Medicine》杂志上发表，论文题为《基于图像的深度学习与语言模型在初级糖尿病护理中的集成应用》，标志着糖尿病治疗与管理进入了一个全新的智能化时代。

据介绍，DeepDR-LLM 系统融合了大语言模型和深度学习技术优势，实现了医学影像诊断与诊疗意见的多模态生成功能，能提供糖尿病视网膜病变辅助诊断结果及个性化糖尿病综合管理意见。

该系统在覆盖亚非欧三大区域七个国家的多中心队列中进行了回顾性验证，以及针对中国基层医疗实际开展了前瞻性真实世界验证，首次向全球提供了面向糖尿病医疗垂直领域的多模态大模型应用成效的高质量循证证据。研究团队表示，研究证明 DeepDR-LLM 系统可有效改善 DR 筛查和基层糖尿病管理水平，为未来全球糖尿病治理提供了革命性的数字解决方案。

既往的 AI 系统研发主要集中在糖尿病的并发症筛查或辅助管理的单一领域。随着全球范围内以 ChatGPT 为代表的生成式人工智能技术的迅猛发展，多模态大模型正不断推动医疗领域的新应用场景和模式的涌现，但这些模型尚不能根据患者的医学影像和具体病情，提供准确且安全的糖尿病综合诊疗建议。

针对当前的技术空白和临床的实际需求，该团队成功研发了全球首个面向糖尿病基层诊疗的视觉-大语言模型多模态集成智能系统 DeepDR-LLM。

其可适配包括 LLaMA 在内的大语言模型，LLM 模块将训练网络层与大语言模型的固有权重参数相融合，突破低算力资源约束下的多模态大模型优化的瓶颈，并进一步基于 37.2 万条基层慢病诊疗和慢病管理数据和知识实现了高效优化训练，使 DeepDR-LLM 系统可基于患者个体的临床信息生成精准糖尿病管理意见。

中国震撼发布“谛听”：全球首个人工智能地震波模型，参数量破亿

近日消息，在成都市科学技术局、成都市经济和信息化局以及市新经济发展委员会的指导下，国家超级计算成都中心与中国地震局地球物理研究所日前携手成功举办“谛听大模型发布会”。此次活动在成都圆满落幕，标志着前沿的大模型技术研究与应用迈入了新的发展阶段。

中国震撼发布“谛听”：全球首个人工智能地震波模型，参数量破亿

会上，“谛听”地震波大模型正式发布，标志着中国在地震监测、预警和前兆识别等关键技术方面迈出了坚实一步。

该大模型由国家超级计算成都中心、中国地震局地球物理研究所以及清华大学联合开发，是首个亿级参数量的地震波大模型。

在大模型展示环节，来自清华大学自动化系的助理研究员刘畅老师从超算平台对接、地震数据适配、算法参数调优、模型规模放大四方面介绍了大模型研发的经历。

中国科学院地质与地球物理研究所的肖卓伟博士现场演示了大模型用于前震识别和预警的示例、中国地震局地球物理研究所的副研究员赵明老师介绍了大模型在余震识别的应用与前景。

中国地震局地球物理研究所副所长陈石介绍称，“谛听”大模型依托中国地震观测网的海量数据，通过先进的人工智能技术，已经显著提升了地震信号的识别准确率和速度。

短期来看，“谛听”地震波大模型将应用于地震信号识别、地震活动监测、大地震快速响应等领域。长期来看，地震学是一门观测科学，重大的突破往往来自对观测数据的深刻理解。目前，传统方法和中小模型均无法充分利用 TB、PB 级别的地震观测数据，而这些数据蕴含许多重要的地震学问题，因此，“谛听”地震波大模型有望长期为地震科学研究带来重大突破。

据介绍，“谛听”数据集是国内首个，同时也是目前国内外最大规模、样本类型和标注最为全面的地震学专业 AI 训练数据集之一。

从官方获悉，目前该模型已可投入使用，同时十亿参数量级的版本预计 2024 年 8 月完成预训练，进一步为新时代防震减灾事业现代化提供科技支撑。

未来，该模型的应用场景还可用于矿震监测、页岩气开采、城市地下空间结构探测、海底地震监测等多个领域。