医疗影像大模型，还需“闯三关”

2025年以来，Deepseek通过开放生态加速了算法研发与临床场景的深度融合。医疗大模型摒弃了“技术至上”的思维，逐渐进入实用主义阶段。作为AI应用最为深入的领域之一，医学影像在大模型时代迎来了更快速的发展。

如何增强AI模型泛化能力？大模型幻觉问题如何解决？大模型多模态数据整合的难点及解决方案有哪些？动脉网与数坤科技首席技术官郑超、透彻未来联创兼首席技术官王书浩这两位深耕医疗AI多年的专家们聊了聊，供行业参考。

本文主要观点如下：

1、已覆盖影像科全工作流程，解决病理三大泛化性挑战

2、通过多维数据强化与模型迭代，提升AI泛化性能

3、RAG技术、模型优化多管齐下，破解幻觉困局

4、凭数据本地化控制特性，一体机成医院部署主流选择

5、未来趋势：性能提升、多模态融合与全科化演变

大模型已深入医生全工作流程

医学影像人工智能模型在参数规模未达当前水平时便展现出了广阔的应用前景，现已在影像科医生的工作全流程中实现了常态化应用。而在辅助诊断专用模型之后，数坤科技在4月发布的“数坤坤多模态医疗健康大模型”，便实现了让AI从辅助工具进化为诊疗生态的核心驱动力。

数坤科技首席技术官郑超认为，医学影像大模型将进一步向多模态精准诊断、个性化治疗决策、手术规划与预后模拟等潜力方向发展。而这也是数坤科技正在探索的方向。

在众多应用场景中，因病理图像具有非常大的多样性，病理大模型也被认为是医疗模型“皇冠上的明珠”。为破解病理诊断准确性与效率难题，透彻未来研发了全球首个临床应用级病理大模型产品——透彻洞察，基于亿级参数量和海量高精度病理数据训练，为病理医生提供精准稳健、全面快速的病理临床诊断辅助。

透彻未来联合创始人兼首席技术官王书浩分享病理大模型的临床应用价值，在于有效解决了病理领域长期面临的医院泛化性、癌种泛化性和病理任务泛化性挑战。

以任务泛化性为例。病理诊断需同步完成病灶分割、细胞检测、切片分类等多任务，传统方法需部署数十个小模型，维护成本高。但大模型提出通用特征底座方案，预训练病理切片的组织纹理、细胞排列等通用表征，使下游任务仅需微调即可完成，能够极大简化流程并提高诊疗效率。

强化数据与模型迭代，提升AI泛化性能

在临床应用中，AI模型的泛化能力至关重要，是评估模型可靠性与稳定性、可迁移性的关键指标。然而，一些 AI 模型在受控的训练环境中表现出色，一旦进入实际部署阶段，其性能却大打折扣。郑超分析认为，影响模型泛化能力的主要原因主要有以下三点：

首先是数据多样性不足。不同医院的数据采集标准不同，不同设备的成像参数不一致，再加上不同人群在年龄、地域分布上的不均衡，使得模型在跨场景应用时泛化能力较弱，表现波动较大。

其次是模型自身存在局限性。如架构设计存在缺陷、训练策略不够合理等，都会影响模型输出的稳定性和可靠性。

三是医学数据本身的长尾性。在实际的临床场景中，同一部位的不同疾病发病率并不相同，在收集数据时很难采集到足够多的发病率较低的疾病数据。对于一些像存在扫描伪影等特殊情况的病例，同样难以收集。因此训练阶段往往缺乏足够的低质量样本覆盖，使得模型在一些真实环境下表现一般。

那么，我们该如何加强AI模型的泛化能力呢？受访对象们认为可从以下三维度出发：

扩大数据样本容量及其多样性，提升模型在复杂场景下的特征提取稳定性；同时通过数据增强技术，模拟不同扫描设备、患者体位、病变阶段的影像特征，来提升模型的泛化能力。

优化训练模型。第一，提升模型容量，增加参数量以容纳复杂多样的数据特征，并采用更灵活的架构，提升对异构数据的建模能力；第二，改进训练策略，设计针对性损失函数，如结合临床指标的加权损失，同时利用奖励机制引导模型学习关键特征；其三，防止过拟合，运用正则化、交叉验证等技术，确保模型在训练集外的稳定性。

在实际场景中持续迭代模型。企业可以通过在不同医疗环境（如三级医院、基层医院等）多场景部署模型，建立“部署-反馈-迭代”的闭环，提升模型在真实医疗环境中的稳定性。同时，要明确 AI 的能力边界，由医生对结果进行把关，确保结果的可靠性和安全性。

RAG技术、模型优化多管齐下，破解幻觉困局

随着大模型在医学领域的深入应用，幻觉问题成为制约其落地的障碍之一。产业界积极求解，提出了多种应对策略。

RAG（外部检索增强生成）是减轻幻觉的重要技术路径之一。它在大模型生成过程中引入外部知识库，为模型提供可靠信息支持，无需介入模型训练，即可提升生成内容的准确性和可信度。

但RAG也有其局限性，因此应用RAG需要特别注意以下三个要点：选择合适的基座大模型，以确保模型在给定的资源和时间限制下能够高效运行；动态更新知识库内容，没有高质量的场景知识库，RAG便是无源之水，减轻幻觉便无从谈起；选择合适的检索技术，更充分地利用场景知识库，为大模型召回更匹配的语言片段，使得生成所需信息时更为准确。

生成式+判别式AI优势互补，协同交互验证。王书浩提出了生成式与判别式AI协同的解决方案。他指出，生成式AI通过模拟“输入-输出”的联合分布生成答案，但开放性问题无唯一解，模型可能输出自相矛盾或脱离现实的内容。

其解决方法在于生成式与判别式 AI 的协同应用。具体而言，对于如医疗诊断等关键决策场景，应采用判别式 AI，限定输出范围（如从预定义的肿瘤类型标签中选择），避免开放性答案带来的不可控风险。而在需要探索的场景，如科研假设生成，可使用生成式 AI，但宜采用“选择题+自由发挥”的混合模式，先通过选择引导方向，再进行自由发挥，以降低幻觉风险。

通过模型改进来增强大模型的推理和验证能力。郑超分享到，数坤科技希望探索统一的多模态模型架构，整合影像、文本等多源数据，降低训练成本与复杂性，使模型能够基于跨模态的全局理解生成结果。

同时，采取多层次技术策略应对幻觉问题：一方面通过“输出对齐”技术，让模型在低置信度时主动声明不确定性或请求补充信息；另一方面引入医学思维链训练，要求模型分步推理并自我验证，确保答案有据可依。郑超也提到，在复杂医疗场景中也可采用“判别式+生成式”模式，先用判别式判断疾病类型，再用生成式进行个性化说明，为诊断决策提供高效且安全的支持。

可以看到，尽管大模型幻觉问题短期内难以彻底解决，但通过技术迭代与多学科协作，其可靠性正在稳步提升。

一体机成为当前医院部署主流选择

在人工智能技术融入医疗场景的关键进程中，大模型的部署模式成为释放技术效能的核心要素。当前，本地部署凭借在数据隐私保护与合规性方面的天然优势，成为众多医院的首选方案。

王书浩指出，本地部署主要分为两种类型：纯图像大模型和通用大模型。

其中，纯图像大模型通过工程优化后，可在家用级GPU上运行，展现出强大的适配性和灵活性；而通用大模型则需要利用大量本地数据进行微调，以适应专业诊断需求。一体机作为一种融合性的解决方案，它巧妙结合了通用大模型和专用医疗大模型的优势，为医院提供了全方位的技术支持，满足了多样化的医疗场景需求。

郑超补充道，从实际落地情况来看，一体机凭借其数据本地化控制的特性，成为了当前医院部署的选择主流。在院内私有化环境中，一体机将硬件、基础支撑软件与大模型集成为一体，有效满足了国内医院对数据隐私和合规性的高要求。在单科室或区域级医院的非核心场景中，部署通用大模型的一体机展现出一定价值，例如自动生成病历摘要、整理结构化报告等，为医疗流程的优化提供了帮助。

然而，在综合诊断、病理逻辑推演等要求极高的精准医疗任务中，只部署通用大模型的一体机的医学专业能力短板就非常明显。此外，一些设计不足的一体机的扩展存在瓶颈，也限制了其在更广泛场景中的应用。因此选择具备横向扩展能力的一体机，才能够在更长远的时间内胜任全院级多模态数据的协同分析，这也是医疗机构在选择一体机时的一个重要考量因素。

此外，公有云部署方式以其弹性算力供给和跨机构数据协作的优势，也展现出了独特的灵活性。在在线问诊、远程会诊等场景中，公有云能够快速调配资源，满足不同医疗机构的实时需求。然而，其在数据隐私和合规性方面的风险不容忽视。

未来趋势：性能提升、多模态融合与全科化演变

最后，我们来谈一下大模型未来的发展趋势。

当下医疗大模型在性能层面已逐步超越传统小模型。王书浩提到，以影像领域为例，其在确保敏感度达到 100% 的前提下，能显著提升特异性，这一优势使其应用范围持续拓展。原本仅适用于三四千家医院的模型，如今已成功推广至超万家医院。随着模型的应用与数据积累，其性能有望进一步优化，为更多患者提供优质医疗服务。

医学应用正朝着多模态融合的方向发展。郑超观察到，过去，影像、文本等大模型各自独立，如今逐渐走向整合。多模态大模型能够融合不同类型的医疗数据，为医生提供更全面的患者病情信息，不仅提升了诊断的准确性，还为个性化治疗方案的制定提供了有力依据。

大模型正朝着全科化的方向演变。郑超将其比作数字化“全科医生”，不再局限于某一专科领域，能够综合患者的检查检验结果、影像、病理等多维度诊疗信息，提供综合诊断与治疗建议。

同时，他也提到，医疗数据的不断积累，尤其是完整患者数据的收集，将为大模型的训练提供更丰富、更全面的素材，进一步提升模型的性能和准确性。尽管数据稀疏性和长尾性等问题会给模型训练带来一定的挑战，但通过不断优化算法和模型结构，以及对数据进行更深入的挖掘和分析，未来将逐步克服这些困难，实现更广泛的应用和更完善的解决方案。

文章来源于网络。发布者：火星财经，转载请注明出处：https://www.sengcheng.com/article/58876.html