积极建设医疗大数据训练设施

5352　 2023-11-06 08:46:56

作者单位：上海申康医院发展中心何萍徐博胡佳迎

目前，全球医疗人工智能产业尚处于起步阶段，面临产品同质化严重、行业标准缺失、审批滞后等问题。近年来，我国医疗健康大数据与医疗人工智能相关政策文件陆续发布，从夯实数据基础、加强数据资源整合、保障数据安全等角度明确了未来工作的主要任务；国家“新基建”等战略规划强调，要加强支撑科学研究、技术开发、产品研制的具有公益属性的创新基础设施建设，大幅改进人工智能算法和机器学习方式。建设国家级医疗健康大数据平台与相关支撑性基础设施需求迫切。

人工智能医疗器械创新合作平台测评数据库建设工作组整合临床资源，结合人工智能医疗器械产品特点，致力于建设面向医疗器械审评的测评数据库。其中，上海申康医院发展中心（以下简称申康中心）聚焦集成电路、生物医药、人工智能等重点领域和关键环节，加大科技攻关力度，积极建立以临床应用为导向的医疗大数据训练设施，取得了阶段性成果。

聚焦服务和发展两大目标

医疗大数据训练设施建设利用医联工程等，汇集基于真实世界的海量、优质健康医疗数据资源，依托上海市电子政务云，集中开展数据清洗、脱敏、脱密、去隐私化等标准化处理，旨在形成具有全国代表性、权威性、多样性的高质量医疗数据集，构建一体化大数据训练工具及测试规范，支持人工智能相关企业、科研机构、医疗机构等开展深度学习等多种算法训练试验与模型调优，建立以临床应用为导向的医疗大数据训练设施。

医疗大数据训练设施建设最终将实现两大目标。

一是金标准服务。支持承载600T以上数据存储容量，达到至少4395TFLOPS（每秒浮点运算次数）算力，研究测评数据的典型形态、现实表现以及采集和利用方式，形成人工智能医疗软件测评数据的管理方法和服务体系；研究多院区、多设备、多模态、多参数的区域级测评数据动态分析技术，形成标准化、规范化的医疗数据治理技术体系；建立多模态、多病种的医疗人工智能公共训练集和测试数据集，满足人工智能模型训练所需高质量数据和金标准测试数据要求。同时，驱动医疗数据创新发展，为至少50家医疗机构及医联体提供标准化、均质化、精细化服务。

二是高质量发展。根据医疗器械生产质量管理规范和软件生存周期过程要求，明确人工智能医学软件全生命周期管理要求，贯穿用户需求、设计输入、设计开发、设计输出、验证、确认、设计变更等产品设计开发全过程，涵盖人工智能医学软件上市前审评及上市后监管要求。实现医疗大数据训练设施互联共享，助力培育医疗人工智能领军企业，支持相关中小微科技企业技术创新和应用创新，为医生和患者提供创新性的医疗人工智能应用，助力上海成为国内医疗人工智能产业生态循环中心节点，形成具有全球影响力的人工智能科技策源地和产业化高地。

打造高质量医疗数据集

医疗大数据训练设施建设基于医联工程汇聚的高质量医疗数据，努力打造权威标准的算法测试指标体系，为用户提供高质量医疗数据集，创建可用的样本标注、模型训练、产品测试等服务环境，从而推动医疗人工智能产品研发和推广应用。

医疗大数据训练设施建设遵循三个主要思路。

一是研发具备广泛代表性的测评数据动态增量获取、治理和管控技术。申康中心聚焦肺结节、脑卒中、胸部DR等重点病种，研究多院区、多设备、多模态、多参数的区域级人工智能医学软件测评数据动态获取和分析技术；充分运用国际通用FHIR集成引擎和DICOM医学数字成像等国际医疗信息标准，提取包括电子病历、疾病诊断、放射学报告和影像、实验室报告等临床业务数据，构建人工智能医学软件测评库。同时，深入研究面向人工智能医学软件测评应用的数据治理技术，建立包括数据规范、数据采集校验、数据融合、数据开发利用的四级数据治理技术体系；研究多模态数据融合技术，实现文本数据、影像数据、信号数据等多维度数据资源的有效、高质量融合；研究满足测评活动全业务流程需求的数据管控技术，实现数据访问控制和隐私保护管理。

二是构建具有国家代表性的标准化训练和测评数据资源库。医疗大数据训练设施利用上海37家三级医疗机构的学科优势和医疗大数据资源，形成覆盖患者完整临床就医记录的临床数据，成为基础的医疗大数据源。在此基础上，聚焦我国重大疾病领域方向，构建具有代表性、权威性的人工智能医学软件测评库。申康中心已组织市级医疗机构逐步开展医疗人工智能应用示范工作，推广常见疾病、重大疾病以及疑难疾病三个方向的人工智能辅助诊断应用，为医疗机构临床诊断和科研创新提供优质服务和技术支撑。

三是构建对外测评数据服务能力。通过研究多中心测评数据统一管理和多模态数据个性化构建技术，实现对测评数据资源的标准化治理和统一安全管控；在测评数据采集、治理、管控、利用全过程，为各参与方提供统一的、专业化的、可信的服务。医疗大数据训练设施建设将遵循常态长效运行原则，探索建立服务模式和保障机制，在数据安全可控及确保个人隐私的前提下，积极推进公共数据共享和开发利用。

设施建设应用取得积极进展

申康中心已启动医疗大数据训练设施相关建设和应用工作，目前进展良好。

在前期预研究阶段，申康中心已形成权威可信的研发训练支撑平台，推动基础性、战略性医疗数据资源整合；遴选出肺结节、脑卒中、胸部DR等6类重点病种，对标欧盟等国际公开医学训练库，努力构建满足人工智能模型训练所需的、具有标准典型、安全脱敏的训练测评专用的医疗样本数据集；建设并应用肺小结节辅助筛查系统等医学人工智能产品。其中，肺小结节辅助筛查系统可帮助医生进行分析诊断，识别率达97.04%；肋骨骨折辅助检测系统在上海交通大学医学院附属仁济医院、瑞金医院等试验性应用，检查完成后5分钟便可反馈结果，经初期验证，算法准确度86%、灵敏度90%、特异度82%。

未来，医疗大数据训练设施建设将向医疗人工智能企业、研究团体、科研机构等用户提供统一的医疗人工智能软件产品技术支持和验证平台，以及高可信度、高算力的标注、训练、测试服务环境，提供完备的数据使用管理功能，促进标准数据集持续迭代优化，支持用户深入挖掘临床研究需求，为人工智能医学软件生产企业提供设计、开发、测试、注册申报等支持。

测评数据库建设工作组

工作组整合临床资源，结合人工智能医疗器械产品特点，建设面向医疗器械审评的测评数据库。

（摘自中国医药报）