人工智能辅助诊断医疗器械临床评价注册审查指导原则（征求意见稿）

发布时间：2026-06-18

　　本指导原则旨在指导注册申请人开展人工智能(artificial intelligence，AI)辅助诊断类医疗器械临床评价的资料准备，同时为技术审评部门审评人工智能辅助诊断类产品临床评价资料提供参考。

　　本指导原则进一步明确人工智能辅助诊断类医疗器械临床评价的要求和适用情形。申请人可依据产品的具体特征确定其中内容是否适用，若不适用，需阐述理由并提供相应的科学依据，并依据产品的具体特征对临床评价资料的内容进行充实和细化。

　　本指导原则是供注册申请人和技术审评人员使用的指导性文件，但不包括审评审批所涉及的行政事项，亦不作为法规强制执行，应在遵循相关法规的前提下使用本指导原则。如果有能够满足相关法规要求的其他方法，也可以采用，但是需要提供详细的合理性论述和验证确认资料。

　　本指导原则是在现行法规和标准体系以及当前认知水平下制定，随着法规和标准的不断完善，以及科学技术的不断发展，相关内容也将适时进行调整。

一、适用范围

　　人工智能医疗器械从与预期用途角度可分为辅助决策类和非辅助决策类。其中，辅助决策是指通过提供诊疗活动建议辅助医务人员进行临床决策，如通过异常识别、自动制定手术计划进行辅助分诊、辅助检测、辅助诊断、辅助治疗等。

　　本指导原则适用于对影像中的占位性病变的病灶良恶性等特征进行辅助诊断的产品，可定义为基于计算机人工智能算法，可包含模式识别和数据分析等功能，对影像中的占位性病变的病灶进行分析，从而给出病灶特征信息，如肿瘤的类型(具体诊断或鉴别诊断)、结节的疑似良恶性、肿瘤分期分型或干预措施建议，从而辅助临床医师做出诊断或下一步干预决策的产品，可为独立软件或嵌入式软件;分类编码为21-04-02，管理类别为第III类;产品还可同时包含非辅助决策功能，如结构化报告生成、前后图像对比、正常解剖组织的分割(如肺叶、肋骨等)、尺寸测量、CT值测量等临床功能和数据储存、传输等非临床功能，由于具体恶性或分型、分期等方面的概率在临床上较难确认其准确性，具体概率值可作为内部算法结果，不建议展示给患者及医师。

　　目前，已上市的用于占位性病变的人工智能辅助诊断产品常见的有针对肺结节、乳腺结节、甲状腺结节、消化道息肉等病灶疑似良恶性进行辅助诊断的产品，本指导原则给出此类产品的通用要求，并以肺结节CT影像辅助诊断和超声甲状腺结节辅助诊断产品为例(详见附件1 CT图像肺结节疑似良恶性辅助诊断产品临床评价考虑要素举例;附件2超声影像甲状腺结节良恶性辅助诊断软件产品临床评价考虑要素举例)，阐述对人工智能辅助诊断产品的临床试验中具体要素的考虑建议，同类型产品可参考相关适用部分。

　　本指导原则不适用于如下情形(但下述产品可参照本指导原则中适用部分的要求)：1.对病灶进行检出的人工智能辅助检测类产品;2.预测疾病发生概率的产品;3.可同时辅助诊断/鉴别诊断超过2种病变的多分类人工智能辅助诊断产品(例如同时辅助鉴别诊断甲状腺鳞状细胞癌、甲状腺髓样癌、甲状腺滤泡癌等不同分型的产品);4.人工智能辅助分诊、转诊产品，此类产品通过初步评估患者是否疑似患有目标疾病，从而对患者的分诊转诊提供辅助决策建议，该类产品不给出具体病变情况，且无论辅助分诊结果为阴性、阳性，均需专业医师再一次对患者影像进行评阅，常见的有糖尿病视网膜病变辅助转诊/分诊、肺炎辅助分诊、脑出血辅助分诊等;5.配合体外诊断试剂产品使用的人工智能辅助分析软件。

二、总体原则

　　人工智能辅助诊断类医疗器械产品中的辅助决策功能一般需开展基于临床试验的临床评价，其核心算法的验证确认需提供自身的临床试验证据，通常为诊断学临床试验;非辅助决策功能可在临床试验中设定次要评价指标一并评价，或开展同品种临床评价。若产品的人工智能辅助诊断核心算法独立发挥作用，与其他辅助决策算法无相互交互，且核心算法已在本公司其他产品中开展过临床试验验证，可考虑提供前述临床试验作为临床评价安全有效性证据而无需开展新的临床试验。例如某X射线计算机体层摄影设备(CT设备)包含了肺结节疑似良恶性辅助诊断的软件模块，本公司肺结节疑似良恶性辅助诊断软件作为独立软件已开展符合技术审评要求的临床试验，二者的核心算法实质等同，则CT设备的肺结节疑似良恶性辅助诊断的软件模块无需重新开展临床试验验证;又如某图像处理软件包含乳腺结节疑似良恶性辅助诊断和肺结节疑似良恶性辅助诊断两种辅助决策软件功能，二者独立发作作用，且乳腺结节疑似良恶性辅助诊断功能的核心算法已在本公司另一款产品中开展临床试验验证，则需开展针对肺结节疑似良恶性辅助诊断的临床试验而无需重新开展乳腺结节疑似良恶性辅助诊断的临床试验。

三、临床试验设计

　　(一)临床试验目的

　　临床试验目的一般是评价申报产品在预期适用范围下使用时辅助诊断的诊断学性能，亦可一并观察产品的可用性与安全性。

　　(二)临床试验基本设计类型

　　人工智能辅助诊断类产品的临床意义通常在于提升医师的病灶特征诊断的准确度，为充分评估产品的临床受益风险可接受性，此类产品一般需考虑开展对照试验，根据产品特征及临床诊疗实际，可以为随机平行对照、交叉自身对照或多阅片者多数据样本(multiple reader multiple case，MRMC)试验设计。

　　试验组一般为医师在软件的辅助下完成异常/病灶特征信息的诊断，对照组一般为临床医师独立的异常/病灶特征信息的诊断，比较二者的诊断准确度。

　　(三)研究对象

　　1.适用人群的影像学样本

　　预期人群的影像学样本是人工智能辅助诊断产品临床试验的典型研究对象，影像学样本需基于定义明确的入选和排除标准收集，可为临床已有数据(如临床诊疗中产生的真实世界数据)。考虑到AI与医师观察、操作的协同交互等因素，基于实时影像(如超声、内窥镜等)的辅助诊断产品临床试验，推荐考虑前瞻性采集影像检查，作为临床试验研究对象。

　　为了保证临床试验质量以及结果的可靠性，选取研究对象时，申请人需考虑如下措施：一是纳入数据样本独立于申报产品或前代产品开发所用数据集，如申报产品或前代产品的训练集、测试集。二是采用临床已有数据进行研究时，需基于明确且严格的入排标准和临床试验计划，连续收集过往某段时间内、特定医疗机构内患者影像学数据，避免主观挑选病例。三是考虑阳性样本中，目标疾病的疾病谱分布(如分型、分期)合理性，某些对辅助诊断具有挑战性的分期、分型，在非临床挑战测试验证确认的基础上，亦可在临床试验中富集相关具有代表性的亚组。四是通常情况下，需避免在一项临床试验中同时入组同一患者同一目标部位的多组样本数据。五是临床已有数据收集时，需尽可能全面的收集与疾病相关的信息(适用的)，具体包括但不限于：

　　(1)人口统计学信息(如年龄、性别);

　　(2)与辅助诊断目标疾病相关的信息，如患者完整的影像数据(如全部肺部的CT影像、甲状腺/乳腺完整的超声检查录像、消化道完整的内窥镜检查影像录像、所有病灶部位的冻结图像等)、患者不同时期/检查方式(如乳腺钼靶、超声、磁共振)的影像(如适用)、病史、疾病状态、分期、分型、病变大小、病变位置、器官特征(如乳腺腺体分型)、伴随疾病等。

　　(3)确定为阳性/阴性病例的依据，如既往诊断结论，以及确定疾病状态、部位和程度的方法。

　　2.阅片者

　　由于阅片者表现的变异度及其与患者样本变异度和诊断方法(即AI辅助器械)之间的交互效应，一般情况下宜将阅片者列入研究对象。采用MRMC设计可较好的控制阅片者偏倚，同等情况下所需的样本量一般较少，申请人可优先考虑选择。采用MRMC设计时，根据预期的使用者情况，选取不同年资的多位医师作为阅片者，申请人需论述阅片者数量的合理性。

　　(四)评价指标

　　主要评价指标应结合产品设计特征进行综合选择，一般认为灵敏度、特异度、ROC或其衍生曲线等诊断准确性指标受样本患病率差异的影响较小，因此，宜优先考虑此类指标作为主要评价指标。

　　无论选择哪些指标作为主要评价指标，该类产品临床试验应当考虑整体的优效性设计，例如ROC或其衍生曲线下面积(Area Under Curve，AUC)的优效设计，或者目标疾病辅助诊断特异度非劣效前提下的灵敏度优效性。

　　次要指标建议从多个角度补充和丰富对人工智能辅助诊断软件的评价，为临床应用提供更全面的参考。例如提供患者为单位的灵敏度数据，病灶的阳性预测值、阴性预测值、Kappa一致性等。此外，除诊断准确性指标外，还建议关注辅助诊断的临床获益分析，包括诊断时间的缩短和诊断流程的优化、软件操作便捷性、器械故障等。

　　(五)临床参考标准的构建

　　申请人应详述临床参考标准的选择、构建方法及理由，临床参考标准需保证其诊断效能显著优于拟评价的测试方法。以辅助诊断病灶疑似良恶性或鉴别诊断病理分型/疾病类型为目的的计算机辅助诊断类产品，临床参考标准一般可考虑将病理检查或临床已确认的诊断结果作为临床参考标准，即在病理检查的基础上结合患者影像学检查、病史、实验室检查、长期随访结果等方法综合判定的临床诊断结果。其中病理结果宜优先选择诊断效能更佳，且与临床诊疗实践相一致(如符合相关疾病临床诊疗指南)的方式，例如手术病理优于粗针穿刺活检病理，粗针穿刺活检病理优于细针活检病理，允许入组样本的病理检查方式存在一定差异。

　　此外，多种情形下阴性样本在临床上可能不宜进行病理分析(例如医师基本判定为良性病变的肺结节病灶伦理上不建议进行穿刺活检)，此情况下，阳性样本的参考标准仍需为活检结果，而阴性病例的参考标准可为长期随访结果或活检阴性与长期随访结果组成的复合参考标准(即部分阴性样本以活检阴性为准，部分阴性样本以长期随访阴性结果为准)。长期随访的具体随访时间需根据具体疾病的病程发展规律确定，例如肺结节良性的参考标准可为至少1年以上的影像随访认为良性且与前次检查结果差异不大。

　　若采用临床已确认结果作为临床参考标准，则需明确1.已确认结果所依据的临床信息，包括检查类型及结果;2.病理获取的方式及病理阅片的方式，例如穿刺活检病理/手术病理，冷冻切片/石蜡切片等;3.各类影像学检查的设备信息，包括影像检查的扫描条件等;4.已确认结果的临床诊断依据;5.得出已确认结果的医师情况，包括专家会诊，需明确医师资质;6.若还依据了临床随访数据，则还需明确随访的时间以及随访所做的检查类型及结果。

　　(六)样本量估算与统计分析

　　样本量估算需综合考虑临床试验设计、主要评价指标和统计学要求。申请人需明确计算公式、相应参数及确定理由，以及所用的统计软件。

　　临床试验资料中可以提供样本患病率以及目标疾病的流行病学研究的患病率情况进行合理性论述，并确保临床研究设计中样本数据随机分配给阅片者进行评阅。

　　平行对照试验样本量计算可参考《医疗器械临床试验设计指导原则》中的相关内容。

　　若采用MRMC的试验设计，样本量计算需首先明确具体的分析方法，如Obuchowski-Rockette Analysis(OR分析方法)、Dorfman-Berbaum-Metz-Hillis Analysis(DBMH分析法)，并进一步明确受试医师数量，检验水准α、检验效能1-β、预计效应值，优效/非劣效界值，其中预计效应值可通过预试验或调研并汇总分析目标病灶检出的诊断学研究文献获得，优效/非劣效界值应通过同品种产品临床试验结果或权威文献研究等确定。不同疾病的诊断效应不同，在试验设计中应明确优效/非劣效界值的设定依据。以DBMH分析法为例，样本量估算与交互随机效应值，检验的检验效能、检验水准，受试医师数量，优效界值，非劣效界值(如有)等要素有关。用于样本量估算的效应值(effect size)选择时，可通过预试验得到的误差和混合效应方差来估计，并考虑预试验样本量等情况，在预试验结果的基础上采用适度保守的估计。

　　所有应用了试验产品的受试医师和患者都将被纳入分析，对于主要指标，除给出主要评价指标(灵敏度、特异度、AUC)的点估计外，还将分别对其对应的95%置信区间进行估计，通过试验组与对照组的优效/非劣效比较判断本试验产品是否满足临床应用的需要。

　　(七)其他临床试验设计需关注的问题

　　1.临床试验培训

　　在试验前对阅片者开展必要的培训，可以有效降低试验的偏倚。除基本情况培训(试验流程、术语定义、数据样本阅片的评价标准等)以外，还需考虑案例培训和典型数据样本讲解等，且所用案例独立于试验研究数据样本;培训中宜设置阅片者培训结果测试及合格接受标准;建议临床试验中，对阅片者的培训与临床应用时的培训，在方法、时间、接受标准上尽量保持一致性;并考虑对临床试验阅片者资质、能力等要求与临床应用时使用者情况的匹配性。

　　2.影像样本评阅质量控制

　　一是由阅片者在独立盲法条件下对患者关于试验的影像诊断结果进行解释。二是在选取试验阅片者时基于其专业能力和参与研究的可能性，充分保证阅片者对预期使用者的代表性。可考虑不同医疗机构来源、不同年资/专业水平的医师。

　　三是将数据样本的临床诊断结果、临床参考标准判定结果、其他诊断信息(如生化检测结果、后续治疗等)或基本信息(如年龄、病史等)对试验的阅片者设盲。四是对照试验可考虑采用交叉阅片设计，交叉设计中可根据相关领域记忆曲线的研究设置合理的洗脱期。若采用多阅片者，最好每位阅片者按照不同的数据样本顺序进行评阅，有文献报道典型的洗脱期一般为4~6周。是否采用交叉设计可根据申报产品的临床应用方法、场景及适用范围等综合判定。

四、产品中非辅助决策临床功能的评价

　　人工智能辅助诊断医疗器械产品还可能包括结构化报告生成、前后图像对比、正常解剖组织的分割(如肺叶、肋骨等)、图像融合、组织结构的三维重建、流程优化、尺寸测量(包括大小、体积等)、CT值测量等非辅助决策类软件功能，可在临床试验中设置次要评价指标用于评价这些功能的安全有效性，亦可根据《医疗器械临床评价技术指导原则》提交相应临床评价资料。若提交临床评价，上述功能的验证确认可以考虑测试集测试、压力测试、对抗测试、质量良好的数据库测试结果中的一种或几种作为临床评价的支持证据;若在临床试验中设置次要指标，指标一般采用临床上对功能准确性评价的临床参考标准或学术上常用的方法，如分割的准确性考虑，与医师的分割结果的分割一致性Dice相似系数(Dice similarity coefficient)等;配准功能可考虑标志点配准误差(Fiducial Registration Error)、目标配准误差(target registration error)、标志点定位误差(Fiducial Localization Error)等;组织结构的三维重建，需评价关键解剖结构的显示，解剖结构的完整性、几何准确性(如表面距离误差、Hausdorff距离等)以及边界呈现质量等方面进行评价，必要时可结合医师对重建可用性与可解释性的主观评价等;图像融合需关注两种图像融合后关键解结构点的位置误差，融合后图像质量等。

五、与临床评价相关的说明书内容

　　说明书中一般需结合临床与非临床资料给出下列适用的信息：1)临床试验总结;2)适用范围;3)数据采集设备和数据采集过程相关要求等。临床试验总结通常考虑临床数据基本信息、评价指标与结果(必要时含亚组结果)。人工智能辅助诊断类产品的适用范围需明确辅助诊断适应症(如肺结节、甲状腺结节)，所基于的影像类型(如胸部CT或超声检查影像)，产品其他主要功能(如影像的显示、处理、测量和分析)，以及产品临床定位(不能单独用作临床诊疗决策依据)等。

　　建议申请人根据产品实际情况在说明书中体现如下方面的警告注意事项。(1)软件仅辅助医师进行病灶特征信息的诊断，存在假阴/阳性可能，应由专业医师结合患者的病史、症状、体征、其他检查结果情况综合给出最终的病灶诊断结论，核实是否需要进一步诊疗的决策，并对临床诊断结果负责。(2)产品的辅助诊断结论作为放射科/影像科/超声科等出具影像分析报告时的参考，或作为临床医生检查过程决策病灶活检的参考，不能替代穿刺活检/手术病理等病理诊断结论，患者的最终诊断结论医师需按照现行临床指南、诊疗规范等严谨给出。(3)产品的设计以穿刺活检/手术病理分析为阳性标准，产品依据YYYY年版指南(例如《甲状腺癌诊疗规范(2018年版)》《甲状腺结节和分化型甲状腺癌诊治指南(第二版)》《持续、复发及转移性分化型甲状腺癌诊疗指南(2019)》《NCCN肿瘤学临床实践指南：甲状腺癌(2018)》)设计，如诊疗指南有所更新，使用者应充分评估指南差异可能带来的风险。(4)明确产品临床试验中未对病灶边界分割的准确性进行评价，如依据软件的辅助诊断结果决定手术干预或穿刺活检，医师应当充分评估其风险。

六、参考文献

　　[1]中华医学会呼吸病学分会肺癌学组，中国肺癌防治联盟专家组，肺结节诊治中国专家共识(2018版)[J]. 中华结核和呼吸杂志， 2018,41(10): 763-771.

　　[2]国家食品药品监督管理总局.医疗器械临床试验设计指导原则:食品药品监管总局通告2018年第6号[Z].

　　[3]国家药品监督管理局医疗器械技术审评中心.深度学习辅助决策医疗器械软件审评要点：国家食品药品监督管理局医疗器械技术审评中心通告2019年第7号[Z].

　　[4]Guidance for Industry and Food and Drug Administration Staff Computer-Assisted Detection Devices Applied to Radiology Images and Radiology Device Data - Premarket Notification [510(k)] Submissions(FDA，2012.07.03)

　　[5]Lung Cancer Screening CT ProtocolsVersion5.1(AAPM，2019.9.13)

　　[6]FDA. Clinical Performance Assessment: Considerations for Computer-Assisted Detection Devices Applied to Radiology Images and Radiology Device Data - Premarket Approval (PMA) and Premarket Notification [510(k)] Submissions - Guidance for Industry and FDA Staff，(2012.11)[2021-4-15]. https://www.fda.gov/regulatory-information/search-fda-guidance-documents/clinical-performance-assessment-considerations-computer-assisted-detection-devices-applied-radiology

　　[7]FDA.Artificial Intelligence-Enabled Device Software Functions: Lifecycle Management and Marketing Submission Recommendations. Draft Guidance for Industry and Food and Drug Administration Staff. (FDA，2025.01.07)

　　[8]Sica, G.T., 2006. Bias in research studies. Radiology, 238(3), pp.780-789.

　　[9]Xiao-Hua Zhou, Nacy A. Obuchowski, Donna K. McClish. Statistical Methods in Diagnostic Medicine [M]. Hoboken: JohnWiley&Sons, 2011.

　　[10]国家卫生健康委员会. 人工智能辅助诊断技术临床应用质量控制指标(2017年版):国家卫生计生委通知2017第7号[Z].

　　[11]Brandon D. Gallas.et al. Evaluating Imaging and Computer-aided Detection and Diagnosis Devices at the FDA [J]. Acad Radiol. 2012 Apr; 19(4): 463–477. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5557046/

　　[12]Rees, Colin J., et al. “UK key performance indicators and quality assurance standards for colonoscopy.” Gut 65.12 (2016): 1923-1929.

　　[13]中国临床肿瘤学会指南工作委员会. 中国临床肿瘤学会( CSCO) 分化型甲状腺癌诊疗指南[J]. 肿瘤预防与治疗2021, 34 (12): 1164-1201.

　　[14]National Comprehensive Cancer Network . NCCN Clinical Practice Guidelines in Oncology (NCCN Guidelines) Thyroid Carcinoma(2024) [J]. Journal of the National Comprehensive Cancer Network : JNCCN，2024.

　　[15]Rompianesi, Gianluca, et al. "Artificial intelligence in the diagnosis and management of colorectal cancer liver metastases." World Journal of Gastroenterology 28.1 (2022): 108.

　　[16]国家药品监督管理局.医疗器械临床评价技术指导原则:国家药品监督管理局通告2021年第73号[Z].

　　[17]甲状腺结节和分化型甲状腺癌诊治指南(第二版)

附件1

　　CT图像肺结节辅助诊断产品临床评价考虑要素举例

　　一、试验设计基本类型

　　CT图像肺结节疑似良恶性辅助诊断产品采用MRMC设计、交叉自身对照设计或平行对照设计。平行对照设计的具体过程及方法参考《医疗器械临床试验设计指导原则》相关内容。

　　若采用MRMC的设计，试验过程具体为，将参与试验的临床医师随机划分为A、B两组。A组：医师第一阶段在使用AI辅助的条件下，完成所有数据样本CT影像的肺结节疑似良恶性的诊断结论;经一定的洗脱期后，第二阶段在不使用AI辅助的条件下，完成所有数据样本CT影像的肺结节疑似良恶性的诊断结论。B组：医师第一阶段在不使用AI辅助的条件下，完成所有数据样本CT影像的肺结节疑似良恶性诊断结论;经一定的洗脱期后，第二阶段在使用AI辅助的条件下，完成所有数据样本CT影像的肺结节疑似良恶性诊断结论。该试验中医师使用AI辅助的作为试验组，不使用AI辅助的作为对照组，对比试验组与对照组肺结节疑似良恶性诊断的诊断准确度指标，阅片过程中每名医师需分别在使用AI和不使用AI的条件下都完成所有入组影像数据样本的阅片。医师均在盲态下进行阅片评估，不得预先知晓受试者基本信息、结节病理情况等。对照组打开影像的软件宜与试验组软件界面一致。

　　二、评价指标

　　此类产品临床试验通常可选择受试者工作特征(receiver operating Characteristic, ROC)曲线或其衍生曲线组成复合指标，如因变量自由的受试者工作特征(free-response receiver operating Characteristic, FROC)曲线、定位受试者工作特征(location-specific receiver operating characteristic, LROC)曲线等;亦可在此基础上添加以病灶为单位的疑似良恶性诊断灵敏度和特异度等组成的复合指标。使用ROC曲线或其衍生曲线时，可考虑在试验组医师阅片阶段，由阅片医师标记对目标疾病判定的检验效能(可考虑百分数评分)，从而构建ROC曲线，并需考虑在培训阶段明确医师百分数评分的标准和方法。

　　次要指标可包括AI辅助医师诊断肺结节疑似良恶性的阳性预测值/阴性预测值，似然比，Kappa系数，准确率;软件独立给出肺结节疑似良恶性辅助诊断意见的灵敏度(需包括以病灶为单位和以患者为单位)，准确率;阅片时间，医生诊断信心评价，软件功能易用性和稳定性(可采用主观感受评价，如李克特量表等)。若同时观察量化分析等非辅助决策临床功能的性能表现，亦可设立相应次要评价指标。

　　三、样本量估算及统计学分析

　　以MRMC设计为例，说明样本量估算考虑要素，若主要评价指标为AUC、灵敏度、特异度。试验中，假设检验的检验效能取80%。对于主要评价指标，优效性与非劣效统计分析将在单侧0.025的检验水准下进行。下述内容仅为示意举例，可根据产品具体情况合理调整相关参数：

　　1.基于AUC的样本量计算，预试验或文献资料确认效应值取0.06，研究医师设定为11名，AUC优效界值取0，则总样本量不得低于98例，阴性、阳性患者比为1:1。

　　2.基于结节水平灵敏度，效应值取0.08，研究医师设定为11名，优效界值取0，需阳性样本至少128个结节，假定平均每个阳性患者存在2个结节，则至少需要64例阳性数据样本。

　　3.基于患者水平的特异度，效应值取-0.06，非劣效值取0.1(参考Riverain ClearRead CT 的特异度95%区间下限)，在当受试医师为11名时，非劣效验证(非劣效界值取0.1)需要阴性样本达到至少176例。

　　综合以上各指标样本量估算值，本试验样本量最低为240例，阳性数据样本64例，阴性数据样本176例。考虑到样本存在剔除和脱落的可能，当预期脱落率为10%，剔除率为10%时，阳性样本需要达到至少71例，阴性样本需要达到至少194例，共计265例。

附件2

　　超声影像甲状腺结节辅助诊断软件产品临床评价考虑要素举例

　　一、试验设计基本类型

　　超声影像甲状腺结节辅助诊断软件产品可考虑平行对照设计：

　　入组的受试者随机分配到A组和B组，A组：将超声图像脱敏后先接受无 AI 辅助超声科医师对结节的疑似良恶性诊断。B 组：将超声图像脱敏后先接受AI 辅助超声科医师对结节的疑似良恶性诊断。经一定的洗脱期后(如4周)，A组接受AI 辅助超声科医师对结节的疑似良恶性诊断，B组接受无 AI 辅助超声科医师对结节的疑似良恶性诊断。针对每个受试者的超声图片，试验组和对照组，医师应为同一医师。超声科医师均在盲态下进行阅片评估，不得预先知晓受试者基本信息、结节病理情况等。对照组打开影像的软件宜与试验组软件界面一致。

　　二、入选标准及参考金标准

　　研究人群可以纳入所有需要进行甲状腺超声检查的人群，此种情况下，临床参考金标准需为临床参考标准一般可考虑将病理检查或临床已确认的诊断结果作为临床参考标准;其中阴性病例的参考标准可为长期随访结果或活检阴性与长期随访结果组成的复合参考标准。

　　考虑到甲状腺癌阴性样本在临床上可能不宜进行病理分析，且甲状腺癌多为临床“惰性”癌症，即进展周期较长，对于判定为阴性可能需要多年的随访，临床操作难度较高，临床试验可以富集辅助诊断更为挑战的人群进行临床试验，例如“甲状腺结节手术切除病理诊断结果为金标准。重要的临床入选标准为18-75岁，有甲状腺结节穿刺指征的受试者(满足下列任一情况):a)临床怀疑是恶性且结节>5mm，且患者有手术意愿，b)临床怀疑是良性且结节>20mm，且患者有手术意愿，c)临床怀疑是恶性结节合并对侧>5mm 良性结节，且患者有手术意愿”;此时临床试验参考金标准需均为病理活检结果。

　　三、评价指标

　　可选择受试者工作特征(receiver operating Characteristic, ROC)曲线或其衍生曲线组成复合指标，如因变量自由的受试者工作特征(free-response receiver operating Characteristic, FROC)曲线、定位受试者工作特征(location-specific receiver operating characteristic, LROC)曲线等;亦可在此基础上添加以病灶为单位的疑似良恶性诊断灵敏度和特异度等组成的复合指标;或以甲状腺结节疑似良恶性的结节水平的灵敏度和病例水平的特异度为主要评价指标。

　　四、样本量估算

　　甲状腺结节疑似良恶性辅助诊断的灵敏度：

　　根据优效试验样本量估算方法

人工智能辅助诊断医疗器械临床评价注册审查指导原则（征求意见稿）(图1)

　　其中α=0.05，β=0.2，|D|为两组预期率差的绝对值， |D| = |PC - PT|; Δ 为优效性界值，取 0;PC=78%、 PT=85%，共需入组恶性甲状腺结节受试者479例。

　　甲状腺结节疑似良恶性辅助诊断的特异度：

　　根据非劣效试验样本量估算方法

人工智能辅助诊断医疗器械临床评价注册审查指导原则（征求意见稿）(图2)

　　其中α=0.05，β=0.2，|D|为两组预期率差的绝对值， |D| = |PC- PT|; Δ 为非劣效性界值，取 -0.1;PC=PT=84%，共需入组良性甲状腺结节受试者211例。

　　考虑20%脱落率，最终样本量为863例。

站点声明：

本网站所提供的信息仅供参考之用,并不代表本网赞同其观点，也不代表本网对其真实性负责。图片版权归原作者所有，如有侵权请联系我们，我们立刻删除。如有关于作品内容、版权或其它问题请于作品发表后的30日内与本站联系,本网将迅速给您回应并做相关处理。
北京飞速度医疗科技有限公司专注于医疗器械、诊断试剂产品政策与法规规事务服务，提供产品注册申报代理、临床合同(CRO）研究、产品研发、GMP质量辅导等方面的技术外包服务。

上一篇：肿瘤基因变异检测试剂技术审评要点（试行）

下一篇：关节置换手术导航定位系统同品种临床评价注册审查指导原则（征求意见稿）