Checklist for Artificial Intelligence in Medical Imaging
- 作者:陈亦新
今天学习一下CLAIM,也就是AI在医学影像的checklist,有一些期刊可能会用这个checklist,所以早晚要用上这个(对我来说).其实这个checklist也是对于论文中每一个section的内容的一个规范。
文件大概是这样的:
Title/Abstract
- Identification as a study of AI methodology, specifying the category of technology used (e.g., deep learning)识别为AI方法研究,明确所使用技术类别(例如,深度学习)这一项要求明确研究是关于人工智能方法的,同时指定所使用的技术类别,如深度学习。
- Structured summary of study design, methods, results, and conclusions 研究设计、方法、结果和结论的结构化摘要.为研究设计、方法、结果和结论提供结构化摘要,以便清晰地呈现这些关键信息。
Introduction
- Scientific and clinical background, including the intended use and clinical role of the AI approach科学和临床背景,包括AI方法的预期用途和临床角色
- Study objectives and hypotheses研究目标和假设
Methods
study design
- Prospective or retrospective study指明研究是前瞻性还是回顾性的。
- Study goal, such as model creation, exploratory study, feasibility study, non-inferiority trial描述研究的目标,例如创建模型、探索性研究、可行性研究、非劣效试验等。
Data
- Data sources描述数据的来源。
- Eligibility criteria: how, where, and when potentially eligible participants or studies were identified (e.g., symptoms, results from previous tests, inclusion in registry, patient-care setting, location, dates)符合资格标准:如何、何地以及何时确定可能符合条件的参与者或研究(例如,症状、先前测试结果、纳入登记册、患者护理设置、地点、日期)
- Data pre-processing steps 描述数据的预处理步骤。
- Selection of data subsets, if applicable说明如何选择数据的子集。
- Definitions of data elements, with references to Common Data Elements定义数据元素,并引用通用数据元素。
- De-identification methods描述去识别方法。
- How missing data were handled描述如何处理缺失数据。
Ground truth
- Definition of ground truth reference standard, in sufficient detail to allow replication详细定义地面真相参考标准,以便其他人能够复制研究。
- Rationale for choosing the reference standard (if alternatives exist)解释选择参考标准的原因,如果存在替代方案。
- Source of ground-truth annotations; qualifications and preparation of annotators描述地面真相注释的来源,注释者的资格和准备。
- Annotation tools描述用于注释的工具。
- Measurement of inter- and intrarater variability; methods to mitigate variability and/or resolve discrepancies测量评价者间和评价者内的变异,并描述减轻变异和/或解决差异的方法。
Data Partitions
- Intended sample size and how it was determined描述预期的样本大小及其确定方式。
- How data were assigned to partitions; specify proportions描述将数据分配给分区的方式,并指定比例。
- Level at which partitions are disjoint (e.g., image, study, patient, institution)描述分区是否在图像、研究、患者、机构等层次上相互独立。
Model
- Detailed description of model, including inputs, outputs, all intermediate layers and connections提供模型的详细描述,包括输入、输出、所有中间层和连接。
- Software libraries, frameworks, and packages描述使用的软件库、框架和包。
- Initialization of model parameters (e.g., randomization, transfer learning)描述模型参数的初始化,例如是否采用随机化或迁移学习
Training
- Details of training approach, including data augmentation, hyperparameters, number of models trained描述训练方法的详细信息,包括数据增强、超参数、训练的模型数量等。
- Method of selecting the final model 描述选择最终模型的方法。
- Ensembling techniques, if applicable描述集成技术,如果使用的话。
Evaluation
- Metrics of model performance描述模型性能的度量标准。
- Statistical measures of significance and uncertainty (e.g., confidence intervals)描述模型性能的统计措施和不确定性。
- 描述鲁棒性或敏感性分析的方法。Robustness or sensitivity analysis
- Methods for explainability or interpretability (e.g., saliency maps), and how they were validated描述解释性或可解释性的方法,以及它们的验证方式。
- Validation or testing on external data描述在外部数据上的验证或测试方法。
Results
Data
- Flow of participants or cases, using a diagram to indicate inclusion and exclusion使用图表描述参与者或案例的流程,包含和排除的情况。
- Demographic and clinical characteristics of cases in each partition描述每个分区中案例的人口统计和临床特征。
Model performance
- Performance metrics for optimal model(s) on all data partitions描述所有数据分区上最佳模型的性能度量。
- Estimates of diagnostic accuracy and their precision (such as 95% confidence intervals)描述诊断准确性及其精度估计,如95%置信区间。
- Failure analysis of incorrectly classified cases对错误分类案例进行失败分析。
Discussion
- Study limitations, including potential bias, statistical uncertainty, and generalizability讨论研究的限制,包括潜在的偏见、统计不确定性和可推广性。
- Implications for practice, including the intended use and/or clinical role 讨论研究对实践的影响,包括预期的用途和/或临床角色。