以下内容由马拉AI整理,今天为大家带来10月25日arXiv计算机视觉和模式识别相关论文
1、合成数据作为验证SyntheticDataasValidation摘要:本研究利用合成数据作为验证集,以减少过度拟合并简化人工智能开发中最佳模型的选择。虽然合成数据已被用于增强训练集,但我们发现合成数据也可以显着使验证集多样化,在医疗保健等领域提供显着的优势,在这些领域,数据通常是有限的、敏感的,并且来自域外来源(即医院)。在这项研究中,我们说明了合成数据在计算机断层扫描(CT)体积中早期癌症检测的有效性,其中合成肿瘤被生成并叠加到健康器官上,从而为严格验证创建了一个广泛的数据集。使用合成数据作为验证可以提高域内和域外测试集中的AI鲁棒性。此外,我们建立了一个新的持续学习框架,在合成肿瘤的域外数据流上不断训练人工智能模型。在动态扩展的合成数据中训练和验证的AI模型可以始终优于仅在真实数据上训练和验证的模型。具体而言,在域内数据集上评估时,肝肿瘤分割的DSC评分从26.7%(95%CI:22.6%-30.9%)提高到34.5%(30.8%-38.2%),在域外数据集上从31.1%(26.0%-36.2%)提高到35.4%(32.1%-38.7%)。重要的是,在识别CT体积中非常微小的肝肿瘤(半径5mm)时,性能提升尤其显着,域内数据集的灵敏度从33.1%提高到55.4%,在域外数据集上从33.9%提高到52.3%,证明了早期检测癌症的有效性。从训练和验证的角度来看,合成数据的应用强调了在处理来自不同领域的数据时增强人工智能鲁棒性的有希望的途径。链接: