ct澧炲己鍥惧儚涓夌淮閲嶅缓(CT-GAN:利用深度学习恶意篡改三维医学图像)

引用
3刘建民,等.基于深度学习的三维医学图像恶意篡改问题研究[J].中国医学科学出版社,2002 .2019.
摘要
2018年,诊所和医院遭受多次攻击,导致重大数据泄露和医疗服务中断。获得医疗记录的攻击者可以做的不仅仅是持有数据以换取赎金或在黑市上出售。本文将展示攻击者如何利用深度学习从3D医疗扫描中添加或删除医疗状况证据。攻击者可能会实施这种行为,以阻止政治候选人、破坏研究、实施保险欺诈、实施恐怖行为甚至谋杀。本文使用三维条件GAN来实现攻击,并展示了如何实现框架(CT-GAN)的自动化。虽然整体很复杂,3D医学扫描很大,但CT-GAN可以在毫秒级内获得逼真的结果。为了评估这种攻击,本文着重于从CT扫描中注射和删除肺癌。它还显示了三名放射科医生和一个最先进的深度学习人工智能如何对这种攻击高度敏感。
1.介绍
医学成像是一种非侵入性的过程,它在身体内部产生视觉效果,用于医学检查、分析和治疗。在某些情况下,需要体积(3D)扫描来诊断某些情况。用于产生详细三维医学图像的两种最常用的技术是磁共振成像(MRI)和CT(计算机断层扫描)。MRI和CT扫描仪是医疗领域不可或缺的工具。MRI和CT扫描仪的相似之处在于,它们都通过沿着身体的轴向平面(从前到后)对身体进行多次2D扫描来创建3D图像。两者的区别在于磁共振成像用的是强磁场,CT用的是x光。因此,两种模式以不同的方式捕获身体组织:MRI用于诊断骨、关节、韧带、软骨和椎间盘突出的问题。CT用于诊断癌症、心脏病、阑尾炎、肌肉骨骼疾病、外伤和传染病。
1.1脆弱性
医疗系统的安全性一直落后于现代标准。这部分是因为医疗安全政策主要针对数据隐私(访问控制)而不是数据安全(可用性/完整性)。一些PACs通过web访问解决方案有意或无意地暴露在互联网上。一些示例产品包括Centricity PACS(GE Medical)、IntelliSpace (Philips)、Synapse Mobility (fujifilm)和PowerServer(RamSoft)。在Shodan.io上快速搜索发现,有1849台医学图像(DICOM)服务器和842台PACS服务器暴露在互联网上。
1.2威胁
能够访问医学图像的攻击者可以更改内容,从而导致误诊。具体来说,攻击者可以添加或删除某些医疗状况的证据。图1说明了攻击者在扫描中注射/移除肺癌的过程。
图1通过篡改调查和诊断阶段之间的医学图像,放射科医生和报告医生都相信攻击者设置的谬误。
在这篇文章中,我们将重点介绍肺癌的注射和清除CT扫描。表1总结了攻击者这样做的动机、目标和效果。这次发作的原因是肺癌很常见,死亡率最高。因此,由于其影响力,攻击者可能会操纵肺癌来达到其目的。同时注意,本文提出的威胁、攻击和对策也适用于磁共振成像和医学条件,但不适用于上述情况。
表1攻击者在3D医学图像中注入/移除证据的动机和目的汇总
1.3攻击
本文展示了攻击者如何通过3D CT扫描逼真地注入和移除医疗条件。这个框架被称为CT-GAN,它使用两个条件GAN(cGAN)在3D图像上绘制。对于注射,cGAN对不健康的样本进行训练,以便生成器始终相应地完成图像。相反,为了摆脱它,另一个cGAN只在健康样本上训练。
为了验证这种攻击的威胁,CT-GAN接受了注射/切除肺癌的培训,并聘请了三名放射科医生诊断了70次篡改和30次真实CT扫描。放射科医生诊断,99%的注射患者患有恶性肿瘤,94%的癌症切除后的患者是健康的。在通知放射科医生发病后,他们仍然误诊了60%的注射患者和87%的切除患者。除了放射科医生,它还显示了CT-GAN如何能够成为一种有效的对抗性机器学习攻击。发现最先进的肺癌筛查模型对被篡改的患者100%误诊。因此,放射科医生使用的一些癌症筛查工具也容易受到这种攻击。
1.4贡献
据这篇文章所知,还没有显示攻击者如何以真实和自动化的方式恶意更改3D医学图像的内容。因此,这是第一项全面的研究,旨在宣传、演示和验证攻击者操纵3D医学图像的威胁。本文的贡献如下:
攻击模型:本文首先介绍攻击者如何渗透PACS网络,然后利用恶意软件自动篡改三维医学图像的攻击模型。本文还系统总结了攻击、漏洞、攻击载体、动机和目标。最后,通过在医院的渗透测试,将中间设备中的人与实际的CT扫描仪连接起来,证明了一个可能的攻击向量。通过pen测试,可以深入了解现代医院内部网络的安全性。
实现:本文首次演示了GANs如何通过适当的预处理,有效而真实地将肺癌注入大规模3D CT扫描中或从其中移除肺癌。同时也评估了算法能在多大程度上欺骗人和机器:放射科医生和最先进的人工智能。
对策:本文列出了可用于减轻威胁的各种对策。它还为读者提供了可以立即实施的最佳实践和配置,以帮助防止此类攻击。
2.背景:甘斯
最基本的GAN由两个神经网络组成:生成器(g)和鉴别器(d)。GAN的目标是在样本数据分布X(即一组图像)中生成视觉上类似于真实图像的新图像。g是从先验分布P(z)(例如,高斯分布)中提取的随机噪声向量z。G的输出表示为x_g,是期望与x中的图像具有视觉相似性的图像,设_g参数化的G学习的非线性函数表示为x _ G=G(z;_g).d的输入是实像x_rX或生成像X _ GG(Z;_g).d的输出是x_g为真或假的概率。设_d参数化的D学习非线性函数表示为x _ D=D(x;_d).图2的顶部显示了传统GAN的配置。
图2用于绘图的经典GAN(上图)和cGAN设置的示意图
3.相关著作
3.1篡改医学图像
许多著作已经提出了检测医学图像中的伪造的方法,但是它们都没有关注攻击本身。最常见的图像伪造方法有:将一幅图像的内容复制到另一幅图像(图像拼接),复制同一幅图像中的内容以覆盖或添加内容(复制和移动),增强图像以赋予其不同的感觉(图像修图)。
复制攻击可用于掩盖证据或复制现有证据(如肿瘤)。然而,重复的证据会引起怀疑,因为放射科医生会仔细分析每个发现的实例。图像拼接可用于将证据从一次扫描复制到另一次扫描。而CT扫描仪有明显的局部噪声图案,视觉上很明显。复制的模式与本地模式不匹配,因此被怀疑。此外,复制移动和图像拼接技术都是通过使用2D图像编辑软件(如Photoshop)来执行的。这些工具需要手动编辑扫描。即使攻击者有专业技能,也很难真实准确地注射和切除肿瘤。这是因为人体是复杂多样的。另一个需要考虑的问题是,CT扫描是3D而不是2D,这增加了难度。
3.2医学图像中的GANs
由于隐私法,很难获得培训模型和学生的医学扫描。因此,GANs在该领域的主要重点是扩展(扩充)数据集。一种方法是将图像从一种模态转换成另一种模态。例如,在一些文献中,作者使用CGAN将CT图像的2D切片转换为正电子发射断层扫描(PET)图像。在其他文献中,作者通过使用具有cGAN架构的完全卷积网络演示了类似的概念。
这些工作与本文的工作在以下几个方面形成对比:
1.本文首次引入GANs作为篡改三维图像的方法。其他工作集中在合成癌症样本,以促进分类器,实验和训练学生,但不是针对恶意攻击。本文还概述了如何在现代医疗系统中完成攻击。
2.所有上述工作或者产生没有周围物体背景的小扫描区域,或者产生具有非常低分辨率的完整2D扫描。没有上下文生成的样本不能真正“粘贴”回任何任意的医学扫描。这篇文章真实地生成/删除了现有实体中的内容。本文的方法可以改进全分辨率三维扫描,并且可以很容易地推广到2D。
3.本文评估了GAN如何在全3D肺癌筛查中欺骗专家放射科医生和最先进的人工智能。
4.攻击模型
4.1网络拓扑
为了讨论攻击媒介,我们必须首先介绍PACS网络拓扑。图3显示了医院中使用的PACS的常见网络配置。该拓扑结构基于PACS文献、PACS企业解决方案(如Carestream)和本文对医院的调查。注意,私人诊所的拓扑结构可能简单得多,有时直接连接到互联网。
图3医院PACS网络概述
4.2攻击场景
攻击场景如下:攻击者希望通过注射/移除医学证据来实现表1中列出的目标之一。为了造成目标效应,攻击者会在放射科医生做出诊断之前,更改目标ct扫描的内容。攻击者可以通过针对静态数据或动态数据来实现这一点。
静态数据是指储存在PACS服务器或放射科医师个人电脑上的DICOM文件(保存后供以后查看)。在某些情况下,DICOM文件存储在DVD上,然后由患者或外部医生传输到医院。虽然攻击者可能会交换DVD,但他们更有可能通过网络进行交互。运动中的数据是指通过网络传输或由应用程序(如DICOM viewer)加载到易失性存储器中的DICOM文件。
4.3目标资产
为了捕获/修改医学扫描,攻击者必须破坏至少一个如图3所示的资产。通过破坏(1-4)中的一个,攻击者可以访问每个扫描。通过漏洞(5)或(6),攻击者只能访问扫描的子集。RIS(3)可以让攻击者完全控制PACS服务器(2),但前提是攻击者可以获得正确的凭据或使用RIS软件。并且模式PACS服务器(4)之间的网络布线可用于安装中间人设备。如果数据未加密(或协议有缺陷),该设备可以修改运动中的数据。在所有情况下,攻击者都可以用定制的恶意软件感染目标资产,如图4所示。
图4自动恶意软件的篡改过程
4.4攻击媒介
通常,攻击媒介涉及设施网络的远程或本地渗透。
远程渗透:攻击者可以利用面向互联网的元素中的漏洞,从而使攻击者能够从互联网直接访问PACS。另一个载体是进行社会工程攻击。例如,针对部门行政助理的鱼叉式网络钓鱼攻击通过后门感染他们的工作站,或者针对技术人员的网络钓鱼攻击使他们安装欺诈性更新。
如果攻击者知道放射科医师正在他或她的个人计算机上分析扫描,那么攻击者就可以用恶意软件远程感染放射科医师的设备或DICOM查看器。攻击者可以以虚假的借口进入现场,例如是需要诊断CT扫描仪的飞利浦技术人员。攻击者也可能雇佣内部人员。最近的一份报告显示,医疗行业56%的网络攻击来自内部威胁。
4.5攻击演示
为了演示攻击者如何访问和操作CT扫描,本文对医院放射科进行了渗透测试。Pen的测试得到了参与医院的完全许可。为了访问所有的CT扫描,使用Raspberry Pi 3B对CT扫描仪进行了中间人攻击。Raspberry Pi提供USB到以太网适配器,并被配置为无源网桥(无网络标识符)。Raspberry Pi还被配置为隐藏的Wi-Fi接入点,用于后门访问。同时,CT扫描仪的制造商的3D标志被打印并粘贴在草莓馅饼上,使其不那么显眼。测笔步骤如下:首先,等到晚上清洁工开门。然后我找到了CT扫描仪的房间,并在扫描仪工作站和PACs网络之间安装了Raspberry Pi桥(图3中的位置#2)。最后,树莓派大桥隐藏在地板上的检修板下。整个安装过程需要30秒才能完成。此时,攻击者可以直接拦截扫描,或者通过PACS横向移动到其他子系统,并在其中安装恶意软件。为了验证扫描可以被拦截和操纵,扫描了一个医疗假人(图5)。发现的虚拟机的扫描通过网络发送了两次:一次是通过TCP以明文发送到内部web查看服务,另一次是使用TLSv1.2发送到PACS存储服务器,然而令人惊讶的是,TLS传输的有效载荷也是明文。此外,在10分钟内,由于包含以明文形式发送的HTTP POST消息的多播以太网通信,本文获得了超过27名工作人员和医生的用户名和密码。
左图5:用于验证攻击的CT扫描仪和医疗假人。右上角:用于拦截扫描的Pi桥。右下:假人切片,CT扫描仪发送,树莓Pi桥拦截。
5.CT-GAN框架
5.1神经架构
为了准确地捕捉注射和去除的概念,使用了由两个CGAN组成的框架:一个用于注射癌(GAN_inj ),一个用于去除癌(GAN_rem)。GAN_inj和GAN_rem都是深度3D卷积CGAN,可以在训练后的323维体素样本上绘制。对于完成掩码,输入样本中心的163个立方体被置零。为了将大的肺结节注射到ct扫描中,GAN_inj被训练为直径至少为10mm的癌症样本。结果,经过训练的生成器用相似的结节完成了一个样本长方体。为了去除癌症,用同样的结构训练GAN_rem,但是样本只包含良性肺结节(直径3mm)。
图6示出了GAN_inj和GAN_rem的模型架构(层和配置)。总的来说,_g和_d分别有1.626亿个和2690万个可训练参数(总共1.895亿个)。
图6注入(GAN_inj)和移除(GAN_rem)网络的网络架构、层和参数
5.2培训CT-GAN
为了建立GAN_inj的训练集,从CT扫描中提取所有直径在10mm到16mm之间的结节(总共169个)。为了增加训练样本的数量,进行了数据扩充:对于169个长方体样本中的每一个,(1)在X、Y、xy平面上翻转长方体,(2)在xy平面上每个方向移动长方体4个像素,(3)以6度为间隔旋转长方体360度。这为每个样本产生了额外的66个实例。最终的训练集有11323个训练样本。
为了创建GAN_rem的训练集,首先选择放射科医师没有检测到结节的干净CT扫描。在这些扫描中,结节检测算法用于发现良性微结节。在检测到的微小结节中,随机选择867个结节,并执行与上述相同的数据增强。最终的训练集有58,089个样本。
在训练GAN之前,对所有样本进行缩放、均衡和归一化预处理。两位政府官员在各自的数据集上接受了200次epoch训练,一批50个样本。GAN使用的每个GPU的全部内存都存储在NVIDIA GeForce GTX TITAN X上,训练已经完成26个小时。图7示出了在150个时期之后,GAN_inj可以很好地描述癌症模式。
图7在100个时期之后的训练样本仅示出了中间切片。
5.3执行:篡改过程
为了注射/去除肺癌,需要前/后治疗步骤。下面描述如图8所示的整个注入/去除过程:
1.捕获数据:捕获原始或DICOM格式的CT扫描(作为静止数据或移动数据)。
2.定位切割:选择一个候选位置进行注射/切除肿瘤,然后在其周围切出立方体x _ r’。
3.缩放使用3D样条插值将x _ r ‘缩放到1:1:1的原始比例。
4-5.均衡化和正常化。直方图均衡化应用于立方体以增加对比度。
6.蒙版:在x_r的中心,一个16 ^ 3的立方体被零蒙版形成X _ R *蒙版的区域会被生成器绘制(完成),未蒙版的区域就是上下文。
7.注入/移除:X _ R *通过选定的鉴别器(G_inj或G_rem)用新的3D生成内容创建新的样本(x_g)。
8-10.3360x _ g的逆向预处理是非标准化、非均匀的,然后通过样条插值将其重新缩放回原始尺度,形成x _ g’。
1润色:插值的结果通常会使图像模糊。为了对放射科医生隐藏这种伪影,在样本中加入高斯噪声:=0,设为样本的标准差x _ r’。
12.粘贴:将长方体x _ g *粘贴到CT扫描中选定的位置。
13.重复:如果攻击者正在切除肿瘤,回到步骤2,直到不再发现直径大于3毫米的结节。如果攻击者正在注射癌症,则回到步骤2,直到执行四次注射。原因是,如果有4个直径大于8mm的孤立性肺结节,从统计学上看,诊断为癌症的风险更大。
14.返回的数据:被扫描并转换回原始格式(例如DICOM)并返回到源。
图8完整的癌症注射/清除流程
注入/去除过程的质量如图9和图10所示。图9给出了篡改之前和之后的各种示例,图10提供了被注射和移除的癌症的三维可视化。
图9样品注入(左)和移除(右)
图10在篡改CT扫描之前(蓝色)和之后(红色)注入(左侧)和移除(右侧)的3D样品
6.估价
6.1实验设置
为了评估这次攻击,本文招募了三名具有2年、5年和7年经验的放射科医生(标为R1、R2和R3)。还使用了经过训练的肺癌筛查模型(表示为AI)。这种深度学习模型赢得了2017年Kaggle数据科学竞赛(一项100万美元的肺癌诊断竞赛)。
本实验分为两个实验:盲实验和开放实验。在盲法试验中,放射科医生被要求诊断80个完整的肺部CT扫描,但他们没有被告知试验的目的或一些扫描被操纵。在公开试验中,放射科医生被告知这次攻击,并被要求在20次ct扫描中识别假结节、真结节并切除结节。此外,放射科医生被要求评价他们的决定的可信度。每次试验后,本文给放射科医生一份问卷,以评估他们对这些攻击的敏感性。在所有情况下,要求放射科医生只检测和诊断直径大于3毫米的肺结节。有关每次测试中使用的CT扫描集和本节中使用的符号,请参见表2。
2表格扫描和相关符号概述
值得注意的是,在医学研究中使用三名放射科医生是一种常见的做法。此外,还发现放射科医生(和AI)对每个患者和每个结节的诊断都是一致的。这种一致性通过计算弗列斯kappa(一种统计的跨层可靠性度量)来验证,其产生0.84的优秀kappa值为0.0001)。因此,增加更多的放射科医生可能不会影响结果。
6.2结果:盲测。
图11顶部总结了盲试的攻击成功率。总的来说,注射癌症和切除癌症的平均成功率分别为99.2%和95.8%。放射科医生被骗的比较少,主要是人为失误(比如丢了一个结节)。当被问到时,没有一个放射科医生报告扫描中有任何异常,除了R2,他注意到一个切除区域有一些噪音。这可能是由于“不注意盲视”,即当你从事不同的任务(寻找大的结节)时,你可能会错过一个明显的事件(伪影)。
图11攻击成功率-两次试验
关于注射癌(FM),放射科医生的共识是三分之一的注射需要立即手术/活检,所有的注射都需要后续治疗/转诊。当被问及FM患者的整体恶性程度时,放射科医生表示,几乎所有病例都是明显恶性的,如果不治疗会给患者带来风险。图12总结了放射科医生对FM患者的评分。一个有趣的观察是,随着放射科医生经验的增加,恶性肿瘤的评级也增加。最后要注意的是,如果CT-GAN只针对恶性程度高和/或直径大的样本进行训练,攻击者可能会增加注射的整体恶性程度。
图12注射癌症盲法试验的恶性肿瘤(FM)
6.3结果:开放测试。
在表4中,显示了具有攻击知识的放射学家的攻击检测性能。图13总结了这些结果,并提供了放射科医师的准确度(ACC)和曲线下面积(AUC)。AUC为1.0表示完美的二元分类器,而AUC为0.5表示随机猜测。结果显示,放射科医生无法区分真癌和假癌,也无法确定癌症切除的位置。
表4攻击检测混淆矩阵-基于示例评估的开放式测试
图13攻击检测性能-开放测试
关于攻击的成功率(图11的底部),攻击的知识对癌症切除没有显著影响(从90%到95.8%)。但影响了癌症注射的成功率(从99.2%到70%)。此外,R2还发现了一种特定的模式,其中举了几个例子。这是一个有希望的结果,因为它表明CT-GAN的一些攻击可以通过教育放射科医生来缓解。然而,除了准确性低(检测注射的准确率为61%,检测移除的准确率为39%)之外,还有大量的假阳性例子。由于错误的可能性很高,放射科医生可能会选择不报告异常情况。这也可以从放射科医生给出的低置信度得分中看出(见图14)。
图14检测攻击的置信度开放实验
6.4基准分析
如前所述,攻击者无法在图像上使用Photoshop。这可能是由于时间限制:放射科医生可能会在扫描完成后立即执行诊断,或者恶意软件可能在查看应用程序中并实时运行。这也可能是由于连接限制:许多PACs不直接连接到互联网。因此,攻击者需要用能够自动执行篡改的恶意软件感染PACS。
基准攻击之所以骗不了R2,是因为自动贴癌的过程会产生明显的伪影。这是因为粘贴的样本忽略了周围的解剖结构,并且可能包含不一致的噪声模式(纹理)。图15示出了这些异常的一些例子,例如支气管切割、不一致的噪声模式和未对准的边界。CT-GAN不会产生这些伪影,因为它在绘画中使用了原始内容和周围的解剖结构。
图15示出了当使用无监督拼接攻击代替CT-GAN时可能的伪像。
7.估价
7.1预防
为了减轻这种威胁,管理员应该保护移动数据(DiM)和静态数据(DaR)。为了保护移动数据的安全,管理员应该使用适当的SSL证书来实现PACS网络中主机之间的加密。这看似微不足道,但本文测试pen的医院发现这一缺陷后,向PACS软件供应商寻求建议。该公司在全球拥有2000多台设备,这向本文证实了他们的医院没有在PACS中启用加密,因为“这不是一种常见的做法”。这篇文章还被告知一些PACS根本不支持加密。为确保DaR的安全性,主机和放射科医师工作站上的服务器和防病毒软件应保持最新,管理员也应限制其PACS服务器与互联网的联系。
7.2检查
检测这种攻击的一种方法是数字水印(DW)。DW是嵌入在图像中的隐藏信号,篡改会破坏信号,从而表明完整性的丧失。对于医学图像,这一课题已经得到了深入的研究,并能提供一种定位篡改图像变化的方法。然而,在本文中还没有发现实现DW技术的医疗设备或产品。这可能是因为它们给图像增加了噪声,这可能损害医学分析。
对于无监督设置,也提出了几种方法。这些方法试图检测篡改图像中的异常(不一致)。为了检测这些不一致,研究人员考虑了JPEG块、信号处理和压缩/重采样伪影。在文献中,模型仅使用真实图像数据集进行训练。在其他文献中,作者提出了“noiseprint”,利用连通网络从图像(PRNU)中提取相机特有的噪声模式,以寻找不一致的区域。在他们的评估中,作者指出他们可以检测基于GAN的修复。
虽然这些对策在某些情况下可能适用于CT-GAN,但它们确实存在一些警告;也就是说,(1)医学扫描通常不被压缩,因此压缩方法是不相关的,(2)这些方法是在2D图像而不是3D体积图像上测试的,以及(3)由CT/MR成像系统产生的噪声模式与标准照相机的噪声模式非常不同。例如,本文发现文献中的PRNU方法不适用于本文中的篡改CT扫描。这是因为CT图像的噪声模式被用于构建图像的radon变换所改变。作为今后的工作,本文计划研究如何应用这些技术来检测CT-GAN等攻击。
8.摘要
本文介绍了攻击者通过深度学习修改3D医学图像的可能性。本文解释了这种攻击的动机,讨论了攻击向量(演示了其中一个),并提出了一个可以由恶意软件自主执行的操纵框架(CT-GAN)。作为一个案例研究,本文演示了攻击者如何通过使用互联网上的免费医学图像,从全分辨率3D CT扫描中注射或移除肺癌。本文还对这种攻击进行了评估,发现CT-GAN可以欺骗人和机器:放射科医生和最先进的人工智能。这篇论文还展示了如何警惕一个封闭世界的假设:如果人类专家和高级人工智能完全相信他们的观察,他们可能都被欺骗了。
正式表示感谢
本文由南京大学软件学院2021级硕士严昌岳翻译转述。

其他教程

如何在微信设置视频通话铃声(怎么设置微信视频通话来电铃声)

2022-8-31 6:03:51

其他教程

动漫与游戏专业(职业学校动漫游戏专业)

2022-8-31 6:06:03

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索