[DL-医疗-综述] 002 综合指南及实例(中)

news/2025/3/22 1:01:17

Deep learning for digital pathology image analysis: A comprehensive tutorial with selected use cases

Deep learning for digital pathology image analysis: A comprehensive tutorial with selected use cases
Andrew Janowczyk, Anant Madabhushi

5 USE CASES

本文共考察了7个数字病理学的实例,具体见表1。
图片描述

5.2 Nuclei Segmentation Use Case

Challenge
细胞核形态是多数癌症定级中重要的依据,所以需要进行细胞核分割。近期研究发现检测细胞核的技术趋于成熟,
但是发现它们的精确边界或者分离开有重叠区域的细胞核还是比较困难。生成训练图像块也要注意,一般用标识好的图像生成二值掩码,然后从正/负区域随机剪切产生正/负样本,但是负样本中可能包含未标记的正样本区域。
Patch selection technique
图像块选取的一种标准方法是在正样本掩码区域选取正样本,在负样本掩码区域使用阈值化的color-deconvolved图像选取负样本(如图2所示)。这主要是依据非细胞核区域很少吸收染色剂的原理。图2显示了这种方法提取的样本所属类别都是正确的,但是负样本(图2a)对于训练该任务网络不会提供太多有用信息。结果(图3d)显示用上述方法选取的样本训练的模型性能并不好,无法描绘出细胞核的正确轮廓,这是因为在训练集中没有强调边界信息。
图片描述

本文在上述方法的基础上进行改进,选取更多更有挑战性的负样本以增强训练集中的边界信息。图3a展示了一张示例图像,图3b是其掩码图像,需要注意的是只有部分细胞核被标识,使用为改进的样本选取方法所获得的训练集来训练模型的预测结果如图3d所示,可以看到网络没有准确确定出细胞核边界。为了增强边界信息,使用形态学方法处理图3b中所示掩码图像,得到如图3c中所示的边界掩码图像。依据图3c掩码图像选取负样本(如图2c所示),这些样本与正样本相似,所以学习难度提升。另外也保留一定比例的图2a样式的负样本,以确保这部分样本在训练集中也有很好的表示。使用改进方法选取的样本所训练的模型的预测结果见图3e,可以看出模型对边界的确认更准确。
图片描述

Results and Discussions
5折交叉验证集,每折包含约100张训练图像和28张测试图像,正样本:边界负样本:其他负样本=1:1:0.3,训练集中共130k图像块,在20倍和40倍分辨率上进行度量,使用的度量方法有F-score、true positive rate (TPR)、positive predictive value (PPV),DL生成的概率图0.5阈值化后得到二值结果。
定性来看,图4显示了一个可视化结果,可以看出网络在40倍分辨率上的边界比在20倍上更加准确。
图片描述

定量来看,从表4中可以看出,网络在40倍分辨率上的各项度量指标都优于20倍。Dropout在这个实例上存在消极影响。
图片描述

5.3 Epithelium Segmentation Use Case

Challenge
癌细胞一般出现在上皮组织,而基质的组织模式有助于预测乳腺癌患者的生存期,所以上皮组织-基质(epithelium-stroma)分离就尤为重要。但是该任务一般不太明确,因为标记数据比较抽象并且都是低放大倍数,图5显示了标记和预测的对比,这种差异使得训练和评估都更加困难,本文也考虑用额外的专家评价指标来评估结果。
图片描述

Patch selection technique
首先确定放大倍数,基本的原则是相应分辨率的图像块中有足够的环境信息,人类专家可以做出正确的判断,所以要根据先验知识来确定合适的放大倍数。本文使用10倍放大倍数,如果网络接受的输入尺寸较大,可能需要更高的放大倍数。首先在灰度图使用0.8阈值去除脂肪或背景区域,不在这些区域选取训练样本,然后使用上节的改进方法提取样本。
Results and Discussion
5折交叉验证集,每折包含约34张训练图像和8张测试图像,正样本:边界负样本:其他负样本=5:5:1.5,训练集中共765k图像块。
定量分析结果如表5,使用F-score作为度量指标。在度量之前(a)阈值化去掉背景区域(b)去除面积<300的区域。
图片描述

定性来看,病理学家将这个任务视为更高等级的抽象,而并不是像素级的分类,如图5所示。病理学家一般不会将背景分离标识出来,有时也会忽略掉小区域。

5.4 Tubule Segmentation Use Case

Challenge
细管的形态可以体现癌症的侵略性,癌症后期病人的细管形态逐渐呈无组织状态,如图6所示。识别和分割细管有两个方面用处:(a)自动进行面积估算,减少inter-/intra-reader差异;(b)提供更大的特异性,可能更好的制订预后指标。
图片描述

细管被认为是迄今为止发现的最复杂的结构,它包含多种成分(如细胞核、上皮组织、内腔),这些组成成分的组织结构确定了细管的边界。不同阶段的癌症不同的潜在侵略性的细管的形态有很大差异。良性(如图6a)整体有组织性,每个细管的尺寸和形态特征比较相似,比较容易进行分割;但患癌(如图6c)时细管就没有组织性,也不容易精确确定它们的边界。另外细管整体比其中的组成成分要大得多,所以需要在更大的视野中进行观察以保证有足够的环境信息来确保评估的准确性。
Patch selection technique
引入一种经济的预处理方法来确定较难训练的图像块,使用这些样本可以增加信息和多样性。首先在每张图像中随机选取一些像素点(如15000个)作为训练集,这些像素点应该覆盖所有类别,并计算一些简单的纹理特征(如对比度、相关性、能量、同质性等);然后使用朴素贝叶斯分类器来确定同一张图像中所有像素点的类别。经过上述处理,可以确定哪些像素点可能容易判断错误(假阳/阴),选取这些像素点可以增加样本的表示能力。可以根据误分类像素的置信度来选取,例如偏向于选取预测概率趋向于1的假阳样本。这种方法不需要相关领域的知识,能很好的去除重要性低的样本。
良性组织中的细管要比患癌的更容易分割,那么不均衡的多选患癌样本可以提高模型的泛化性能。
Results and Discussion
5折交叉验证集,每折包含约21张训练图像和5张测试图像,恶性样本数量是良性的2倍,并且包含一些旋转处理(180、270)的恶性样本,共320k个训练图像块。阈值0.5时的平均F-score为0.827±0.05,使用最优阈值时0.836±0.05。

5.5 Invasive Ductal Carcinoma Segmentation Use Case

Challenge
浸润性导管癌(Invasive Ductal Carcinoma, IDC)是乳腺癌中最长出现的亚种。病理学家一般都是根据包含IDC区域的组织状态来判断侵略性等级,所以对侵略性定级的一个常见的预处理就是提取包含IDC的区域。
Patch selection technique
使用已有的数据集,将放大倍率40的原图像降采样1/16,以提供更丰富的环境信息,图像块尺寸为50x50,本文网络输入尺寸32x32,分别做以下不同处理:
Resizing:直接将50x50的图像缩放为32x32。
Cropping:剪切50x50图像的中心32x32区域。
Cropping+additional rotations:为了解决数据不均衡问题,将正样本进行旋转增加数量,最终正负样本数量基本一致。
Results and Discussion
图7显示了不同处理方式对训练模型的影响。
图片描述

表6定量评估了不同样本处理方式的影响。值得注意的是resizing的性能是最好的,cropping可能是因为损失了部分环境信息,另外dropout对泛化性能并没有提升,数据均衡处理也没有明显效果。
图片描述

注:对于文中医学相关的名词翻译可能不准确,如有异议请指正。


https://dhexx.cn/news/show-4079086.html

相关文章

面试题复习题2

神经网络 反向传播算法原理及推导 CNN原理 卷积、padding、 sigmoid函数 RNN原理 LSTM如何解决梯度消失或弥散问题&#xff1a; 普通的RNN在反向传播过程中&#xff0c;会包含连乘项&#xff1a; 由于激活函数的导数小于1&#xff0c;在多次相乘之后&#xff0c;梯度会越…

CSS3之渐变效果

CSS3渐变色生成网站&#xff1a;http://gradients.glrzad.com/ 本文参考&#xff1a;前端设计之用CSS3做线性渐变效果http://webskys.com/css3/10.html 在CSS3出来以前&#xff0c;想要显示一个渐变的效果&#xff0c;必须要专门制作一个图片。CSS3的出现&#xff0c;使得渐变色…

类别型特征

无序特征&#xff1a; one-hot encoding, 比如城市 有序特征&#xff1a;Label encoding, 比如版本号 决策树是如何识别离散特征和连续特征的&#xff1f; 决策树在选择特征进行分类时&#xff0c;一个特征被选择后&#xff0c;之后还会选择到这个特征吗&#xff1f; 决策树…

VS2008显示解决方案的方法

今天新建了一个解决方案,在解决方案里面添加了一个asp.net网站,添加完毕后,看不见解决方案管理器里面的解决方案,结果我找啊找,最终在VS2008里面的工具-选项-(选中)所有设置-项目和解决方案-(选中)总是显示解决方案,就搞定了.特此记录防止下次在找不到.

randomForest调参指南

一、参数意义 1&#xff09;需要调参的参数包括两部分&#xff0c;第一部分是Bagging框架的参数&#xff1b;第二部分是CART决策树的参数&#xff1b; n_estimators5&#xff0c;参考范围[1,201]&#xff0c;弱学习器的个数&#xff0c;n_estimators太小&#xff0c;容易欠拟…

Laravel Container (容器) 深入理解 (下)

本文大部分翻译自 DAVE JAMES MILLER 的 《Laravel’s Dependency Injection Container in Depth》 。上文介绍了 Dependency Injection Containers (容器) 的基本概念&#xff0c;现在接着深入讲解 Laravel 的 Container。 Laravel 中实现的 Inversion of Control (IoC) / Dep…

用putty生成密钥SSH远程登录(解决)

1用putty密钥生成器生成公钥和私钥 注意像上面保存公钥的时候。。。要注意。。公钥文件。 删除第一行&#xff0c;第二行和最后一行。并删除密钥中间的空格。因为这些密钥其实是一行的。最后在最前面添加ssh-rsa,空一格 &#xff08;其实大家可以看到这样就很像这里的内容 可以…

Word embedding(文本向量化)技术与路线

0. CountVecorizer 是属于常见的特征数值计算类&#xff0c;是一个文本特征提取方法。 对于每一个训练文本&#xff0c;它只考虑每种词汇在该训练文本中出现的频率。 CountVectorizer会将文本中的词语转换为词频矩阵&#xff0c;它通过fit_transform函数计算各个词语出现的次…

hibernate查询某个时间段的记录

try{DateFormat dateFormat; dateFormat new SimpleDateFormat("yyyy-MM-dd"); dateFormat.setLenient(false); String s1"2009-04-01";String s2"2009-04-10";Date startDate dateFormat.parse(s1);//util类型 Date endDate dateFormat.pars…

.Net Ria Services Preview 升级至 Wcf Ria Services Beta 记录

把使用 .Net Ria Services Preview 的项目升级至 Wcf Ria Services Beta 的基本操作如下&#xff1a; 准备工作备份本地工作区代码&#xff0c;如果使用了源代码管理器的话&#xff0c;可以先创建一个分支&#xff0c;然后切换到这个分支&#xff1b;删除 .Net Ria Services Pr…