使用载玻片重新染色创建组织病理学基准真值掩膜的方法-好方法网

技术摘要：
用于生成其上放置有组织样本的显微镜载玻片的基准真值掩膜的方法包括用苏木精和曙红(H&E)染色剂对组织样本进行染色的步骤。例如用整个载玻片扫描仪获得H&E染色组织标本的第一放大图像。然后从组织样本中清洗H&E染色剂。将第二不同染色剂施加到组织样本，例如，特定染色全部
背景技术：
本公开涉及数字病理学领域，并且更具体地，涉及一种用于在组织样本的数字图像中生成基准真值掩膜(ground truth mask)的方法。在本文档中，术语“掩膜”是指组织样本图像中包围感兴趣区域(诸如肿瘤细胞(例如癌症))的闭合多边形区域。在本文档中，术语“基准真值”是指与通过推理提供的信息相反、通过直接观察样本(即经验证据)来提供掩膜，以及可以分配给组织样本的标签(例如“癌性”)。具有针对样本的基准真值掩膜和相关联的标签(例如“癌性”)的组织样本的数字图像被用于多种情景下，包括作为用于构建机器学习模型的训练示例。可以出于各种目的而开发这样的机器学习模型，包括帮助诊断、临床决策支持以及对提供组织样本的患者做出预测，诸如预测生存或对治疗的反应。用于从包含组织样本的载玻片的图像做出预测的机器学习模型需要对于样本的准确的基准真值掩膜和标签分配。如上所述，掩膜采用描绘诸如肿瘤细胞的感兴趣区域的轮廓的多边形的形式。在C.Gammage的2017年6月13日提交的、序列号为15/621837的未决美国专利申请中，描述了用于创建掩膜的方法的一个示例，其内容通过引用并入本文。创建准确的基准真值掩膜并且分配标签是劳力密集且疲劳的，以及此外，病理学家还会做出评级错误(grading error)。本公开描述了用于更加准确和更加快速创建基准真值掩膜的方法。在2017年2月23日提交的序列号为PCT/US2017/019051的PCT申请及其中所引用的科学和技术文献中公开了用于识别组织样本的数字放大图像中的癌细胞的神经网络模式识别器，其内容通过引用并入本文。在科学文献中描述了目前的模式识别器所基于的 Inception-v3深度卷积神经网络架构。参见以下参考文献，其内容通过引用并入本文： C.Szegedy et al .,Going Deeper with Convolutions ,arXiv:1409 .4842[cs .CV] (September 2014)；C.Szegedy et al.,Rethinking the Inception Architecture for Computer Vision,arXiv:1512.00567[cs.CV](December 2015)；另请参见C.Szegedy等人的2015年8月28日提交的序列号为14/839,452的美国专利申请“Processing Images Using Deep Neural Networks”。第四代(称为Inception-v4)被认为是模式识别器的替代架构。参见C.Szegedy et al.,Inception-v4,Inception-ResNet and the Impact of Residual Connections on Learning ,arXiv:1602 .0761[cs .CV](February 2016)。另请参见 C.Vanhoucke的2016年12月30日提交的序列号为15/395 ,530的美国专利申请“Image Classification Neural Networks”。这些论文和专利申请中对卷积神经网络的描述通过引用并入本文。在当今的病理学中，从组织样本中进行癌症分期和诊断通常是在H&E(苏木精和曙红)染色的组织样本上进行的。此外，机器学习模型通常根据H&E染色的组织样本的图像进行训练。H&E染色剂是非特定染色剂，其突出组织的整体形态。与之相反，存在特定染色剂 (包括免疫组织化学染色剂、IHC、Verhoeffs染色剂、Masson的三色染色剂等)，其突出特定抗原，诸如肿瘤标志物。病理学家通常可以提供(render)诊断，并且在H&E图像上描绘肿瘤轮廓，但有时对于疑难病例，需要特定染色剂，诸如HC染色的图像。还相信，使用IHC染色(或 4 CN 111602136 A 说　明　书 2/8 页其他特定染色)的载玻片可以加快人体检查和标注处理。然而，一般而言，组织载玻片可以具有H&E染色剂或IHC染色剂，但通常不能同时具有两者。因此，常见的解决方案是切割组织的连续切片，并且使其两者经受染色、显微镜检查和数字图像捕获，其中，切片N采用H&E染色，切片N 1采用IHC染色剂染色，使得IHC染色的组织在形态上足够相似(约5微米远，是人类细胞直径的约5％)，以与H&E染色的组织图像一起使用。然而，连续切片的形态差异仍然显著，并且可能导致这种方式下生成的基准真值标签和掩膜不准确。进一步增加连续切片形态差异的另一个因素是，在处理期间分开处理两个切片，并且在处理期间(例如，将刚切下的玻璃切片放在玻璃载体上)两个组织的拉伸可能会轻微不同。
技术实现要素：
在一个方面，本公开利用一种被称为“重新染色”载玻片上的单个组织样本的技术，以创建用于组织样本的准确的基准真值掩膜和相关联的标签。尽管在上述现有技术方法中，获得了组织样品的不同连续切片，并且使两个不同组织样品经受H&E染色/成像和IHC (或其他特定)染色/成像，但是本公开的方法提供了使用H&E和从单个组织样本进行特定染色来创建基准真值掩膜。这样，用于两个图像的组织将是相同的，并且因此，从特定染色的图像和H&E染色的图像两者转换基准真值掩膜是可能的并且容易地完成。在一个方面，提供了一种用于生成用于组织样本的数字图像的掩膜的方法。该方法包括：接收第一图像数据，该第一图像数据表示采用第一染色剂(例如，H&E)染色的组织样品；接收第二图像数据，该第二图像数据表示清洗组织样本以从组织样本中去除第一染色剂并且采用第二染色剂(例如，特定染色剂)对组织样本染色之后的组织样本；配准 (register)第一图像数据和第二图像数据以生成配准数据；接收指示第二图像数据中表示的感兴趣区域的数据；以及基于接收的指示第二图像数据中表示的感兴趣区域的数据和配准数据确定第一图像数据中的掩膜。指示第二图像数据中的感兴趣区域的数据的识别可以由用户(在本文中为标注)执行，或者可以通过算法执行。一旦识别出感兴趣区域并且在第二图像数据中创建了掩膜，则由于第一图像和第二图像的配准，其可以被转移到第一图像数据。该方法当然可以在包含组织样本的大量载玻片上执行，从而在癌细胞或其他细胞周围构建具有基准真值掩膜的H&E载玻片训练集。可以将这样的数字图像集提供给神经网络模式识别器，作为用于训练模式识别器的训练集。神经网络模式识别器可以是例如先前引用的科学和专利文献中引用的设计。在一些方面，该方法还可以包括以下特征中的一个或多个。可以将掩膜和第二图像数据提供给神经网络模式识别器，作为自动识别感兴趣区域的训练示例。指示第一图像数据中表示的感兴趣区域的数据可以是包括被确定为癌细胞的细胞的感兴趣区域。接收指示第一图像数据中表示的感兴趣区域的数据可以包括例如以软件中的算法或自动处理来处理第一图像数据。例如，处理第一图像数据可以包括确定具有预定值(例如，高于染色剂颜色阈值)的第一图像数据的像素。处理第一图像数据可以包括使用训练的分类器或模式识别器来处理第一图像数据。指示第一图像数据表示的感兴趣区域的数据可以是由用户输入的标注数据。接收指示第一图像数据中表示的感兴趣区域的数据可以包括向用户显示第一图像数据。接收指示第一图像数据中表示的感兴趣区域的数据可以包括并排显示第一图 5 CN 111602136 A 说　明　书 3/8 页像数据和第二图像数据。在一个方面，提供了一种用于生成与包含组织样本的显微镜载玻片相关联的基准真值掩膜和标签的方法。该方法假定，作为输入，准备组织样品(例如，福尔马林固定和石蜡包埋)并且将其施加到显微镜载玻片上。方法如下： 1.采用第一染色剂(例如，苏木精和曙红(H&E)，广泛知晓的细胞染色过程)对载玻片染色。 2.染色的载玻片由具有高分辨率数字相机的整个载玻片扫描仪扫描并且成像，通常以诸如10X、20X或40X的放大率M。采用第一染色剂(例如，H&E)染色的载玻片的该第一数字图像存储在存储器中，例如，在整个载玻片扫描仪的存储器或相关联的病理工作站的存储器中。 3.然后使载玻片经受清洗步骤以从载玻片上的组织中洗去第一染色剂。 4.将第二不同(即特定)染色剂施加在载玻片上。该第二或特定染色剂可以用于多种免疫组化化学(IHC)染色剂中的一种，诸如用于前列腺癌的PIN4、或用于淋巴结上皮细胞转移的细胞角蛋白AE1/AE3、Verhoeff染色剂、Masson三色染色剂等。在本公开中，由术语 “第二染色剂”表示的重新染色旨在涵盖由单个特定染色剂以及还由多个特定染色剂组成的第二染色剂，有时在本领域中称为“多重染色剂”。 5.采用第二染色剂染色的载玻片由具有电子相机的整个载玻片扫描仪以相同放大率等级M进行扫描和成像。载玻片的该第二数字图像再次存储在存储器中。 6.载玻片的第一数字图像和第二数字图像相对于彼此对准并且配准。假设组织在物理上是相同的，则残余对准误差应当接近零。 7.标注第一数字图像或第二数字图像，以便形成基准真值掩膜，基准真值掩膜是包围第一图像或第二图像中存在的肿瘤细胞的闭合的多边形区域的形式。例如，使用工作站上的工具将配准的第一数字图像和第二数字图像一起显示(叠加或作为图像对并排显示)并且由人类标注者使用，以在载玻片图像上生成(即绘制)基准真值掩膜并且为载玻片分配标签。例如，人类标注者可以在第二图像或第一图像上绘制癌细胞的多边形轮廓(即，掩膜)。附图的一个示例可以根据C.Gammage的2017年6月13日提交的序列号为15/621837的未决美国专利申请的教导。如果标注者在第二个图像上绘制掩膜，则该掩膜被转移到第一 (H&E)图像，这是可能的，因为两个图像相互对准或配准。在上述方法的一个变型中，执行步骤1-6，但是通过算法(即，使用软件指令自动地)从第二(特定染色剂)图像创建基准真值掩膜，并且将基准真值掩膜转移到第一(H&E)图像。可以使用以下几种可能的技术之一执行在第二图像中算法创建基准真值掩膜： a)在特定染色剂颜色上对第二图像进行阈值处理，并且在具有染色剂颜色高于阈值的像素的区域周围绘制多边形；或 b)使用被训练以辨别染色组织样品图像中的癌细胞的神经网络或其他分类器，并且将分类器应用于第二图像。在一个可能的实施例中，在创建基准真值掩膜和标签之后，在上述任一变型中，然后将具有掩膜和标签的第一数字图像(H&E)作为训练实例提供给被训练以辨别染色组织图像中的癌细胞的机器学习系统。在另一方面，提供了一种用于生成用于组织样本的数字图像的基准真值掩膜的方 6 CN 111602136 A 说　明　书 4/8 页法。将组织样品放置在显微镜载玻片上。方法包括以下步骤： a)获得采用第一染色剂染色的组织样本的第一放大图像； b)获得采用第二不同染色剂染色的组织样本的第二放大图像； c)将第一放大图像和第二放大图像彼此配准；以及 d)在第二放大图像中形成基准真值掩膜，该基准真值掩膜是包围存在于第二放大图像的感兴趣细胞的区域的闭合多边形区域的形式；以及 e)将基准真值掩膜从第二放大图像转移到第一放大图像。在又一方面，提供了一种工作站，其包括处理单元和显示器。显示器被配置为显示单个载玻片的配准数字放大图像，该单个载玻片包含分别采用(1)苏木精和曙红和(2)第二不同染色剂依次染色的组织样本。工作站配置有(a)用户界面工具，通过该用户界面工具，检查显示器上的配准数字放大图像的操作员可以对采用第二染色剂染色的组织样本的数字放大图像进行标注，以在包含感兴趣细胞的区域的所述图像的区域周围形成闭合多边形，从而创建基准真值掩膜；或者(b)代码，通过算法在图像中创建基准真值掩膜。工作站还被配置为将基准真值掩膜转移采用苏木精和曙红染色的组织样本的数字放大图像。在另一方面，公开了一种用于在组织样本的数字放大图像中创建基准真值掩膜的系统。该系统组合地包括用于扫描包含组织样品的染色载玻片的整个载玻片扫描仪，配置有用于从组织样品中清洗H&E染色剂的装置和化学品的清洗台；以及如之前段落所述的病理工作站。上面的病理学工作站或系统还可以包括机器学习系统，用于根据训练示例来构建机器学习模型，该训练示例来自采用苏木精和曙红染色的组织样本的数字放大图像。训练示例采用由本公开的病理工作站和方法标注的数字放大的病理图像的形式。本文所述的方法可用于获得采用常用染色剂(例如苏木精和曙红)染色的组织样品的图像，其中，识别出通常难以在采用常用染色剂染色的图像中识别的感兴趣区域。这可以通过识别在采用不同染色剂(例如，免疫组织化学(IHC)染色)染色的相同组织样本的图像中的感兴趣区域来实现，通过由训练的操作员使用图像进行手动输入或通过使用图像处理技术，允许更容易地识别感兴趣区域。可以将采用常用染色剂染色的具有识别的感兴趣区域的图像用于训练神经网络，以识别采用相同染色剂染色的图像中的相对应的感兴趣区域。这种训练的神经网络可能能够使用人类操作者通常发现对于识别感兴趣区域是挑战性的图像来识别具有某种性质的感兴趣区域，例如包括癌细胞的感兴趣区域。以这种方式，使用诸如H&E的常用染色剂获得的图像可以用于识别通常不能够由人类操作员识别的感兴趣区域。将意识到，可以以任何方便的形式来实现各方面。例如，各方面可以通过适当的计算机程序来实现，该计算机程序可以在适当的载体介质上承载，该适当的载体介质可以是有形的载体介质(例如，盘)或无形的载体介质(例如，通信信号)。各方面也可以使用适当的装置来实现，该适当的装置可以采取运行被布置为实现本发明的计算机程序的可编程计算机的形式。可以组合各方面，使得可以在另一方面中实现在一个方面的上下文中描述的特征。 7 CN 111602136 A 说　明　书 5/8 页附图说明图1是包括在实践该方法的病理工作站的实验室环境的图示。图2是示出根据一个实施例的用于生成基准真值掩膜的方法的流程图。图3是并排显示的相同组织样品的配准H&E和IHC放大图像的图示，其中，IHC图像具有指示组织样品中的癌细胞的对比度较暗的区域。图4是方法的第二实施例的流程图，其中，在第二放大图像(例如，IHC图像)中通过算法创建基准真值掩膜。图5是组织样本图像的一部分的图示，其中，在感兴趣区域(诸如肿瘤细胞)上通过算法绘制或创建掩膜。将理解，对于某些组织样本，可能存在针对给定载玻片图像创建的多于一个掩膜。图6是图1的机器学习系统的更详细的说明。

下载此资料需消耗2积分，

相关推荐