计算机实现的确定方法和系统-好方法网

技术摘要：
一种用于提供计算机实现的医学诊断的方法，该方法包括：从用户接收包括该用户的至少一个症状的输入；提供至少一个症状作为医学模型的输入，包括：概率图形模型，包括概率分布和症状与疾病之间的关系；推断引擎，被配置成对概率图形模型执行贝叶斯推断；以及判别模型，全部
背景技术：
图形模型提供了自然框架来表述自然科学众多领域中随机变量之间的概率关系。作为图形模型的一种直接形式的贝叶斯网络已在医学中得到广泛使用，以捕获诸如风险因素、疾病和症状之类的实体之间的因果关系，并有利于诸如疾病诊断之类的医学决策任务。决策的关键是基于对新证据的观测，执行概率推断以更新人们对一系列疾病概率的可能性的先验信念的过程。附图说明图1是根据实施例的系统的概图；图2是简单图形模型的示意图；图3是示出了训练判别模型以使用图1的系统的流程图；图4是示出了将训练后的模型与图1的推断引擎一起使用的流程图；图5是具有GPU的基本示意性处理系统；图6是根据实施例的系统的概观的示意图；图7是示出了训练判别模型以使用图6的系统的流程图；图8是示出了将训练后的模型与图6的推断引擎一起使用的流程图；图9(a)是图形模型的示意图，而图9(b)是对应的UM架构。(a)图的节点按其在网络内部的深度进行分类，并且(b)图的UM神经网络的权重由同一类别的节点共享；图10针对三个不同的图形模型示出了上述系统的性能。图10(a)示出了具有96个节点的合成图的结果，图10(b)示出了具有768个节点的合成图的结果，而图10(c)示出了医疗PGM的结果。在经训练的UM的支持下或无须经训练的UM的支持，通过重要性采样进行推断，并依据皮尔逊相关系数(PCC)、平均绝对误差(MAE)和有效采样大小(ESS)进行评估；以及图11示出了针对两组症状和风险因素进行过滤的嵌入，其中每个散点都对应于一组证据。图11(a)示出了糖尿病嵌入的结果，而图11(b)示出了吸烟和肥胖嵌入的结果。显示嵌入矢量对应于前两个分量。可以看出，它们将非常不相关的医学概念分开，并示出了紧密相关的概念的重叠。
技术实现要素：
在实施例中，提供了一种用于提供计算机实现的医学诊断的方法，该方法包括：从用户接收包括至少一个症状的输入；提供至少一个症状作为医学模型的输入；使用医学模型从提供的输入中确定用户患有存储在医学模型中的疾病的概率；以 5 CN 111602150 A 说　明　书 2/20 页及输出用户患有一种或多种疾病的概率，其中所述医学模型包括：概率图形模型，其包含概率分布以及症状与疾病之间的关系；推断引擎，其被配置成使用判别模型对所述概率图形模型执行贝叶斯推断，其中判别模型已经被预训练为近似于概率图形模型，使用从所述概率图形模型生成的样本来训练判别模型，其中样本的一些数据已被掩蔽以允许判别模型产生对提供与其症状有关的不完整信息的用户具有鲁棒性的数据，其中确定用户患有疾病的概率包括从判别模型中得出用户患有该疾病的概率的估计值，将这些估计值输入到推断引擎，并对概率图形模型执行近似推断，以获得对用户患有这种疾病的概率的预测。医疗诊断系统需要大量的计算资源，诸如处理器容量。所公开的系统和方法通过技术解决方案来解决该技术问题，即通过在判别模型(例如神经网络)的帮助下对PGM进行近似统计推断以提供对后验概率的估计。对判别模型进行训练，以使它对于提供与其症状有关的不完整信息的用户具有鲁棒性。因此，以上内容允许系统使用这种新的近似推断来产生答案，其准确度可与使用精确的或已经存在的近似推断技术相提并论，但是所需的时间很少，并且所需的处理减少。推断引擎可以被配置成在条件边缘上执行重要性采样。然而，可以使用其它方法，诸如变分推断、其它蒙特卡洛方法等。判别模型可以是神经网络。在一些实施例中，神经网络是单个神经网络，在其它实施例中，神经网络如另一实施例A中所述。神经网络可以近似于概率图形模型的输出，因此在本文档的后面将其称为通用边缘化器(UM)。在实施例中，概率图形模型是noisy-OR模型。因为执行概率推断在计算上是昂贵的，并且在需要大规模贝叶斯网络进行临床稳固诊断的医学中，应用精确的推断技术是不可行的。取而代之的是，使用基于采样的近似算法，该算法为到真实后验的收敛提供了理论上的保证(在中心极限定理下)。在医学诊断的背景下，这相当于基于证据和基础模型得出了真正的疾病差异。由于真正的‘目标’(后验)分布提前未知，因此推断的任务是从独立的‘建议’分布中采样，理想情况下，该分布应尽可能接近目标。将贝叶斯网络用于医疗决策时，标准方法是先使用模型作为建议分布。然而，这通常不是理想的，特别是在罕见疾病引起异常症状组合的情况下。在这些和类似情况下，通常需要大量样本以减小真实后验估计值中的方差；这对使用采样算法进行推断构成了重大的实际约束。因此，除了最简单的症状表现之外，通常很难匹配人类医生的诊断速度。这是因为，对于认知任务，人类在摊还推断的环境中进行操作，即‘他们必须解决许多类似的推断问题，因此可以随时间将部分计算工作分担给共享预计算和自适应’。如上所述，在建议接近后验的情况下，需要抽取的样本较少，因此推断将更加迅速。图1是根据实施例的方法的示意图。患者101在步骤S103中经由接口105输入他们的症状。患者还可以输入他们的风险因素，例如，他们是否吸烟，他们的体重等等。该接口可以适于询问患者101特定问题。或者，患者可以只输入自由文本。患者的风险因素可能来自保存在数据库(未示出)中的患者记录。因此，一旦患者识别出自己，就可以经由系统访问与患者有关的数据。 6 CN 111602150 A 说　明　书 3/20 页在其它实施例中，接口105可以询问后续问题。稍后将说明如何实现。首先，将假设患者在过程开始时向系统提供了所有可能的信息(证据)。这将用于说明基本过程。然而，随后将在患者仅通过系统提供部分信息的情况下说明该程序的变动，一旦完成第一次分析，便要求提供进一步的信息。证据将被视为存在或不存在所有已知的症状和风险因素。对于患者无法做出反应的症状和风险因素，这些假设为未知。接着，在步骤S107中将该证据传递到推断引擎109。推断引擎109对PGM 120执行贝叶斯推断。在讨论图1之后，将参考图2更详细地描述PGM120。由于PGM 120的尺寸，不可能在现实的时标中使用推断引擎109执行精确的推断。因此，推断引擎109执行近似推断。在实施例中，推断引擎109被配置成执行重要性采样。参考下面的等式3描述重要性采样。当执行近似推断时，推断引擎109需要PGM内的概率分布的近似来充当用于采样的建议。在步骤S111中，将证据传递到所谓的通用边缘化器(UM)113。将参考图3和图4对UM进行更详细的描述。总之，UM是已经被训练以近似于PGM 120的输出的神经网络。将参考图3详细描述UM的训练。然而，UM是可以近似于整个PGM 120的行为的模型。在一个实施例中，UM是单个神经网络，在另一实施例中，该模型是包括几个子网的神经网络，使得整个架构是类似于自动编码器模型但具有多个分支的形式。因此，这是在UM标题中使用“通用”的原因。此外，将参考图3描述的UM被训练为对给出不完整答案的患者具有鲁棒性。这是经由用于训练UM的掩蔽过程来实现的，此过程将参考图3进行描述。在步骤S115中，UM将用作建议的概率返回给推断引擎109。然后，推断引擎109使用作为估计值的来自UM的建议和PGM 120来执行重要性采样。推断引擎109计算所有疾病的“可能性”(条件边缘概率)P(Disease_i|Evidence)。此外，推断引擎还可以确定： P(Symptom_i|Evidence)， P(Risk factor_i|Evidence) 由此，可以在步骤S117中考虑到由患者101提供的证据将与疾病的“可能性”有关的信息传输回给接口105。接口105然后可以在步骤S119中将该信息提供返回给患者。上面对系统的高级说明是假定患者提供了所有可能的与其症状有关的证据，并且该系统可以访问患者能够给出确定答案的所有可能的风险因素。然而，在许多情况下，患者只会将这些信息的一小部分作为对系统的第一输入。例如，如果患者患有胃痛，则该患者可能会表明自己患有胃痛，但在没有提示的情况下可能没有更多的进一步信息。在另一实施例中，系统确定是否需要来自患者101的进一步信息。如上所述，推断引擎109确定：所有疾病的P(Disease_i|Evidence) P(Symptom_i|Evidence)， P(Risk factor_i|Evidence) 可以使用信息分析(VoI)的值从上述可能性中确定提出另一个问题是否会改善诊断的概率。例如，如果系统的初始输出似乎有9种疾病，基于证据，每种疾病的概率都为 10％，那么再提出另一问题将允许做出更精确和有用的诊断。在实施例中，基于最有效地减 7 CN 111602150 A 说　明　书 4/20 页小系统的熵的问题来确定接着要提出的另一问题。在一个实施例中，用于确定是否应该提出另一问题且该问题你应基于什么内容的分析纯粹取决于提供概率估计值的UM 113的输出。然而，在另一实施例中，使用用于做出该决定的UM经由重要性采样从PGM直接得出概率。一旦用户提供了进一步的信息，然后就将其来回传递给推断引擎109以更新证据，从而产生更新后的概率。图2是图1的系统中所用类型的图形模型的描述。图形模型提供了自然框架来表述随机变量之间的概率关系，以利于因果建模和作出决策。在图1的模型中，当用于诊断时，D代表诊断，S代表症状，且RF代表风险因素。三层：风险因素、疾病和症状。风险因素导致(以某种概率)影响其它风险因素和疾病，疾病(同样，以某种概率)导致其它疾病和症状。存在先验概率和条件边缘来描述联系的“强度”(概率)。现在，我们使用noisy-OR和noisy-MAX建模假设。在该简化的特定示例中，该模型用于诊断领域。在第一层中，有三个节点S1、S2和 S3，在第二层中，有三个节点D1、D2和D3，在第三层中，有两个节点RF1、RF2和RF3。在图1的图形模型中，每个箭头表示依赖性。例如，D1取决于RF1和RF2。D2取决于RF2、 RF3和D1。进一步的关系是可能的。在所示的图形模型中，每个节点仅取决于来自不同层的一个或多个节点。然而，节点可能取决于同一层内的其它节点。在实施例中，图1的图形模型是贝叶斯网络。在该贝叶斯网络中，网络经由有向无环图表示一组随机变量及其条件相关性。因此，在图2的网络中，给定关于症状S1、S2和S3以及风险因素RF1、RF2和RF3的全部(或部分)证据，该网络可用于表示各种疾病D1、D2和D3的概率。 BN基于观测到的证据，允许概率推断来更新人们对一系列事件的概率的信念。然而，在大型图形模型上执行推断是计算昂贵的。为了减少计算任务，使用了变分推断或蒙特卡洛方法的近似推断技术。综上所述 i.图2表示生成模型P(RF,D,S)＝P(RF)P(D|RF)P(S|D)。 ii.为了简化说明，将假定所有节点都是二进制的。 iii.通过从生成模型中采样来训练判别模型UM(例如，前馈神经网络)。 iv.每个样本(即，组合矢量(RF，D，S))成为训练示例。 1 .对于一个训练示例的输入，样本矢量的每个元素的值都用一些概率进行“模糊”。概率可以取决于该矢量元素的值而有所不同；如果是这种情况，则应根据概率对交叉熵损失进行适当加权。 2.输出确切地包含样本，而没有任何模糊。样本矢量的每个元素都是单独的独立输出节点。 v.损失函数是每个输出节点的交叉熵。 vi.由于使用了交叉熵，因此判别模型有望精确地学习条件边缘P(node|partial_ obscured(RF,D,S))，其中node可以是任何风险因素、疾病或症状。 vii.这允许使用经过训练的判别模型直接以对后验进行近似，或将该近似用作任何推断方法的建议(例如，作为蒙特卡洛方法的建议或变分推断的起点等)。 8 CN 111602150 A 说　明　书 5/20 页 viii.然后，可以将该条件边缘近似用于通过逐个节点迭代而从分布的联合处进行采样，在每次迭代中风险因素和症状越来越少被模糊。在本文所教示的方法中，可以提供关于推断结果的理论保证(到真实后验的收敛)。当将系统应用于敏感性质的决策(例如，医学或金融)时，这特别有用。在实施例中，由于真实的后验(目标分布)是未知的，所以推断的任务是从独立的 ‘建议’分布中采样，理想情况下，该‘建议’分布尽可能接近目标分布。在贝叶斯网络上进行推断时，通常使用先验作为建议分布。然而，在使用BN建模罕见事件的情况下，需要大量样本来减少后验估计中的方差。在实施例中，通过考虑随机变量组X＝{X1 ,……XN}来执行推断。BN是有向无环图 (DAG)(其中Xi为节点)与Xi,P的联合分布的组合。分布P可以根据DAG的结构进行分解，其中P(Xi|Pa(Xi))是给定Xi的父节点Pa(Xi)的情况下Xi的条件分布。只要X1； X2；::::；XN按拓扑顺序排列，第二个等式就成立。现在，考虑一组观测节点及其观测值要在提供一组未观测到的变量时进行贝叶斯推断，即计算后验边缘：在最佳情景中，可以精确计算等式(2)。然而，如上所述，由于计算成本随有效团尺寸的增长呈指数增长，在大型BN中，精确推断变得很难，在最坏的情况下，这变成了NP难题。在实施例中，使用重要性采样。在此，在某个概率分布P下考虑估计其期望Ep[f]的函数f。通常情况下，我们可以至多将P评估为归一化常数，但是从中进行采样非常昂贵。在重要性采样中，通过引入称为建议分布的分布Q来估计期望Ep[f]，该分布Q可以同时进行采样和评估。得到：其中xi～Q和wi＝P(xi)/Q(xi)是重要性采样权重。如果只能至多将P评估为常数，则需要通过求和对权重进行归一化。在对BN进行推断的情况下，策略是在存在适合的Q以从进行采样的情况下用重要性采样估计量来估计在使用重要性采样从后验进行采样的情况下，权重也包含似然同样，虽然(3)中的等式对于任何适当的Q均成立，但 9 CN 111602150 A 说　明　书 6/20 页仅在极限为n→∞是正确的，并且并非所有重要采样估计量在方差方面，或等效地在收敛时间方面，具有相同的性能。例如，在似然加权中，如果与距离很远，则只有很少的权重支配估计，估计量的方差可能很大，并且除非生成太多样本，否则估计将很差。因此，联合分配将是最佳建议，因此，获得此估计对于减少重要性采样中的方差将是有帮助的。在实施例中，训练判别模型UM(:)(前馈神经网络或神经网络，其架构与自动编码器有关，但具有多个分支)，以近似于任何二进制BN的任何可能的后验边缘分布。其中n是节点总数，而是观测值。无论是否观测到，Y都是BN中每个节点的条件边缘概率的矢量(如果观测到节点X_i，则将追踪其边缘后验分布，即或为了近似于任何可能的后验边缘分布，即，给定任何可能的证据集仅需要一个模型。因此，该判别模型被描述为通用边缘化器(UM)。这种网络的存在是通用函数近似定理 (UFAT)的直接结果。通过考虑将BN中的边缘化作为函数来说明这一点，并且通过UFAT，可以通过神经网络任意近似任何可测量的函数。因此，可以将这种UM用作分布建议。用于上述UM的训练过程涉及从基础BN生成样本，在每个样本中掩蔽一些节点，然后进行训练以了解该数据的分布。此过程通过本节的其余部分进行说明，并在图3中示出。在步骤S201中，可以通过经由祖先采样从原始BN(图1的PGM 120)生成样本，来离线训练这种模型。在实施例中，使用祖先采样从概率图形模型(PGM)生成无偏样本。每个样本是二进制矢量，其将是分类器要学习进行预测的值。在实施例中，出于预测的目的，然后在步骤S203中隐藏或“掩蔽”样本中的一些节点。这种掩蔽要么是确定性的(就总是掩蔽某些节点而言)，要么对于节点是概率性的。在实施例中，通过选择掩蔽概率p～U[0，1]，然后用概率p掩蔽该样本中的所有数据来针对每个样本概率性地掩蔽每个节点(以公正的方式)。然而，在另一实施例中，掩蔽过程如在另一实施例A中所述。在步骤S205中，在输入张量中一致地表示被掩蔽的节点(或在推断时间未观测到的节点)。稍后将描述模糊节点的不同表示形式，目前，它们将被表示为‘*’。然后在步骤S207中使用交叉熵损失函数在多标签分类设置中训练神经网络，以预测所有观测到和未观测到的节点的状态。可以使用任何合理的(即，二次可微范的)损失函数。在另一实施例中，神经网络的输出可以被映射到后验概率估计值。然而，当使用交叉熵损失时，神经网络的输出恰好是预测的概率分布。在另一实施例中，如在另一实施例A中所描述，针对节点的不同子集划分损失函数以进行更有效的学习。然后，可以通过直接获取S形层的输出来使用经过训练的神经网络获得所需的概 10 CN 111602150 A 说　明　书 7/20 页率估计值。该结果可以用作后验估计值。然而，在如下所述的另一实施例中，UM与重要性采样结合以改善UM的精确性和重要性采样的速度。因此，现在在步骤S209中产生判别模型，该判别模型在给定任何观测值集的情况下将近似于所有后验边缘。请注意，通常可以分批进行判别模型的训练；对于每个批次，可以对模型中的新样本进行采样、掩蔽并馈送到判别模型训练算法；同样，通常也可以在图形处理单元上执行所有采样、掩蔽和训练。该经过训练的神经网络成为图1的UM 113，并用于生成在步骤S115中发送到推断引擎109的预测。在参考图1描述的实施例中，通过使用来自UM的预测后验作为建议来增强推断引擎中的重要性采样。使用UM IS混合，可以改善给定数量样本的结果的精确性，并最终加快推断速度，同时仍然保持重要性采样的无偏保证保持在极限范围内。在上面关于重要性采样的讨论中，我们看到整个网络的最佳建议分布Q是后验本身因此对于每个节点，最佳建议分布是其中是证据节点，而XS是在采样Xi之前已经采样的节点。现在有可能，使用上述UM针对所有节点和所有证据(条件边缘)进行近似，可以将采样节点合并到证据中以得到用于后验的近似值，并将其用作建议。具体对于节点i来说，最佳Q*为：在下面的算法1和图4中，示出了从这些近似最佳建议中进行采样的过程，其中按拓扑顺序对BN中的每个节点重复了框内的部分。在步骤S301中，接收输入并将其传递给UM(NN)。然后在步骤S303中将NN输入提供给NN(UM)。UM在步骤S305中计算其在步骤S307中提供的输出q。在步骤S309中将其提供给推断引擎以从PGM采样节点Xi。然后，将该节点值作为观测值注入然后对下一个节点重复此操作(因此，‘i:＝i 1’)。在步骤S311，我们从近似联合接收样本。也就是说，通过遵循在子节点之前对父节点进行采样的要求，并将先前采样的节点添加到下一节点的证据中，我们最终从联合分布的近似值中进行采样。这可以通过观测我们采样的概率乘积来看出。可以看出，以这种方式构造的建议Q成为后验本身： 11 CN 111602150 A 说　明　书 8/20 页该过程要求通过使用UM对节点按顺序进行采样，以在每个步骤中提供条件概率估计值。这可能会影响计算时间，具体取决于用于采样的并行化方案。然而，可以通过增加所有步骤的样本数量或批处理大小来恢复并行化效率。在重要性采样中，每个节点将以拓扑结构上先于它的节点为条件。因此，可以通过在如图3中所示的训练过程中使用“顺序掩蔽”过程来优化训练过程，其中首先我们随机选择不掩蔽任何东西的节点Xi，然后像先前一样从节点Xi 1开始掩蔽(要掩蔽的节点是随机选择的，如前所述)一些节点。这是为了获得获取训练数据的最佳方式。执行实施例的另一种方式可能涉及混合算法，如以下算法2所示。此处，实施例可能包括在给定证据的情况下仅计算一次条件边缘概率，然后为每个节点Xi构建建议，将节点的这些条件边缘(连同权重β)和条件先验分布(连同权重(1-β))混合在一起。虽然这种混合方法可能更容易并且可能减少计算开销，但是在与距离远的情况下，这只是一阶近似，因此方差会更高，并且我们通常需要更多样本才能获得可靠的估计值。通过线性组合P(Xi|Pa(Xi))和来近似的直觉很简单，将考虑证据对节点i的影响，而P(Xi|Pa(Xi))将考虑XS(即父节点)的影响。注意，也可以允许β是当前采样状态和证据的函数，例如，如果所有证据都包含在父节点中，则＝0是最佳的。图5示出了根据本发明的另一实施例的系统的布局。系统401包括处理器403，该处理器包括在主机的控制下操作的计算机处理单元 12 CN 111602150 A 说　明　书 9/20 页 (CPU)405和图形处理单元(GPU)407。GPU 407提供了非常适合于许多数字应用的简化指令集。由于简化了指令集，它们不适合以与使用CPU相同的方式用于任何通用计算，然而由于这些简化，GPU 407可以提供大量的处理核心。这使得GPU 407非常适合可以并行计算的应用。为了获得这些性能增益，通常需要对算法进行修改，以易于在GPU上实现的形式表述这种并行性。这可以经由低级定制GPU指令(例如，根据低级CUDA代码实现算法)来完成，或者，也可以通过诸如散布、聚集、张量缩减之类的常用矢量化运算以及诸如矩阵转置、乘法之类的更高级别的数字例程等更一般地表述算法。为了表述矢量化运算并利用具有GPU支持的更高级别的张量框架，可以使用诸如 TensorFlow、PyTorch等产品。一旦以矢量化形式表述计算，在实施例中，就可以使用通过为重要度采样过程生成大量的随机数，在现代GPU中使用大量处理核心。GPU使用从PGM 409获取的数据。上面使用GPU的方法用于确定后验边缘概率P(Di|evidence)，P(Si|evidence)和P (RFi|evidence)。在实施例中，使用PGM中的条件先验概率的Noisy-Or模型(例如参见Koller& Friedman 2009，概率图形模型：原理和技术，MIT出版社)。在实施例中，修改程序以改善数值稳定性并使条件先验的计算并行化。为了改善数值精确度，在实施例中，在对数域中执行大多数计算。根据对数函数的基本属性，乘法变成加法。因此，在Noisy-Or模型的示例中，不是作为λ乘积计算概率，而是计算的总和：其中xj∈{0，1}. 为了进一步改善性能，以上内容被表述为张量运算。此处，构造了lambda矩阵Λ，其中Λjk等于节点j与节点k的对数lambda值，其中如果节点k不是节点j的父节点，则Λjk＝ 0。然后P(Xi|Pa(X))＝f([xk………xl])可以表述为∑Λj：*S，其中S是样本张量，而*表示逐元素乘法。为了说明这一点，首先，示出似然加权方法。以下过程使用似然加权生成一个样本。样本是网络的完整实例，即将为网络中的所有节点分配一个状态。证据集E中的节点将被设置为观测状态，而证据中未存在的节点将在给定其父节点状态的情况下根据他们的条件概率被随机采样。 13 CN 111602150 A 说　明　书 10/20 页然后可以通过重复调用M次上述过程来生成M个样本，以估计概率查询y，然后将估计值计算为：其中I是如果样本m的采样状态y与目标y相同则等于1的指标函数。在二进制节点中，这仅意味着在y为真的情况下将所有权重相加，然后将其除以权重的总和。然后可以将该程序扩展为重要性采样，如下所示：此处的主要区别在于，现在可以从Q采样并通过比率p/q校正权重，而不是直接从P 采样。只需通过一次生成一批多个样本，就可以在GPU上实现并行化： 14 CN 111602150 A 说　明　书 11/20 页通过优化用于表示网络的张量的数量和大小，可以显著改善张量表示的效率-本质上是通过可在其上执行独立采样/计算的多个“层”来表示网络。使用较小的张量进行工作改善了针对整个推断过程中使用的许多张量操纵的计算速度，但由于表示同一网络的张量数量增加，因此需要增加这些操纵的次数。为了优化将网络分解为多个层，基于由每个层创建的张量大小，根据经由对三个参数的网格搜索，将经过拓扑排序的网络节点列表分成多个潜在的‘层’，即： ·最小张量大小 ·最大张量大小 ·由于张量大小按顺序增加而导致的总‘浪费’。根据度量标准测试每个网格点处的所得层： M＝(10*层数) 总浪费其中总浪费被计算为各个层的张量大小的增量增加所导致的损失。选择具有最低 M的图层组作为最佳表示。为了改善采样效率，在实施例中，将正在计算的后验的当前估计值混合到重要性采样建议分布Q中。发现这有助于收敛。为了计算当前估计值，将与上述相同的概率查询公式与到目前为止生成的样本一起使用。 q’(X_i|u_i，E)＝(1-ɑ)*q(X_i|u_i，证据) ɑ*P(X_i|证据)的当前估计值在另一实施例中，在一些情况下，通过要求更少的样本达到目标准确度，建议概率 q被保持在重要性取样器的取样效率的最大精确度范围内。如下执行裁剪： clipped_q＝min(max(q，ε)，1-ε) 在此，ε被设定为0.001。 15 CN 111602150 A 说　明　书 12/20 页在另一实施例中，为了重要性采样，将q加强(即通过重新定义建议q：＝clipping (q))以与p没有太大差异，从而减小权重的方差。一种有用的简单启发式方法是确保q使得成立，其中γ的典型值为2。在又一个实施例中，对于一些节点，采用了对noisy-OR模型的扩展，其对医学诊断特别有用，即noisy-MAX模型。对于二进制疾病节点，noisey-OR模型允许表示症状的子节点为二进制(例如，不存在|存在)。然而，noisey-MAX模型允许节点具有多种状态之一。因此，对于症状节点，例如，可以以任意数量的特定状态(例如，不存在|轻微|强|严重)对症状的严重程度进行编码。在noisy-OR模型中，每个节点-父级连接由单个概率参数(lambda)描述，而noisy-MAX算法则需要多个参数来描述节点可以存在的多种状态。因此，在我们的实施例中，通过向概率值lambda矩阵添加额外的维度，并根据该维度中的值生成分类样本(即，从多个可能的状态中进行采样，与简单的真/假相反)，来在GPU 上同样实现Noisey-MAX节点。在另外的实施例A中给出了以上的说明。除了说明上述内容外，还进行了以下实验：使用交叉熵损失来训练UM网络。具体而言，在使用每个隐藏层和Adam优化器之前，使用ReLU非线性和0.5的应用落差。如上所述，在训练UM时，有很多方法选项可以表示神经网络输入层上未观测到的节点，如参考图3所述。跟踪了三种表示： 1.32位连续表示将“假”表示为0，将“真”表示为1，并将未观测到的值表示为在0到 1之间的某个点。这类似于输入为真的概率。三个值用于未观测到的：0、0.5和节点的先验。 2.2位表示，在此，1位用于表示是否观测到该节点，而另一节点用于表示其是否为真。{(观测到的，真)，(观测到的，假)，(未观测到的，假}}＝{(1,1)，(1,0) ,(0,0)}，在信息方面等效于{真，假，未观测到的}＝{1,2,3}。 3.33位表示形式(1位连续)另一个选项是将这两种方法结合起来以允许一位表示是否观测到该节点，而另一变量为介于0和1之间的浮点数，以表示其为真的概率。为了衡量条件边缘本身的质量，提供了一些测试证据集。对于每个证据，经由对3 亿个样本的似然采样来计算出“地面实况”后验边缘。然后，使用两个主要度量来评估分布的质量。首先是平均绝对误差-计算真实节点后验和预测节点后验之间的绝对误差，然后对测试证据集取平均。第二度量是最大误差-这会在预测中的所有节点上查找最大概率误差，然后通过数据点将其平均化。网格搜索是在网络规模上进行的，并且使用表1中的两个度量来报告未观测到的表示和结果。 16 CN 111602150 A 说　明　书 13/20 页表1：20,000次迭代的平均误差/最大误差可以看出，最大的一层网络表现最佳。两种表示之间的差异并不大，但是结果表明提供先验可以帮助改善性能。接着，进行实验以评估将UM后验估计值用作为建议。为了进行比较，随着样本数量的增加，评估了测试集随时间变化的误差。这样做是为了进行标准似然加权，以及使用UM边缘作为建议分布进行重要性采样。再次测量所有案例卡的平均绝对误差和最大误差。首先，在实验上在非常好的beta(0.1)的情况下使用如上所述的近似联合分布。如果beta值为0.1，则250k样本中的等效结果被视为对750k样本进行了似然加权，因此这已经是3倍加速。虽然上面已经关于医学数据进行了描述，但是上述系统还可以用于任何存在多个相互关联的因素的确定过程，这些相互关联的因素通过观测得到证明，并且确定可能原因是需要的。例如，上述方法可以在金融系统中使用。另外，虽然以上已经将判别模型的输出用作进行近似推断的辅助，但是在一些情况下，可以单独使用由判别模型产生的估计值。另外，这类判别模型(例如神经网络)的嵌入可以用作针对诸如分类和集群或解释节点关系的任务的所提供的证据的矢量化表示，如另一实施例A中所述。另一实施例A 在图6中示出了用于本文描述的实施例的框架，该框架示出了通用边缘化器(UM)： UM对图形模型执行可缩放且有效的推断。该图示出了通过网络的一次通过。首先，(1)从PGM 中提取样本，(2)然后对值进行掩蔽，(3)经掩蔽的集通过UM，然后，(4)计算边缘后验。如上所述，概率图形模型是功能强大的工具，允许形式化有关世界的知识以及其固有不确定性的原因。在概率图形模型中存在大量用于执行推断的方法；然而，由于大量的时间负担和/或存储要求，它们的计算量很大；或在应用于大型图形模型时，它们缺乏收敛性和精确性的理论保证。为此，实施了上述通用边缘重要性采样器(UM-IS)–混合推断方案，该方案结合了对来自模型的样本进行训练的深度神经网络的灵活性，并继承了重要性采样的渐近保证。本文所述的实施例示出了如何将从图形模型中提取的样本与适当的掩蔽功能相结合，以允许训练单个神经网络从而近似任何对应的条件边缘分布，并摊还推断成本。还示出了图嵌入可以用于诸如以下项的任务：集群、分类和解释节点之间的关系。最终，该方法在大型图(＞1000个节点)上进行了基准测试，表明UM-IS显著超过了基于采样的方法同时在计算方面是高效的。在该实施例中，使用通用边缘重要性采样器(UM-IS)，这是用于图形表示和渐进精确边缘的有效计算的基于摊还推断的方法。为了计算边缘，UM仍然依赖于重要性采样(IS)。 17 CN 111602150 A 说　明　书 14/20 页使用了基于摊还推断的指导框架，该框架显著改善了采样算法的性能，而不是每次运行推断算法时从头开始计算边缘。这种加速允许将推断方案应用于交互式应用程序的大型PGM 而具有最小误差。此外，神经网络可用于计算证据节点的矢量化表示。然后，该表示可以用于各种机器学习任务，诸如节点集群和分类。该实施例的主要贡献如下： ·UM-IS被用作基于摊还推断的重要性采样的新算法。该模型具有深度神经网络的灵活性以执行摊还推断。神经网络只对先验模型的样本进行训练，并且受益于重要性采样的渐近保证。 ·重要性采样的效率得到了显著改善，这使所提出的方法适用于依赖大型PGM的交互式应用程序。 ·将在各种模型网络和医学知识图(＞1000个节点)上示出，所提出的UM-IS在计算效率方面大幅度超过了基于采样和基于深度学习的方法。 ·将示出网络嵌入可以用作所提供证据的矢量化表示，以用于诸如分类和集群或节点关系的解释的任务。如上所述，通用边缘化器(UM)是前馈神经网络，用于对任何规模的通用PGM执行快速的单次近似推断。UM可以与重要性采样一起用作建议分布，以便在估计受关注的边缘时获得渐近精确的结果。该混合模型将被称为通用边缘重要性采样器(UM-IS)。如上所述，贝叶斯网络(BN)通过有向无环图(DAG)对随机变量X＝{X1，…，XN}上的分布P进行编码，该随机变量是图的节点，边沿决定了随机变量之间的条件独立性关系。具体而言，将给定其父节点pa(Xi)的随机变量Xi的条件独立性表示为P(Xi|pa(Xi))。随机变量可以分为两个不相交的集合：是BN内观测到变量组，是未观测到的变量组。在该实施例中，神经网络(NN)被实现为在给定任何观测值组的实例的情况下，针对每个变量Xi∈X的边缘后验分布的近似。定义为实例化的编码，该编码指定要观测的变量及其值如何。对于一组二进制变量Xi，其中i∈0，…，N，所需网络将N维二进制矢量映射到[0,1]N中表示概率的矢量：该NN用作函数近似器，因此，在给定任意证据集的情况下，它可以近似于任何后验边缘分布。因此，该判别模型称为通用边缘化器(UM)。如果将贝叶斯网络中的边缘化运算视为函数f：BN→[0，1]N，则存在可以近似于该函数的神经网络是通用函数近似定理 (UFAT)的直接结果。它指出，在平滑度的温和假设下，任何连续函数都可以通过有限但足够大的隐藏单元数量的神经网络近似为任意精度。一旦优化了神经网络的权重，就可以将这些隐藏单元的激活计算为任何新的证据集。它们是证据集的压缩矢量化表示，并且可用于诸如节点集群或分类之类的任务。接着，将描述针对给定PGM的UM训练算法的每个步骤。该模型通常是多输出NN，在 PGM中每个节点具有一个输出(即每个变量Xi)。一旦经过训练，该模型可以处理任何类型的 18 CN 111602150 A 说　明　书 15/20 页输入证据实例化，并产生近似的后验边缘图7中描绘训练算法每个步骤的流程图。为简单起见，将假定训练数据(PGM的样本)是预先计算的，并且仅使用一个时期来训练UM。实际上，以下步骤1-4是分别应用于每个迷你批次的，而不是一次应用于全部训练集。这样改善了训练过程中的存储效率，并确保网络接收到各种各样的证据组合，并以P中的低概率区域为准。步骤如下： 1 .S501从PGM获取样本。通过使用祖先采样从PGM生成无偏样本(即完整分配)，可以对UM进行离线培训。此处描述的PGM仅包含二进制变量Xi，并且每个样本S Ni∈B 是二进制矢量。在接下来的步骤中，这些矢量将被部分掩蔽为输入，并且UM将被训练以重建完整的未掩蔽矢量为输出。 2.S503掩蔽。为了使网络在测试时近似于边缘后验，并且对于任何输入证据都能够这样做，对每个样本Si进行了部分掩蔽。然后，网络将接收二进制矢量作为输入，其中最初观测到的节点的子集被隐藏或掩蔽。此掩蔽可以是确定性的，即，始终掩蔽特定节点，或概率性掩蔽。在此，在优化过程期间针对每次迭代都会使用不同的掩蔽分布。这可以分两个步骤完成。首先，从均匀分布i,j～U[0，N]采样两个随机数，其中N是图中的节点数。接着，从随机选择的i(j)个节点中执行掩蔽，正(负)状态。这样，每次迭代时，正负证据与被掩蔽节点总数之间的比率是不同的。具有足够大容量的网络最终将学会捕获所有这些可能的表示。此处有一些类比在输入层中进行丢弃，因此，该方法可以独立于此问题而作为正则化器很好地工作。然而，由于所有节点的丢弃概率恒定，因此不适合该问题。 3.S505编码经掩蔽的元素。输入矢量中的经掩蔽元素Smasked可以人工复制带有未观测到的变量的查询，因此其编码必须与测试时使用的编码一致。下文详细说明编码。 4 .S507具有交叉熵损失的训练。通过最小化S形输出层和未掩蔽样本Si的多标签二进制交叉熵来训练NN。 5.S509输出：后验边缘。所需的后验边缘由最后一个NN层的输出近似。这些值可以用作边缘后验的第一估计值(UM方法)；然而，结合重要性采样，可以进一步完善这些近似值 (UM-IS方法)。 UM是判别模型，在给定一组观测值的情况下，它将近似于所有后验边缘。虽然本身是有用的，但估计的边缘不能保证无偏。为了在使用近似解的速度的同时获得渐近无偏的保证，将估计的边缘用于重要性采样中的建议。一种简单的方法是独立于对每个进行采样，其中是矢量的第i个元素。然而，即使边缘近似很好，(近似)后验边缘的乘积也可能与真实的后验联合有很大不同。 UM的通用性使以下方案成为可能，该方案将被称为顺序通用边缘化器重要性采样 (SUM-IS)。单个建议按如下顺序采样首先，引入新的部分观测状态并将其初始化为然后，对进行采样，并且更新先前的采样使得现在用该值 19 CN 111602150 A 说　明　书 16/20 页观测到X1。在对进行采样每个步骤中，重复该过程，并更新以包括新的采样值。因此，在给定当前采样状态和证据的情况下，可以对节点i近似条件边缘，以得到最佳建议如下所示：因此，完整样本是从UM给出的近似后验联合分布的隐式编码中提取的。这是因为从等式A.3提取的概率乘积在用作建议分布时预期会产生低方差重要性权重。算法1A和图8中示出了这些建议中进行采样的过程。使用UM对节点按顺序进行采样，以在每个步骤中提供条件概率估计值。此要求可能会影响计算时间，具体取决于用于采样的并行化方案。在我们的实验中，我们观测到可以通过增加每批样本的数量来恢复一些并行化效率。算法1A顺序通用边缘化器重要性采样 [0200] 图9中示出了UM的架构。它具有带有多个分支的降噪自动编码器结构-图形的每个节点有一个分支。在实验中，注意到不同节点的交叉熵损失高度取决于父节点数及其在图中的深度。为了简化网络并减少参数数量，共享与特定节点类型相对应的所有完全连接层的权重。这些类型由图中的深度来定义(类型1节点没有父节点，类型2节点只有类型1节点作为父节点，依此类推)。大型医学图上性能最佳的模型的架构具有三种类型的节点，并且 20 CN 111602150 A 说　明　书 17/20 页嵌入层具有2048个隐藏状态。 [0201] 在实验中，选择对测试集在平均绝对误差(MAE)方面性能最佳的UM用于后续实验。在最后一个隐藏层上使用ReLU非线性应用丢弃，并使用Adam优化方法，其中每批2000个样本的批量大小用于参数学习。在完全连接的层之间也使用批处理规范化。为了在大型医学图形模型上训练模型，总共使用了3×1011个样本流，在单个GPU上花费了大约6天的时间。 [0202] 在大型(＞1000个节点)专有贝叶斯网络上进行实验用于医学诊断，该医学诊断表示风险因素、疾病与症状之间的关系。图10(c)中给出了模型结构的说明。 [0203] 通过对超参数的值以及隐藏层的数量、每个隐藏层的状态数量、学习率和通过丢弃进行正则化的强度进行网格搜索，尝试了不同的NN架构。 [0204] 经由对3亿个样本的祖先采样使用针对200个证据集计算出的后验边缘测试集来测量近似条件边缘的质量。医学图的测试证据集是由专家根据真实数据生成的。从均匀分布中采样用于合成图的测试证据集。使用标准重要性采样，该采样对应于5天过程中具有8 个GPU的离散贝叶斯网络的似然加权算法，以计算所有测试集的精确边缘后验。 [0205] 考虑了两个主要度量：真实和预测节点后验的绝对差给出的平均绝对误差(MAE)，以及真实和预测边缘矢量的皮尔逊相关系数(PCC)。请注意，我们没有观测到负相关，因此这两个量度均介于0和1之间。有效样本大小(ESS)统计量用于与标准重要性采样进行比较。该统计数据衡量采样期间使用的不同建议分布的效率。在这种情况下，无法访问后验分布的归一化常数，将ESS定义为其中在算法1A的步骤8中定义权重wi。 [0206] 对于未观测和观测到的节点，考虑使用热编码。该表示对于每个节点仅需要两个二进制值。一个值表示是否观测到该节点并且为正([0,1])，而另一个值表示是否观测到该节点并且为负([1,0])。如果该节点未被观测或掩蔽，则两个值均设置为零([0,0])。 [0207] 在本节中，首先将讨论UM的不同架构的结果，然后将重要性采样的性能与不同的建议功能进行比较。最后，将讨论算法的效率。 [0208] 在不同的网络架构和数据表示上使用了超参数网格搜索。对于不同类型的数据表示，算法性能没有受到很大影响。假设这是由于以下事实：神经网络是灵活的模型，其能够通过捕获隐藏层中的表示来有效地处理不同类型的输入。相反，UM的网络架构在很大程度上取决于PGM的结构。因此，需要为每个PGM训练特定的UM。这项任务在计算上可能会很昂贵，但是一旦对UM进行了训练，就可以在任何新的甚至看不见的证据集上，通过一次正向传递计算近似边缘。 [0209] 为了评估采样算法的性能，相对于样本总数，监测了测试集上PCC和MAE的变化。请注意，在所有实验中，当将UM预测用作重要性采样的建议时，观测到最大值或PCC的增加更快。随着图形模型大小的增加，此效果变得更加明显。图10指示在具有96个节点的小型网络上，标准IS(蓝线)达到接近1的PCC和接近0的MAE。在非常小的图形的情况下，两种算法都可以迅速收敛到精确的解。然而，如图10(a)中所示，UM-IS(橙色线)仍然优于IS，并且收敛速度更快。对于具有798个节点的合成图，标准IS在106个样本的情况下可以达到0.012的MAE，而对于相同数量的样本，UM-IS误差要低3倍(0.004)。对于PCC也可以得出相同的结论。最受关注的是，在大型医学PGM上(图10(c))，就MAE和PCC而言，具有105个样本的UM-IS的性能优 21 CN 111602150 A 说　明　书 18/20 页于具有105个样本的标准IS。换句话说，推断算法的时间(和计算成本)显著减少了十倍或更多。可以预期的是在更大的图形模型上这种改进将更加强大。还包括简单UM架构的结果作为基准。这个简单的UM(UM-IS-Basic)具有一个单独的隐藏层，可供PGM的所有节点共享。可以看出，MAE和PCC仍优于标准IS。然而，每组节点具有多个完全连接的层的UM-IS较大程度地显著优于基本UM。有两个原因。首先，UM的模型容量更高，其允许从数据中学习更复杂的结构。其次，UM中的损失分布在所有节点组中，并且梯度更新步骤针对每个组以正确的数量级进行了优化。这可以防止模型过度拟合到特定类型节点的状态，而损失明显更高。 [0210] 从证据集中提取有意义的表示是UM的另一个受关注特征。在本节中，将说明此应用程序的定性结果。图形嵌入被提取为UM内层的2048维激活(请参见图9)。它们是证据集的低维矢量化表示，其中保存了图形结构。这意味着在PGM中紧密连接的节点的距离应小于到独立节点的距离。为了使该特征可视化，绘制了来自不同证据集的嵌入的前两个主要分量，其中已知它们是相关的。在不同的疾病、风险因素和症状作为节点的情况下，使用医学PGM 的证据集。图11(a)示出了患有活动性1型和2型糖尿病的集合的嵌入是并存的。虽然两种疾病在图形模型中具有不同的根本原因和联系(即分别是胰腺β细胞萎缩和抗胰岛素)，但它们共享相似的症状和并发症(例如心血管疾病、神经病、感染风险增加等)。在图11(b)中可以看到两个心血管风险因素的相似集群：吸烟和肥胖，受关注的是与患有严重心脏病(例如不稳定的心绞痛或急性冠状动脉综合征)的患者的体征并存：休息时胸痛。 [0211] 为了进一步评估UM嵌入的质量，对具有不同特征和两个不同分类器的节点分类进行了实验。更准确地说，训练了具有阈值二进制输出的SVM和Ridge回归模型以进行多任务疾病检测。对这些模型进行了训练，以从(a)证据集或(b)该证据集的嵌入中检测出14种最常见的疾病。5倍标准交叉验证与两个模型的超参数以及用于数据预处理的PCA组件数量的网格搜索一起使用。表1A示出了两种类型特征的实验结果。正如预期的那样，在UM嵌入中训练的模型在所有评估测量中实现明显较高的性能。这主要是因为证据集的嵌入被有效地压缩和结构化，并且还保留了图形结构中的信息。请注意，在UM学习阶段，使用大量生成的样本(3*1011)优化了从证据集到嵌入的映射。因此，这些表示可用于构建更鲁棒的机器学习方法以进行分类和集群，而不是针对PGM使用原始证据集。 [0212] 表1A：使用两种不同特征的分类性能。每个分类器都经过训练-密集密集嵌入作为特征，并输入-顶层(UM输入)作为特征。目标(输出)始终是疾病层。 [0213] [0214] 上面的实施例论文讨论了基于神经网络的通用边缘化器，该神经网络可以近似 PGM的所有条件边缘分布。结果表明，可以经由BN的链分解而使用UM来近似联合后验分布，从而可以进行重要性采样的最佳建议分布。虽然该过程在计算上很昂贵，但是可以使用一阶近似，每个证据集只需要对UM进行一次评估。对多个数据集以及大型医学PGM上的UM进行了评估，表明UM显著改善了重要性采样的效率。使用大量生成的训练样本对UM进行脱机训 22 CN 111602150 A 说　明　书 19/20 页练，因此，该模型学会了用于摊还推断成本的有效表示方法。这种加速使UM(结合重要性采样)适用于超大型PGM上需要高性能的交互式应用程序。此外，还探索了UM嵌入的使用，并表明它们可用于诸如分类、集群和节点关系的可解释性之类的任务。这些UM嵌入使构建依赖于大型生成模型的更稳固的机器学习应用程序成为可能。 [0215] 接着，为完整起见，将描述重要性采样的概述以及如何用于计算给定一组证据的 PGM的边缘。 [0216] 在BN推断中，重要性采样(IS)用于提供后验边缘估计值为此，样本是从称为建议分布的分布中得出的。必须定义建议分布，以便可以有效执行采样和评估。 [0217] 假设可以评估并且该分布使得包含的马尔可夫边界及其所有祖先，IS表示可以形成后验估计值，如下面的公式B1所示： [0218] [0219] 其中xi～Q和是重要性采样权重，而是的指标函数。 [0220] 最简单的建议分配是先验然而，由于先验和后验可能会非常不同(尤其是在大型网络中)，因此这通常是一种效率低下的方法。一种替代方法是使用后验分布的估计值作为建议。在这项工作中，我们认为UM学习了最佳的建议分布。 [0221] 在实施例中，为了从后验边缘采样，可以考虑使用伯努利节点并且具有任意大小和形状的BN。考虑两个特定的节点Xi和Xj，使得Xj仅由且始终由Xi引起： [0222] P(Xj＝1|Xi＝1)＝1， [0223] P(Xj＝1|Xi＝0)＝0. [0224] 给定证据E，可以假定P(Xi|E)＝0:001＝P(Xj|E)。现在将说明，使用后验分布P(X| E)作为建议不一定会产生最佳结果。 [0225] 假设我们已经得到证据E，并且真实条件概率P(Xi|E)＝0:001，因此同样P(Xj|E)＝ 0:001。天真地希望P(X|E)是最优建议分布。然而，我们可以通过以Q＝P(X|E)作为建议进行采样来说明问题。 [0226] 每个节点k∈N的权重将为wk＝P(Xk)/Q(Xk)，而样本的总权重将为 [0227] 23 CN 111602150 A 说　明　书 20/20 页 [0228] 如果Q接近P，则权重应约为1。然而，请考虑wj。Xi和Xj有四种组合。将仅采样Xi＝1， Xj＝1，期望每百万个样本采样一次，然而当确定权重时，wj将为wj＝P(Xj＝1)/Q(Xj＝1)＝1 ＝0:001＝1000。这在限制范围内不是问题，然而，例如如果在前1000个样本中发生这种情况，那么它将超过到目前为止的所有其它样本。一旦存在具有条件概率比其边缘建议大得多的许多节点的网络，这几乎是不可避免的。这些高权重的另一个结果是，由于整个样本都以相同的权重加权，因此每个节点概率都将受到这种高方差的影响。 [0229] 下面列出了另外的实施例： [0230] 一种将使用上述判别模型的嵌入用作为分类提供的证据的矢量化表示的方法。 [0231] 一种将使用上述判别模型的嵌入用作为集群提供的证据的矢量化表示的方法。 [0232] 一种将使用上述判别模型的嵌入用作为解释节点关系提供的证据的矢量化表示的方法。” [0233] 虽然已经描述了某些实施例，但是这些实施例仅以示例的方式给出，并且不意图限制本发明的范围。实际上，本文描述的新颖的方法和系统可以以多种其它形式来具体实施；此外，在不脱离本发明的精神的情况下，可以对本文所述的方法和系统的形式进行各种省略、替换和改变。所附权利要求及其等效物旨在覆盖落入本发明的范围和精神内的这类修改形式。 24 CN 111602150 A 说　明　书　附　图 1/9 页图1 25 CN 111602150 A 说　明　书　附　图 2/9 页图2 图3 26 CN 111602150 A 说　明　书　附　图 3/9 页图4 27 CN 111602150 A 说　明　书　附　图 4/9 页图5 28 CN 111602150 A 说　明　书　附　图 5/9 页图6 29 CN 111602150 A 说　明　书　附　图 6/9 页图7 图8 30 CN 111602150 A 说　明　书　附　图 7/9 页图9(a) 图9(b) 31 CN 111602150 A 说　明　书　附　图 8/9 页 32 CN 111602150 A 说　明　书　附　图 9/9 页图11(a) 图11(b) 33

相关推荐