logo好方法网

程序化框架gRNA及其应用


技术摘要:
本发明涉及一种程序化框架gRNA及其应用。与亲本框架gRNA相比,所述程序化框架gRNA在Tetraloop、Loop2和Tail中的任一结构中引入腺嘌呤/鸟嘌呤混合捕获序列修饰,其中所述腺嘌呤/鸟嘌呤混合捕获序列选自SEQ ID No:1‑9中的任一项。本发明还涉及包含程序化框架gRNA的gRNA  全部
背景技术:
采用成簇的规律间隔短回文重复序列(clustered  regularly  interspaced  short  palindromic  repeats,CRISPR)进行系统性基因扰动是在高通量测序中研究基因功 能的突破性技术。其中,实验试剂获得的简易性,技术的可扩展性以及灵活性,凸显了该系 统的广泛应用前景。为了进一步扩展应用,可以对固有的CRISPR系统进行了拓展优化。拓展 优化主要分为两大类:一类是使用具有独特功能的、新的或进化的核酸内切酶,例如,dCas9 (dead  Cas9),Cpf1和Cas13a。dCas9通常与其他效应蛋白融合在一起,包括转录激活因子或 阻遏蛋白以及DNA修饰剂等,从而使CRISPR系统的编辑能力从改变DNA序列扩展到调控转录 和表观遗传。另一类拓展优化是对框架gRNA(guide  RNA  scaffold,gRNA  scaffold)进行改 进。对Cas9/gRNA复合物的结构生物学研究已经证明,框架gRNA在二级结构上的Tetraloop、 Loop2和Tail三个位置不直接与核酸内切酶相互作用,因此推测在这三个位置上添加序列 可能不会影响Cas9/gRNA复合物的功能。譬如,在框架gRNA上添加RNA适体(RNA  aptamer)序 列可以招募转录效应子或荧光分子等,使得Cas9/gRNA复合物在靶向目标序列的同时,也同 时具有了转录调控或者发荧光的功能。这大两类改进,扩充了CRISPR系统工具包,使其在原 有的定点基因编辑功能之外,实现了包括DNA编辑,表观遗传修饰,转录调控和基因组成像 等功能。然而,对于具体在这三个位置上添加何种序列,仍然需要本领域技术人员进一步的 研究。 CRISPR技术自2013年开始被应用于遗传筛选。遗传筛选的主要目的是建立基因型 和表型之间的关系。通常做法是构建大批量的基因突变体,通过观察突变体的表型,来找到 对应的基因。由于在哺乳动物中构建突变体(尤其是定点突变)的效率很低,CRISPR技术的 发明,推动遗传筛选进入了全新的时代。 在CRISPR筛选中最重要的需求之一是在单细胞分辨率下,把单个细胞的基因型、 转录组和表型结合起来分析。要建立基因型和表型之间的联系,可以通过分析一群具有特 定表型的细胞中富集或缺失的向导RNA(guide  RNA,gRNA)来实现。如果要在单细胞水平再 加入转录组的信息,则需要在转录组中包含gRNA的信息。因为gRNA同时也代表了细胞的基 因型,所以基因型、转录组和表型三者的联系能够被起来。添加转录组信息的意义在于(1) 转录组是细胞功能的重要分子特征;(2)同样表型的细胞其转录组可能并不相同,因此在单 细胞水平分析细胞的转录组有助于我们更深入的理解基因组水平突变到表型水平变化的 遗传信息传递过程。 建立单个细胞的基因型、转录组和表型三者关系的难点在于gRNA由RNA聚合酶III 转录(Polymerase  III,简写为Pol  III),其转录本不携带poly(A)尾巴,所以不能在常规的 反转录反应中通过oligo(dT)来富集。针对这个问题,目前已有的解决方案包括: 4 CN 111613272 A 说 明 书 2/35 页 (1)在gRNA表达载体中插入一个与gRNA序列关联的条形码(barcode),这些条形码 将被聚腺苷酸化,然后在逆转录(RT)过程中与内源性mRNA一起被捕获(例如,Perturb-seq, CRISP-seq,MOSAIC-seq)。然而,gRNA与条形码之间的解偶联是这类方法最大的问题; (2)CROP-seq在病毒整合过程中产生了多腺苷酸化的gRNA拷贝,避免了潜在的解 偶联。但是,表达载体能承受的插入序列长度有限,限制了其在多基因gRNA组合筛选中应 用; (3)2019年,10×Genomics公司推出了带有特征条形码(Featured  Barcode)的单 细胞3 'RNA-seq试剂盒,最近的出版物对此进行了报道(参见Replogle ,J .M .et  al.Combinatorial  single-cell  CRISPR  screens  by  direct  guide  RNA  capture  and  targeted  sequencing.Nat  Biotechnol,doi:10.1038/s41587-020-0470-y(2020))。他们 在框架gRNA的Loop2和Tail区域设计了两个捕获序列(CS1、CS2,已公布在相应试剂盒的说 明书中),这样,聚合酶III(Pol  III)转录的gRNA将携带这些特定序列,并可以被工程化的 10x  GEM磁珠捕获。但是,这些“捕获序列”依赖于特殊的RT引物,与其他单细胞RNA-seq平台 不兼容,仅适用于10×Genomics平台(下文中也称为10×平台)。 因此,本领域对于能够在单细胞分辨率下鉴定基因组扰动后的基因表达谱以及基 因型的高度灵活且易于获取的框架gRNA存在需求。
技术实现要素:
本发明旨在通过改造框架gRNA序列而构建一种程序化框架gRNA,使用所述程序化 框架gRNA进行CRISPR筛选得到的细胞群能够用于单细胞测序建库,从而能够在单细胞分辨 率下鉴定基因组扰动后的基因表达谱以及基因型。 框架gRNA是一种特殊的RNA序列。在一级序列上,框架gRNA  5’端的20个核苷酸序 列称为spacer序列,用于识别基因组中互补的目标序列并与之结合。spacer序列代表gRNA 的特异性,在gRNA文库中,通常只有代表了gRNA特异性的spacer序列在文库中每条序列之 间都是不同的。这20个核苷酸的spacer序列与下游的几十个核苷酸一起,在二级结构上形 成一些特殊的结构,与核酸酶(如Cas9)结合,将Cas核酸酶引导至目的序列进行基因编辑。 这些二级序列包括Repeat、anti-repeat、Tetraloop、Loop2等。框架gRNA的结构示意图见图 1a和图1e。 如图1e所示,框架gRNA由两部分组成:crRNA(guide repeat)和tracrRNA(anti- repeat 茎环loop1/2/3 linker组成)。Tail位置指tracrRNA尾巴部位。 本发明人通过在框架gRNA中引入特殊捕获序列,为单细胞CRISPR筛选提供了一个 直接“基因分型”的实验分析流程。这样就可以同时分析筛选后细胞的基因型、转录组和表 型信息。具体而言,本发明人使用了一个腺嘌呤/鸟嘌呤(A/G)混合捕获序列(例如,SEQ  ID  No:1-9)来模拟pol  II转录物的poly(A)尾部,含有A/G混合捕获序列的gRNA转录本可以和 内源mRNA一起被广泛使用的poly(dT)RT引物直接高效的捕获,同时,不影响原有CRISPR系 统的基因敲除或基因激活效果,充分体现了本发明的程序化框架gRNA在多种scRNA-seq平 台(如:Fluidigm  C1,Clontech  iCell8,10x  Genomics  Chromium,BGI  DNBelab等)中的应 用价值。 在第一方面,本发明提供了一种程序化框架gRNA(programmed  gRNA  scaffold)序 5 CN 111613272 A 说 明 书 3/35 页 列,与亲本框架gRNA相比,本发明的程序化框架gRNA在Tetraloop、Loop2和Tail中的任一结 构中用腺嘌呤/鸟嘌呤(A/G)混合捕获序列进行修饰。其中,所述亲本框架gRNA为没有进行 所述修饰的框架gRNA,其可以为野生型(WT)框架gRNA或其常见变种;所述腺嘌呤/鸟嘌呤 (A/G)混合捕获序列为包含腺嘌呤和鸟嘌呤的捕获序列,其可以选自SEQ  ID  No:1-9中任一 项,但不限于此;所述修饰为替换或插入,具体地,在Tetraloop和Loop2中的修饰为替换, 即,用A/G混合捕获序列替换Tetraloop或Loop2,在Tail中的修饰为插入,即,在Tail中插入 A/G混合捕获序列,更具体地,在Tail的polyT之前插入腺嘌呤/鸟嘌呤(A/G)混合捕获序列。 在优选的实施方案中,所述腺嘌呤/鸟嘌呤(A/G)混合捕获序列选自SEQ  ID  No:1、 3或7。 在优选的实施方案中,所述腺嘌呤/鸟嘌呤(A/G)混合捕获序列为SEQ  ID  No:1。在 另一个优选的实施方案中,所述腺嘌呤/鸟嘌呤(A/G)混合捕获序列为SEQ  ID  No:3。在更优 选的实施方案中,所述腺嘌呤/鸟嘌呤(A/G)混合捕获序列为SEQ  ID  No:7。 6 CN 111613272 A 说 明 书 4/35 页 通过所述程序化框架gRNA,可以在不加入其他RT引物的情况下作为单细胞RNA测 序中代表细胞基因型的index  gRNA,将scRNA-seq与CRISPR筛选相结合。本发明人研究发 7 CN 111613272 A 说 明 书 5/35 页 现,用一段混合的腺嘌呤/鸟嘌呤序列分别修饰亲本框架gRNA的三个不同位置(即,替换 Tetraloop或Loop2,在Tail的polyT前插入),而不影响CRISPR/Cas9和CRISPRa系统的性能。 同时,在不同的单细胞RNA-seq平台上,带有A/G混合捕获序列的gRNA转录本及内源性mRNA 可以同时被poly(dT)有效捕获。本发明人的研究展示了一种高度灵活且易于获取的程序性 框架gRNA,可在单细胞分辨率下鉴定基因组扰动后的基因表达谱以及基因型。 在一个实施方案中,与亲本框架gRNA相比,本发明的程序化框架gRNA在 Tetraloop、Loop2和Tail中的任一结构中引入腺嘌呤/鸟嘌呤(A/G)混合捕获序列修饰;其 中A/G混合捕获序列选自SEQ  ID  No:1-9中的任一项,所述修饰为替换或插入,具体地,在 Tetraloop和Loop2中的修饰为替换,在Tail中的修饰为插入,更具体地,在Tail的polyT之 前插入腺嘌呤/鸟嘌呤(A/G)混合捕获序列。 在一个实施方案中,A/G混合捕获序列的5’端和/或3’端可以带有接头序列。本领 域技术人员应该理解,当A/G混合捕获序列替换短环Tetraloop(序列为GAAA)或Loop2(序列 为GAAA)时,由于引入的A/G混合捕获序列较长且仍需要形成环,此时选择接头序列时通常 考虑以下两点:(1)A/G混合捕获序列两端的接头序列中有可配对的碱基存在,形成茎 (stem)结构,有益于A/G混合捕获序列形成的长环的稳定;(2)接头序列中包含能够与常用 反转录引物(例如,oligo(dT)引物序列:5’-TTTTTTTTTTTTTTTTTTVN-3’,其中T的长度可变, 一般在20~40个碱基左右,V代表除了T以外的任意碱基,N代表任意碱基)中的“VN”互补的 碱基,为反转录引物提供引发位点(priming  site),有利于提高反转录效率;当在Tail中插 入A/G混合捕获序列时,通常出于减少空间位阻的考虑而选择合适的接头序列。因此,适用 于本发明的接头序列没有特殊限制,基于上述教导和本发明示例性的接头序列,本领域的 技术人员能够选择合适的接头序列。 在一个示例性而非限制性的实施方案中,当A/G混合捕获序列替换短环Tetraloop (序列为GAAA)时,A/G混合捕获序列5’端的接头序列可以为GCG,3’端的接头序列可以为C。 其中5’端的接头序列中第一个G与3’端的接头序列C配对,该额外添加的碱基配对延伸了亲 本框架gRNA中的stem长度,能够更好地稳定比亲本序列更大的环(由A/G混合捕获序列形 成)。此外,5’端的接头序列中的第二和第三个碱基“CG”,将在反转录过程中起到更好的与 反转录引物互补的作用。 在一个示例性而非限制性的实施方案中,当A/G混合捕获序列替换短环Loop2(序 列为GAAA)时,A/G混合捕获序列5’端的接头序列可以为GGCCCG,3’端的接头序列可以为 GGCC。 在另一个示例性而非限制性的实施方案中,当A/G混合捕获序列插入在Tail的 polyT之前时,A/G混合捕获序列5’端的接头序列可以为TCGG。 由此可见,本发明的程序化框架gRNA具有在逆转录反应中被常规的RT引物oligo (dT)捕获的性质,进一步使gRNA转录本成为标记细胞基因型的index  gRNA。 用于本发明时,术语“程序化框架gRNA”是指在亲本框架gRNA的基础上,在三个位 置(即,Tetraloop、Loop2、Tail)中任一个中用A/G混合捕获序列进行修饰而构建的框架 gRNA,称为“程序化框架gRNA”。Tetraloop、Loop2、Tail这三个位置是gRNA与Cas9核酸酶结 合时的非关键位点。本发明人首次发现在其中用A/G混合捕获序列修饰而构建的程序化框 架gRNA可以用于在CRISPR筛选后直接抓取gRNA转录本,其技术效果优于现有技术中对其中 8 CN 111613272 A 说 明 书 6/35 页 两个区域改造得到的框架gRNA(例如,10x  Genomics公司在框架gRNA的Loop2和Tail区域中 插入捕获序列CS1和CS2)。以引入SEQ  ID  No:1(AAAAAAAAGAAAAAAAGAAAAAAAGAAAAA,后文以 8A8G表示)所示的A/G混合捕获序列为例,在亲本框架gRNA的Tetraloop、Loop2或Tail中引 入8A8G混合捕获序列修饰的结构示意图分别显示在图1b、图1c和图1d中,相对应的不含5’ 端Spacer序列的程序化框架gRNA的序列分别显示在图9B、图9C和图9D中。 在一个实施方案中,本发明还提供包含本发明第一方面的程序化框架gRNA的载 体,例如,包含本发明第一方面的程序化框架gRNA的表达载体。 在一个实施方案中,本发明还提供包含本发明第一方面的程序化框架gRNA的细 胞。在另一个实施方案中,本发明还提供包含含有本发明第一方面的程序化框架gRNA的载 体的细胞。 在本发明中,对细胞没有特别限制,可以是原核细胞或真核细胞,例如,但不限于, 本领域常用的各种真核细胞或原核细胞,例如,K562细胞、Jurkat细胞、HEK293T细胞、酵母 细胞、大肠杆菌细胞等。 在第二方面,本发明提供一种gRNA表达盒,其在5’至3’方向依次包含启动子、tRNA 和程序化框架gRNA,其结构如式I所示,其中在启动子3’末端与程序化框架gRNA的5’末端 (更具体地,为spacer序列的5’末端)之间添加tRNA: 其中从左至右为5’至3’方向,程序化框架gRNA表示本发明第一方面的程序化框架 gRNA。 启动子可以根据研究需要选择,例如,但不限于,Pol  III启动子或Pol  II启动子 等,优选Pol  III启动子,更优选U6启动子,最优选人U6启动子。 tRNA可以根据研究需要选择,例如,但不限于人tRNA(Gln)(SEQ  ID  No:14)或水稻 tRNA(Gly)(SEQ  ID  No:15)。 人tRNA(Gln)(SEQ  ID  No:14): GGTTCCATGGTGTAATGGTTAGCACTCTGGACTCTGAATCCAGCGATCCGAGTTCAAATCTCGGTGGAA CCT 水稻tRNA(Gly)(SEQ  ID  No:15): AACAAAGCACCAGTGGTCTAGTGGTAGAATAGTACCCTGCCACGGTACAGACCCGGGTTCGATTCCCGG CTGGTGCA 在一个优选的实施方案中,启动子为U6启动子,即,所述gRNA表达盒的结构如式I’ 所示: 其中从左至右为5’至3’方向,U6表示U6启动子,程序化框架gRNA表示本发明第一 方面的程序化框架gRNA。U6启动子优选为人U6启动子 tRNA可以根据研究需要选择,例如,但不限于人tRNA(Gln)(SEQ  ID  No:14)或水稻 tRNA(Gly)(SEQ  ID  No:15)。 9 CN 111613272 A 说 明 书 7/35 页 在一个实施方案中,本发明还提供包含本发明第二方面的gRNA表达盒的载体,例 如,包含本发明第二方面的gRNA表达盒的表达载体。 在一个实施方案中,本发明还提供包含本发明第二方面的gRNA表达盒的细胞。在 另一个实施方案中,本发明还提供包含含有本发明第二方面的gRNA表达盒的载体的细胞。 在第三方面,本发明提供一种双gRNA表达盒,其在5’至3’方向包含启动子、框架 gRNA、tRNA和程序化框架RNA,其中tRNA序列位于框架gRNA与程序化框架gRNA之间,所述双 gRNA表达盒的结构如式II所示: 其中从左至右为5’至3’方向,框架gRNA表示未经本发明的A/G混合捕获序列修饰 的框架gRNA,例如,其不含5’Spacer序列的部分可以选自表1所示的序列去掉3’端polyT序 列之后的序列(即,SEQ  ID  No:10或16-20,但需去掉3’端polyT序列);程序化框架gRNA表示 本发明第一方面的程序化框架gRNA。 在式II中,程序化框架gRNA所对应的亲本框架gRNA与框架gRNA可以相同,也可以 不同。然而,为避免在使用双gRNA表达盒建库过程中,框架gRNA与程序化框架gRNA之间发生 重组,在不影响效率的前提下,程序化框架gRNA所对应的亲本框架gRNA通常与框架gRNA不 同。 启动子可以根据研究需要选择,例如,但不限于,Pol  III启动子或Pol  II启动子 等,优选Pol  III启动子,更优选U6启动子,最优选人U6启动子。 tRNA可以根据研究需要选择,例如,但不限于人tRNA(Gln)(SEQ  ID  No:14)或水稻 tRNA(Gly)(SEQ  ID  No:15)。 在一个实施方案中,启动子之后的框架gRNA也可以是本发明第一方面的程序化框 架gRNA去掉3’端polyT的序列。考虑到当双gRNA表达盒中存在两个程序化框架gRNA时,与仅 包含一个程序化框架gRNA的双gRNA表达盒相比,这种表达盒的序列变得更长,在构建gRNA 表达载体的过程中容易引入重组,仅包含一个程序化框架gRNA的双gRNA表达盒即可实现 CRISPR筛选后建库测序gRNA转录本的目的。 在一个优选的实施方案中,启动子为U6启动子,即,所述双gRNA表达盒的结构如式 II’所示: 其中从左至右为5’至3’方向,U6表示U6启动子,框架gRNA表示未经本发明的A/G混 合捕获序列修饰的框架gRNA,例如,其不含5’Spacer序列的部分可以选自表1所示的序列去 掉3’端polyT序列之后的序列(即,SEQ  ID  No:10或16-20,但需去掉3’端polyT序列);程序 化框架gRNA表示本发明第一方面的程序化框架gRNA。U6启动子优选为人U6启动子。 tRNA可以根据研究需要选择,例如,但不限于人tRNA(Gln)(SEQ  ID  No:14)或水稻 tRNA(Gly)(SEQ  ID  No:15)。 在式II’中,程序化框架gRNA所对应的亲本框架gRNA与框架gRNA可以相同,也可以 不同。然而,为避免在使用双gRNA表达盒建库过程中,框架gRNA与程序化框架gRNA之间发生 10 CN 111613272 A 说 明 书 8/35 页 重组,在不影响效率的前提下,程序化框架gRNA所对应的亲本框架gRNA通常与框架gRNA不 同。 在一个实施方案中,所述双gRNA表达盒不含启动子的序列可以如下所示(以8A8G 作为程序化框架gRNA中的A/G混合捕获序列为例): 其中 5’端下划线的序列是不含A / G混合捕获序列的框架g R N A (其中 nnnnnnnnnnnnnnnnnnnn表示spacer序列,其通常为20个核苷酸长,与靶基因互补,spacer序 列根据研究目的而变化,因此此处用nnnnnnnnnnnnnnnnnnnn示意性表示spacer序列, spacer序列之后是表1中框架gRNA变种1(opt)去掉3’端TTTTTTT后的序列);tRNA序列是人 tRNA(Gln)(SEQ  ID  No:14)(以方框框出);tRNA的3’末端紧接着一个程序化框架gRNA(以斜 体表示),其中在Tail中插入SEQ  ID  No:1所示的A/G混合捕获序列(即,表3中RNaseMRP (8A8G-T2)对应的程序化框架gRNA(未显示5’端Spacer序列))。 在一个实施方案中,本发明还提供包含本发明第三方面的双gRNA表达盒的载体, 例如,包含本发明第三方面的双gRNA表达盒的表达载体。 在一个实施方案中,本发明还提供包含本发明第三方面的双gRNA表达盒的细胞。 在另一个实施方案中,本发明还提供包含含有本发明第三方面的双gRNA表达盒的载体的细 胞。 本发明中提供的双gRNA表达盒最大的优势在于使用程序化框架gRNA代替了原框 架gRNA,使用此设计可以同时进行多个基因的编辑,并且保持了原有框架gRNA的基因编辑 效率。此外,多个基因的gRNA转录本可以被直接polydT引物直接补获,这样仅通过一次RNA- seq实验,就可以将转录组、基因型(gRNA)、表型联系在一起,大大提高了实验效率。 与10x  Genomics公司发布的具有相同目的的单细胞3'RNA-seq试剂盒相比,10x  Genomics公司设计的两个捕获序列(CS1、CS2)依赖于特殊的RT引物,与其他单细胞RNA-seq 平台不兼容,仅适用于10×Genomics平台,并且捕获效率较本发明的技术方案差,原因是其 特殊的RT引物可能会引物非特异性扩增,导致gRNA文库中包含其他非特异性序列,本发明 人引入的A/G混合捕获序列及tRNA特异性引物提高了反应的特异性,解决了上述的非特异 性捕获问题。 现有技术中还有一些不同方法旨在生成聚合酶II(Pol  II)转录的gRNA拷贝或与 gRNA相关的条形码,这些条形码将被聚腺苷酸化,然后在逆转录(RT)过程中与内源性mRNA 11 CN 111613272 A 说 明 书 9/35 页 一起被捕获(Dixit ,A .et  al .Perturb-Seq:Dissecting  Molecular  Circuits  with  Scalable  Single-Cell  RNA  Profiling  of  Pooled  Genetic  Screens.Cell  167,1853- 1866e1817 ,doi:10.1016/j.cell.2016.11 .038(2016);Jaitin ,D.A.et  al.Dissecting  Immune  Circuits  by  Linking  CRISPR-Pooled  Screens  with  Single-Cell  RNA- Seq .Cell  167,1883-1896e1815,doi:10.1016/j.cell.2016.11.039(2016);Datlinger, P.et  al.Pooled  CRISPR  screening  with  single-cell  transcriptome  readout.Nat  Methods  14,297-301,doi:10.1038/nmeth.4177(2017);Adamson,B.et  al.A  Multiplexed  Single-Cell  CRISPR  Screening  Platform  Enables  Systematic  Dissection  of  the  Unfolded  Protein  Response .Cell  167 ,1867-1882e1821 ,doi:10 .1016/ j.cell.2016.11.048(2016))。因此,基因型、转录组和表型可以在单个细胞分辨率下链接 在一起。然而,大多数方法都涉及到复杂的克隆策略,有时还会发生gRNA  barcode解偶联即 sgRNA序列与barcode序列会发生重组,破坏原有的对应关系。CROP-seq技术解决了上述的 解偶联问题,CROP-seq在病毒整合过程中产生了多腺苷酸化的gRNA,并且没有发生解偶联, 但是,插入序列的大小限制了其在多基因gRNA组合筛选中应用。 在第四方面,本发明提供构建程序化RNA框架的方法,所述方法包括:在亲本框架 gRNA的Tetraloop、Loop2或Tail位置中的任一个中引入腺嘌呤/鸟嘌呤(A/G)混合捕获序列 修饰。其中,所述亲本框架gRNA为没有进行所述修饰的框架gRNA,其可以为野生型(WT)框架 gRNA或其常见变种(例如,表1所示的序列,其中未显示5’端Spacer序列);所述腺嘌呤/鸟嘌 呤(A/G)混合捕获序列为包含腺嘌呤和鸟嘌呤的捕获序列,其可以选自SEQ  ID  No:1-9,但 不限于此;所述修饰为替换或插入,具体地,在Tetraloop和Loop2中的修饰为替换,即,用A/ G混合捕获序列替换Tetraloop或Loop2,在Tail中的修饰为插入,即,在Tail中插入A/G混合 捕获序列,更具体地,在Tail的polyT之前插入腺嘌呤/鸟嘌呤(A/G)混合捕获序列。 在一个实施方案中,在引入A/G混合捕获序列时,还包括引入合适的接头序列。换 言之,A/G混合捕获序列的5’端和/或3’端可以带有接头序列。基于本发明第一方面的教导 和示例性的接头序列,本领域技术能够选择合适的接头序列。 本发明在亲本框架gRNA中引入A/G混合捕获序列构成本发明的程序化框架gRNA所 使用的构建方法可以为常规分子克隆方法,例如,可以包括酶切、连接、转化等常规技术。另 外,本发明的程序化框架gRNA也可以通过合成法制备。 在第五方面,本发明提供构建包含程序化框架gRNA的gRNA表达盒的方法,所述方 法包括在启动子3’末端与程序化框架gRNA的5’末端(更具体地,为spacer序列的5’末端)之 间添加tRNA。所述包含程序化框架gRNA的gRNA表达盒具有式I或式I’所示的结构。 启动子可以根据研究需要选择,例如,但不限于,Pol  III启动子或Pol  II启动子 等,优选Pol  III启动子,更优选U6启动子,最优选人U6启动子。 tRNA可以根据研究需要选择,例如,但不限于人tRNA(Gln)(SEQ  ID  No:14)或水稻 tRNA(Gly)(SEQ  ID  No:15)。 程序化框架gRNA为本发明第一方面所述的程序化框架gRNA。 构建包含程序化框架gRNA的gRNA表达盒的方法可以利用常规分子克隆方法,例 如,可以包括酶切、连接、转化等常规技术,也可以利用合成法。 在第六方面,本发明提供构建包含程序化框架gRNA的双gRNA表达盒的方法,所述 12 CN 111613272 A 说 明 书 10/35 页 方法包括在启动子3’末端添加框架gRNA,在框架gRNA3’末端与程序化框架gRNA的5’末端 (更具体地,为spacer序列的5’末端)之间添加tRNA。所述包含程序化框架gRNA的双gRNA表 达盒具有式II或式II’所示的结构。 其中,框架gRNA表示未经本发明的A/G混合捕获序列修饰的框架gRNA,例如,其不 含5’Spacer序列的部分可以选自表1所示的序列去掉3’端polyT序列之后的序列(即,SEQ  ID  No:10或16-20,但需去掉3’端polyT序列);程序化框架gRNA表示本发明第一方面的程序 化框架gRNA。 在式II或式II’中,程序化框架gRNA所对应的亲本框架gRNA与框架gRNA可以相同, 也可以不同。然而,为避免在使用双gRNA表达盒建库过程中,框架gRNA与程序化框架gRNA之 间发生重组,在不影响效率的前提下,程序化框架gRNA所对应的亲本框架gRNA通常与框架 gRNA不同。 启动子可以根据研究需要选择,例如,但不限于,Pol  III启动子或Pol  II启动子 等,优选Pol  III启动子,更优选U6启动子,最优选人U6启动子。 tRNA可以根据研究需要选择,例如,但不限于人tRNA(Gln)(SEQ  ID  No:14)或水稻 tRNA(Gly)(SEQ  ID  No:15)。 在第七方面,本发明提供使用程序化框架gRNA进行CRISPR筛选的方法,所述方法 包括使用本发明的程序化框架gRNA代替亲本框架gRNA进行CRISPR筛选。并且,也可以使用 包含本发明的程序化框架gRNA的gRNA表达盒或双gRNA表达盒代替亲本框架gRNA进行 CRISPR筛选。 在一个优选的实施方案中,本发明使用程序化框架gRNA进行CRISPR筛选的方法包 括下述步骤: a)合成gRNA文库:gRNA文库通常可以从商业化平台订购;b)构建gRNA表达载体文 库:将步骤a)中合成的gRNA文库连接到gRNA表达载体中,得到质粒文库。gRNA表达载体需要 包含分子克隆必要的元件,如抗性基因、多克隆位点、慢病毒复制需要的LTR区域(Long  terminal  repeat)、gRNA表达所需的pol  III启动子(如U6启动子)等。同时,为了能够对 CRISPR后的样品进行单细胞RNA-seq,在启动子的3’端与spacer序列的5’端之间必须包含 一个可以在RNA水平上被剪切掉的固定序列,如tRNA序列; c)构建慢病毒库:将步骤b)中构建的含有程序化框架gRNA的表达载体文库进行慢 病毒包装,并测定病毒滴度MOI; d)CRISPR筛选得到细胞群:将步骤c)得到的慢病毒库,以MOI≤0.3感染目的细胞 (MOI≤0.3即保证一个病毒进入一个细胞),经过相应的筛选策略筛选后收集存活细胞,所 收集的细胞群用于构建高通量测序文库。 在一个实施方案中,步骤d)中得到的细胞群能够直接用于RNA-seq建库测序。换言 之,使用本发明添加A/G混合捕获序列的程序化框架gRNA可以直接用于RNA-seq文库的构 建,其gRNA转录本可以直接被polyT捕获,不需要依赖专门的测序平台(例如,10×Genomics 平台需要使用他们特有的CS1/CS2序列扩增才能测序gRNA转录本)。关于RNA-seq建库方法 可以使用illumina  TruseqRNA建库,利用Tn5转座酶建库等。 在一个实施方案中,在构建gRNA表达载体文库时,在启动子的3’末端与本发明的 程序化框架gRNA的5’末端(更具体地,为spacer序列的5’末端)之间添加tRNA序列(即,构建 13 CN 111613272 A 说 明 书 11/35 页 本发明第二方面所述的gRNA表达盒),所得到的gRNA表达载体文库可以直接用于基与mRNA 建库测序的试剂盒。 使用本发明的程序化框架gRNA,通过RNA-seq即可同时获得内源转录组信息、gRNA 转录本。否则需要单独构建基于内源mRNA的RNA-seq文库及单独检测gRNA的文库(即,构建2 个测序文库)。10×Genomics平台的试剂盒可以达到与本发明相同的目的,但是经过检测, 本发明使用tRNA特异性引物进行特异性扩增,可以有更高效率的富集gRNA。 构建gRNA表达载体文库所用的表达载体可以根据研究需要进行选择,所述表达载 体包含Pol  III启动子,例如,U6启动子或H1启动子,优选U6启动子,更优选人U6启动子。 通常,gRNA可以被Pol  II启动子或者Pol  III启动子转录。然而,经Pol  II启动子 转录的转录本会进入真核mRNA加工流程,譬如5’capping、3’Tailing、RNA修饰等转录后加 工流程。这些转录后加工会影响gRNA作用为guide  RNA的性质,例如,导致gRNA离开细胞核 进入细胞质而不能进行基因组编辑。因此,通常采用Pol  III启动子转录gRNA。用于本发明 的Pol  III启动子可以是U6启动子或H1启动子,优选U6启动子,更优选人U6启动子。 其中在步骤b)中构建的gRNA表达载体中,表达载体可以包含式I’所示的gRNA表达 盒,其中在U6启动子3’末端与程序化框架gRNA的5’末端(更具体地,为spacer序列的5’末 端)之间添加tRNA: 其中从左至右为5’至3’方向,U6表示U6启动子,程序化框架gRNA表示本发明第一 方面的程序化框架gRNA。tRNA可以根据研究需要选择,例如,但不限于人tRNA(Gln)(SEQ  ID  No:14)或水稻tRNA(Gly)(SEQ  ID  No:15)。U6启动子优选为人U6启动子。 在步骤b)中构建的gRNA表达载体中,表达载体也可以包含式II’所示的双gRNA表 达盒: 其中从左至右为5’至3’方向,U6表示U6启动子,框架gRNA表示未经本发明的A/G混 合捕获序列修饰的框架gRNA,例如,其不含5’Spacer序列的部分可以选自表1所示的序列去 掉3’端polyT序列之后的序列(即,SEQ  ID  No:10或16-20,但需去掉3’端polyT序列);程序 化框架gRNA表示本发明第一方面的程序化框架gRNA。tRNA可以根据研究需要选择,例如,但 不限于人tRNA(Gln)(SEQ  ID  No:14)或水稻tRNA(Gly)(SEQ  ID  No:15)。U6启动子优选为人 U6启动子。 本发明在gRNA表达载体中引入tRNA,不仅可以提高gRNA的表达效果,而且可以用 于串联表达多个gRNA的系统。但最重要的是在RNA-seq建库中可以为特异性富集gRNA的转 录本提供特异性引物结合位点(即,上游扩增引物可以根据tRNA序列设计,下游扩增引物由 于A/G混合捕获序列的引入可以直接使用polydT)。重要的是,tRNA必须位于U6启动子的3’ 末端和程序化框架gRNA的5’末端之间。因为这段序列在单细胞RNA-seq的建库过程中需要 用到。我们用这段序列作为特异性的引物结合位点,大大提高了在每个细胞中找到gRNA序 列的几率。这是我们的数据优于10×Genomics公司的数据的最重要的原因。tRNA的引入并 14 CN 111613272 A 说 明 书 12/35 页 结合本发明的程序化框架gRNA,使得我们可以做多个gRNA  CRISPR文库筛选后的单细胞测 序。这是现有的技术方案做不到的。具体而言,一方面,本发明的程序化框架gRNA携带A/G混 合捕获序列,gRNA转录本可以与poly(dT)互补,从而被捕获,没有此类型的A/G捕获序列,仅 通过一次RNA-seq是无法获得gRNA转录本信息的。另一方面,由于gRNA表达量相比于内源 mRNA偏低,直接用来建库可能检测不到(测序平台的局限,仅测到表达高的mRNA),根据载体 上的tRNA序列设计扩增引物,我们可以特异性的进行gRNA转录本的富集,避免了非gRNA序 列的非特异性富集。10×Genomics的CS1/CS2可以进行gRNA转录本的扩增,但是它的引物不 够特异,可能会扩增内源的其他转录本,从而降低了gRNA转录本的产出,导致测序测不到相 应的gRNA转录本。 gRNA表达载体的构建方法为酶切、连接等常规分子克隆方法,所用的表达载体可 以商购获得,所需的连接序列、tRNA序列等可以合成获得,例如,由通用生物公司合成。 步骤b)中构建用于筛选的gRNA表达载体文库的方法可以是通过Golden  gate方法 构建。本领域技术人员应该理解,不同实验所用的筛选文库内容不同,可根据具体实验要求 设计,例如,可参考张峰博士研究的文库,主要是针对基因组设计多种gRNA(http:// sanjanalab.org/lib.html)。 步骤c)中构建慢病毒库(涉及慢病毒包装以及病毒转染等)按照本领域常规方法 进行,例如,可参考Tiscornia  G,Singer  O,Verma  I  M.Production  and  purification  of  lentiviral  vectors[J].Nature  Protocols,2006,1(1):241-245,或Kutner  R  H,Zhang  X  Y,Reiser  J.Production,concentration  and  titration  of  pseudotyped  HIV-1-based  lentiviral  vectors[J].Nature  Protocols,2009,4(4):495-505等。 步骤d)中,对步骤c)得到的包含用于筛选的gRNA表达载体文库的慢病毒库进行筛 选,筛选策略的选择通常取决于研究需要,例如,筛选策略可以是药杀筛选。本发明的实施 例中的筛选涉及两种方法,第一种是先使用嘌呤霉素初步筛选去除未感染病毒的细胞,再 使用NK细胞杀伤感染文库病毒之后的细胞,收集NK杀伤后存活细胞进行建库测序;第二种 是先使用嘌呤霉素及杀稻瘟菌素筛选去除未感染文库细胞,存活细胞使用相应激活剂激活 后进行建库分析。本领域技术人员应该理解,筛选慢病毒库的方法并不限于上述方法,可以 根据研究需要而选择合适的筛选策略,这在本领域技术人员的能力范围内。 在第八方面,本发明提供一种单细胞测序建库的方法,所述方法包括:(1)使用程 序化框架gRNA进行CRISPR筛选得到细胞群;以及(2)由所述细胞群构建单细胞测序用的文 库。 使用程序化框架gRNA进行CRISPR筛选得到的细胞群即为本发明第七方面的方法 步骤d)得到的细胞群。 在一个实施方案中,使用程序化框架gRNA进行CRISPR筛选可以使用本发明第二方 面的gRNA表达盒或本发明第三方面的双gRNA表达盒代替亲本框架gRNA进行。 本领域技术人员知晓,单细胞测序建库的方法有多种,例如,但不限于,SMART- seq2(2013),CEL-seq(2012),SCRB-seq(2014),Drop-seq(2015),In-Drop(2015),10× Genomics等,并且也有可商购的试剂盒,本领域技术人员可以根据实际需要选择合适的建 库方法或试剂盒对使用程序化框架gRNA进行CRISPR筛选得到的细胞群建立单细胞测序用 的文库。 15 CN 111613272 A 说 明 书 13/35 页 在一个实施方案中,以RNA-seq建库为例: 1)分别收集用本发明的程序化框架gRNA进行CRISPR筛选之前和之后的细胞并提 取RNA; 2)RNA分为两部分: ①以polydT-TSO引物进行mRNA逆转录(polydT-TSO引物序列为:AAGCAGTGGTATCA A C G C A G A G T A C T T T T T T T T T T T T T T T T T T T T T T T T T T T T T T ,其中 T S O 引物 (AAGCAGTGGTATCAACGCAGAGTACGGG)在polydT的5’端,在逆转录酶的存在下,反转录得到的 cDNA的3’端连接上TSO序列),然后将逆转录产物以TSO引物进行预扩增,随后用于建库(例 如,参见Picelli  S,Faridani  O  R ,Bjorklund  A  K ,et  al.Full-length  RNA-seq  from  single  cells  using  Smart-seq2[J].Nature  Protocols,2014,9(1):171-181.); ②另一部分RNA用于gRNA文库构建,首先以polydT-TSO引物逆转录,由于gRNA转录 本相比内源mRNA表达量低,可以采用根据tRNA设计的正向引物与TSO引物进行gRNA富集后 在建库; 3)采用TruePrep  DNA文库制备试剂盒V2(Vazyme#TD503)进行对步骤2)中的产物 进行建库。 在转录组测序文库(RNA-seq)构建过程中,一般采用poly(dT)作为逆转录引物获 得cDNA文库,此时,若框架gRNA上没有A/G混合序列,则gRNA转录本无法被获取,原因是gRNA 多为PolyIII转录,无腺苷酸尾(Poly  A尾),则polydT无法结合。使用本发明的程序化框架 gRNA可以解决这个问题:本发明的程序化框架gRNA携带有A/G混合捕获序列,gRNA转录本可 以与poly(dT)互补,从而被捕获,同时由于gRNA表达量相比于内源mRNA偏低,直接用来建库 可能检测不到(测序平台的局限,仅测到表达高的mRNA),根据载体上的tRNA序列设计扩增 引物,我们可以特异性的进行gRNA转录本的富集,避免了非gRNA序列的非特异性富集。 在另一个实施方案中,以10×Genomics平台为例: 1)使用Chromium单细胞3’试剂盒v3(PN-1000075)、Chromium单细胞B芯片试剂盒 (PN-1000153)、Chromium  i7  Multiplex试剂盒(PN-120262)制备测序文库,直到完成cDNA 预扩增步骤; 2)将扩增得到的cDNA等分为两个40uL,其中一份样品按照上述10x试剂盒操作步 骤进行:0.6×磁珠筛选后产物制备mRNA库,0.6×-1.2×双端筛选的产物制备index  gRNA 文库I;另一份等分样品先通过1.2x  AMPure微珠纯化,然后用于制备另一个index  gRNA文 库(即,index  gRNA文库II)。为了制备上述index  gRNA文库I和II,采用巢式PCR富集gRNA扩 增子,然后并入测序接头(单细胞测序方法:10x及C1系统步骤可以参照实施例3的iv和v)。 本发明中引入的tRNA序列可以作为巢式PCR引物设计的来源,并且提供结合位点,用于gRNA 转录本的扩增富集。 本发明中index  gRNA文库的构建过程中采用tRNA特异性引物(tRNA_Read2)及P5_ read1进行gRNA富集,随后用于建库。相比于10x平台的gRNA富集引物,采用本发明中tRNA_ Read2及P5_read1可以更高效且特异的扩增gRNA转录本,减少了内源非特异性扩增,提高了 gRNA文库的质量。这一步骤大大提高了gRNA转录本的检出效率。即使在10x自己的平台上, 效率也要好于10x的原生系统,同时本方法不仅局限在使用10x测序平台,可适用于其他平 台如C1等。 16 CN 111613272 A 说 明 书 14/35 页 本发明中index  gRNA文库有I和II两种方案,区别在于是否经过磁珠筛选,10x平 台gRNA建库方案跟index  gRNA  I过程相同,都需经过筛选富集,但我们使用的根据tRNA设 计的特异性富集引物较TSO引物富集效果更好。 在第九方面,本发明还提供一种用于单细胞测序的文库,所述文库由使用程序化 框架gRNA进行CRISPR筛选得到的细胞群构建。 在第十方面,本发明提供第一方面的程序化框架gRNA在CRISPR筛选中的用途,筛 选得到的细胞群可以用于构建单细胞测序用的文库。 本发明还提供第二方面的gRNA表达盒在CRISPR筛选中的用途,筛选得到的细胞群 可以用于构建单细胞测序用的文库。 本发明还提供第三方面的双gRNA表达盒在CRISPR筛选中的用途,筛选得到的细胞 群可以用于构建单细胞测序用的文库。 使用本发明的程序化框架gRNA、gRNA表达盒或双gRNA表达盒进行CRISPR筛选,筛 选得到的细胞群尤其适用于构建用于单细胞测序的文库,适用于多种测序平台,并且由于 tRNA的引入,能够特异性的进行gRNA转录本的富集,避免了非gRNA序列的非特异性富集。具 体地,对于程序化框架gRNA而言,用一段混合的腺嘌呤/鸟嘌呤序列分别修饰亲本框架gRNA 的三个不同位置(即,替换Tetraloop或Loop2,在Tail的polyT前插入),既不影响CRISPR/ Cas9和CRISPRa系统的性能。同时,在高通量测序过程中,带有A/G混合捕获序列的gRNA转录 本及内源性mRNA可以同时被poly(dT)有效捕获,可在表型已知的单细胞分辨率下鉴定基因 组扰动后的基因表达谱以及基因型。于gRNA表达盒而言,将tRNA与程序化框架gRNA结合使 用,一方面为gRNA富集提供了特异性的引物结合位点(可以根据tRNA设计),另一方面使用 程序化框架gRNA可以直接捕获gRNA转录本(只有含有A/G混合捕获序列的程序化框架gRNA 可以被polydT引物直接逆转录),解决了现框架gRNA转录本无法被polydT直接逆转捕获及 无法特异性富集转录本的问题。于双gRNA表达盒而言,除上述gRNA表达盒的优势之外,可以 同时进行多个基因的扰动,在单细胞分辨率下检测多基因扰动后,表型、基因型与基因表达 谱之间的联系。 通过结合附图和下述实施例,本领域技术人员将更清楚地了解本发明的优点。 附图说明 图1显示常规框架gRNA(即,亲本框架gRNA)和本发明构建的程序化框架gRNA的结 构示意图。 a显示常规框架gRNA(即,亲本框架gRNA)的结构示意图,其中显示了Tetraloop、 Loop2和Tail结构; b显示将Tetraloop替换为8A8G捕获序列(即,右上角的环)得到的程序化框架gRNA 的结构示意图; c显示将Loop2中替换为8A8G捕获序列(即,右侧第二个环)得到的程序化框架gRNA 的结构示意图; d显示在Tail中polyT之前插入8A8G捕获序列(即,右侧最下端的Tail(8A8G)所示 的部分)得到的程序化框架gRNA的结构示意图; e显示本领域现有的框架gRNA的详细结构示意图,图中示出了各部分的结构。 17 CN 111613272 A 说 明 书 15/35 页 图2显示程序化框架gRNA的编辑效率。 a显示在亲本框架gRNA(WT)中引入30A和8A8G捕获序列后的相对CRISPR敲除效率, 其中将亲本框架gRNA(WT)的CRISPR敲除效率设为1; b显示使用Tail-8A8G框架对CXCR4、VEGFA和DMD进行的相对CRISPR敲除效率,其中 8A8G捕获序列插入在这三种框架的Tail位置; c显示通过RT-qPCR检测的A/G混合捕获序列在逆转录中的捕获效率,检测了30A和 8A8G变体框架在Tail、Tetraloop和Loop2位置的情况,捕获效率针对亲本框架gRNA(WT)标 准化; d显示检测6个已知的VEGFA  gRNA脱靶位点的脱靶效率。在检查的所有位点上,无 论引入的位置如何,引入A/G混合捕获序列均不会增加脱靶率。 图3显示靶向不同基因验证CRISPR激活效果,使用RT-qPCR检测基因表达激活倍数 (a),并且证明程序化框架gRNA可以应用于多基因扰动CRISPR系统(b)。 a显示在不同的靶向位点上使用程序化框架gRNA(Tail-8A8G)与使用亲本框架 gRNA(WT)对基因表达激活倍数相当; b显示使用单个基因激活表达盒(single  gRNA)与使用多基因激活表达盒 (multiplexed  gRNA)对基因的激活表达效果相当。 图4显示在不同的单细胞RNA测序平台应用程序化框架gRNA的工作流程。 a显示使用10x单细胞3'试剂盒的测序方案; b显示使用10x单细胞5'试剂盒的测序方案; c显示使用SMART-seq/C1的测序方案。 图5显示程序化框架gRNA在单细胞CRISPR筛选中的作用。 a显示掺入tRNA的在Tail、Tetraloop或Loop2中引入A/G混合捕获序列的程序化框 架gRNA编辑效率; b显示收集CRISPR筛选后的细胞群并使用10x  3'单细胞RNA-seq试剂盒进行单细 胞RNA测序的流程。 图6显示使用Fluidigm  C1平台进行了小规模的演示的结果。 图7显示本发明引入A/G混合捕获序列(即,SEQ  ID  No:1-9)的程序化框架gRNA的 基因编辑效果,(A)以引入8A8G(SEQ  ID  No:1)的程序化框架gRNA的基因敲除效率为1,将引 入其他A/G混合捕获序列的程序化框架gRNA的基因敲除效率标准化;(B)本发明引入A/G混 合捕获序列的程序化框架gRNA的基因敲除效率数据。其中A/G混合捕获序列插入在Tail的 polyT之前。 图8显示使用本发明的程序化框架gRNA进行CRISPR筛选和单细胞测序的流程示意 图。 图9显示亲本框架gRNA(A)、用8A8G(SEQ  ID  No:1)分别修饰Tetraloop(B)、Loop2 (C)和Tail(D)构建的程序性框架gRNA的核苷酸序列,其中5’端Spacer序列未显示。
分享到:
收藏