这款外显子跳跃突变数据库 太好用了!

可变剪接(Alternative Splicing, AS)是在 mRAN 前体到成熟 mRNA 的过程中,不同的剪切方式使得同一个基因产生多个不同的成熟 mRNA,最终产生不同的蛋白质的过程,与多种疾病相关。

 

外显子跳跃突变(Exon Skipping, ES)是最常见的 AS 事件,指一个或多个外显子连同其两端的内含子一起被剪接,导致功能域/位点的丢失或开放解读码组(Open Reading Frame, ORF)的框移,从而引起蛋白质表达障碍。

 

ES 可导致多种人类疾病,是一类非常有前景的治疗靶点。随着测序技术的不断发展,越来越多的 ES 事件被检出。纷繁复杂的 ES 事件影响了哪些生物学进程,对疾病的发生发展以及治疗预后有何意义,对医学工作者来说十分重要。

 

今天,就向大家介绍一款功能强大的 ES 数据库——ExonSkipDB

 

ES 功能注释数据库——ExonSkipDB

 

ExonSkipDB 由美国德克萨斯大学休斯顿健康科学中心的 Xiaobo Zhou 团队构建,对大量ES事件进行了功能注释,旨在为肿瘤ES事件的功能研究提供资源和参考。

 

其数据来源于 TCGA(The Cancer Genome Atlas)和 GTEx(Genotype-Tissue Expression, GTEx)两大数据库,共包括了 33 种癌症和 31 种正常组织的 14272 个基因,以及 180000+ 个 ES 事件。

 

通过使用 ExonSkipDB 数据库,用户可以在以下方面得到帮助:

 

通过比对肿瘤和健康人群中 ES 事件的 PSI 和异构体丰度,有助于发现肿瘤特异性 ES 事件;

通过分析 ES 事件导致的蛋白质结构改变,可以加深对肿瘤驱动性 ES 事件导致的蛋白质功能缺失的理解;

通过对 ES 事件的 ORF 注释,可以发掘潜在的基因治疗靶点;

通过基于 RNA 测序数据库的分析,可以识别突变相关 ES 事件。

 

以 MET 为例,展示 ExonSkipDB 的强大功能

 

在非小细胞性肺癌中,MET 14 号外显子跳跃突变的发生率为 3%~4%,而在肺肉瘤样癌中,其突变率高达 4.9%~31.8%。MET 14 号外显子跳跃突变作为非小细胞肺癌的驱动基因,是治疗肺癌患者的新靶点。下面,让我们以 MET 为例,展示 ExonSkipDB 的强大功能。

 

1-1.png

图 1. ExonSkipDB 数据库主页

 

首先,在首页搜索框中输入「MET」进行搜索(图 1),点击基因 ID 后便会出现全部 MET 基因相关 ES 事件及其分析结果。

 

明确 ES 事件与已知基因异构体的关系,探寻潜在的疾病特异性 ES 事件。

 

为了解 ES 事件,明确已知基因异构体的结构和位置信息至关重要。下图显示了基于 RefGene 和 Ensembl 基因模型的 MET 外显子跳跃事件的示例图像(图 2),清晰展示了 MET 基因异构体与 ES 事件的关系。

 

1-2.png

图 2. 基于 RefGene 和 Ensembl 基因模型的 MET 外显子跳跃事件

 

此外,如图3 所示,通过比对 TCGA 和 GTEx 两个数据库中的异构体丰度及 PSI 等信息,使得用户可以寻找肿瘤或组织特异性 ES 事件。

 

例如,MET 在 TCGA 数据库中存在 9 个 ES 事件,其中 6 个存在于 GTEx 数据库中,3 个为肿瘤特异性 ES 事件:「外显子跳跃 470675」、「外显子跳跃 470679」和「外显子跳跃 470684」(图 3)

 

1-3.jpg

图 3. TCGA 和 GTEx 数据库的 MET 基因异构体富集分析

 

分析 ES 事件导致的蛋白质功能缺失

 

通过将 8 个 MET 的 ES 事件与 ENST 00000397752 的基因模型进行比对,发现

 

1-4.png

图 4. 各个 ES 事件的 ORF 信息

 

上述 3 个肿瘤特异性 ES 事件均为框内事件(图 4)。

 

虽然框内 ES 事件的转录本可以翻译为蛋白质,这些蛋白质的某些功能结构可能会因为 ES 事件丢失。

 

图 5 展示了这三个 ES 事件对应的蛋白质结构丢失,并标注了它们对蛋白质功能的影响。「外显子跳跃 470675」位于标准蛋白质氨基酸序列的 400 至 464 之间,这一 ES 事件可引起 Sema 域(PROSITE-ProRule:PRU00352)丢失;「外显子跳跃 470684」位于标准蛋白质氨基酸序列的 1009 至 1086 之间,这一 ES 事件可能会导致蛋白激酶结构域(PROSITEProRule:PRU00159)和易位点的丢失,从而形成 TPR-MET 癌基因;「外显子跳跃 470683」位于标准蛋白质氨基酸序列的 962 至 1009 之间,这一 ES 事件可引起 E3 泛素连接酶 CBL 的结合位点的丢失,造成 MET蛋白泛素化障碍,增加 MET 的稳定性,导致其下游信号的持续激活,进而驱动肿瘤细胞的增殖,导致肺癌的发生发展。

 

1-5.png

图 5. MET 的 ES 事件导致的丢失蛋白质的特征

 

针对个别 ES 事件的 ORF 分析,有助于筛选潜在的治疗手段

 

ES 事件的 ORF 信息对于评估 ES 事件对应的转录本能否翻译成有效蛋白非常重要。

 

ExonSkipDB 根据 GENCODE v19 注释了单个 ES 事件的 ORF,并在 14272 个发生 ES 事件的基因中,分别鉴定了 8667 个和 9623 个具有框内和框移 ORF 的基因。

 

随后,根据来自 IUPHAR 数据库的信息,在 9623 个具有框移 ES 事件的基因中,明确了 453 个具有靶向治疗潜力的基因。

 

这些具有框移 ES 事件的转录本无法翻译成正常蛋白质。对于此类框移导致的疾病,可以尝试使用基于反义寡核苷酸的治疗方法来恢复蛋白功能,进而缓解疾病。

 

最后总结一下,神奇的 ExonSkipDB 数据库具有什么临床意义?

 

PART 01

 

ExonSkipDB 数据库值得信赖,收集了 TCGA 和 GTEx 超过 14000 个基因的功能注释!可谓意义非凡!

 

这是第一个系统地注释人类癌症和多种人体组织的 ES 事件功能的数据库,或将成为癌症和药物研究领域识别疾病相关 ES 事件的独特资源。

 

与此同时,ExonSkipDB 数据库将不断加入其他疾病(如神经退行性疾病,例如阿尔茨海默氏病),以及对不同细胞系和动物的 ES 事件注释。

 

 

PART 02

 

ExonSkipDB 数据库使用户获益最大!ES基因编码的 1801 种蛋白质被 1676 种药物靶向,其中,1534 种(91.50%)是 FDA 批准的针对 1715 种蛋白质的药物。

 

此外,根据已发布的数据搜索结果,已确定的 7324 个 ES 事件相关基因与 5039 种不同类型的疾病相关。其中,955 个基因与 711 种不同的综合征相关。所有条目和注释数据用户都可以在 ExonSkipDB 位点(https://ccsm.uth.edu/ExonSkipDB)  上浏览和下载。

 

 

参考文献:

Kim P, et al. ExonSkipDB: functional annotation of exon skipping event in human. Nucleic Acids Res. 2020;48(D1):D896-D907. doi:10.1093/nar/gkz917