研究人员有望利用多基因风险评分系统对9种癌症进行患病风险预测
全基因组关联研究(GWAS)已确定多种癌症的遗传风险变异体,但这些突变在评估食道癌,胃癌,子宫内膜癌以及黑素瘤,神经胶质瘤,弥漫性大B细胞淋巴瘤,滤泡性淋巴瘤,慢性淋巴白血病和多发性骨髓瘤的患病风险中的实用性尚未得到充分研究,近期,来自范德堡大学等机构的研究人员使用GWAS可识别的风险变体为这9种癌症构建了基于特定部位的多基因风险评分(PRS),以预测人群中患这些癌症的风险,从而进行有效预防,研究结果于2020年6月25日发布于International Journal of Cancer 杂志上。
研究背景
癌症是仅次于心血管疾病的全球第二大死亡原因。已观察到多种家庭性癌症综合征的常染色体显性遗传模式,这主要是由于关键的癌症易感基因的高渗透性突变引起的。最近的研究已经帮助定义了典型的癌症易感综合征以外的癌症风险遗传结构,包括检测各种基因中的“中度渗透性”突变,作为常规检测步骤的临床遗传测试可帮助鉴定单基因致病突变,以进行风险评估和癌症治疗方案制定。但是,由高等或中等渗透性突变引发的疾病患病率较低,通常低于2%,并且大多数癌症发生在没有此类突变的人群中。
在过去的十年中,全基因组关联研究(GWAS)已经确定了与常见疾病相关的低外显率的常见遗传变异,基于GWAS可识别的风险变体构建的多基因风险评分(PRS)是个人遗传风险的定量指标。因为相对容易获得相关的大量病例,先前的大多数研究都集中在常见癌症(例如乳腺癌,结肠直肠癌和前列腺癌)的PRS,PRS在评估非常见癌症的患病风险中的效用尚未得到充分验证。然而,这些癌症占癌症整理病例比例很大,且其中某些癌症的整体预后不如常见的癌症(如乳腺癌和前列腺癌)。在此研究中,研究人员根据最新的全球癌症数据(GLOBOCAN 2018),评估PRS对9种较不常见癌症的高患病风险人群识别的有效性,这些癌症占全球新癌症病例约20.3%,占癌症死亡病例约24.4%。研究人员评估了普通人群中被预测罹患癌症风险至少增加两倍的个体所占的百分比,该风险水平可与中等遗传突变所赋予的风险水平相比较。
材料与方法
研究对象,基因型与数据归集
英国生物样本库(UK Biobank)是一项基于人群的队列研究,并已在英格兰,苏格兰和威尔士招募了500, 000多名成年人,其癌症相关的数据与诊断信息由国民医疗服务体系(NHS)相关机构提供。癌症编码依据国际疾病分类(ICD)的第九修订版(ICD-9)或第十修订版(ICD-10),其组织学亚型根据ICD肿瘤学(ICD-O)分类,研究包括对以下9种癌症的调查:食道癌,胃癌,子宫内膜癌,黑色素瘤,神经胶质瘤,弥漫性大B细胞淋巴瘤,滤泡性淋巴瘤,慢性淋巴白血病和多发性骨髓瘤。被研究的癌症中不包括发病案例少于100例的癌症类型。
归集数据来自英国生物样本库的488,377名参与者,并且研究人员排除了因杂合性,低检出率和性染色体非整倍性(n = 628)而被标记为异常值的个体。通过将所有英国生物库样本投射到千人基因组计划中的四个种群(CEU,YRI,CHB和JPT)以根据基因型数据识别出欧洲个体,未落入CEU集群附近的个体则被排除(n = 23, 425),并利用该样本库的稳健估计方法对每对样本进行亲属系数判断。研究者排除了二级(或更高)的相关个体(亲属系数≥0.0442;n = 37,590),在研究开始之前被诊断出患有癌症的参与者,即基线(n = 24, 944),与年龄在40岁以下的个体(n = 5),共有400, 807人(186, 372男性和214, 435女性)符合分析标准。
单核苷酸多态性的选择
研究团队汇总了先前GWAS识别的9种特定癌症与患病风险相关的遗传变异的信息,并从最新的研究中选择了欧洲个体最大的样本量。使用常规的全基因组显着性阈值(P值<5×10-8),本研究显示,单核苷酸多态性(SNP)与该阈值或低于此阈值的P值相关。在最新研究中,由于样本量较小,某些与目标癌相关的风险变异可能在P值<5×10-8时不显著,这些变体与先前研究数据中的回归系数也被当前研究用来构建PRS。本次研究不包含X染色体上的癌症风险变异。对于先前研究中包含但英国生物样本库中未提供的一些风险变体,选择高LD(n = 3;r2≥0.93)的SNP进行研究。某一SNP位点(rs10069690)被同时用于神经胶质瘤和慢性淋巴白血病。本次研究共保留了166个SNP以构建PRS。
统计分析
每个特定癌症均依据先前的研究,将自然对数比(OR)的乘积之和作为SNP特定权重,并且每个研究个体中特定的风险变体的风险等位基因数将会为其生产PRS。病例与非病例之间的PRS均值差异将通过t检验进行比较与评估。根据研究对象的情况,将每种癌症的PRS分为五分位数。通过Cox比例风险模型估算与PRS相关的危险比(HRs)和95%置信区间(95%CI),使用年龄作为时间尺度,并根据基线调查的年龄,基因型阵列类型(UKBL或UKBB),性别(针对非性别特异性癌症),出生人群分层等进行调整。为了与已有的大多数研究一致,此研究使用最低的五分位数作为参考,以五分位数评估与PRS相关的每种癌症的HR。但是,为了量化与平均风险人群相比,每个PRS最高和最低的5%和1%人群的风险,则使用中五分位数(40%-60%)作为参考组。并用特定部位癌症给定的相对风险(RR)(HR ≥2.0、2.5和3.0)预估队列中研究对象的比例。在调整基因型阵列类型并使用PRS作为变量后,使用逻辑回归估算每种癌症接受者操作特征(ROC)曲线下的面积(AUC)。
研究结果
在中位随访为5.8年的随访期间,400, 807名研究对象中共发现3905例上述9种癌症的发病病例,其中包括406例食管癌,272例胃癌,629例子宫内膜癌,1226例黑色素瘤,312例神经胶质瘤,308例弥漫性大B细胞淋巴瘤,197例滤泡性淋巴瘤,265例慢性淋巴白血病和290例多发性骨髓瘤。
每种癌症的PRS使用的SNP数量从胃癌的三个SNP到慢性淋巴性白血病的43个SNP不等。除食管癌外,每种癌症的患病人群的特异PRS均值均显著高于非病例。慢性淋巴白血病的PRS具有最大的AUC(0.69,95%CI = 0.64-0.70),其次是神经胶质瘤(0.64,95%CI = 0.61-0.67),黑素瘤(0.61,95%CI = 0.59-0.63)和多发性骨髓瘤(0.61,95%CI = 0.57-0.64),食道癌的AUC最低,为0.53(95%CI = 0.51-0.56)。
通过五分位数估算每种癌症的HR与PRS的相关性,并以最低的五分位数作为参考(表1)。遵循剂量反应模式(所有P趋势≤0.005),九种癌症中有八种的患病风险与PRS显著相关。与处于最低PRS五分位的个体相比,处于最高五分位数的个体多发性骨髓瘤(HR = 3.65,95%CI = 2.34‐5.68),黑色素瘤(HR = 2.84,95%CI = 2.36‐3.44),滤泡性淋巴瘤(HR = 2.34,95%CI = 1.49‐3.68)或弥漫性大B 细胞淋巴瘤(HR = 2.01,95%CI = 1.39-2.91)的患病风险增加了2-4倍,患慢性淋巴白血病(HR = 6.90,95%CI = 4.15-11.48)或神经胶质瘤(HR = 4.10,95%CI = 2.71‐6.19)的风险大于4倍,胃癌或子宫内膜癌的风险升高约1.8倍。
表1 PRS五分位数的癌症风险比(95%Cl)
与中五分位数的人群(40%-60%)相比,PRS前5%的人群发生黑素瘤,神经胶质瘤,滤泡性淋巴瘤或多发性骨髓瘤的风险是2-4倍,患慢性淋巴白血病的风险则为4倍以上,而PRS后5%的个体患这些癌症的风险降低了约60%-70%(表2)。
表2 与平均风险人群相比,PRS最高或最低人群的癌症风险比(95%Cl)
图1显示了预估的癌症累积风险,可从PRS预测模型得出AUC≥0.6的癌症:黑色素瘤,神经胶质瘤,慢性淋巴白血病和多发性骨髓瘤。英国生物样本库中,对于PRS中位数45%至55%的60岁人群中的个体,黑色素瘤,神经胶质瘤,慢性淋巴白血病和多发性骨髓瘤的累积风险分别为0.5%,0.2%,0.1%和0.06%,但是, PRS最高组中的个体达到黑色素瘤,神经胶质瘤,慢性淋巴白血病和多发性骨髓瘤上述同等风险的年龄分别为52,52,53岁和55,远早于平均风险组。
图1 不同PRS组基于不同癌症(A,黑色素瘤;B,神经胶质瘤;C,慢性淋巴白血病;D,多发性骨髓瘤)的累积癌症风险。水平线显示了每种癌症对于PRS中位数(45%-55%)的60岁个体的预估累积风险
研究人员运用PRS在给定的较高风险下(HR ≥2.0、2.5或3.0,可与中度渗透性突变风险水平相比较)预测研究对象所占比例。与中五分位数相比,通过PRS判断出63.0%的参与者对上述9种癌症中的至少一种具有不小于2倍的患病风险,并可以确定超过30%的研究对象患慢性淋巴白血病的风险≥2.0。当排除慢性淋巴白血病时,46.9%的研究对象的患病风险≥2倍。罹患上述9种癌症中至少一种或在排除慢性淋巴白血病的8中癌症中罹患至少一种的风险≥3倍的研究对象分别占16.2%和6.9%。在包含先前研究中8种常见癌症后,患至少一种癌症且风险≥2倍和≥3倍的研究对象分别占77.9%和20.9%;当排除慢性淋巴白血病时,患至少一种癌症且风险≥2倍和≥3倍的研究对象分别占68.2%和12.2%。
讨论
本次研究系统地评估了使用基于GWAS可识别的风险变体构建的PRS在预测9种尚未得到充分评估的癌症的患病风险中的效果,包括实体癌和血液癌。研究确定了9种疾病中除食管癌和胃癌以外的患病风险不小于2倍的高危个体。在运用PRS的情况下,被认为可能罹患上述9种癌症中至少一种且风险不小于2倍的个体数量占整体的63%。研究结果表明,对比传统癌症预测指标(如,家族病史或癌症易感基因),在预估部分癌症的患病风险时,PRS可预估出更大的人群比例,且对于相同的癌症,患者一级亲属的患病风险增加了2-3倍。
研究结果表明,PRS在识别高风险亚组方面具有潜力。且与先前研究结果相似,本次研究中构建的PRS对黑色素瘤,神经胶质瘤和其他血液系统恶性肿瘤具有良好的判别能力。在这些癌症中,研究人员计算了黑色素瘤,神经胶质瘤,慢性淋巴白血病和多发性骨髓瘤的累积风险,结果表明对于那些具有高遗传风险的个体,初始筛查年龄应比平均风险组小5-8,且具有高PRS的个体,特别是对于侵袭性癌症,将从早期癌症筛查中受益。
关于食道癌和胃癌的遗传性仍存在一些争议,相关研究曾提到常见的SNP可以解释中国人群中一定程度的胃癌(20.26%)和食管鳞状细胞癌(19.86%)的遗传性,在另一项研究中,研究结果显示在欧洲人群中食管腺癌具有显著的遗传性,而在亚洲人群中则没有显示胃癌的遗传性。在这项研究中,尽管在GWAS中发现了14项与食道癌相关的SNP,但它们的AUC较小,说明与其他癌症相比,这种癌症的发生风险较小。与大多数其他癌症相比,罹患胃癌风险与PRS的关联相对较弱,并且使用基于GWAS识别的风险变体的PRS无法确定罹患此癌症的风险不小于2倍的个体。仍需额外的GWAS来识别这两种癌症的风险变异从而改善其关于PRS的风险预测,尤其应包括癌症的种族和亚型与这两种癌症的最新风险变异。与其他血液系统癌症相比,弥漫性大B细胞淋巴瘤的PRS与该癌症的相关性较弱。这一结果与近期发布的一份会议报告结果相似,该报告显示遗传因素对弥漫性大B细胞淋巴瘤的作用要弱于其他血液学癌症。
与9种癌症中至少一种PRS在40%至60%的五分位数中的研究对象相比,有很大比例的研究对象(63.0%)可被归为高风险(HR≥2.0)。与现有的仅占癌症比例5%-10%的高或中度穿透性突变相比,这一结果值得注意。若将先前研究中的八种常见癌症同时纳入考量,预计罹患其中某种癌症的风险是2倍或更高的研究对象比例增加到77.9%。一个值得注意的例外是慢性淋巴白血病,其风险增加了4到8倍。这项研究还发现,与其他癌症不同,前5%组的罹患慢性淋巴白血病风险比中五分位数组高4倍,为了在分析中减少这种疾病的影响,研究人员在计算中排除了慢性淋巴白血病, 但是,罹患其他16种癌症风险是2倍的研究对象占比仍为68.2%。这些发现表明,PRS有潜力确定普通人群中大量的高危个体,以进行筛查或其他预防措施。
本研究仍存在一些局限性,首先,为英国生物样本库志愿服务的个体往往比一般人群更健康,且研究对象年龄均在40岁以上,因此研究结果可能无法推广到全部人群。其次,某些癌症的样本量不大,这可能会影响风险估计的稳定性。尽管如此,此研究是迄今为止进行的最大规模的研究,已系统性评估了PRS在预测上述9种癌症风险中的效用。结果表明,在确定高危人群进行癌症预防时可以考虑使用PRS。
参考文献
Choi J, Jia G, Wen W, Long J, Zheng W. Evaluating polygenic risk scores in assessing risk of nine solid and hematologic cancers in European descendants. Int J Cancer. 2020. doi:10.1002/ijc.33176