甲状腺结节超声风险分层的利与弊
甲状腺结节是内分泌系统的常见病、多发病[1-2]。近10年来,世界范围内甲状腺结节和甲状腺癌的发病率持续上升,疾病构成和预后也发生了巨大变化,目前已成为备受关注的重要健康问题[3]。通过对甲状腺结节进行风险评估,决定是否进行细针抽吸细胞学检查(fine-needle aspiration cytology,FNAC)、制定诊疗方案以及随访。超声在甲状腺结节诊治的全过程中发挥着重要作用[4-6]。临床工作中,超声医师难以通过单一的超声指标来准确评估甲状腺结节的恶性风险[7-8],联合使用多个超声指标对甲状腺结节进行风险分层是一种有效的方法。甲状腺影像报告与数据分级系统(Thyroid Imaging Reporting and Data System,TI-RADS)就是在这一环境下应运而生,并不断更新、完善。甲状腺结节超声风险分层亦经历了10余年的发展,到目前为止,国内外尚没有完全统一的版本。本文就甲状腺结节超声风险分层的发展历史及各版本的优缺点加以总结分析。
1 甲状腺结节风险评估系统的发展
甲状腺结节风险评估系统的发展经历了超声单一特征定性分级模式、超声多特征联合定性分级模式、超声多特征评分模式和甲状腺结节临床管理指南4个重要阶段。
第1阶段:超声单一特征定性分级模式。2002年,Kim等[9]首次提出,结节具有微钙化、纵向生长、不规则边缘、极低回声等任意一项超声特征,即被认为是具有恶性潜能的结节。2005年,美国超声医师协会建议将可疑超声特征(包括微钙化、实性和粗大钙化等)作为FNAC的标准,该建议首次将结节大小作为参考指标[10]。2008年,Moon等[8]提出微钙化、粗大钙化、纵向生长、边缘成角和极低回声5项超声特征预测甲状腺结节恶性风险的灵敏度为83.3%,该研究是《韩国甲状腺放射协会(Korean Society of Thyroid Radiology,KSThR)甲状腺结节风险评估指南(2011版)》[11]的基础。但以上研究均没有考虑到多种超声指标联合评估甲状腺结节恶性风险的必要性,例如,低回声结节或实性结节中出现微钙化提示高度恶性风险,而等回声结节或囊实性结节中出现微钙化则常提示低度恶性风险。
第2阶段:超声多特征联合定性分级模式。2005年,Reading等[12]提出利用8种超声模式来评估甲状腺结节的恶性风险,每种模式均包括几个不同的超声特征。2007年,Ito等[13]也提出以超声特征组合为基础的分类方式,该评估方法包括8个风险等级,≥3.5级被认为具有高风险。多种超声指标联合评估的风险分层系统较单一超声指标风险分层系统有了质的飞跃。然而,这些评估系统都是以描述性的方式来分析超声指标,从本质上来说,仍然是定性的风险评估方法。
第3阶段:超声多特征评分模式。2009年,智利学者Horvath等[14]借鉴美国放射学会制定的乳腺影像报告与数据系统(Breast Imaging Reporting and Data System,BI-RADS),首次提出了TI-RADS的概念。该系统首先对甲状腺结节的超声特征进行分类,以可疑超声指标的数量和指标风险评分为依据,来进行甲状腺结节的恶性风险分层,被认为是首个“定量”评分系统。但相关领域学者普遍认为该系统涉及超声特征太多、过于繁琐,且仍然不能准确评估所有的结节。同年,Park等[15]提出了一个预测甲状腺结节恶性风险的公式,进而归纳出5个恶性风险分层,但在临床应用中,通过公式来计算每个结节的恶性风险是不现实的。2011年,Kwak等[16]提出了一个较为简便的TI-RADS,该系统对每个可疑的超声指标计1分,通过计算每个结节的得分来评估结节的恶性风险。该研究中,每个超声指标被赋予相同的权重,但事实上,不同的超声指标所代表的恶性概率并不相同。2013年,Russ等[17]提出了类似的五分类法,该研究首次将反映结节硬度的超声弹性成像指标纳入TI-RADS。2016年,Shin等[6]和Na等[18]提出了以模式法分类为基础的较为简便的四分类TI-RADS,随后一项多中心前瞻性研究[19]证明该TI-RADS有效、实用。但一些学者认为,为了对患者进行更为个体化、优质化的临床管理,有必要对甲状腺结节进行更精细的恶性风险分层。2013年,Kwak等[20]提出了包括15个分类的精细风险评估系统,每个可疑的超声特征按照其OR值被赋予了不同的风险评分,通过计算评分总和来对结节的恶性风险(7.3%~95.2%)进行评估。然而,在临床实际工作中,运用15个分类进行风险评估过于复杂,最低风险级别的结节依然有7.3%的恶性风险,而具有较高级别的结节同样可以随访观察。2015年,Choi等[21]通过一项多中心的回顾性研究,提出了一个更为先进的网络风险评估系统,该系统通过一个免费的网络应用程序,使复杂的多级别风险评估系统变得较为简便,但超声医师在进行超声检查的同时,在应用程序上勾选超声特征以进行结节恶性风险评估,也并非一件容易的事情,且需要更多其他数据库的信息来验证这一程序的准确性。
第4阶段:甲状腺结节临床管理指南。随着基于多特征的甲状腺结节超声风险评估系统的日渐成熟,各相关指南将其作为甲状腺结节管理的重要组成。2015年美国甲状腺学会(American Thyroid Association,ATA)发布的《2015年成人甲状腺结节与分化型甲状腺癌治疗指南》[4]提出了从良性到高度可疑恶性5个超声分级,并依据超声分级结果提出了甲状腺结节和甲状腺癌的全程管理建议。2017年美国放射协会(American College of Radiology,ACR)综合了美国国家癌症研究所数据、专家意见以及既往TI-RADS的信息,推出了全新ACR版TI-RADS[22]。该系统通过评估结节的成分、回声、形状、边缘和局灶性强回声5项超声特征,对每项超声特征按其恶性风险的高低赋予不同的分值(0~3分),相加所得总分作为最后分类的依据。有学者通过一项多中心大样本研究[23]对ACR版TI-RADS进行了验证,认为该系统简便易行,能够对每一个结节进行准确的归类,且诊断效能高。
TI-RADS最大的贡献在于建立了甲状腺结节超声标准化诊断的体系,为临床医师和超声医师搭建了有效沟通的桥梁,即使是初学者也可以很快地掌握甲状腺结节超声诊断的基本要领,且能为临床医师提供可靠的影像学参考,有效缩短了低年资超声医师学习甲状腺结节超声诊断的时间。其次,TI-RADS体系的建立使超声医师的诊断有据可依,尤其对于超声图像不具有典型良恶性特征的甲状腺结节,超声医师可以依据TI-RADS进行中间分级的诊断,提高诊断正确率和不同超声医师之间诊断的一致性。此外,TI-RADS的各个分级均对应一定的恶性风险范围,没有恶性风险100%的分级,良性分级局限于少数具有典型良性特征的甲状腺结节,因此可以有效地帮助医师规避风险,也有利于减轻具有恶性特性甲状腺结节患者的心理负担。
尽管甲状腺结节超声风险分层的出现受到了医师和患者的广泛认可,但也存在着一些不足,如《2015年成人甲状腺结节与分化型甲状腺癌治疗指南》[4]不能对少部分结节进行分类,研究[24]表明,这部分结节中18.2%为恶性,考虑到入院偏倚等因素,这部分结节的比例可能还会增加。近年来,国内外学者不断致力于TI-RADS版本的修订和内容的统一。遗憾的是,目前广大学者尚未对TI-RADS的内容达成共识,而且,由于不同研究所分析患者群体的种族遗传背景、生活环境(如人均摄碘量、饮食结构等)及地区医疗技术水平等方面的差异,导致相关研究结果常呈现两面性。另外,也有学者质疑TI-RADS是否能代表标准化、规范化。从历史上看,TI-RDAS是由BI-RADS演变而来,BI-RADS目前亦未进入成熟阶段,单个分级的巨大风险跨度为人诟病。目前,全世界范围内TI-RDAS的版本不下10种,这么多版本的存在本身就意味着非标准化;即使异曲同工的《2015年成人甲状腺结节与分化型甲状腺癌治疗指南》[4],与ACR版TI-RADS相比也具有相当大的差异。两者共同的特点是灵敏度高、特异度低,因此阳性预测值较低;而且目前的版本诊断准确性介于50%~80%[25-27],远低于有经验的超声医师。因此,利用现有的TI-RADS分类方法显然不能达到精准诊断的预期,规范化远远达不到理想状态。另外,超声的发展非常迅速,新技术、新手段层出不穷,新技术的发展为对甲状腺结节良恶性的诊断提供了更多必要的信息,但目前的TI-RADS分级均未正式将这些新技术纳入其中。例如,弹性成像和超声造影在甲状腺结节良恶性的鉴别诊断方面均有较好的临床价值,研究[28-29]表明,两者分别与TI-RADS联合时的诊断效能优于单独诊断,尤其是对TI-RADS 4类结节,具有较高的诊断价值。
另外,需要特别指出的是,目前版本的TI-RADS中所给出的证据和推荐均基于非中国人的人群研究的结果,尚缺乏能够反映中国人群甲状腺结节疾病特点的TI-RADS。ACR版本的出台有两本白皮书作为基础,即使ACR版TI-RADS发布时,该版本的验证结果也未刊出。据悉,全美目前对ACR版本的接受程度尚不足30%,如果我们直接拿来,在全国范围内进行全面推广,显然不甚合理。因此,有待建立多中心大样本长期随访数据库,通过对不同地区甲状腺结节患者的长期跟踪随访及数据分析,并结合患者的临床特征、不良预后相关因素及遗传学改变等,得出适合中国人群的TI-RADS,依此来对中国居民的甲状腺结节进行风险评估,在减小不必要FNAC的基础上,建立更为严密且个体化的甲状腺结节临床管理体系。
2 总结
TI-RADS是甲状腺结节超声诊断标准化、规范化的历史性探索的成果,但是距离成熟完善的TI-RADS尚有漫长的路要走,在中国尤其如此。