H4 成簇组蛋白 1; H4C1

组蛋白基因簇 1,H4 组蛋白家族,成员 A; HIST1H4A
组蛋白基因簇 1,H4A
HIST1 集群,H4A
H4 组蛋白家族,成员 A; H4FA
H4/A

HGNC 批准的基因符号:H4C1

细胞遗传学位置:6p22.2 基因组坐标(GRCh38):6:26,021,649-26,022,050(来自 NCBI)

▼ 说明

核小体是真核生物染色质的基本重复单位。核小体核心颗粒由由 2 个核心组蛋白 H2A(参见 613499)、H2B(参见 609904)、H3(参见 602810)和 H4 各 2 个形成的八聚体组成,DNA 包裹在八聚体周围。第五个组蛋白,组蛋白 H1(参见 142709),与核小体之间的接头 DNA 结合,对于染色质的高级结构很重要。 HIST1H4A 是核心组蛋白 H4(Marzluff 等人(2002) 以及 Foster 和 Downs(2005) 总结)。

▼ 基因家族

所有核心组蛋白,包括 H4 组蛋白,都包含一个组蛋白折叠结构域(核小体核心结构的中心)和一个从核小体核心颗粒突出的柔性 N 末端结构域。与其他组蛋白一样,H4 组蛋白可以根据其时间表达进行分组。复制依赖性组蛋白,例如 HIST1H4A 至 HIST1H4L(602831) 和 HIST2H4A(142750) 主要在 S 期表达。相反,复制孤立的组蛋白或替代变体组蛋白可以在整个细胞周期中表达。大多数复制依赖性 H4 组蛋白基因以及其他核心组蛋白基因位于染色体 6p22-p21 上的组蛋白基因簇 1(HIST1) 内。另外两个组蛋白基因簇 HIST2 和 HIST3 分别位于染色体 1q21 和 1q42 上。 HIST2包含1个复制依赖性H4基因HIST2H4A,而HIST3中没有H4基因。另外一个 H4 基因 HIST4H4(615069) 位于染色体 12p13.1 上。在小鼠中,Hist1、Hist2 和 Hist3 基因簇分别位于染色体 13A2-A3、3F1-F2 和 11B2 上。所有复制依赖性组蛋白基因都是无内含子的,它们编码的 mRNA 缺乏聚腺苷酸尾,以保守的茎环序列结尾。与复制依赖性组蛋白基因不同,复制非依赖性组蛋白基因是位于染色体上的孤立基因,与任何其他 H1 或核心组蛋白基因分开。一些不依赖于复制的组蛋白基因含有内含子并编码带有聚腺苷酸尾的 mRNA。所有人类和小鼠 H4 组蛋白基因都编码相同的蛋白质(Marzluff 等人(2002) 以及 Foster 和 Downs(2005) 的总结)。

▼ 克隆与表达

通过基因组序列分析,Marzluff 等人(2002) 鉴定了小鼠和人类的 HIST1H4A 基因。所有小鼠和人类 H4 基因(包括 HIST1H4A)都编码相同的蛋白质。

▼ 测绘

通过分析来自染色体 6p21.3 的 YAC 重叠群,Albig 等人(1997) 表征了 35 个组蛋白基因簇,包括 H4/a。

通过基因组序列分析,Marzluff 等人(2002)确定染色体6p22-p21上的HIST1簇包含55个组蛋白基因,其中包括12个H4基因。 HIST1H4A 基因是 HIST1 簇内端粒最长的 H4 基因。 HIST1 簇跨度超过 2 Mb,包括 2 个大间隙(每个超过 250 kb),其中没有组蛋白基因,但有许多其他基因。 13A2-A3 号染色体上的小鼠 Hist1 簇中组蛋白基因的组织与人类 HIST1 中的组蛋白基因的组织基本相同。 1q21 号染色体上的 HIST2 簇包含 6 个组蛋白基因,其中包括 1 个 H4 基因(HIST2H4A;142750),1q42 号染色体上的 HIST3 簇包含 3 个组蛋白基因,但没有 H4 基因。 Hist2 和 Hist3 分别位于小鼠染色体 3F1-F2 和 11B2 上。另外一个 H4 基因 HIST4H4(615069) 位于人类染色体 12p13.1 和小鼠染色体 6G1 上。

▼ 基因功能

H4 组蛋白家族

正如 Felsenfeld(1992) 所评论的,调节基因转录的蛋白质复合物的详细生化定义导致了有关组蛋白作用的问题的重新出现。他回顾了表明转录激活需要转录因子成功与组蛋白竞争结合启动子的证据。

CpG 岛高甲基化和整体基因组低甲基化是癌细胞常见的表观遗传特征。弗拉加等人(2005) 在正常组织、癌细胞系和原发性肿瘤的综合组中描述了组蛋白 H4 的翻译后修饰。他们发现癌细胞丢失了组蛋白 H4 的单乙酰化和三甲基化形式。这些变化出现得很早,并在致瘤过程中积累,正如它们在多阶段皮肤癌发生的小鼠模型中所显示的那样。这种损失主要发生在组蛋白 H4 的乙酰化 lys16 和三甲基化 lys20 残基上,并且与 DNA 重复序列的低甲基化有关,这是癌细胞的一个众所周知的特征。弗拉加等人(2005) 认为组蛋白 H4 的单乙酰化和三甲基化的整体丧失是人类肿瘤细胞的共同标志。

王等人(2001) 报道了组蛋白 H4 特异性甲基转移酶 PRMT1(602950)(一种蛋白质精氨酸甲基转移酶)的纯化、分子鉴定和功能表征。 PRMT1 在体外和体内特异性甲基化组蛋白 H4 的精氨酸 3。 PRMT1 对 arg3 的甲基化促进了随后 p300(602700) 对 H4 尾部的乙酰化。然而,H4 的乙酰化会抑制 PRMT1 对其进行甲基化。最重要的是,PRMT1 S-腺苷-L-甲硫氨酸结合位点的突变严重削弱了其核受体共激活剂活性。王等人(2001) 得出的结论是,他们的发现揭示了 H4 的 arg3 是 PRMT1 的一个新的甲基化位点,并表明 arg3 甲基化在转录调控中发挥着重要作用。

阿加里奥蒂等人(2002) 发现,在干扰素-β 基因(IFNB;147640) 激活期间,组蛋白 H3(参见 602810)和 H4 中的赖氨酸只有一小部分在体内被 GCN5 乙酰转移酶(参见 602301)乙酰化。对这些赖氨酸残基中带有突变的重组核小体进行重建,通过含溴结构域转录复合物的有序募集对组蛋白密码进行逐点解释,揭示了基因激活的级联反应。组蛋白 H4 lys8 的乙酰化介导 SWI/SNF 复合物的招募(参见 603111),而组蛋白 H3 中 lys9 和 lys14 的乙酰化对于 TFIID 的招募至关重要(参见 313650)。因此,通过生成招募转录复合物所需的新型粘附表面,增强子 DNA 地址中包含的信息被转移到组蛋白 N 末端。

Black 等人使用氘交换/质谱分析与流体动力学测量相结合(2004)证明CENPA(117139)和组蛋白H4形成亚核小体四聚体,其比组蛋白H3和H4的相应四聚体更紧凑且构象更刚性。将负责压缩的 CENPA 结构域替换为组蛋白 H3 足以将其引导至着丝粒。因此,布莱克等人(2004) 得出的结论是,CENPA 的着丝粒靶向结构域赋予其组装的核小体独特的结构刚性,并且可能在维持着丝粒特性方面发挥作用。

组蛋白 H4 在赖氨酸 16 上的乙酰化(H4-K16Ac) 是真核生物中普遍且可逆的翻译后染色质修饰。为了表征该标记的结构和功能作用,Shogren-Knaak 等人(2006) 使用天然化学连接策略生成在 K16 处均匀乙酰化的组蛋白 H4。这种修饰的组蛋白掺入核小体阵列抑制了紧凑的 30 纳米纤维的形成,并阻碍了染色质形成跨纤维相互作用的能力。 H4-K16Ac 还抑制利用三磷酸腺苷的染色质组装和重塑酶 ACF 动员单核小体的能力,表明这种单一组蛋白修饰调节高阶染色质结构以及非组蛋白与染色质纤维之间的功能相互作用。

Savage 等人在前列腺腺癌原代小鼠模型中筛选内源性肿瘤相关 T 细胞反应(2008) 鉴定了一种自然产生的 CD8+ T 细胞反应,该反应对组蛋白 H4 衍生的肽有反应。尽管组蛋白无处不在,但 T 细胞对组蛋白 H4 肽的识别与这些小鼠中前列腺癌的存在特别相关。因此,萨维奇等人(2008) 得出的结论是,肿瘤浸润 T 细胞识别的抗原库比之前想象的更广泛,包括源自普遍存在的自身抗原的肽,这些抗原通常与免疫检测隔离。

党等人(2009) 报道了酵母 Sir2(参见 SIRT1, 604479) 蛋白质丰度与年龄相关的下降,伴随着组蛋白 H4 赖氨酸 16 乙酰化的增加以及复制性老酵母细胞中特定亚端粒区域组蛋白的丢失,从而导致转录受损这些基因座的沉默。 Sir2 和 Sas2(一种组蛋白乙酰转移酶)的拮抗活性通过亚端粒区域的组蛋白 H4 lys16 调节复制寿命。党等人(2009) 的结论是,该途径与酵母现有的衰老模型不同,可能代表了沉默调节蛋白在通过维持完整端粒染色质来调节复制衰老中的进化保守功能。

徐等人(2010) 报道,大量的组蛋白 H3.3(参见 601128)-H4 四聚体在体内分裂,而大多数 H3.1(参见 602810)-H4 四聚体在有丝分裂期间保持完整。抑制 DNA 复制依赖性沉积大大降低了分裂事件的水平,这表明(i) 不依赖于复制的 H3.3 沉积途径主要是通过合作整合 2 个新的 H3.3-H4 二聚体来进行的,以及(ii) 大部分分裂事件发生在复制依赖性沉积过程中。徐等人(2010)得出的结论是“沉默”大异染色质区域内的组蛋白修饰是通过复制邻近预先存在的组蛋白的修饰来维持的,而不需要 H3-H4 分裂事件。

齐等人(2010) 提供了多项证据,证明 PHF8(300560) 是第一个单甲基组蛋白 H4 赖氨酸-20(H4K20me1) 去甲基酶,并对组蛋白 H3K9me1 和 me2 具有额外的活性。 PHF8 位于大约 7,000 个 RefSeq 基因的转录起始位点周围以及基因体和基因间区域中。 PHF8 缺失导致转录起始位点的 H4K20me1 和 H3K9me1 以及非转录起始位点的 H3K9me2 分别上调,这表明不同靶位点的底物特异性存在差异。 PHF8 正向调节基因表达,这依赖于其 H3K4me3 结合 PHD 和催化结构域。重要的是,患者突变显着损害了 PHF8 催化功能。 PHF8 调节斑马鱼大脑和下颌发育中的细胞存活,从而为了解与 PHF8 患者相关的临床症状提供潜在的相关生物学背景。最后,遗传和分子证据支持了一个模型,其中 PHF8 部分通过直接调节同源域转录因子 MSX1/MSXB(605558) 的表达来调节斑马鱼神经元细胞存活和颌发育,该因子在多种信号传导和发育途径的下游发挥作用。

刘等人(2010) 报道 PHF8 在使用多种底物(包括 H3K9me1/2 和 H3K27me2)的同时,也起到 H4K20me1 去甲基酶的作用。 PHF8 通过其 PHD 结构域基于与 H3K4me2/3 的相互作用被招募到启动子,并与 E2F1、HCF1(300019) 和 SET1A(611052) 一起控制 G1-S 转变,至少部分是通过去除 H4K20me1 的抑制性标记E2F1 调控基因启动子的一个子集。前期有丝分裂期间 H4K20me1 的积累显然需要依赖磷酸化的 PHF8 从染色质中消除,这可能代表凝缩蛋白 II 加载过程的一个组成部分。因此,2 个非结构性染色体维持(SMC) 凝缩蛋白 II 亚基 NCAPD3(609276) 和 NCAPG2(608532) 中的 HEAT 重复簇能够识别 H4K20me1,ChIP-Seq 分析表明凝缩蛋白 II 和 NCAPD3(609276) 具有显着重叠。有丝分裂 HeLa 细胞中的 H4K20me1 位点。因此,刘等人(2010) 得出的结论是,H4K20me1 去甲基酶 PHF8 的鉴定和表征揭示了该酶与细胞周期进程中的 2 个不同事件之间的密切联系。

富尔格拉布等人(2013) 报道,通过组蛋白乙酰转移酶 MOF(MYST1; 609912) 的下调,自噬的诱导与组蛋白 H4 赖氨酸 16 乙酰化(H4K16ac) 的减少相结合,并证明这种组蛋白修饰调节自噬的结果。在全基因组水平上,Fullgrabe 等人(2013) 发现 H4K16 去乙酰化主要与自噬相关基因的下调相关。拮抗自噬诱导后的 H4K16ac 下调会导致细胞死亡。富尔格拉布等人(2013) 得出的结论是,他们的研究结果表明,自噬过程中特定组蛋白翻译后修饰的改变会影响自噬相关基因的转录调节,并启动调节反馈循环,这是自噬诱导后生存与死亡反应的关键决定因素。

萨雷迪等人(2016) 发现 DNA 复制过程中掺入的新组蛋白提供了复制后染色质的特征,该特征可由 TONSL(604546)-MMS22L(615614) 同源重组复合物读取。 TONSL 的锚蛋白重复结构域(ARD) 读取 lys20 处未甲基化的组蛋白 H4 尾部,这是 DNA 复制过程中掺入的新组蛋白特有的特征。 TONSL-MMS22L 在掺入核小体之前和之后结合新的组蛋白 H3-H4,并保留在复制的染色质上,直到 G2/M 晚期。 TONSL-MMS22L 与染色质结合并在受挑战的复制叉和 DNA 损伤处积累,需要识别未甲基化的 H4 lys20。 TONSL ARD 突变具有毒性,会损害基因组稳定性、细胞活力和对复制应激的抵抗力。

▼ 生化特征

晶体结构

塞库利克等人(2010) 报道了亚核小体异四聚体(CENP-A-H4)2(CENP-A,117139,与组蛋白 H4 复合)的晶体结构,揭示了由构成 CENP-A 靶向的残基编码的 3 个独特特性域(CATD):(1)CENP-A-CENP-A界面,其相对于H3-H3界面实质上旋转;(2)与H3上的电荷相反的凸环L1;(3) 强疏水接触使 CENP-A-H4 界面变硬。参与 CENP-A-CENP-A 旋转的残基是有效掺入着丝粒染色质所必需的,表明非常规核小体形状的特异性。 DNA拓扑分析表明,含有CENP-A的核小体是八聚体,具有传统的左手DNA包裹。塞库利克等人(2010) 得出结论,CENP-A 通过在其折叠组蛋白核心内重组核小体来标记着丝粒位置。

埃尔萨瑟等人(2012) 报道了 DAXX(603186) 组蛋白结合结构域与组蛋白 H3.3-H4 二聚体的晶体结构,包括 DAXX 和 H3.3 内的突变体,以及阐明其基本原理的体外和体内功能研究H3.3 识别特异性。 DAXX 占据组蛋白表面可及区域的 40%,包裹在 H3.3-H4 二聚体周围,形成复杂的结构,并伴随着 H3.3-H4 组蛋白折叠中的结构转变。 DAXX 使用扩展的 α 螺旋构象来与主要的组蛋白间、DNA 和 ASF1 相互作用位点竞争。埃尔萨瑟等人(2012) 的结论是,他们的结构研究确定了读出 H3.3 特异性残基的识别元件,功能研究解决了 H3.3 中的 gly90 和 DAXX 中的 glu225 对分子伴侣介导的 H3.3 变体识别特异性的贡献。

▼ 进化

组蛋白 IV 基因在进化过程中高度保守。 Delange 和 Smith(1971) 指出,牛和豌豆的组蛋白 IV 基因在 110 个氨基酸中仅存在 2 个残基差异。

海因茨等人(1981) 得出结论,人类组蛋白基因在基因组中聚集,但没有排列成可识别的重复单元。人类组蛋白基因组织的缺乏(与无脊椎动物或非洲爪蟾的组蛋白基因相比)可能反映了早期哺乳动物发育过程中对快速合成大量组蛋白的需求的减少。

Kedes 和 Maxson(1981) 发现人、小鼠、鸡和蟾蜍的组蛋白基因表现出分散的拓扑结构;它们被长长的非组蛋白 DNA 分散和分隔开。在一篇题为“范式丢失”的文章中,作者提到了“这个新发现的侨民”。

▼ 命名法

马兹拉夫等人(2002) 提供了位于 HIST1、HIST2 和 HIST3 簇内的复制依赖性组蛋白基因的命名法。根据它们所在的簇,这些基因的符号均以 HIST1、HIST2 或 HIST3 开头。H2A、H2B、H3 和 H4 基因根据其在 HIST1、HIST2 和 HIST3 簇中的位置进行系统命名。例如,HIST1H4A 是 HIST1 内最端粒的 H4 基因,而 HIST1H4L(602831) 是最着丝粒的。相比之下,H1 基因均位于 HIST1 内,根据其小鼠同源物命名。因此,HIST1H1A(142709) 与小鼠 H1a 同源,HIST1H1B(142711) 与小鼠 H1b 同源,依此类推。

▼ 历史

萨博等人(1978) 提出的核酸杂交数据表明 7 号染色体携带编码组蛋白 H4 蛋白的基因。 Steffensen(1979) 提供的证据表明,人类的所有 5 个组蛋白基因都聚集在 7q2。 Yunis 和 Chandler(1979) 将组蛋白基因定位到黑猩猩、大猩猩和猩猩的 7q32-36 条带和同源染色体片段上。

Clark 等人分离出了一个含有人类组蛋白基因簇(顺序为 H3-H4-H1-H2A-H2B)的克隆(1981),由 Hentschel 和 Birnstiel(1981) 引用。塞拉等人(1982)同样发现了与海胆和果蝇不同的组蛋白基因排列。

卡罗齐等人(1984) 从 15 kb 人类 DNA 基因组序列中分离出 H1 组蛋白基因。在同一 15 kb 片段中 H2A、H2B、H3 和 H4 基因的存在表明这些基因是聚集的。

通过对小鼠-人类细胞杂交和原位杂交的研究,Green 等人(1984)表明H3和H4组蛋白基因位于1q,可能是1q21。 Tripputi 等人通过原位杂交(1986) 得出结论,组蛋白基因对应到至少 3 个不同的染色体:1、6 和 12。有些可能是未表达的假基因。他们评论说,组蛋白基因的数量在 100 到 200 之间。组蛋白的特点是它是唯一由重复 DNA 编码的蛋白质。唐圭等人(1987) 报道的原位杂交数据证实了 Tripputi 等人的数据(1986),使用含有果蝇 5 个组蛋白基因的异源探针。他们发现谷物的主要浓度位于 6p12-q21、12q11-q22 和 1cen-q25。艾伦等人(1989) 报道了组蛋白 3 和 4 与人类 6 号染色体的冲突分配。