Hi-C与三维基因组：染色质互作图谱的构建、分析与拓扑结构域识别-拓冰建站

Hi-C与三维基因组：染色质互作图谱的构建、分析与拓扑结构域识别

点击“AladdinEdu，你的AI学习实践工作坊”，注册即送-H卡级别算力，沉浸式云原生集成开发环境，80G大显存多卡并行，按量弹性计费，教育用户更享超低价。

摘要：染色质在细胞核内的三维空间构象对基因表达、DNA复制和修复等生物学过程具有重要调控作用。Hi-C技术通过高通量测序捕获全基因组染色质互作信息，为解析三维基因组结构提供了强大工具。本文系统阐述Hi-C实验原理与数据分析完整流程，从原始数据处理、比对、接触矩阵生成到归一化，深入解析拓扑结构域（TAD）和染色质环的识别算法（如HiCExplorer、Cooler、Juicer、TADbit、HiCCUPS），探讨A/B区室、活性/非活性区室的划分方法，并介绍多组学数据整合策略及在发育、疾病研究中的应用。通过实际案例展示如何从Hi-C数据中挖掘染色质空间组织的生物学意义，为研究者提供三维基因组分析的系统性指南。

关键词：Hi-C；三维基因组；拓扑结构域；染色质互作；A/B区室；接触矩阵

1. 引言

真核生物的基因组并非线性结构，而是在细胞核内折叠成复杂的三维空间构型。这种空间组织对基因表达调控、DNA复制、修复和染色体易位等过程至关重要。过去十年，随着高通量染色质构象捕获技术的突破，特别是Hi-C（High-throughput Chromosome Conformation Capture）技术的出现，我们能够在全基因组尺度上绘制染色质相互作用图谱，揭示基因组空间组织的层级结构：从染色质区室（A/B compartments）到拓扑关联结构域（TADs），再到点状染色质环（loops）。

Hi-C技术通过交联、酶切、连接和测序，捕获基因组中空间上邻近的DNA片段，构建全基因组互作网络。这些数据不仅帮助我们理解基因调控的物理基础，也为疾病相关非编码变异的机制解析提供了新维度。例如，许多GWAS位点位于TAD边界或增强子-启动子环内，提示其功能依赖于空间结构。

本文将从实验原理出发，系统介绍Hi-C数据分析的完整流程，包括数据预处理、归一化、互作矩阵构建、TAD识别、环检测、区室划分等核心环节，并探讨三维基因组与转录组、表观组整合的策略及应用。

2. Hi-C技术原理与实验流程

2.1 基本原理

Hi-C由Lieberman-Aiden等人于2009年首次发表，其核心思想是“空间邻近的DNA片段在交联后形成嵌合分子”。实验流程：

细胞交联：用甲醛固定细胞，将空间邻近的蛋白质-DNA复合物交联。
染色质消化：使用限制性内切酶（如MboI、HindIII）切割染色质。
末端标记与连接：在切割末端补加生物素标记的核苷酸，然后使用DNA连接酶在稀释条件下连接邻近的片段，形成嵌合DNA分子。
逆转交联与纯化：去除蛋白质，纯化DNA。
文库构建与测序：通过链亲和素磁珠富集生物素标记的连接产物，构建测序文库，通常使用Illumina平台双端测序。

2.2 关键质控指标

有效读段比例：比对后唯一比对的读段比例（通常>70%）。
顺式互作比例：同一染色体上的互作占总互作的比例（通常>80%）。
远距离互作比例：距离>20 kb的互作比例，反映长程相互作用。
重复相关性：生物学重复间接触矩阵的Pearson相关系数。

3. 数据预处理与接触矩阵生成

3.1 比对

Hi-C读段为双端，代表一对互作的DNA片段。常用比对工具：

BWA-MEM：常用比对器，需考虑嵌合比对。
Bowtie2：快速，但需处理跨连接点的读段。
HiC-Pro：集成流程，自动处理双端比对、过滤、生成接触矩阵。

关键步骤：

将双端读段分别比对到参考基因组。
筛选唯一比对的读段对。
去除读段对中两个端比对到相同位置（自连接）的读段。
过滤PCR重复（通过比对坐标和片段大小）。

3.2 接触矩阵构建

将基因组划分为等距或等长的bin（如1 kb、10 kb、40 kb、100 kb），统计每个bin对之间的连接读段数，形成接触矩阵。矩阵大小为N×N（N为bin数），稀疏矩阵格式（如.cool、.hic）节省存储。

3.3 归一化

原始接触矩阵受多种技术偏差影响：限制性片段长度、GC含量、mappability等。需要归一化以消除偏差：

ICE（Iterative Correction and Eigenvalue decomposition）：最常用，通过迭代比例缩放使每个bin的行和列总和一致。
KR（Knight-Ruiz）：基于矩阵平衡的快速归一化方法。
SQS（Sequential Quadratic Programming）：用于高阶交互。

常用工具：HiC-Pro、Juicer、Cooler、hicstuff。

4. 拓扑结构域（TAD）识别

TAD是染色质空间折叠的基本单元，内部相互作用强，而相邻TAD间相互作用弱。TAD边界通常与基因边界、转录因子结合位点、CTCF位点等相关。

4.1 TAD识别算法

4.1.1 基于方向性指数（DI）的方法

方向性指数（DI）：计算每个bin相对于上下游的互作偏倚，DI值从正变负或反之的位置为TAD边界。
工具：HiCExplorer、Juicer的hicFindTADs。

4.1.2 基于绝缘分数（Insulation Score）的方法

计算每个bin的绝缘分数（与上下游互作强度的比例），局部最小值对应边界。
工具：HiCExplorer、cooltools。

4.1.3 基于隐马尔可夫模型的方法

将染色体划分为隐藏状态，状态间转移对应TAD边界。
工具：TADbit、ChromHMM（可扩展）。

4.1.4 基于图像分割的方法

将接触矩阵视为图像，使用图像分割算法识别TAD。
工具：TADsplimer、CaTCH。

4.2 常用工具

工具	语言	方法	输出	特点
HiCExplorer	Python	Insulation score, DI	BED, bigWig	集成流程，可视化好
Juicer	Java	DI	BED	与Juicebox配套
TADbit	Python	HMM, 3D建模	BED, 结构	功能全面，支持下游建模
cooltools	Python	Insulation, saddle	多种	与Cooler生态集成

4.3 TAD边界功能注释

TAD边界富集以下特征：

CTCF结合位点：边界区域CTCF信号强烈。
活性基因：边界处通常有高表达基因。
看家基因：边界附近基因表达稳定。
SINE/Alu元件：边界区域转座子富集。

5. 染色质环（Loops）与长程互作检测

染色质环是TAD内部的点状互作，通常连接增强子与启动子。检测环需要高分辨率数据（通常≤10 kb）。

5.1 主流算法

5.1.1 HiCCUPS

由Juicer团队开发，通过比较局部接触矩阵与背景期望，识别显著富集的互作点。步骤：

计算每个bin对的期望接触（基于距离和归一化）。
使用泊松模型或倍数变化确定显著互作。
输出显著环，通常要求FDR<0.05。

5.1.2 Fit-Hi-C

基于二项式模型，拟合距离-互作关系，识别显著互作。

5.1.3 HOMER

使用“findHiCInteractions”模块，基于局部富集检测环。

5.1.4 Mustache

基于接触矩阵的斑点检测，速度快，适用于高分辨率。

5.2 环的功能特征

增强子-启动子环：连接增强子和启动子，与活跃基因表达相关。
CTCF-CTCF环：由CTCF蛋白介导，形成绝缘边界。
转录工厂环：多个基因汇聚的转录活跃中心。

6. A/B区室分析

在更大尺度（数Mb）上，染色质分为A区室（活性，基因丰富，常染色质）和B区室（非活性，基因贫乏，异染色质）。区室通过主成分分析（PCA）或自相关分析识别。

6.1 计算方法

PCA：对归一化接触矩阵计算特征向量，第一个特征向量（E1）的正负对应A/B区室。
自相关矩阵：计算每个bin与所有其他bin的接触模式，聚类确定区室。

6.2 工具

HiCExplorer的hicPCA命令。
Juicer的juicer tools eigenvector。
cooltools的expected_cis和saddle。

6.3 生物学意义

A区室：开放染色质、高表达、H3K4me3/H3K27ac富集。
B区室：封闭染色质、低表达、H3K27me3/H3K9me3富集。
区室变化与细胞分化、疾病状态相关。

7. 多组学整合分析

7.1 Hi-C与ChIP-seq/ATAC-seq整合

TAD边界与CTCF、SMC复合体：验证边界形成机制。
环与增强子-启动子关联：将Hi-C环与ChIP-seq信号结合，预测靶基因。

7.2 Hi-C与RNA-seq整合

TAD与基因共表达：同一TAD内基因往往共表达。
环与表达水平：形成环的增强子-启动子对与高表达相关。

7.3 Hi-C与表观组整合

区室与组蛋白修饰：A区室富集激活标记，B区室富集抑制标记。
TAD边界与DNA甲基化：边界处甲基化水平较低。

7.4 可视化工具

Juicebox：交互式Hi-C数据浏览器，支持叠加其他轨道。
HiGlass：Web-based Hi-C和基因组数据可视化平台。
WashU Epigenome Browser：支持Hi-C和多种表观数据。

8. 案例分析：三维基因组在疾病研究中的应用

8.1 癌症中TAD边界破坏

研究显示，某些癌症中TAD边界处发生DNA甲基化或CTCF结合缺失，导致相邻TAD融合，引发原癌基因异常激活。例如，在胶质瘤中，TAD边界破坏导致PDGFRA基因与其远距离增强子形成异常环，促进癌基因过表达。

8.2 发育过程中的染色质重组

使用Hi-C追踪胚胎干细胞分化过程中区室和TAD的动态变化，发现发育关键基因的启动子在分化过程中从B区室转移到A区室，伴随表达激活。

8.3 GWAS变异的功能注释

将GWAS风险变异映射到Hi-C环的锚点区域，发现许多非编码变异位于增强子-启动子环内，影响远端基因表达。例如，2型糖尿病相关变异位于TCF7L2基因的增强子环中。

9. 挑战与未来趋势

9.1 当前挑战

分辨率与通量的矛盾：高分辨率需要极深的测序，成本高。
细胞异质性：bulk Hi-C反映群体平均，掩盖细胞间差异。
数据分析复杂性：Hi-C数据量大，分析流程长，对计算资源要求高。
算法标准化不足：不同工具结果差异大，缺乏统一评估基准。

9.2 未来趋势

单细胞Hi-C（scHi-C）：解析细胞间三维基因组异质性，揭示动态变化。
Micro-C：使用微球菌核酸酶替代限制性内切酶，提高分辨率至核小体水平。
长读长Hi-C：PacBio/ONT测序直接解析复杂区域环和结构变异。
空间Hi-C（spatial Hi-C）：结合显微成像，将三维基因组信息映射回组织原位。
深度学习整合：使用图神经网络预测环、TAD边界和功能后果。

10. 结语

Hi-C技术揭示了染色质三维空间组织的基本规律，从A/B区室、TAD到点状环，每一层级都对基因表达调控至关重要。通过系统性的数据分析和多组学整合，我们能够将基因组序列、表观修饰和三维构象联系起来，理解正常发育和疾病中基因调控的空间密码。随着单细胞和空间技术的发展，三维基因组学将进入更高分辨率和更动态的新时代，为精准医学提供全新视角。

参考文献：

Lieberman-Aiden, E., et al. (2009). Comprehensive mapping of long-range interactions reveals folding principles of the human genome.Science, 326(5950), 289-293.
Dixon, J. R., et al. (2012). Topological domains in mammalian genomes identified by analysis of chromatin interactions.Nature, 485(7398), 376-380.
Rao, S. S., et al. (2014). A 3D map of the human genome at kilobase resolution reveals principles of chromatin looping.Cell, 159(7), 1665-1680.
Durand, N. C., et al. (2016). Juicer provides a one-click system for analyzing loop-resolution Hi-C experiments.Cell Systems, 3(1), 95-98.
Abdennur, N., & Mirny, L. A. (2020). Cooler: scalable storage for Hi-C data and other genomically labeled arrays.Bioinformatics, 36(1), 311-316.
Ramírez, F., et al. (2018). High-resolution TADs reveal DNA sequences underlying genome organization in flies.Nature Communications, 9(1), 189.

点击“AladdinEdu，你的AI学习实践工作坊”，注册即送-H卡级别算力，沉浸式云原生集成开发环境，80G大显存多卡并行，按量弹性计费，教育用户更享超低价。

最新新闻