3315 字

17 分钟

数据结构与算法

2025-09-05

Web3

/

区块链

/

数据结构

/

算法

/

Merkle树

数据结构与算法#

概述#

数据结构与算法是计算机科学的核心基础，在Web3和区块链技术中扮演着至关重要的角色。本章节重点介绍在区块链系统中广泛使用的三种重要数据结构：Merkle树、稀疏Merkle树和Merkle Patricia树。

1. Merkle树#

1.1 基本概念#

Merkle树（Merkle Tree，也叫哈希树）是一种基于哈希函数的树形数据结构，由Ralph Merkle在1979年提出。它旨在高效地验证数据的完整性和一致性，广泛应用于分布式系统、区块链技术和数据验证场景中。

1.2 结构组成#

1.2.1 叶节点（Leaf Nodes）#

存储原始数据的哈希值
原始数据经过哈希函数（如SHA-256）计算后生成固定长度的哈希值
作为叶节点内容

1.2.2 非叶节点（Non-Leaf Nodes）#

存储其子节点的哈希值
通过对其两个子节点的哈希值进行拼接，然后再次哈希计算得到
形成树形结构的中间层

1.2.3 根节点（Root Node）#

树的顶层节点，称为Merkle根（Merkle Root）
代表整棵树所有数据的唯一标识
任何数据的变化都会导致根值变化

1.3 构造过程#

以4个数据块为例：D1, D2, D3, D4

1
1. 计算每个数据块的哈希值：
2
   H1 = Hash(D1)
3
   H2 = Hash(D2)
4
   H3 = Hash(D3)
5
   H4 = Hash(D4)
6

7
2. 两两配对计算中间节点：
8
   H12 = Hash(H1 + H2)
9
   H34 = Hash(H3 + H4)
10

11
3. 计算根节点：
12
   Merkle Root = Hash(H12 + H34)

特殊情况：如果数据块数量为奇数，最后一个块会单独处理（有时复制自身配对）

1.4 工作原理#

1.4.1 核心机制#

数据分块与哈希：将大数据分成小块，对每块计算哈希值
自底向上构建：从叶节点开始，两两配对计算父节点的哈希值，逐层向上
验证过程：提供从叶节点到根节点的路径上的哈希值（Merkle路径或证明）

1.4.2 验证示例#

验证D1是否在树中：

提供Merkle路径：H2（D1的兄弟节点）、H34（H12的兄弟节点）
计算：
- H12’ = Hash(H1 + H2)
- Root’ = Hash(H12’ + H34)
若Root’等于Merkle根，则D1属于该树

1.5 特点与优势#

1.5.1 高效性#

验证复杂度为O(log n)
只需提供路径上的哈希值，无需整个树
适合处理大规模数据（如区块链中的交易）

1.5.2 完整性验证#

Merkle根是所有数据的”指纹”
任何数据块的改变都会导致根值变化
提供强大的数据完整性保证

1.5.3 可扩展性#

支持动态添加或删除数据
只需局部更新树结构
适合分布式环境

1.5.4 分布式友好#

各节点只需存储部分数据和Merkle根
即可验证全局一致性
减少存储和传输开销

1.6 应用场景#

1.6.1 区块链应用#

比特币：每个区块的交易被组织成Merkle树，Merkle根存储在区块头中
以太坊：使用Merkle Patricia Tree（Merkle树的变种）管理状态、交易和收据

1.6.2 其他应用#

数据同步：在分布式系统中（如IPFS）比较和同步文件块
文件完整性校验：验证下载文件是否被篡改（如Git使用类似结构）
证书透明性：用于证明SSL证书的有效性

1.7 优缺点分析#

1.7.1 优点#

高效验证：只需少量数据即可验证完整性
抗篡改：哈希函数的特性保证篡改会被检测
节省空间：轻客户端只需存储Merkle根和路径

1.7.2 缺点#

构建成本：初始构造需要对所有数据进行哈希计算
更新复杂性：添加或删除数据时，需重新计算部分路径和根
依赖哈希函数安全性：若哈希函数被攻破，Merkle树的安全性会受影响

1.8 变种与扩展#

Merkle Patricia Tree：以太坊使用的优化版本，结合了前缀树和Merkle树
Binary Merkle Tree：标准的二叉树形式
Sparse Merkle Tree：用于稀疏数据集，优化存储效率

2. 稀疏Merkle树（Sparse Merkle Tree）#

2.1 基本概念#

稀疏Merkle树（SMT）是Merkle树的一种变种，专门设计用于处理稀疏数据集。它结合了Merkle树的哈希验证特性和高效的键值存储能力，广泛应用于区块链和分布式系统中。

2.2 结构特点#

2.2.1 固定高度#

树的深度由键的位数决定（通常是哈希值的长度）
例如，若键是256位哈希值，则树高为256
树的叶节点数量固定为2^h（h为树高）

2.2.2 键和路径#

键通常是数据的哈希值，决定数据在树中的位置
键的每一位（0或1）表示从根到叶的路径方向
0为左子树，1为右子树

2.2.3 叶节点#

存储实际的键值对或表示”空值”（默认值，通常是0或空哈希）
非空叶节点记录具体数据
空叶节点记录默认值

2.2.4 非叶节点#

由其子节点的哈希值计算得出
如果某个子树的所有叶节点都为空，则该子树用默认哈希值表示

2.3 工作原理#

2.3.1 数据插入#

根据键的二进制位，沿着路径找到对应的叶节点
将值写入该叶节点
更新路径上所有父节点的哈希值，直到根节点
未写入的叶节点保持默认值

2.3.2 数据验证#

提供从叶节点到根的Merkle路径（包括兄弟节点的哈希值）
通过路径重新计算根哈希
验证是否与存储的Merkle根一致

2.3.3 空值优化#

如果某个子树的所有叶节点为空，则该子树的哈希值是预计算的默认值
无需存储整个子树，极大减少存储需求

2.4 特点与优势#

2.4.1 高效存储#

通过默认值优化，大量空节点无需显式存储
只需计算默认哈希，节省存储空间

2.4.2 高效证明#

验证复杂度为O(log n)，与树高成正比
支持零知识证明（如证明某个键不存在）

2.4.3 固定结构#

树的大小和结构固定，不随数据量变化
便于并行处理和一致性检查

2.4.4 稀疏性适应#

特别适合键空间很大但实际数据稀疏的场景

2.5 应用场景#

2.5.1 区块链状态管理#

以太坊：使用稀疏Merkle树存储账户状态
稀疏性：以太坊有2^160个可能的地址，但实际账户远少于此

2.5.2 零知识证明#

在zk-SNARKs或zk-STARKs中，SMT用于生成证明
验证数据的存在或不存在

2.5.3 分布式数据库#

用于一致性验证和数据同步
如Hyperledger Fabric

2.6 与标准Merkle树的区别#

特性	标准Merkle树	稀疏Merkle树
树结构	动态，根据数据量构建	固定，完全二叉树
叶节点数量	与数据量相同	固定（2^h，h为键长度）
空值处理	无特殊优化	默认值优化，节省空间
适用场景	数据密集型（如交易列表）	稀疏数据（如账户状态）
非存在性证明	不支持或效率低	支持且高效

3. Merkle Patricia树（Merkle Patricia Trie）#

3.1 基本概念#

Merkle Patricia树（MPT）是一种结合了Merkle树和Patricia树特点的数据结构。它最初由以太坊提出，用于高效存储和验证键值对数据，同时保持数据的完整性和可证明性。

3.2 结构组成#

3.2.1 节点类型#

MPT包含四种主要节点类型：

叶节点（Leaf Node）：

存储实际的键值对
键的剩余部分作为路径，值存储在该节点
格式：[remaining_key, value]

扩展节点（Extension Node）：

用于压缩共享前缀，减少树的高度
包含一个共享前缀和指向下一节点的引用
格式：[shared_prefix, child_node_hash]

分支节点（Branch Node）：

表示键路径的分叉点，包含16个子节点（对应16进制字符0-f）
加上一个可选值
格式：[child_0, child_1, ..., child_15, value]

空节点（Null Node）：

表示路径的终止或空值
通常用空字符串或null表示

3.2.2 键的编码#

键通常是哈希值（如以太坊中账户地址的Keccak-256哈希）
以16进制表示，被分解为单个字符（nibble，4位）
为区分叶节点和扩展节点，键会添加前缀编码（HP编码）

3.3 工作原理#

3.3.1 数据插入#

将键分解为nibble（4位字符）
从根节点开始，根据键的每个字符选择路径
若遇到共享前缀，创建或更新扩展节点
若路径分叉，创建分支节点
若到达终点，创建叶节点
每次更新节点后，重新计算沿路径的哈希值

3.3.2 数据查询#

根据键的nibble逐步遍历树
匹配扩展节点的前缀或分支节点的子节点
到达叶节点时返回对应的值

3.3.3 数据验证#

提供从根到目标叶节点的路径（包括兄弟节点的哈希值）
通过路径上的哈希值重新计算Merkle根
与存储的根对比验证

3.4 特点与优势#

3.4.1 前缀压缩#

通过扩展节点压缩共享前缀
减少树高和存储空间

3.4.2 高效查询#

查询复杂度为O(log n)
依赖键长而非数据量

3.4.3 完整性验证#

Merkle根确保数据未被篡改
任何改变都会导致根值变化

3.4.4 稀疏支持#

适合稀疏键值对（如以太坊的账户状态）
无需为每个可能键分配空间

3.5 应用场景#

3.5.1 以太坊区块链#

状态树（State Trie）：存储所有账户的状态
交易树（Transaction Trie）：存储区块中的交易
收据树（Receipt Trie）：存储交易执行结果
存储树（Storage Trie）：存储合约中的数据

3.5.2 其他应用#

分布式数据库中的键值对存储
密码学证明中的数据验证

3.6 与其他Merkle树的对比#

特性	标准Merkle树	稀疏Merkle树	Merkle Patricia树
结构	二叉树	固定高度完全二叉树	前缀压缩树
键处理	无键，直接哈希	键决定路径	键分nibble导航
压缩	无	默认值优化	前缀压缩
稀疏性支持	一般	优秀	优秀
应用场景	交易列表	稀疏状态	键值对状态