在以太坊复杂而精妙的技术架构中,存在着许多看似基础却至关重要的组件,RLP(Recursive Length Prefix,递归长度前缀)编码便是其中之一,虽然它不像智能合约或虚拟机那样频繁出现在开发者的日常讨论中,但RLP是以太坊数据序列化的基石,负责在网络传输、存储和协议交互中以紧凑、高效的方式编码数据,理解RLP,对于深入理解以太坊的底层运作机制至关重要。
什么是RLP?为何需要它?
RLP是一种将任意嵌套的数据结构(如字符串、列表、数组等)编码成字节数组(byte array)的方法,以太坊网络中的节点需要频繁地交换数据,例如交易、区块状态、账户信息等,这些数据往往具有复杂的嵌套结构,为了确保这些数据能够被不同节点正确、无歧义地解析和传输,需要一个统一、高效的序列化方案。
RLP的设计哲学是简洁和高效,它不对数据类型进行显式标记(不像JSON那样有明确的类型指示),而是通过特定的前缀规则来标识数据的长度和结构,从而最大限度地减少编码后的数据大小,这对于资源受限的区块链网络来说至关重要。
RLP的核心编码规则
RLP编码主要针对两种基本数据类型:字符串(字节数组)和列表,其核心规则如下:
-
编码规则一:单个字节(0x00-0x7F)
- 如果数据是一个单独的字节,并且其值在
0x00到0x7F(十进制0到127)范围内,那么该字节本身就被视为其RLP编码结果。 - 字符串
"dog"的ASCII编码是[0x64, 0x6f, 0x67],每个字节都在范围内,所以RLP编码就是0x646f67。
- 如果数据是一个单独的字节,并且其值在
-
编码规则二:短字符串(长度0-55)
- 如果数据是一个字节数组(字符串),其长度为
0到55字节(包含55),那么其RLP编码由以下两部分组成:- 一个前缀字节,其值为
0x80(十进制128)加上字符串的长度,长度为3的字符串前缀是0x80 + 3 = 0x83。 - 后面跟着字符串本身的字节内容。
- 一个前缀字节,其值为
- 字符串
"cat"的ASCII编码是[0x63, 0x61, 0x74],长度为3,前缀是0x83,所以RLP编码是0x83636174。 - 特殊情况:空字符串的RLP编码是
0x80(长度0,0x80 + 0 = 0x80)。
- 如果数据是一个字节数组(字符串),其长度为
-
编码规则三:长字符串(长度>55)
- 如果数据是一个字节数组,其长度超过55字节,那么其RLP编码由以下三部分组成:
- 一个前缀字节,其值为
0xb7(十进制183)加上字符串长度的字节长度,如果字符串长度是1000(十六进制0x3e8,长度字节为2),则前缀是0xb7 + 2 = 0xb9。 - 接着是字符串长度的字节表示(大端序)。
- 字符串本身的字节内容。
- 一个前缀字节,其值为
- 一个长度为
56的字节数组,其长度字节为1(因为56在十六进制中是0x38,一个字节),前缀是0xb7 + 1 = 0xb8为[0x01, 0x02, ..., 0x38](共56字节),则RLP编码为0xb8038[0x01, 0x02, ..., 0x38]。
- 如果数据是一个字节数组,其长度超过55字节,那么其RLP编码由以下三部分组成:
-
编码规则四:列表
- 列表的RLP编码也是递归的,即列表中的每个元素(无论是字符串还是另一个列表)都需要先进行RLP编码,然后将这些编码后的元素连接起来,对这个总长度应用类似于字符串的编码规则。
- 如果列表的总长度(所有RLP编码后的元素长度之和)为
0到55字节,那么其RLP编码由以下两部分组成: