PostgreSQL 12.2 源码探秘：手把手带你拆解Heap表文件，看懂数据在磁盘上的真实模样-编程阁

PostgreSQL 12.2 存储引擎深度解析：从二进制文件到内存结构的完整映射

在数据库系统的核心层，存储引擎扮演着数据持久化和高效访问的关键角色。PostgreSQL作为一款开源关系型数据库，其存储引擎的设计哲学体现了对可靠性和扩展性的极致追求。本文将带领读者深入PostgreSQL 12.2的存储引擎内部，通过直接分析磁盘文件结构和内存映射机制，揭示数据从存储介质到查询结果的完整生命周期。

1. PostgreSQL存储引擎架构概览

PostgreSQL的存储引擎采用经典的堆表(Heap Table)结构，这种设计源于传统关系型数据库的存储范式。堆表的核心特点是数据以非聚集方式存储，行数据可以存放在表的任何位置，通过额外的索引结构实现快速访问。

存储引擎的主要组件包括：

表空间管理：负责数据库文件的物理存储布局
页面管理：将数据文件划分为固定大小的页面(默认为8KB)
元组存储：处理行数据的物理存储格式
事务可见性：通过多版本并发控制(MVCC)实现事务隔离
空闲空间管理：跟踪和重用被删除数据占用的空间

在磁盘上，一个PostgreSQL数据库表现为$PGDATA/base目录下的一系列文件。每个数据库对应一个子目录，目录名是该数据库的OID。表数据存储在名为relfilenode的文件中，通常与表的OID相同。

$ ls -l $PGDATA/base/16384 total 1024 -rw------- 1 postgres postgres 8192 Jan 10 10:00 16430 -rw------- 1 postgres postgres 8192 Jan 10 10:00 16430_fsm -rw------- 1 postgres postgres 8192 Jan 10 10:00 16430_vm

2. 堆表文件的物理结构解析

2.1 页面布局剖析

PostgreSQL将每个表文件划分为固定大小的页面(默认为8KB)，每个页面包含以下关键部分：

区域	偏移量	大小	描述
PageHeader	0	24字节	页面元数据信息
LinePointer数组	24	变长	指向元组的指针数组
空闲空间	变长	变长	可用于存储新元组的空间
特殊空间	页面末尾	变长	用于特殊用途的空间

页面头部(PageHeaderData)的结构定义如下：

typedef struct PageHeaderData { PageXLogRecPtr pd_lsn; /* 最后修改的LSN */ uint16 pd_checksum; /* 页面校验和 */ uint16 pd_flags; /* 标志位 */ LocationIndex pd_lower; /* 空闲空间起始位置 */ LocationIndex pd_upper; /* 空闲空间结束位置 */ LocationIndex pd_special; /* 特殊空间起始位置 */ uint16 pd_pagesize_version; /* 页面大小和版本 */ TransactionId pd_prune_xid; /* 可回收的最老XID */ ItemIdData pd_linp[FLEXIBLE_ARRAY_MEMBER]; /* 行指针数组 */ } PageHeaderData;

2.2 元组存储格式

每个元组(行数据)在页面中的存储分为三个部分：

HeapTupleHeader：元组的元数据信息
NULL位图：标识哪些列值为NULL
用户数据：实际的列值数据

HeapTupleHeader的关键字段包括：

typedef struct HeapTupleFields { TransactionId t_xmin; /* 插入事务XID */ TransactionId t_xmax; /* 删除/更新事务XID */ union { CommandId t_cid; /* 插入/删除命令ID */ TransactionId t_xvac; /* VACUUM操作XID */ } t_field3; } HeapTupleFields; typedef struct HeapTupleHeaderData { union { HeapTupleFields t_heap; DatumTupleFields t_datum; } t_choice; ItemPointerData t_ctid; /* 当前或新元组的位置 */ uint16 t_infomask2; /* 属性数量+标志位 */ uint16 t_infomask; /* 各种标志位 */ uint8 t_hoff; /* 头长度+NULL位图 */ bits8 t_bits[FLEXIBLE_ARRAY_MEMBER]; /* NULL位图 */ } HeapTupleHeaderData;

3. 实战：使用pageinspect扩展分析存储结构

PostgreSQL提供了pageinspect扩展，允许直接查看页面和元组的内部结构。以下是使用示例：

-- 创建扩展 CREATE EXTENSION pageinspect; -- 创建测试表并插入数据 CREATE TABLE test_heaptuple (id int, name text, value float); INSERT INTO test_heaptuple VALUES (1, 'item1', 1.11); INSERT INTO test_heaptuple VALUES (2, 'item2', 2.22); -- 查看页面头部信息 SELECT * FROM page_header(get_raw_page('test_heaptuple', 0)); -- 查看页面中的元组信息 SELECT lp, lp_off, t_xmin, t_xmax, t_ctid, t_infomask, t_infomask2, t_hoff, t_bits, t_data FROM heap_page_items(get_raw_page('test_heaptuple', 0)); -- 查看元组属性数据 SELECT lp, t_attrs FROM heap_page_item_attrs( get_raw_page('test_heaptuple', 0), 'test_heaptuple' );

通过pageinspect工具，我们可以观察到：

新插入的元组t_xmin被设置为当前事务ID
t_xmax初始为0，表示该元组未被删除或更新
t_ctid指向自身，格式为(页面号,行指针号)
t_infomask和t_infomask2包含元组的各种状态标志

4. 堆表读写操作的内核实现

4.1 写入路径深度解析

PostgreSQL的写入操作遵循"WAL先行"原则，所有数据修改必须先写入WAL日志，然后才能修改内存中的数据页面。堆表插入操作的主要步骤如下：

元组头初始化：在heap_prepare_insert函数中设置元组头部的各个字段
查找可用页面：通过RelationGetBufferForTuple函数查找有足够空间的页面
冲突检测：检查事务隔离级别要求的各种约束条件
页面修改：将元组写入页面并更新页面头部信息
WAL日志记录：生成并写入描述此修改的WAL记录
标记缓冲区脏：标记包含修改页面的缓冲区为脏，将由后台写入器稍后写入磁盘

关键代码路径：

exec_simple_query -> PortalRun -> ProcessQuery -> standard_ExecutorRun -> ExecModifyTable -> ExecInsert -> table_tuple_insert -> heapam_tuple_insert -> heap_insert

4.2 读取路径优化策略

PostgreSQL的读取操作需要处理MVCC可见性判断，确保事务只能看到符合其隔离级别的数据版本。堆表扫描的主要步骤包括：

获取缓冲区：将包含目标元组的页面读入共享缓冲区
可见性检查：根据元组的xmin/xmax和事务快照判断是否可见
元组构造：将磁盘上的元组数据转换为内存中的HeapTuple结构
投影处理：根据查询需求提取所需的列值

读取操作的关键优化点：

预取：顺序扫描时预读后续页面
并行查询：多个worker进程协同扫描大表
仅索引扫描：当查询只需索引列时避免访问堆表

5. 高级存储特性与性能优化

5.1 TOAST机制处理大字段

PostgreSQL使用TOAST(The Oversized-Attribute Storage Technique)技术存储超过页面大小限制的字段值(默认阈值2KB)。TOAST将大字段值压缩或拆分为多个"烤面包片"存储：

TOAST策略	描述	适用场景
PLAIN	禁止压缩和行外存储	小字段
EXTENDED	允许压缩和行外存储	默认策略
EXTERNAL	允许行外存储但不压缩	文本等已压缩数据
MAIN	尽量行内存储，必要时行外	平衡策略

查看表的TOAST策略：

SELECT attname, attstorage FROM pg_attribute WHERE attrelid = 'test_heaptuple'::regclass;

5.2 空闲空间管理

PostgreSQL使用两个辅助结构管理堆表的空闲空间：

空闲空间映射(FSM)：记录每个页面的空闲空间概况
可见性映射(VM)：标记只包含全部可见元组的页面

这些结构显著提升了以下操作的效率：

新元组插入时的空间定位
VACUUM操作的目标选择
仅追加工作负载的性能

5.3 存储参数调优

PostgreSQL提供了多个表级存储参数用于性能优化：

CREATE TABLE perf_table ( id serial PRIMARY KEY, data text ) WITH ( fillfactor = 90, -- 页面填充因子(百分比) autovacuum_enabled = true, -- 启用自动清理 toast_tuple_target = 2000, -- TOAST行外存储阈值 parallel_workers = 4 -- 并行扫描工作进程数 );

关键优化建议：

对频繁更新的表设置较低的fillfactor(70-90)
对只读表设置fillfactor=100以最大化空间利用率
根据工作负载特性调整autovacuum参数

6. 存储引擎与PostgreSQL生态的协同

PostgreSQL存储引擎的设计与数据库其他子系统紧密集成：

事务系统：通过xmin/xmax实现MVCC
WAL日志：保证写入操作的持久性
缓冲区管理：缓存热数据页面减少IO
索引访问：通过TID(页面号+偏移量)定位元组
查询执行：提供高效的扫描和获取元组接口

这种深度集成使得存储引擎能够：

支持复杂的查询计划和执行策略
实现各种事务隔离级别
提供灵活的数据类型支持
保证系统崩溃后的数据一致性

在多年的PostgreSQL性能优化实践中，我们发现存储引擎的调优往往能带来最显著的性能提升。特别是在处理高并发写入负载时，合理配置存储参数、监控空间利用率和优化VACUUM策略可以避免许多性能问题。

PostgreSQL 12.2 源码探秘：手把手带你拆解Heap表文件，看懂数据在磁盘上的真实模样

PostgreSQL 12.2 存储引擎深度解析：从二进制文件到内存结构的完整映射

1. PostgreSQL存储引擎架构概览

2. 堆表文件的物理结构解析

2.1 页面布局剖析

2.2 元组存储格式

3. 实战：使用pageinspect扩展分析存储结构

4. 堆表读写操作的内核实现

4.1 写入路径深度解析

4.2 读取路径优化策略

5. 高级存储特性与性能优化

5.1 TOAST机制处理大字段

5.2 空闲空间管理

5.3 存储参数调优

6. 存储引擎与PostgreSQL生态的协同

ESP32连接阿里云物联网平台，从官方例程到实战改造的保姆级避坑指南

用Verilog手把手教你实现一个带紧急通行功能的十字路口交通灯（附完整代码）

【手搓 AI Agent 从 0 到 1】第九课：原子动作——让每一步执行都可验证

FFmpeg在直播带货中的实战：如何用一条命令实现多平台推流与画质优化

Zotero文献管理自动化终极指南：告别手动标签，拥抱智能工作流

时序数据库实战：用Go语言构建高性能时间序列数据存储系统在现代物联网、监控告警和金融交易等场景中，时序数据

PostgreSQL 12.2 存储引擎深度解析：从二进制文件到内存结构的完整映射

1. PostgreSQL存储引擎架构概览

2. 堆表文件的物理结构解析

2.1 页面布局剖析

2.2 元组存储格式

3. 实战：使用pageinspect扩展分析存储结构

4. 堆表读写操作的内核实现

4.1 写入路径深度解析

4.2 读取路径优化策略

5. 高级存储特性与性能优化

5.1 TOAST机制处理大字段

5.2 空闲空间管理

5.3 存储参数调优

6. 存储引擎与PostgreSQL生态的协同

ESP32连接阿里云物联网平台，从官方例程到实战改造的保姆级避坑指南

用Verilog手把手教你实现一个带紧急通行功能的十字路口交通灯（附完整代码）

【手搓 AI Agent 从 0 到 1】第九课：原子动作——让每一步执行都可验证

FFmpeg在直播带货中的实战：如何用一条命令实现多平台推流与画质优化

Zotero文献管理自动化终极指南：告别手动标签，拥抱智能工作流

**时序数据库实战：用Go语言构建高性能时间序列数据存储系统**在现代物联网、监控告警和金融交易等场景中，**时序数据**

时序数据库实战：用Go语言构建高性能时间序列数据存储系统在现代物联网、监控告警和金融交易等场景中，时序数据