SAS数据合并实战：从MERGE语句原理到一对多、多对多合并避坑指南-编程阁

1. 项目概述：SAS数据集横向合并的核心逻辑与场景

在数据分析的日常工作中，我们常常会遇到数据分散在多个数据集里的情况。比如，客户的基本信息在一个表里，近期的交易记录在另一个表里，而产品信息又在第三个表里。要把这些信息整合起来，形成一个完整的分析视图，横向合并（也叫匹配合并）就是最核心的操作之一。今天，我就结合自己十多年的SAS使用经验，来深入聊聊MERGE语句的横向合并，特别是那些容易被忽略的细节和实战中踩过的坑。无论你是刚接触SAS的新手，还是想巩固基础的老手，这篇内容都能帮你把“合并”这件事彻底搞明白。

横向合并，简单说就是把两个或多个数据集像拼图一样，按照某个或某几个共同的“键”（比如客户ID、订单号）横向连接起来。SAS里实现这个功能主要靠DATA步中的MERGE语句配合BY语句。听起来简单，但里面的门道可不少：变量名冲突了怎么办？有的ID只在其中一个数据集里有怎么办？一个ID对应多条记录又该怎么处理？这些问题的答案，都藏在MERGE语句的执行逻辑里。接下来，我们就从最简单的一对一合并开始，一步步拆解，直到复杂的多对多合并，把每个场景下的原理、操作和注意事项都讲透。

2. 一对一合并：横向合并的基石

一对一合并是所有合并操作中最基础的形式，它假设参与合并的各个数据集中，用于匹配的BY变量（键）的值都是唯一的，没有重复。这是理解更复杂合并的起点。

2.1 合并不同变量集：简单的变量叠加

当两个数据集完全没有相同的变量时，合并操作最为直观，就是将所有变量简单地并排放在一起。SAS会按照MERGE语句中数据集的顺序，依次读取观测，并将所有变量放入程序数据向量（PDV）中。

原理解读：SAS的DATA步在处理MERGE语句时，会为所有输入数据集中的变量在PDV中预留位置。对于没有相同变量的情况，每个数据集贡献自己独有的变量列。合并时，SAS默认进行一对一的串行合并，即读取第一个数据集的第一条观测，紧接着读取第二个数据集的第一条观测，将它们放入同一条输出观测中，以此类推。这里的关键是，合并不依赖任何匹配键，纯粹按观测的物理顺序进行。因此，你必须确保数据集的观测顺序在业务逻辑上是对应的，否则合并结果将毫无意义。

实操示例与代码解析：我们创建两个小数据集来演示。one数据集记录周次，two数据集记录主题。

/* 创建第一个数据集：周次 */ data work.one; input week $10.; /* 定义字符型变量week，长度10 */ cards; Week1 Week2 Week3 Week4 Week5 ; run; /* 创建第二个数据集：主题 */ data work.two; input topic $10.; /* 定义字符型变量topic，长度10 */ cards; Topic 1 Topic 2 Topic 3 Topic 4 Topic 5 ; run; /* 进行一对一横向合并 */ data work.all_simple; merge work.one work.two; /* 关键语句：按顺序合并one和two */ run; proc print data=work.all_simple; run;

运行结果与解读：输出数据集all_simple将包含5条观测，每条观测都有week和topic两个变量。Week1会对应Topic 1，Week2对应Topic 2，依此类推。这个过程没有进行任何基于内容的匹配，完全依赖于两个数据集在创建时卡片数据（cards）的输入顺序。

注意：这种“盲合”风险极高。在实际项目中，除非你百分之百确定两个数据源的观测顺序严格对应（例如，都按相同的ID和时间排序过），否则绝对不要使用不指定BY语句的MERGE。一个常见的错误是，两个数据集都从数据库导出，但默认排序不同，导致合并后数据完全错位。安全的做法是，即使变量不同，如果存在可以关联的键（如ID），也应先排序，然后使用BY语句进行匹配合并。

2.2 合并具有同名变量集（无BY语句）：覆盖与保留的博弈

当两个数据集包含同名变量时，情况变得有趣。如果不使用BY语句，SAS仍然按观测顺序合并，但对于同名变量，后一个数据集中的值会覆盖前一个数据集中的值。

原理解读：PDV中每个变量名只有一个存储位置。当MERGE执行时，SAS按语句中数据集的顺序处理。读取第一个数据集时，将同名变量的值写入PDV。接着读取第二个数据集，如果遇到同名变量，则用第二个数据集的值覆盖PDV中已有的值。最终输出的是覆盖后的结果。这种机制下，合并结果同样严重依赖于观测的物理顺序。

实操示例与冲突演示：假设three数据集有ID和余额，four数据集有姓名和余额（变量名相同）。

/* 数据集three: 客户ID和余额 */ data work.three; input ID $3. balance 4.; cards; 001 102 005 89 002 231 004 147 003 192 ; run; /* 数据集four: 客户姓名和余额（变量名balance与three冲突） */ data work.four; input Name $ 1-15 @17 balance 4.; /* 使用列指针读取 */ cards; John Smith 96 Ted Husion 80 Martha Chen 150 Sandy Lee 100 Paul Leny 192 ; run; /* 尝试合并，注意balance变量 */ data work.all_conflict; merge work.three work.four; run; proc print data=work.all_conflict; run;

运行结果分析：你会得到一个包含ID、Name和balance的数据集。然而，balance的值将全部来自four数据集（96, 80, 150, 100, 192），three数据集中的balance值（102, 89, 231, 147, 192）在合并过程中被逐个覆盖了。同时，由于是顺序合并，ID为001的客户可能错误地对应了Name为John Smith的客户，如果他们的排序位置不一致。

解决方案：使用RENAME选项如果两个数据集中的同名变量代表不同含义，你必须重命名其中一个，以避免覆盖。

data work.all_renamed; merge work.three work.four(rename=(balance=balance_new)); /* 将four中的balance重命名为balance_new */ run; proc print data=work.all_renamed; run;

这样，输出数据集将包含ID、balance（来自three）、Name和balance_new（来自four）四个变量，信息得以完整保留。

2.3 合并具有同名变量集（使用BY语句）：精确匹配的核心

这才是横向合并的正确打开方式。通过BY语句指定一个或多个关键变量，SAS会根据这些键的值来匹配不同数据集中的观测，而不是粗暴地按行顺序合并。

原理解读：BY语句开启了“匹配合并”模式。SAS会比较所有输入数据集中BY变量的值，将具有相同BY值的观测合并到同一条输出观测中。这要求所有输入数据集必须事先按照BY变量进行排序（升序或降序）。对于同名变量，匹配合并的规则是：当BY组内来自多个数据集的观测合并时，PDV中同名变量的值会被当前正在读取的观测值覆盖。对于一对一的匹配（每个BY值在所有数据集中都只出现一次），最终输出的是最后一个包含该变量的数据集所提供的值。

实操示例：基于ID的精确匹配

/* 数据集five: 包含ID, balance, zip */ data work.five; input ID $3. balance 4. zip 6.; cards; 001 102 16431 005 89 46298 002 231 98704 004 147 42316 003 192 44765 007 479 21496 ; run; proc sort data=work.five; by id; run; /* 必须排序 */ /* 数据集six: 包含Name, balance, ID */ data work.six; input Name $ 1-15 @17 balance 4. @23 ID $3.; cards; Sandy Lee 100 004 Paul Leny 192 003 John Smith 96 001 Ted Husion 80 005 Martha Chen 150 002 Jason Tod 244 006 ; run; proc sort data=work.six; by id; run; /* 必须排序 */ /* 使用BY语句进行匹配合并 */ data work.all_by; merge work.five work.six; by id; /* 关键：按id匹配 */ run; proc print data=work.all_by; run;

运行结果深度解析：输出数据集all_by将包含ID、balance、zip、Name这几个变量。我们逐条看：

ID=001: 匹配成功。five提供balance=102,zip=16431；six提供Name='John Smith',balance=96。由于six后读取，最终balance的值为96。输出观测为：ID=001, balance=96, zip=16431, Name=John Smith。
ID=002到005: 类似地成功匹配。
ID=006: 仅在six中存在。five中没有ID=006的观测，因此来自five的变量（balance,zip）在PDV中初始为缺失值，然后被six的数据填充。输出观测中balance=244（来自six），zip为缺失。
ID=007: 仅在five中存在。six中没有ID=007的观测，因此来自six的变量（Name,balance）为缺失。注意，此处的balance值来自five（479），因为six没有提供值来覆盖它。

实操心得：使用BY合并前，务必用PROC SORT对所有参与数据集进行排序，并确保排序的BY变量顺序一致。一个高效的检查方法是使用PROC CONTENTS或PROC PRINT查看数据集的排序属性。我习惯在合并代码前加上注释，明确列出排序步骤，避免遗忘。对于大型数据集，排序可能耗时，可以考虑使用已带有索引的数据集，并在MERGE语句中使用BY语句，SAS会自动利用索引，但理解和控制排序仍是基本功。

2.4 掌控数据来源：IN=选项的妙用

IN=选项是一个强大的工具，它允许你创建一个临时变量（通常称为标志变量），来指示当前观测是否来自某个特定的输入数据集。这让你能够精确控制输出数据集中包含哪些观测。

原理解读：在MERGE语句的数据集名后加上IN=标志变量名，SAS会在PDV中创建一个数值型临时变量（0或1）。当该数据集为当前BY组贡献了观测时，此变量值为1，否则为0。这个变量不会自动输出到最终数据集，但可以在DATA步的编程语句（如IF、WHERE）中使用，以基于数据来源进行逻辑控制。

场景一：标记观测来源想要知道合并后的每条记录是来自左边数据集、右边数据集还是两者都有。

data work.all_with_source; length source $8.; /* 预先定义来源变量的长度 */ merge work.five(in=inFive) work.six(in=inSix); by id; /* 根据IN=变量判断来源 */ if inFive and inSix then source = 'Both'; else if inFive then source = 'Left'; else if inSix then source = 'Right'; /* 也可以写成: else source = 'Right'; */ run; proc print data=work.all_with_source; run;

这样，输出数据集中会多出一个source变量，清晰标明ID=001到005是Both，ID=006是Right，ID=007是Left。

场景二：只保留匹配成功的观测（内连接）在数据分析中，我们常常只关心那些在两个数据集里都存在的记录。

data work.inner_join; merge work.five(in=inFive) work.six(in=inSix); by id; if inFive and inSix; /* 子集IF语句：只输出两个数据集都有的观测 */ run;

这个数据集将只包含ID为001到005的观测。这是实现类似SQL中INNER JOIN的效果。

场景三：保留左表所有观测（左连接）有时我们需要以某一个数据集为基准，保留它的所有记录，无论是否在另一个数据集中匹配到。

data work.left_join; merge work.five(in=inFive) work.six(in=inSix); by id; if inFive; /* 只输出在左边数据集（five）中存在的观测 */ run;

这个数据集将包含ID为001,002,003,004,005,007的观测。对于ID=007，来自six的变量为缺失。

避坑指南：IN=变量是临时变量，仅在当前DATA步的PDV中存在。如果你需要将这个来源信息保留到输出数据集中，必须像第一个例子那样，显式地将其赋值给一个新变量。另外，IF语句和WHERE语句在处理IN=变量时有区别。WHERE语句在观测进入PDV之前就生效，因此不能用于基于IN=变量的筛选。务必使用IF语句来进行基于数据来源的条件输出。

3. 一对多与多对一合并：处理重复键值

在实际数据中，一个键值在某个数据集中出现多次（一对多或多对一）的情况非常普遍。例如，一个客户（ID）对应多条交易记录，或者多个产品属于同一个类别。SAS的MERGE语句能够很好地处理这种情况，但其行为需要仔细理解。

3.1 合并原则与PDV的“记忆”效应

当进行匹配合并时，如果某个BY值在其中一个数据集中有重复（比如在数据集A中出现1次，在数据集B中出现3次），SAS会如何进行合并呢？其核心原则是：SAS会遍历该BY组内所有数据集的所有观测组合，进行笛卡尔积式的匹配，直到所有数据集中该BY值的观测都被处理完毕。

更具体地说，PDV中的变量值具有“记忆性”：当一个数据集的一条观测被读入PDV后，其变量值会一直保留在PDV中，直到发生以下情况之一：

同数据集的下一条观测被读入，并覆盖PDV中该变量的值。
当前BY组处理完毕，PDV被重置（非BY变量被设为缺失，BY变量根据下一条观测更新）。

原理解读：假设数据集Left中ID=1有1条观测，数据集Right中ID=1有3条观测。合并过程如下：

SAS进入BY组ID=1。
读取Left的第一条（也是唯一一条）观测，将其变量值载入PDV。
读取Right的第一条观测，将其变量值载入PDV。此时，Left的变量值仍在PDV中未被覆盖（除非有同名变量）。SAS输出第一条合并后的观测。
SAS继续处理BY组ID=1。由于Left已无更多观测，其变量值在PDV中保持不变。读取Right的第二条观测，其变量值载入PDV（覆盖Right自己上一条观测的值）。Left的变量值依然“记忆”在PDV中。SAS输出第二条合并后的观测。
重复步骤4，处理Right的第三条观测，输出第三条合并观测。
BY组ID=1处理完毕，PDV准备重置，开始处理下一个BY组。

3.2 实战解析：一对多合并案例

让我们用具体数据来演示。假设seven数据集存储客户ID和邮编（每个ID唯一），eight数据集存储客户ID、姓名和余额（一个ID可能对应多条余额记录，例如多次存款）。

/* 数据集seven: 客户基础信息 (ID, Zip) - 一对一 */ data work.seven; input ID $3. zip 6.; cards; 001 16431 005 46298 002 98704 004 42316 003 44765 007 21496 ; run; proc sort data=work.seven; by id; run; /* 数据集eight: 客户交易信息 (Name, Balance, ID) - 一对多 */ data work.eight; input Name $ 1-15 @17 balance 4. @23 ID $3.; cards; Sandy Lee 100 004 Paul Leny 192 003 John Smith 96 001 Ted Husion 80 005 Martha Chen 150 002 Jason Tod 244 006 Avery 200 001 /* ID=001 出现了第二次！ */ ; run; proc sort data=work.eight; by id; run; /* 进行一对多合并 */ data work.one_to_many; merge work.seven work.eight; by id; run; proc print data=work.one_to_many; run;

运行结果与逐步推演：关键看ID=001和ID=007。

ID=001:
- seven中有一条：(001, 16431)
- eight中有两条：(John Smith, 96, 001)和(Avery, 200, 001)
- 合并过程:
  1. 进入BY组001。读seven观测入PDV：ID=001, zip=16431。
  2. 读eight第一条观测（John Smith）入PDV：Name='John Smith', balance=96。此时PDV为：ID=001, zip=16431, Name='John Smith', balance=96。输出观测1。
  3. seven在该BY组已无观测，其变量值（zip=16431）被“记住”。
  4. 读eight第二条观测（Avery）入PDV：Name='Avery', balance=200。覆盖eight自身的上一条Name和balance值。PDV变为：ID=001, zip=16431, Name='Avery', balance=200。输出观测2。
- 最终输出两条观测，zip都是16431，分别对应两个姓名和余额。
ID=007:
- 仅在seven中存在。eight中无此ID。
- 进入BY组007。读seven观测入PDV：ID=007, zip=21496。
- eight中无观测，因此eight的变量（Name,balance）在PDV中保持缺失。
- 输出一条观测：ID=007, zip=21496, Name=., balance=.。

核心技巧：理解PDV的“记忆”效应是掌握一对多合并的关键。来自“一”那一侧的数据集（本例中的seven），其变量值会在整个BY组处理期间被保留，并与“多”那一侧的每一条观测进行组合。这正是一对多合并所期望的行为。如果反过来是“多对一”，逻辑完全对称，“多”侧数据集的变量值会被其自身的后续观测覆盖，而“一”侧的变量值被记忆。

3.3 多对多合并：复杂的笛卡尔积

当两个（或更多）输入数据集中，同一个BY值都出现多次时，就发生了多对多合并。SAS的处理逻辑是上述“记忆”效应的自然延伸，结果会生成该BY组内所有观测的笛卡尔积。

原理解读：对于给定的BY组，SAS会依次从每个数据集中读取观测。其算法可以理解为嵌套循环，但更准确的描述是：SAS会持续从各个数据集读取观测，直到所有数据集中该BY值的观测都被耗尽。输出观测的数量等于该BY组在所有数据集中观测数量的最大值（如果所有数据集都有该BY值）。来自数据集的变量值，在其所属数据集的下一条同BY组观测被读取时，才会被覆盖。

实战案例解析：假设nine数据集记录每个ID的多个号码，ten数据集记录每个ID的多次余额。

/* 数据集nine: 多对多中的“多” */ data work.nine; input id $3. number; cards; 001 2 001 3 002 2 002 4 ; run; proc sort data=work.nine; by id; run; /* 数据集ten: 多对多中的另一个“多” */ data work.ten; input id $3. balance; cards; 001 100 001 192 002 150 002 200 003 136 /* 这个ID只在ten中存在 */ ; run; proc sort data=work.ten; by id; run; /* 进行多对多合并 */ data work.many_to_many; merge work.nine work.ten; by id; run; proc print data=work.many_to_many; run;

运行结果与逻辑推演：我们聚焦ID=001这个BY组。

nine中有两条观测：(001,2),(001,3)
ten中有两条观测：(001,100),(001,192)
合并过程:
1. 进入BY组001。
2. 读nine第一条观测入PDV：id=001, number=2。
3. 读ten第一条观测入PDV：balance=100。PDV:id=001, number=2, balance=100。输出观测1。
4. nine和ten都还有下一条观测。SAS会先读取哪个？规则是：SAS会从当前BY组内，尚未耗尽观测的数据集中，继续读取。通常，它会继续读取ten的下一条观测，因为ten刚刚被读取过。
5. 读ten第二条观测入PDV：balance=192。覆盖ten自身的balance值。nine的number值(2)被记忆。PDV:id=001, number=2, balance=192。输出观测2。
6. ten的观测已耗尽，但nine还有一条观测。读nine第二条观测入PDV：number=3。覆盖nine自身的number值。ten的balance值(192)被记忆。PDV:id=001, number=3, balance=192。输出观测3。
7. nine的观测也已耗尽。BY组001处理完毕。

最终ID=001的输出是3条观测：(2,100),(2,192),(3,192)。注意，这并不是严格的笛卡尔积（2x2=4条），而是number和balance的所有组合，但受限于SAS逐条读取和覆盖的机制，number=2与balance=192的组合出现了，number=3与balance=100的组合却没有出现。这是多对多合并中最需要警惕的地方：其结果可能不是直观的笛卡尔积，而是依赖于数据在数据集中的物理顺序和SAS的读取顺序。对于ID=002，情况类似。对于ID=003，只在ten中存在，因此number为缺失。

严重警告与最佳实践：多对多合并的结果往往难以预测且通常不符合业务逻辑（比如，你不希望一个客户的某次交易编号错误地关联到另一个余额上）。在绝大多数业务场景中，多对多合并是数据问题或逻辑错误的标志。除非你有非常特殊的、明确的需求，并且完全理解并接受了其输出结果的不确定性，否则应极力避免直接对两个都有重复键的数据集进行MERGE。更常见的做法是，先通过PROC SQL进行明确的连接（如LEFT JOIN,INNER JOIN），或者先对数据进行聚合、去重，确保至少一侧的键是唯一的，再进行MERGE。

4. 高级技巧与实战避坑指南

掌握了基本合并逻辑后，一些高级选项和实战中的细节处理能让你如虎添翼，并避免很多深夜调试的烦恼。

4.1 使用数据集选项：超越基础合并

除了IN=选项，MERGE语句还支持其他数据集选项，用于在合并时进行更精细的控制。

1. RENAME=（重命名）如前所述，用于解决变量名冲突。建议在冲突发生时，始终使用RENAME=选项，而不是事后修改。这使代码意图更清晰。

data work.merged_clean; merge base_data lookup_data(rename=(old_name=new_name common_var=lookup_var)); by key; run;

2. KEEP=/DROP=（保留/丢弃变量）可以在合并时选择只带入部分变量，减少中间数据集的大小，提升处理效率。这在合并宽表（变量很多的数据集）时特别有用。

data work.merged_essential; merge customer_info(keep=cust_id name region) /* 只保留需要的变量 */ transaction_detail(keep=cust_id trans_date amount); by cust_id; run;

3. WHERE=（条件过滤）在数据读入PDV参与合并之前进行过滤。注意，WHERE=选项作用于单个数据集，且在BY组匹配之前。这意味着，如果使用WHERE=过滤，可能会破坏BY组的完整性，导致意外的合并结果，使用时需格外小心。

/* 只合并transaction_detail中金额大于100的记录 */ data work.merged_large_trans; merge customer_info transaction_detail(where=(amount > 100)); by cust_id; run;

4.2 预处理关键：排序与去重

排序是BY语句合并的绝对前提。如果数据集未排序，SAS会报错：“ERROR: BY variables are not properly sorted on data set WORK.XXX.”。对于大型数据集，排序可能很慢。有几种策略：

使用索引：如果数据集已对BY变量建立了索引，MERGE语句可以直接使用，无需显式排序。用PROC CONTENTS查看数据集是否有索引。
PROC SORT的NODUPKEY选项：在排序的同时去除BY变量的重复值。在一对一合并前，确保键唯一性非常有用。
```
proc sort data=work.potential_dups nodupkey; by key_var; run;
```
PROC SORT的DUPOUT=选项：将重复观测输出到另一个数据集，便于审查数据质量问题。
```
proc sort data=work.potential_dups nodupkey dupout=work.duplicate_records; by key_var; run;
```

4.3 常见错误与排查技巧

即使经验丰富，合并数据时也难免出错。下面是一个常见问题速查表，帮助你快速定位问题。

问题现象	可能原因	排查与解决方法
合并后观测数激增，远超预期	发生了非预期的多对多合并。一个或多个数据集中`BY`变量存在重复值。	1. 合并前，用`PROC FREQ`检查`BY`变量的唯一性：`proc freq data=work.ds nlevels; tables key_var / noprint; run;`查看`Number of Levels`。 2. 使用`PROC SORT`的`NODUPKEY`和`DUPOUT=`找出并处理重复值。
合并后观测数少于预期	1. 使用了`IN=`选项配合`IF`语句进行了筛选（如只保留`IN`都为1的）。 2.`BY`变量格式不一致（如字符和数值，或长度不同），导致匹配失败。	1. 检查`DATA`步中是否有`IF in1 and in2;`这类子集语句。 2. 使用`PROC CONTENTS`比较两个数据集的`BY`变量类型、长度、格式、输入格式。确保一致。字符变量注意前导/尾部空格。
合并后变量值出现大量缺失	1.`BY`变量未正确排序，导致匹配错位。 2. 观测无法匹配（如左连接中右表无对应记录）。 3. 同名变量被覆盖，而你期望保留的值来自先被读取的数据集。	1. 检查日志中是否有排序错误。用`PROC PRINT`查看合并前后`BY`变量的顺序。 2. 使用`IN=`选项检查观测来源，确认是否为预期的连接类型（内连接、左连接等）。 3. 检查`MERGE`语句中数据集的顺序，或使用`RENAME=`选项。
日志报错：`ERROR: BY variables are not properly sorted`	输入数据集没有按`BY`语句中列出的变量排序。	1. 对所有参与合并的数据集执行`PROC SORT`。 2. 确认排序的`BY`变量顺序与`MERGE`语句中`BY`变量的顺序完全一致。 3. 检查是否存在缺失值，某些排序规则下缺失值可能被视为最小或最大值，影响顺序。
合并结果看起来随机混乱	最可能的原因是没有使用`BY`语句，进行了顺序合并，而数据集的观测顺序并不对应。	立即停止！检查代码是否遗漏了`by key;`语句。顺序合并仅在极少数特定场景下使用，绝大多数匹配合并都必须使用`BY`语句。

4.4 性能优化与大数据集处理

当处理GB级别的大型数据集时，合并操作的效率至关重要。

预先减少数据量：使用KEEP=/DROP=或WHERE=选项在合并前丢弃不需要的变量和观测。在MERGE语句中使用这些选项比先创建子集再合并更高效。
利用索引：如果经常按某些键合并，考虑在源数据上创建索引。虽然创建索引有开销，但对于频繁的合并查询，速度提升显著。
```
proc sql; create index cust_id on work.large_transaction_table(cust_id); quit;
```

考虑PROC SQL：对于复杂的多表连接，特别是涉及过滤、聚合和连接混合操作时，PROC SQL的语法可能更直观，且SAS优化器有时能生成更高效的执行计划。

proc sql; create table work.merged_sql as select a.*, b.region, b.credit_score from work.transactions as a left join work.customer_master as b on a.cust_id = b.cust_id where a.trans_date >= '01JAN2023'd; quit;

分治策略：如果数据集巨大，内存无法承受，可以考虑按某个维度（如时间月、地区）将数据分割成多个子集，分别合并后再拼接。

横向合并是SAS数据整合的基石，从简单的一对一到复杂的一对多、多对多，其核心始终是MERGE语句与BY语句的配合，以及对程序数据向量（PDV）运行机制的理解。记住，排序是前提，IN=选项是控制输出观测的利器，而对重复键的警惕是保证数据质量的关键。在实际项目中，我养成的习惯是：合并前必查重（PROC FREQ或PROC SORT NODUPKEY），合并后必验证（检查观测数、关键变量的缺失率）。把这些基础打牢，面对再复杂的数据整合需求，你都能有条不紊地拆解和实现。