数据湖
数据湖是一个集中存储海量原始数据的巨型仓库,就像一个自然湖泊汇集了各种源头的水。与传统数据仓库不同,它不预先定义结构,能保存任何类型的原始数据(结构化、半结构化、非结构化),并允许数据在需要分析时才定义结构(Schema-on-Read)。
那这玩意听起来也没什么高大上的,就是个原材料堆在一起的仓库,有什么高级的,头部银行都在建设数数据湖并追求湖仓一体化。数据湖提出来之前,非结构化、半结构化的数据不也得存储吗?我觉得这个数据湖没什么用。
你的质疑非常精准,直接戳中了数据湖最容易被误解的核心。没错,数据湖的本质就是一个“存储成本极低的原始数据堆”。你提到的“非结构化数据以前也要存”,完全正确。银行之所以愿意投入巨额资金(如上文提到的国开行2288万项目),不是为“存储”本身付费,而是为一种全新的、能基于这个数据堆进行低成本、高效率创新的“数据运营范式”买单。
数据湖的“高级之处”,恰恰在于它用一种朴素的方式,解决了传统数据管理在创新时代的几个核心悖论。我们可以用一个对比来看:
| 对比维度 | 传统方式(在数据湖之前) | 数据湖带来的范式转变 | 给银行带来的直接价值 |
| 1. 存储心态与成本 | “成本中心”心态:将数据(尤其是日志、音视频等非结构化数据)视为昂贵的负担,倾向于按需、选择性、短期存储,很多原始数据因成本被直接丢弃。 | “资产中心”心态:利用廉价对象存储,以极低成本(约为传统存储1/5甚至更低)全量、长期保存一切原始数据。 | 保留数据的“期权价值”:今天看似无用的原始数据(如所有客户交互的完整点击流),未来可能成为训练AI模型或应对新监管要求的金矿。数据湖让保留这种可能性变得经济可行。 |
| 2. 使用敏捷性与试错成本 | “方案前置”模式:需要用数据前,必须经历漫长的需求评审、模型设计、ETL开发,才能将数据“请进”结构化的数仓。流程笨重,试错成本极高。 | “探索优先”模式:数据科学家和分析师可以直接访问原始数据湖,用SQL、Python等工具即时进行探索、实验和原型验证。结构化和建模在分析时按需进行。 | 加速创新与洞察:一个业务问题,从“有个想法”到“用数据验证”,时间从数周缩短到几小时。这极大提升了银行在精准营销、实时风控等领域的创新速度和容错能力。 |
| 3. 技术生态与架构灵活性 | “绑定”式架构:数据被锁定在特定的数仓产品和格式中,使用新计算引擎(如图计算、流处理)往往需要复杂的数据迁移和转换。 | “开放”式架构:采用Iceberg、Hudi等开放表格式,数据以开放文件格式(Parquet等)存储,可被Spark、Flink、Presto、AI框架等任意主流引擎直接分析。 | 打破技术锁死,拥抱最佳工具:银行可以根据不同场景(批量ETL、实时查询、机器学习)自由选择最优计算工具,而无需担心数据移动和格式转换(所有数据都是一个格式就不用迁移了),实现了架构的长期灵活性和成本优化。 |
🏦 为什么头部银行追求“湖仓一体”?
理解了数据湖的核心是 “低成本保存 + 高灵活探索” ,就能明白“湖仓一体”不是取代数据仓库,而是让两者各司其职,形成完美互补:
数据湖:是 “原始数据探索与创新工厂” ,负责低成本保存全量数据,支持灵活、快速的数据探索、数据科学和未知场景分析。
数据仓库:是 “标准化数据产品超市” ,负责将经过清洗、建模、确认有价值的数据,加工成稳定、可靠、高性能的业务指标和报表,服务于成熟的BI和运营场景。
“湖仓一体” 就是打通工厂和超市的流水线:在湖里探索验证成功的“数据配方”(特征、模型),可以经过标准化加工后,稳定地供应到仓里,成为可复用的数据产品;同时,仓里已建模的数据也能回流到湖里,供更复杂的跨域分析使用。这解决了传统数仓僵化、慢,以及纯数据湖管理混乱、数据可信度低的各自弊端。
所以,你的感觉没错,数据湖本身并不高级。高级的是,头部银行利用这种“朴素”的存储理念,构建了一套允许自己进行“低成本、快速试错、持续创新”的数据基础设施和能力。这才是它们巨额投资的真正目标。
那我继续追问,为什么数据湖存储半结构化和非结构化的数据 会比传统方式节省4/5的空间?是有更先进的压缩方式吗?
你说到了一个关键点,但理解可以更精确。数据湖能节省4/5(约80%)的成本,核心并非依赖更“先进”的压缩算法,而是通过“更彻底的标准化”和“更合理的技术分层”来实现的成本结构重塑。压缩只是其中一环。
我们可以用一个简单的比喻来理解:这就像从“分散的自营小超市”模式,升级为“现代化的集中大仓储+冷链”模式。
💡 核心成本节省原理:架构变革,而非单一技术
传统方式和数据湖架构在成本结构上有根本不同,具体对比如下:
| 成本构成 | 传统分散存储方式(昂贵的原因) | 数据湖集中存储方式(节省的秘诀) | 节省类比 |
|---|---|---|---|
| 1. 存储硬件成本 | 使用高端、高IOPS的SAN/NAS存储(如EMC、NetApp),为“热数据”性能设计,价格极其昂贵。 | 使用廉价的标准商用硬件构建的分布式存储(如HDFS)或直接采用对象存储(如AWS S3、阿里云OSS),为“温冷数据”设计,单价极低。 | 从“奢侈品专柜”转到“大型批发仓库”。 |
| 2. 数据冗余与副本 | 数据在不同系统(数仓、文件服务器、备份系统)中大量重复存储,且常保存全量副本。 | 一份原始数据,多计算引擎共享,消除冗余存储。通过纠删码等技术,在保证可靠性的同时,副本系数可低至1.3-1.5倍。 | 从“每个部门自建小仓库”变为“全公司共用一个中央仓库”。 |
| 3. 数据格式与压缩 | 格式不统一,压缩率低。非结构化数据(如视频)可能以原始格式存储,结构化数据可能用压缩一般的文本格式。 | 统一列式存储格式(Parquet/ORC)+高效通用压缩(Snappy/Zstd)。列存对分析友好且自带高压缩比,非结构化数据也可用通用算法压缩。 | 从“杂乱堆放的原箱货物”变为“统一真空压缩打包”。 |
| 4. 分级存储与生命周期 | 缺乏自动化的数据生命周期管理,所有数据无论冷热都占用最贵的存储层。 | 内置智能分层:自动将访问频次低的数据从“标准存储”移到更便宜的“低频/归档存储”,成本可再降低50%以上。 | 从“所有货物都放黄金货架”变为“根据热度自动调整存放区域”。 |
📊 一个具体的成本估算实例
假设银行要保存10PB的客户原始数据(含日志、音视频、文档等)5年:
传统方式(估算):
使用高端存储:约200万元/PB/年。
总成本:
10PB × 200万 × 5年 = 约1亿元。这还不算多系统冗余存储和管理成本。
数据湖方式(估算):
采用对象存储(低频访问):约40万元/PB/年。
利用列存+压缩:有效数据容量可降低30%-50%(相当于10PB变5-7PB)。
总成本:
(10PB × 压缩率0.6) × 40万 × 5年 = 约1200万元。成本比例:1200万 / 1亿 = 约12%,节省了近88%。
这个“节省4/5”的结论,正是通过“廉价硬件 + 统一高效格式 + 智能分层”这套组合拳实现的。
🎯 对银行的关键意义:从“成本中心”到“数据资产”
所以,数据湖的节省,不是靠一个神奇的“超级压缩包”,而是一场彻底的数据存储架构现代化革命。它让银行从产“数据存储是昂贵负担”的心态,转变为“数据是值得全量保存的廉价资”的战略。
这使得过去因成本太高而被丢弃的原始数据(如全量用户行为日志、通话录音、历史影像)得以保留,为未来的机器学习、监管回溯、客户行为深度分析保留了宝贵的“数据期权”。这才是银行愿意投资数据湖的根本动力——用技术换来的成本优势,去购买未来无限的创新可能性。