大数据存储 - Azure 数据湖全面解析
1. 理解 Azure 数据湖存储
在选择存储解决方案时,需要考虑要存储的数据量。根据数据量的不同,可以从 Azure 提供的多种服务中进行选择,如 Azure 存储、Azure SQL 或 Azure Cosmos DB,还有各种可作为虚拟机镜像的数据库,如 Cassandra 或 MongoDB,生态系统十分丰富。
然而,当存储的数据量没有上限,或者数据量增长极快,无法确定一个安全的上限时,就需要一种特殊的存储——数据湖。数据湖允许以自然格式存储数据,不对存储的信息施加任何结构。在 Azure 中,解决此类问题的方案是 Azure 数据湖存储(Azure Data Lake Store)。
2. Azure 数据湖存储基础
Azure 数据湖存储被称为超大规模数据存储库,因为它在存储文件时没有限制。它可以存储任何格式、任何大小的文件,并且可以存储不同结构的信息。这对于大数据分析也是一个很好的模型,因为可以根据处理服务的需求选择存储文件的方式,例如有些服务更喜欢少量大文件,有些则更喜欢大量小文件。
与关系型、NoSQL 或图数据库等其他存储解决方案不同,Azure 数据湖存储在存储非结构化数据时没有限制。以下是 Azure 数据湖存储(AZDS)与 Azure 存储的对比表格:
| 对比项 | AZDS | Azure 存储 |
| — | — | — |
| 限制 | 无文件大小和数量限制 | 账户最大容量 500 TB,有文件最大大小限制 |
| 冗余 | LRS | LRS/ZRS/GRS/RA - GRS |
| API | WebH