如何通过 REST API 暴露 Delta 表-编程阁

原文：towardsdatascience.com/how-to-expose-delta-tables-via-rest-apis-53b4dd7afa4e?source=collection_archive---------0-----------------------#2024-05-06

三种架构讨论并测试用于服务 Delta 表

https://rebremer.medium.com/?source=post_page---byline--53b4dd7afa4e--------------------------------https://towardsdatascience.com/?source=post_page---byline--53b4dd7afa4e-------------------------------- René Bremer

·发布于 Towards Data Science ·7 分钟阅读·2024 年 5 月 6 日

–

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/1c9e1d23ea5b1cf0a55e7475f13b53a9.png

通过内外数据暴露——图片由 Joshua Sortino on Unsplash 提供

1. 引言

金奖架构中的 Delta 表通常用于创建数据产品。这些数据产品用于数据科学、数据分析和报告。然而，一个常见的问题是如何通过 REST API 暴露数据产品。这个想法是将这些 API 嵌入具有更严格性能要求的 Web 应用程序中。以下是一些重要问题：

从 Delta 表读取数据是否足够快以支持 Web 应用程序？
是否需要计算层以使解决方案更具可扩展性？
是否需要存储层来满足严格的性能要求？

为了深入探讨这些问题，评估了三种架构，如下所示：架构 A——API 中的库，架构 B——计算层，架构 C——存储层。请参阅下图。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/4660f725419bf5d6260407749ecb8d6f.png

三种架构用于暴露 Delta 表——图片由作者提供

在博客文章的其余部分中，将描述、部署和测试这三种架构。然后得出结论。

2. 架构描述

3. 部署和测试架构

3.1 部署架构

为了部署这些架构，创建了一个 GitHub 项目，该项目部署了前一章中讨论的三种解决方案。该项目可以通过以下链接找到：

https://github.com/rebremer/expose-deltatable-via-restapi

执行 GitHub 项目时将部署以下内容：

一个源自标准测试数据集 WideWorldImportersDW full 的 Delta 表。该测试数据集包含 5000 万条记录和 22 个列，其中包含一个大描述列。该 Delta 表将使用年份和季度进行分区。
所有架构： Azure Function 作为 API。
架构 B：Synapse Serverless 作为计算层。
架构 C：Azure SQL 作为优化存储层。

一旦部署完成，就可以执行测试。测试将在下一个段落中描述。

3.2 测试架构

为了测试架构，将应用不同类型的查询和不同的扩展方式。不同类型的查询可以描述如下：

查找 20 条记录，每条记录包含 11 个小列（字符型、整数型、日期时间型）。
查找 20 条记录，其中 2 列包含一个大描述列，每个字段超过 500 个字符。
使用 group by、having、max、average 等进行数据聚合。

以下是查询的示例。

--Query1:Point look up11columns without large texts SELECT SaleKey,TaxAmount,CityKey,CustomerKey,BillToCustomerKey,SalespersonKey,DeliveryDateKey,Package FROM silver_fact_sale WHERE CityKey=41749andSalespersonKey=40andCustomerKey=397andTaxAmount>20--Query2:Description columnwithmore than500characters SELECT SaleKey,Description FROM silver_fact_sale WHERE CityKey=41749andSalespersonKey=40andCustomerKey=397andTaxAmount>20--Query3:Aggregation SELECT MAX(DeliveryDateKey),CityKey,AVG(TaxAmount)FROM silver_fact_sale GROUP BY CityKey HAVING COUNT(CityKey)>10