news 2026/4/16 11:01:50

我如何作为数据工程师使用 Gen AI

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
我如何作为数据工程师使用 Gen AI

原文:towardsdatascience.com/how-i-use-gen-ai-as-a-data-engineer-6a686a921c7b

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/d13c048b9bc14280b1f5b5f5418dfcae.png

我使用 AI 的图片。图片由作者提供

引言

将生成式 AI 嵌入到数据工程工作流程和数据管道中实际上非常简单且令人满意。

作为软件和商业用户之间的桥梁,数据团队处于无可匹敌的位置,可以快速迭代具有重大业务影响的生成式 AI 用例。

具体来说,生成式 AI 可以用来总结大量结构化和非结构化信息,这既扩大了数据团队可用的数据范围,也增加了数据的深度。

然而 - 很容易对生成式 AI 以及它如何“酷”或“流行”着迷而不真正使用它来推动组织内的有影响力的增长。这就是为什么对于数据团队来说,拥有数据和分析产品的中央可见点是如此基本的原因。

在本文中,我们将讨论一些方法,您可以利用现有数据管道中的生成式 AI,以及如何量化结果。

特征工程

通过摄入大量非结构化数据,如通话笔记或支持票务请求,数据团队现在可以发起 API 调用并获取数据并进行清理。

这可以在数据摄入点或管道中间进行。例如,如果您正在使用开源连接器从Salesforce摄入数据,您可以通过“笔记”列迭代并调用 Open AI 来总结笔记。这是一种使用生成式 AI 进行特征工程的形式 - 请参见下面的非常基本的代码草图。

deffetch_data():retrun pd.DataFrame(['some_data'],columns=['notes'])defmake_call_to_open_ai(data):data['completed_notes']=open_ai.make_request(data['notes'])returndata data=fetch_data()feature_engineered_data=make_call_to_open_ai(data)

您也可以使用 Python 脚本作为数据转换过程中的中间步骤提交一系列值。

这将需要您协调 Python 作业,也许还需要数据转换作业(查询,使用 dbt 或 Coalesce),这很困难(除非当然您有一个能够处理编排的多功能平台)。

最后,许多云仓库也将生成式 AI 嵌入到他们的产品中。例如,在 Snowflake 中,Snowflake SQL 支持诸如SUMMARIZE()之类的函数,这些函数在幕后自动执行上述工作。

新数据源 - 非结构化数据

如果你能将 pdfs、文档和电子邮件安排在对象存储层,例如 S3,那么你现在就可以利用这些数据了。

例如,你可以使用数据摄取工具将电子邮件同步到 S3(就像你可能使用 Fivetran 从 Salesforce 获取数据到 Snowflake 一样)。然后你可以使用 Snowflake 的pdf 摘要工具来了解你收到的数据。

例如,假设你有一个存储在类似/contracts/region/format/name 的文件路径下的客户合同列表,你可以将此信息传递给Document AI,它允许它自动提取这些信息。

这对于客户合同和订单表的分析将非常强大。你可以轻松推断出如下架构

{"contract_type":"annual","products":["Platform","Dashboard"],"platform_fees":["$10,000","$20,000"],...}

这消除了在操作工具(如 Docusign 和 Salesforce)之间进行复杂集成的需求。在最理想的情况下,它为财务团队节省了数百小时的手动工作——这是一个即时可衡量的胜利(“这每周节省了我 10 小时 = 每周 500 美元 = 每年 25,000 美元”)。

这些代表数据的新来源,由于它们与其他数据管道的逻辑分离,因此很容易量化。当采用使用开源工作流程编排工具(open-source workflow orchestration tool)的单一方法进行监控时,这可能极具挑战性。

网络爬虫

团队可以使用Orchestra和Nimble等平台将互联网指定为数据源。是的——互联网。这是因为生成式 AI 在理解网页文件中的重要信息方面非常出色。记住——像 Selenium 和 Beautiful Soup 这样的工具分别成立于2006和2004。

有一些公共网站允许你有效地将它们变成数据源,例如 Google。想象一下,如果你能够实时监控不同搜索词的提及频率,而无需支付 SemRush 并不断检查它,那会怎样。

其他应用可以是来自供应商网站的价格数据、天气数据或企业目录。只要你利用这些工具在其服务条款内(这一点非常重要),网络爬虫可以非常强大。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/1ea3e0c8ca8e420a07438d07e4bba1ba.png

Nimble 的着陆页 – 当我了解到这一点时,我非常兴奋。作为一名数据工程师,谁不想能够将互联网作为数据源呢?

值得注意的是,由于网络爬取任务通常计算量低但运行时间长,因此不建议在昂贵的计算机集群上运行这些任务,例如用于部署开源工作流程编排工具的集群,因为这会不必要地增加成本。一个好的解决方案是使用编排层并将网络爬取脚本放入一个可以预先配置节点(如EC2)的集群中。

由于这些代表新的数据来源,因此监控成本和用量等特性是直接的,因为这些数据产品可以轻松地整合到单一数据管道和独立的数据工作流程中。

优化业务流程

能够有效地总结笔记以及结构化数据源的能力,为一系列操作数据管道开辟了新的可能性。

例如,你可以列出最近的活动,并使用这些活动作为 AI 代理的总体提示。然后,你可以迭代通过客户经理、业务发展代表或其他职能角色,并使用 AI 来总结他们应该做的事情的列表(附带指向相关资源的规范链接)。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/c55bf7c613c513f27cb8675f2a9d761e.png

GPT-4 告诉我在 Orchestra 中如何处理我的用户注册 – 显然,你可以用更好的方式来提示。想象一下作者的画面

从大量结构化和非结构化数据中轻松提炼销售优先级本身是具有挑战性的。大型语言模型擅长分析非结构化数据并迅速加速洞察力。数据团队处于做这件事的理想位置。

此外,监控相对简单。通过触发一个大型语言模型并传递一系列值,数据团队可以触发用于操作目的的批量推理作业,并随着时间的推移监控服务的使用情况。

生成式人工智能倡议经常遇到怀疑,因此能够展示“数据产品”的使用至关重要。一个收集元数据并将其呈现给非技术性、业务利益相关者的层将非常重要。

摘要

在这篇简短的文章中,我们介绍了数据团队可以在其组织中快速测试数据和人工智能产品的四种方法:

  1. 特征工程

  2. 非结构化数据

  3. 网络爬取

  4. 优化业务流程

这些数据产品成功到什么程度将严重依赖于组织现有的流程。

如果业务利益相关者和数据团队之间没有现有关系,那么在组织中释放生成式人工智能不太可能奏效。数据团队需要成为内部倡导者、冠军,并且像初创公司向世界展示自己一样向业务的其他成员展示自己。

其他例子,如特征工程,可能影响非常小。在表格中增加一列,清晰简洁地总结所有其他列的内容,不太可能“推动指针”在任何方面。

用例(2)和(3)可能具有极大的影响力,但前提是存在与利益相关者的现有关系。如果财务团队对在 ERP 系统中输入合同价值感到满意,那么他们不太可能对自动完成这项工作的建议做出积极反应。首席财务官或财务总监可能会有不同的看法。

所有这一切的基础是数据团队和 C 级管理层之间的桥梁。数据和人工智能倡议代表了一种时间投资,这些时间本可以用于其他地方。

数据团队应确保他们使用的是一个能够从他们的数据和人工智能产品(如成本、使用情况和性能)中聚合元数据的平台,以促进与 C 级高管的讨论,让数据团队能够展示他们数据和人工智能产品的商业价值。

希望你喜欢这篇文章!如果你有任何关于数据团队如何利用生成式人工智能的其他想法,请在评论中告诉我们!💡

关于我

_ 我是 Hugo Lu – 我在伦敦从事并购工作开始了我的职业生涯,后来转到 JUUL,并陷入了数据工程。在短暂的回到金融领域后,我领导了位于伦敦的金融科技公司Codat的数据部门。我现在是Orchestra的 CEO,这是一个数据发布管道工具,帮助数据团队可靠且高效地将数据发布到生产环境中 🚀_

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/16 9:17:05

FaceFusion在AI语言教师形象本地化中的实践案例

FaceFusion在AI语言教师形象本地化中的实践案例 在一场面向东南亚学生的在线英语课上,AI教师微笑着用标准发音示范句子,她的面部轮廓带着明显的东亚特征,眼神温和,随着语调自然地扬眉、点头。学生几乎察觉不到这并非真人直播——但…

作者头像 李华
网站建设 2026/3/27 9:35:01

我如何使用 LlamaIndex 工作流简化我的研究和演示过程

原文:towardsdatascience.com/how-i-streamline-my-research-and-presentation-with-llamaindex-workflows-3d75a9a10564?sourcecollection_archive---------3-----------------------#2024-09-10 一个通过 AI 工作流实现可靠性、灵活性和可控性的示例 https://me…

作者头像 李华
网站建设 2026/4/9 19:59:35

腾讯组织架构重大调整,背后的意图是?

见字如面,我是军哥!36氪独家获悉,近期完成了一次组织调整,正式新成立AI Infra部、AI Data部、数据计算平台部。12月17日下午发布的内部公告中,腾讯表示,Vinces Yao将出任“CEO/总裁办公室”首席 AI 科学家&…

作者头像 李华
网站建设 2026/4/16 10:43:16

GPT-5 的 Memory 系统技术架构,比想象中简单太多了!

大家好,我是玄姐。当我询问 GPT-5 关于我的记忆时,它列出了 33 个事实,从我的名字、职业目标到当前的健身计划应有尽有。但它究竟是如何存储和检索这些信息的?为何整个过程会如此无缝自然?经过大量实验,我发…

作者头像 李华
网站建设 2026/4/8 17:59:50

Langchain-Chatchat能否支持网页抓取内容入库?

Langchain-Chatchat能否支持网页抓取内容入库? 在企业知识管理日益智能化的今天,一个核心挑战浮出水面:如何让内部问答系统不只是“知道昨天的事”,而是能实时感知外部世界的变化?比如,官网刚更新的产品参数…

作者头像 李华
网站建设 2026/4/12 20:10:27

与 AI 共生,腾讯云携手行业专家共话数智驱动新质生长

引言11 月 29 日,由腾讯云 TVP 和中国海诚联合主办的「与 AI 共生,数智驱动产业新质生长」TVP AI 创变研讨会在上海成功举办。在本次活动中,专家们实地参观了中国海诚轻工博物馆,了解中国轻工业的发展历程,直观感受中国…

作者头像 李华