news 2026/6/10 15:18:06

如何利用LLM处理非结构化数据

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
如何利用LLM处理非结构化数据

大型语言模型(LLMs)解决了非结构化数据(如文本、图片和音频文件)带来的重大挑战,使得从大量数据中提取有价值的见解或信息成为可能。

非结构化数据的挑战

非结构化数据与结构化数据相反,结构化数据具有预定义的格式或模式。文本文档、社交媒体帖子、电子邮件,甚至音频和视频录音,都是非结构化数据的例子。处理这类数据可能耗时且劳动密集,通常需要人工干预以提取有意义的信息。

大型语言模型如何提供帮助

LLM已经在大量文本数据上进行了训练,能够识别数据中的模式、关系和上下文。通过将这些能力应用于非结构化文本数据,LLM可以执行以下任务:

  1. 提取关键词和短语:从大量文本中识别相关术语和概念。
  2. 分类和分类:根据内容、情感或意图将无结构文本组织成预设的类别或类别。
  3. 总结与摘要:将冗长文本浓缩为简明摘要,保留最重要的信息。
  4. 计算主观指标:计算诸如“专业素养”或呼叫中心客服对特定话术执行的程度等指标。这些都是主观指标,没有理解文本模式和关系的模型,很难量化。

将非结构化数据转化为结构化数据

利用大型语言模型的一个极其强大的方法是将非结构化数据转化为结构化数据,使其更容易分析和用于其他应用、机器学习模型、仪表盘等。以下是一些常见的使用场景:

情绪分析:分析客户从社交媒体帖子或评论中获得的反馈,以评估情绪并识别趋势。

主题建模:在大量文本(如新闻文章或研究论文)中识别主要主题和子主题。

实体提取:从非结构化文本数据中提取特定实体,如名称、位置和组织。

音频转录:将口述音频录音转换为文字转录,便于分析。

例子:呼叫中心分析

MLRun呼叫中心演示是使用LLM处理非结构化数据的一个绝佳例子。它基于银行客户的真实用例,将呼叫中心坐席与客户之间的音频录音分析为结构化数据,这些数据可以在仪表盘中可视化,并用于其他下游应用。

呼叫分析工作流程

调用分析工作流程包含多个步骤,所有主要功能都从MLRun函数中心导入。您可以通过点击以下列表中的函数名称查看每个集线器函数的docstring、代码和示例:

调用数据插入数据库 —将调用元数据插入到 MySQL 数据库。

进行语音记录——中心功能:分析每个人在通话时的发言时间,以便后续改进转录和分析。日语化为LLM提供了上下文,并产生更好的结果。该函数采用silero-VAD模型。语音解析基于呼叫中心录音中每个音频声道属于不同扬声器的假设,按每个通道进行。

转录——枢纽功能:使用 Hugging Face 的 ASR 流水线与 OpenAI 的 Whisper 模型。该函数将通话转录并翻译成文本,并保存为文本文件。它是OpenAI的Whisper软件包的优化版本——支持批处理、CPU向多处理工作者卸载,并可通过MLRun和OpenMPI在多个GPU上分发。

识别个人身份信息——枢纽功能:采用三种技术识别个人身份信息:RegEx、Flair以及Microsoft的Presidio分析器和匿名化器。该功能清除已识别的个人数据,并生成多个工件以审查和理解识别过程。

分析——枢纽功能:使用大型语言模型分析给定文本。它期望一个提示模板和问题发送给LLM,然后从回答中构建一个数据帧数据集。本演示使用了GPTQ量化版的Mistral-7B来分析通话内容。提取以下特征有助于:

topic: str——从给定主题列表中选出通话的一般主题。

summary: str——简短几句总结了整个通话内容。

concern_addressed: bool——客户的关切是否在通话结束时得到回应。可能是{是,不是}。

customer_tone: str——通话中的一般客户语气。可以是{正、中性、负}之一。

agent_tone:&

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/10 13:00:58

PyTorch-CUDA镜像内置Jupyter默认密码是多少?

PyTorch-CUDA镜像内置Jupyter默认密码是多少? 在深度学习项目快速迭代的今天,一个常见的问题困扰着刚接触容器化开发环境的新手:“我拉了一个PyTorch-CUDA镜像,启动后打开浏览器访问localhost:8888,为什么提示要输入密…

作者头像 李华
网站建设 2026/6/9 23:31:07

面向开发者的大模型服务平台架构设计

面向开发者的大模型服务平台架构设计 在大模型研发日益成为AI创新核心的今天,一个常见的场景是:团队中的算法工程师刚写完一段基于PyTorch的训练代码,满怀期待地运行,结果却卡在了torch.cuda.is_available()返回False——不是因为…

作者头像 李华
网站建设 2026/6/10 12:56:24

大模型梯度累积技巧缓解GPU显存压力

大模型梯度累积技巧缓解GPU显存压力 在当前大模型训练的实践中,一个再熟悉不过的场景是:刚启动训练脚本,还没等看到第一轮 loss 输出,终端就弹出刺眼的 CUDA out of memory 错误。尤其是当你手头只有一块 24GB 显存的消费级显卡&a…

作者头像 李华
网站建设 2026/6/10 12:55:55

RoCE协议优化PyTorch节点间数据传输

RoCE协议优化PyTorch节点间数据传输 在当前大模型训练如火如荼的背景下,一个看似不起眼却极为关键的问题浮出水面:为什么我的8卡A100集群GPU利用率始终上不去? 排查下来,往往是通信瓶颈作祟。反向传播完成后,梯度同步阶…

作者头像 李华
网站建设 2026/6/10 14:01:14

用电化学3D打印芯片散热均温板,我国一企业获数千万A轮融资!

3D打印技术参考于12月27日晚发现一则重要信息,中山市仲德科技有限公司于近日完成数千万元A轮融资。之所以引起笔者“震动”,是因为它采用电化学3D打印技术制造芯片散热结构!这是笔者近年来观察该技术以来第一次发现国内有企业从事该技术&…

作者头像 李华
网站建设 2026/6/10 14:00:47

React集成PyTorch模型预测服务构建智能网页

React集成PyTorch模型预测服务构建智能网页 在今天的AI产品开发中,一个常见的挑战是:如何让训练好的深度学习模型真正“活”起来?不是停留在Jupyter Notebook里的一次性实验,而是变成用户每天都能用上的功能。比如,你训…

作者头像 李华