news 2026/4/16 11:51:35

AIPD美国人工智能专利(1976-2023)

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
AIPD美国人工智能专利(1976-2023)

1871

AIPD美国人工智能专利(1976-2023)

数据简介

在人工智能技术革命的浪潮中,美国始终保持着全球创新的前沿地位。为应对技术变革带来的挑战,USPTO 于 2025 年发布人工智能战略,强调通过优化专利审查流程、培养专业人才、加强国际合作等举措,进一步推动人工智能技术的创新与应用。该战略依托其专利数据库(AIPD 2023)的技术升级,采用改进的 BERT 模型提升专利文本分析精度,确保对人工智能相关发明的高效识别与分类。这些数据不仅为学术界和产业界提供了研究支撑,主要以工作场景中的AI暴露度相关指数为研究核心,也为政策制定者评估技术趋势、制定创新政策提供了重要依据。

美国专利商标局(USPTO)在2021 年公开发布了“the Artificial Intelligence Patent Dataset (AIPD)”,即《人工智能专利数据集》。该数据是由Giczy等专家使用专门开发的机器学习模型,从1976 年至 2020 年公布的美国专利整体中识别出来的人工智能专利所组成,主要基于专利标题、专利摘要文本、专利权力要求来识别各项专利中的8个人工智能技术构成要素,分别是

-machine learning(机器学习):包含从数据中学习的计算方法。

-vision(此等语境指计算机视觉):通过从视觉输入中提取信息来理解图像和视频

-natural language processing(自然语言处理):包含理解语言的方法

-speech(此等语境指语音处理):通过处理音频来解析词语序列

-evolutionary computation(进化计算):包含受生物启发的方法(如遗传算法),这类程序通过从随机生成的突变集合中选择最优方案实现自我优化

-AI hardware(人工智能硬件):包括专门设计用于执行人工智能软件的物理硬件

-knowledge processing(知识处理):包含表征信息并从现有知识库中提取新事实的方法

-planning and control(规划与控制):包含生成实现特定目标计划的系统

根据美国专利商标局(USPTO)的描述,Pairolero等人(2023)对数据进行了扩展,以识别 1976 年至 2023 年公布的包含人工智能内容的美国专利文件。AIPD提供了专利与人工智能相关的预测概率,依照派罗莱罗等人(2023)的做法,8个人工智能技术构成要素分别以“模型评估分数”的形式来衡量一项专利中各项要素中的含量,同时以用二元变量的形式代表该专利是否为人工智能专利,分别在50%、86%、93%的预测阈值情况下。若预测概率超过 86% 的阈值,就将该专利归类为人工智能专利。

因此,本数据集基于AIPD 2023版中“predict86_any_ai”进行筛选,若该专利在这项指标中为1,则判定为人工智能专利。与此同时,我们还保留了原始数据中的其他指标,仅排除了“predict50_any_ai”。另外,我们将该筛选出来的数据,与谷歌专利数据-美国全量专利数据进行匹配合并,基于“appl_id”= “格式化申请号”,同时“pub_dt”= “专利公开日期”。据观察,谷歌美国专利中的“格式化申请号”是基于“appl_id”8位数代码加上“US”,而且部分申请号有两个专利公开日期,可能是因为专利的预公开和正式公开、持续案件或分案申请、修正和重新公开、行政错误或特殊情况等原因导致,所以我们在未做任意排除。最后,该筛选版本为AIPD美国人工智能专利(1976-2023)——86%全版,为方便大家研究使用,我们将它按照公开日期年份进行数据划分为不同年份csv。

接下来,我们参照Wei Jiang和Junyoung Park等(2025)的做法,整理并制作了一份AIPD美国人工智能专利(1976-2023)——86%精版。他们的研究中指出,大概有四分之一的专利从未被引用过,且少于1%的专利被引用过超过100次,因此需做精度筛选来找出能够重塑生产过程的技术专利,具体而言是选出每年的顶尖1%的AI专利,它是基于adjusted forward citation counts(调整后的向前引用计数)所衡量的,并且计算方式为其原始引用次数除以同年同季度在相同合作专利分类(CPC)子类中授予的人工智能专利的平均引用次数。我们根据该描述设计出以下公式:

我们基于前文所述的86%全版做出以上计算。需要注意的是,所合并用的谷歌美国专利数据中,合作专利分类(CPC)为嵌套形式,打个比方,以下是其中一条专利的CPC信息:

[{'分类代码': 'G10L15/22', '发明分类': True, '首要分类': True, '分类树': []}, {'分类代码': 'G10L15/22', '发明分类': True, '首要分类': True, '分类树': []}, {'分类代码': 'G10L2015/228', '发明分类': False, '首要分类': False, '分类树': []}, {'分类代码': 'G10L15/26', '发明分类': False, '首要分类': False, '分类树': []}, {'分类代码': 'G10L2015/228', '发明分类': False, '首要分类': False, '分类树': []}, {'分类代码': 'G10L15/26', '发明分类': False, '首要分类': False, '分类树': []}, {'分类代码': 'G10L15/22', '发明分类': True, '首要分类': True, '分类树': []}, {'分类代码': 'G10L2015/228', '发明分类': False, '首要分类': False, '分类树': []}, {'分类代码': 'G10L15/26', '发明分类': False, '首要分类': False, '分类树': []}]

因为CPC信息中分类繁多,且个别有重复,所以我们只选择每份专利的首次出现的首要分类的分类代码用作“首要首选CPC subclass”进行计算,该条件一定是基于首要分类为True的情况。

数据来源

谷歌专利数据-美国全量专利数据,美国专利商标局(USPTO),由数据皮皮侠团队人工整理,全部内容真实有效。

数据范围

美国人工智能专利

时间跨度

1976-2023

数据格式

数据格式为csv形式

数据指标

核心指标(仅限精版)

doc_id

格式化申请号

专利公开日期

引用次数

季度

首要首选CPC subclass

平均引用次数

调整后的向前引用计数

源于美国专利商标局(USPTO)的原始数据AIPD自带指标

doc_id

flag_patent

predict86_any_ai

predict93_any_ai

ai_score_ml

ai_score_evo

ai_score_nlp

ai_score_speech

ai_score_vision

ai_score_planning

ai_score_kr

ai_score_hardware

由于篇幅有些,仅展示部分谷歌专利数据指标

专利公开编号

专利申请号

国家/地区代码

种类代码

专利申请种类

PCT编号

专利族id

spif专利公开编号

spif专利申请编号

专利受让人

统一的专利受让人信息

专利审查员

数据展示

参考文献

[1] Jiang, W., Zhang, S., Xiao, R. (Jiqiu), & Park, J. (2025). AI and the Extended Workday: Productivity, Contracting Efficiency, and Distribution of Rents. NBER Working Paper Series. https://doi.org/10.3386/w33536

[2] Giczy, A.V., Pairolero, N.A. & Toole, A.A. Identifying artificial intelligence (AI) invention: a novel AI patent dataset. J Technol Transf 47, 476–505 (2022). https://doi.org/10.1007/s10961-021-09900-2

[3] Pairolero, N.A., Giczy, A.V., Torres, G. et al. The artificial intelligence patent dataset (AIPD) 2023 update. J Technol Transf (2025). https://doi.org/10.1007/s10961-025-10189-8

[4] https://www.uspto.gov/ip-policy/economic-research/research-datasets/artificial-intelligence-patent-dataset

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/10 6:52:25

仅280页的《从零构建大模型》中文版终于来了,堪称教材界天花板

2025年,人工智能依然是科技圈最热的风口。ChatGPT、Claude、DeepSeek 等模型层出不穷,不断刷新人们对 AI 能力的想象。而支撑这一切的,正是大语言模型(LLM)——这个曾经只是大厂的专属! 而最近爆火的威斯康…

作者头像 李华
网站建设 2026/4/16 10:44:00

告别重复提问!这款开源智能体平台,让你的企业级AI助理飞起来

在当今快速变化的商业环境中,企业每天都要面对海量的知识、信息和客户咨询。如何高效地管理这些信息,并将其转化为生产力,成为许多企业面临的共同挑战。传统的知识库往往检索效率不高,客服团队也常常被重复性问题所困扰。你是否也…

作者头像 李华
网站建设 2026/4/15 14:09:24

程控交换机:分机、环路中继与磁石模块架构分析

程控交换机:分机、环路中继与磁石模块架构分析 1. 绪论:现代通信网络中的模拟接口技术 1.1 程控交换技术的演进与外围接口的恒定性 在通信技术逾百年的发展历程中,核心交换网络经历了从步进制(Step-by-Step)、纵横制…

作者头像 李华
网站建设 2026/4/15 14:51:21

transformer模型微调全流程:借助PyTorch-CUDA-v2.7高效完成

Transformer模型微调全流程:借助PyTorch-CUDA-v2.7高效完成 在如今的AI研发一线,一个常见的场景是:团队拿到了一份新的文本分类任务,数据量不大但要求快速上线。这时候没人会从头训练BERT——那太贵也太慢了。取而代之的是&#…

作者头像 李华
网站建设 2026/4/16 11:05:06

markdown写文档更方便:结合Jupyter与PyTorch-CUDA-v2.7输出实验报告

Jupyter PyTorch-CUDA-v2.7:打造一体化AI实验报告工作流 在当今深度学习研发中,一个常见的困境是:模型跑通了,代码却散落在不同脚本里;训练日志保存在终端输出中;可视化图表单独导出;最终撰写报…

作者头像 李华
网站建设 2026/4/15 11:17:48

我力荐这本大模型书,真的贼好懂,还讲得特别细致(附PDF)

通过让机器更好地理解并生成类人语言,大模型为人工智能领域打开了全新的可能性,并深刻影响了整个行业。 这是《图解大模型》一书中由作者 Jay Alammar 和 Maarten Grootendorst 撰写的开篇语。随着人工智能的不断演进,大模型正站在最前沿&…

作者头像 李华