news 2026/6/15 8:52:54

Czech Broadcast Conversation Speech数据集介绍,官网编号LDC2009S02

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Czech Broadcast Conversation Speech数据集介绍,官网编号LDC2009S02

LDC2009S02 是 LDC 于 2009 年 7 月发布的捷克语广播对话语音数据集,由 Jáchym Kolár 与 Jan Svec 主导构建,配套文本标注集为 LDC2009T20,核心用于捷克语口语识别、会话分析与结构元数据提取研究,是捷克语广播类语音资源的重要补充。以下从核心信息、数据规格、结构标注、应用场景等方面展开说明:

一、核心定位与数据规模

该数据集聚焦捷克广播电台 “Radioforum” 直播访谈节目,采集自然口语对话语音,填补捷克语广播会话类语音语料的空白,适配语音识别、口语流畅度分析、句法结构研究等需求。

二、音频数据

  1. 采集细节:数据来自捷克广播电台 1 台的 Radioforum 节目,该节目为工作日晚间播出的直播访谈节目,嘉宾多为政界人士、记者、经济学家等,每期通常有 1-2 位采访者和 1-3 位受访者,以交互式对话为主,也包含较长的独白片段。
  2. 技术参数:单声道,原始采样率 44.1kHz、16 位精度,发布时降采样至 22.05kHz、16 位,音频格式为 SPHERE 头的 WAV 文件。
  3. 采集时间:2003 年 2 月 12 日 - 2003 年 6 月 6 日。
  4. 文件命名:遵循 “rfYYMMDD.wav” 格式,“rf” 代表 Radioforum,后六位数字表示广播日期。

三、配套标注数据(LDC2009T20)

  1. 标注内容:除逐字逐句的文本转录外,还包含丰富的结构元数据(MDE)标注,如句子级单元边界划分、填充词(如 “锓mm” 等)标注、话语标记识别、言语不流畅现象(如口误、重复)标注等。
  2. 标注格式:文本及标注以三种格式存储,TRS(Transcriber)仅含标准转录文本,QAn(Quick Annotator)和 RTTM 格式还包含结构元数据,所有文件编码为 ISO - 8859-2。
  3. 标注规范:基于 LDC 的英语 MDE 标注标准,针对捷克语特点进行了适配修改,确保标注的准确性和适用性。
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/7 23:02:46

硬件工程师必备:常用电容容值标准序列与贴片电容命名规则详解

1. 从一堆数字到电路板上的“能量池”:电容容值入门刚入行那会儿,看电路图或者BOM表,最头疼的就是那一串串电容参数。什么“0805 104 50V X7R”,什么“0603 1uF 10V”,感觉就像天书。尤其是容值,从几个皮法…

作者头像 李华
网站建设 2026/6/8 14:27:23

Language Understanding Annotation Corpus数据集介绍,官网编号LDC2009T10

LDC2009T10(Language Understanding Annotation Corpus)是 LDC 于 2009 年 3 月 17 日发布的英阿双语语义语用标注语料库,聚焦信念、事件 / 实体共指、对话行为与时间关系四层标注,适配语义理解、机器翻译与文本摘要等任务。以下是…

作者头像 李华
网站建设 2026/6/9 3:02:54

VisualCppRedist AIO:Windows运行时依赖管理的自动化部署工具

VisualCppRedist AIO:Windows运行时依赖管理的自动化部署工具 【免费下载链接】vcredist AIO Repack for latest Microsoft Visual C Redistributable Runtimes 项目地址: https://gitcode.com/gh_mirrors/vc/vcredist VisualCppRedist AIO是一个为Windows系…

作者头像 李华
网站建设 2026/6/8 19:38:47

ThinkPad双风扇控制神器:TPFanCtrl2让你的笔记本告别噪音与高温

ThinkPad双风扇控制神器:TPFanCtrl2让你的笔记本告别噪音与高温 【免费下载链接】TPFanCtrl2 ThinkPad Fan Control 2 (Dual Fan) for Windows 10 and 11 项目地址: https://gitcode.com/gh_mirrors/tp/TPFanCtrl2 想象一下,当你正在专注工作时&a…

作者头像 李华
网站建设 2026/6/8 22:47:36

Verilog边沿检测电路设计:原理、实现与跨时钟域处理

1. 项目概述:为什么我们需要边沿检测?在数字电路和嵌入式系统设计中,我们经常需要处理来自外部世界的异步信号。比如,一个按键被按下、一个传感器状态改变,或者像PS/2键盘鼠标协议那样,数据在时钟的特定边沿…

作者头像 李华