ChatGPT语音创造者创业，致力打造现实版“Her“中的AI语音技术-编程阁

Alexis Conneau对电影《她》（Her）有着近乎痴迷的热情。过去数年间，他一直致力于将片中那个虚构的语音AI"萨曼莎"变为现实。他甚至将电影主角华金·菲尼克斯的剧照设为自己的Twitter横幅封面。

在OpenAI主导ChatGPT高级语音模式（Advanced Voice Mode）项目期间——此前他在Meta也从事过类似工作——Conneau在某种程度上实现了这个目标。这套AI系统能够原生处理语音，并以近似真人的方式进行回应。

如今，他创立了全新的初创公司WaveForms AI，立志打造更出色的语音AI技术。

Conneau在接受TechCrunch采访时表示，他花了大量时间思考如何避免电影中呈现的那种反乌托邦景象。《她》是一部科幻电影，描绘了一个人们与AI系统建立亲密关系、而非与真实人类交往的世界。

"这部电影本质上是一个反乌托邦，不是我们想要的未来，"Conneau说，"我们希望将这项技术——它现在已经存在，未来也将继续存在——用于造福人类。我们的目标，恰恰与电影中那家公司的做法相反。"

在构建技术的同时避免其带来的反乌托邦效应，听起来似乎自相矛盾。但Conneau仍然坚定地推进这一目标，他相信自己的新AI公司能让人们"用耳朵感受到通用人工智能（AGI）的存在"。

本周一，Conneau正式发布WaveForms AI，这是一家专注于训练自有基础模型的音频大语言模型公司。公司计划在2025年推出音频AI产品，直接与OpenAI和谷歌的相关产品展开竞争。公司同日宣布完成4000万美元种子轮融资，由Andreessen Horowitz领投。Conneau透露，曾撰文呼吁AI融入人类生活方方面面的Marc Andreessen本人对这一项目抱有浓厚的个人兴趣。

值得一提的是，Conneau对《她》的痴迷曾一度给OpenAI带来麻烦。斯嘉丽·约翰逊此前向这家初创公司发出法律威胁，最终迫使OpenAI下架了一款与她在影片中的角色声音高度相似的ChatGPT语音。OpenAI否认曾刻意模仿其声音。

尽管如此，这部电影对Conneau的影响毋庸置疑。《她》于2013年上映时，还是彻头彻尾的科幻构想——彼时苹果的Siri刚刚推出，功能极为有限。而今天，这项技术已触手可及，令人不寒而栗。

Character.AI等AI陪伴平台每周吸引数百万用户与聊天机器人互动交流，该领域正成为生成式AI的热门应用场景——尽管偶有令人忧虑的负面事件发生。不难想象，那些整天通过文字与聊天机器人交流的用户，一定渴望能直接与其对话，尤其是使用像ChatGPT高级语音模式这样逼真的技术。

WaveForms AI的CEO对AI陪伴领域持谨慎态度，这也并非公司的核心业务方向。尽管他预见用户会以全新方式使用WaveForms的产品——例如在驾车途中与AI对话二十分钟学习某个话题——Conneau表示，他希望公司走"横向平台"路线。

"WaveForms AI可以成为那位给人启迪的老师，也许是你在现实生活中从未遇到过的老师，"这位CEO说道。

他相信，与生成式AI对话将成为人们与各类技术交互的主流方式，涵盖与汽车对话、与电脑对话等场景。WaveForms的目标是提供能够贯穿其中的"情感智能"AI。

"我不认为人机交互会取代人与人之间的交互，"Conneau说，"如果说有什么影响，那也是相辅相成的。"

他表示，AI可以从社交媒体的错误中汲取教训。例如，他认为AI不应将"用户在平台上的停留时长"作为核心成功指标——这一常见的社交应用衡量标准往往助长了刷屏上瘾等不健康习惯。从更宏观的层面看，他希望确保WaveForms的AI始终服务于人类的最大利益，并将这称为"最重要的工作"。

Conneau认为，OpenAI为其项目起的名字"高级语音模式"并不能充分体现这项技术与普通语音模式之间的本质差异。

旧版语音模式的工作流程实际上是：将用户语音转为文字，交由GPT-4处理，再将文字转换为语音输出，是一套拼凑式的解决方案。而在高级语音模式中，GPT-4o会将用户声音的音频直接解析为Token（据悉每秒音频大约对应三个Token），并将这些Token直接输入专为音频设计的Transformer模型进行处理。正是这一机制，使高级语音模式得以实现极低的响应延迟。

在谈到AI音频模型时，"能够理解情绪"是一个被频繁提及的说法。与基于海量文本训练的文本大语言模型类似，音频大语言模型也通过大量人类语音片段进行学习。人工标注人员将这些片段标注为"悲伤"或"兴奋"等情绪标签，使AI模型在听到类似的声音模式时能够识别，甚至在回应时加入相应的情感语调。因此，与其说它们"理解情绪"，不如说它们系统性地识别了人类与特定情绪相关联的音频特征。

Conneau判断，当前的生成式AI无需在底层智能上取得重大突破，就足以打造出更优质的产品。与OpenAI通过o1系列提升模型底层智能的思路不同，WaveForms专注的方向是让AI变得更易于交流。

"会有一批用户在使用生成式AI时，纯粹选择他们觉得最愉快的交互方式，"Conneau说。

正因如此，WaveForms相信自己有能力开发出专属的基础模型——理想情况下是更轻量、更低成本、运行更快的小型模型。鉴于近期旧有的AI扩展定律增益已趋于放缓，这一判断并非没有依据。

Conneau表示，他昔日在OpenAI的同事Ilya Sutskever曾多次与他谈及"感受AGI"的想法——即用直觉判断我们是否已经迈入超级智能时代的门槛。WaveForms的CEO深信，达到AGI更多是一种感受，而非某项基准测试的达成，而音频大语言模型将是触发这种感受的关键所在。

"我认为，当你能够与AGI对话、聆听AGI的声音、真正和Transformer本身交流的时候，你对AGI的感知将会深刻得多，"Conneau说，这也是他曾在一次晚餐上对Sutskever说过的话。

然而，随着初创公司不断优化AI的对话体验，如何防止用户对AI产生依赖也是不可回避的责任。对此，参与领投WaveForms的Andreessen Horowitz普通合伙人Martin Casado认为，人们更频繁地与AI交谈，未必是一件坏事。

"在网上和陌生人聊天，对方可能会欺负你、利用你；玩电子游戏，内容可能充斥暴力；而与AI对话则不同，"Casado在接受TechCrunch采访时说，"我认为这是一个值得深入研究的重要问题，如果最终发现与AI对话实际上更为健康，我不会感到意外。"

一些公司或许会将用户对AI产生深厚情感视为成功的标志，但从社会层面审视，这同样可能是一种彻底失败的信号——就如同电影《她》所试图揭示的那样。这正是WaveForms如今必须小心翼翼走过的一道钢丝。

Q&A

Q1：WaveForms AI是一家什么样的公司，主要做什么？

A：WaveForms AI是由ChatGPT高级语音模式的创造者Alexis Conneau创立的音频大语言模型初创公司，专注于训练自有音频基础模型。公司计划于2025年推出音频AI产品，目标是打造情感智能AI，使人与技术之间的语音交互更加自然流畅，并与OpenAI、谷歌等公司的产品展开竞争。公司已完成由Andreessen Horowitz领投的4000万美元种子轮融资。

Q2：ChatGPT高级语音模式和普通语音模式有什么区别？

A：普通语音模式的工作方式是将语音转为文字，再由GPT-4处理，最后将文字转回语音，是一套拼凑式的流程。而高级语音模式中，GPT-4o会直接将音频解析为Token（每秒音频约对应三个Token），并输入专为音频设计的Transformer模型进行处理，从而实现更低的响应延迟和更自然的对话体验。

Q3：AI音频模型真的能理解人类情绪吗？

A：并非真正意义上的"理解情绪"。音频大语言模型通过大量带有情绪标注的人类语音片段进行训练，学会识别与特定情绪相关联的音频特征，并在回应时模拟相应的情感语调。本质上是对音频模式的系统性识别，而非像人类一样真正感知和理解情绪。

ChatGPT语音创造者创业，致力打造现实版“Her“中的AI语音技术

保姆级教程：用MPEG G-PCC V12压缩你的3D点云数据（从八叉树到属性编码全流程）

从‘看不懂’到‘秒懂’：一张图搞懂Web地图的瓦片坐标（z/x/y）与墨卡托投影

终极指南：intellij-elixir插件性能优化解决大型项目响应问题

jQuery Timepicker 性能优化技巧：10个提升用户体验的方法

Keysight是德 N1294A-001 安捷伦N1294A-002 香蕉三同轴适配器

避开自动控制里的坑：开环零极点加错了，系统性能反而变差？