Alexis Conneau对电影《她》(Her)有着近乎痴迷的热情。过去数年间,他一直致力于将片中那个虚构的语音AI"萨曼莎"变为现实。他甚至将电影主角华金·菲尼克斯的剧照设为自己的Twitter横幅封面。
在OpenAI主导ChatGPT高级语音模式(Advanced Voice Mode)项目期间——此前他在Meta也从事过类似工作——Conneau在某种程度上实现了这个目标。这套AI系统能够原生处理语音,并以近似真人的方式进行回应。
如今,他创立了全新的初创公司WaveForms AI,立志打造更出色的语音AI技术。
Conneau在接受TechCrunch采访时表示,他花了大量时间思考如何避免电影中呈现的那种反乌托邦景象。《她》是一部科幻电影,描绘了一个人们与AI系统建立亲密关系、而非与真实人类交往的世界。
"这部电影本质上是一个反乌托邦,不是我们想要的未来,"Conneau说,"我们希望将这项技术——它现在已经存在,未来也将继续存在——用于造福人类。我们的目标,恰恰与电影中那家公司的做法相反。"
在构建技术的同时避免其带来的反乌托邦效应,听起来似乎自相矛盾。但Conneau仍然坚定地推进这一目标,他相信自己的新AI公司能让人们"用耳朵感受到通用人工智能(AGI)的存在"。
本周一,Conneau正式发布WaveForms AI,这是一家专注于训练自有基础模型的音频大语言模型公司。公司计划在2025年推出音频AI产品,直接与OpenAI和谷歌的相关产品展开竞争。公司同日宣布完成4000万美元种子轮融资,由Andreessen Horowitz领投。Conneau透露,曾撰文呼吁AI融入人类生活方方面面的Marc Andreessen本人对这一项目抱有浓厚的个人兴趣。
值得一提的是,Conneau对《她》的痴迷曾一度给OpenAI带来麻烦。斯嘉丽·约翰逊此前向这家初创公司发出法律威胁,最终迫使OpenAI下架了一款与她在影片中的角色声音高度相似的ChatGPT语音。OpenAI否认曾刻意模仿其声音。
尽管如此,这部电影对Conneau的影响毋庸置疑。《她》于2013年上映时,还是彻头彻尾的科幻构想——彼时苹果的Siri刚刚推出,功能极为有限。而今天,这项技术已触手可及,令人不寒而栗。
Character.AI等AI陪伴平台每周吸引数百万用户与聊天机器人互动交流,该领域正成为生成式AI的热门应用场景——尽管偶有令人忧虑的负面事件发生。不难想象,那些整天通过文字与聊天机器人交流的用户,一定渴望能直接与其对话,尤其是使用像ChatGPT高级语音模式这样逼真的技术。
WaveForms AI的CEO对AI陪伴领域持谨慎态度,这也并非公司的核心业务方向。尽管他预见用户会以全新方式使用WaveForms的产品——例如在驾车途中与AI对话二十分钟学习某个话题——Conneau表示,他希望公司走"横向平台"路线。
"WaveForms AI可以成为那位给人启迪的老师,也许是你在现实生活中从未遇到过的老师,"这位CEO说道。
他相信,与生成式AI对话将成为人们与各类技术交互的主流方式,涵盖与汽车对话、与电脑对话等场景。WaveForms的目标是提供能够贯穿其中的"情感智能"AI。
"我不认为人机交互会取代人与人之间的交互,"Conneau说,"如果说有什么影响,那也是相辅相成的。"
他表示,AI可以从社交媒体的错误中汲取教训。例如,他认为AI不应将"用户在平台上的停留时长"作为核心成功指标——这一常见的社交应用衡量标准往往助长了刷屏上瘾等不健康习惯。从更宏观的层面看,他希望确保WaveForms的AI始终服务于人类的最大利益,并将这称为"最重要的工作"。
Conneau认为,OpenAI为其项目起的名字"高级语音模式"并不能充分体现这项技术与普通语音模式之间的本质差异。
旧版语音模式的工作流程实际上是:将用户语音转为文字,交由GPT-4处理,再将文字转换为语音输出,是一套拼凑式的解决方案。而在高级语音模式中,GPT-4o会将用户声音的音频直接解析为Token(据悉每秒音频大约对应三个Token),并将这些Token直接输入专为音频设计的Transformer模型进行处理。正是这一机制,使高级语音模式得以实现极低的响应延迟。
在谈到AI音频模型时,"能够理解情绪"是一个被频繁提及的说法。与基于海量文本训练的文本大语言模型类似,音频大语言模型也通过大量人类语音片段进行学习。人工标注人员将这些片段标注为"悲伤"或"兴奋"等情绪标签,使AI模型在听到类似的声音模式时能够识别,甚至在回应时加入相应的情感语调。因此,与其说它们"理解情绪",不如说它们系统性地识别了人类与特定情绪相关联的音频特征。
Conneau判断,当前的生成式AI无需在底层智能上取得重大突破,就足以打造出更优质的产品。与OpenAI通过o1系列提升模型底层智能的思路不同,WaveForms专注的方向是让AI变得更易于交流。
"会有一批用户在使用生成式AI时,纯粹选择他们觉得最愉快的交互方式,"Conneau说。
正因如此,WaveForms相信自己有能力开发出专属的基础模型——理想情况下是更轻量、更低成本、运行更快的小型模型。鉴于近期旧有的AI扩展定律增益已趋于放缓,这一判断并非没有依据。
Conneau表示,他昔日在OpenAI的同事Ilya Sutskever曾多次与他谈及"感受AGI"的想法——即用直觉判断我们是否已经迈入超级智能时代的门槛。WaveForms的CEO深信,达到AGI更多是一种感受,而非某项基准测试的达成,而音频大语言模型将是触发这种感受的关键所在。
"我认为,当你能够与AGI对话、聆听AGI的声音、真正和Transformer本身交流的时候,你对AGI的感知将会深刻得多,"Conneau说,这也是他曾在一次晚餐上对Sutskever说过的话。
然而,随着初创公司不断优化AI的对话体验,如何防止用户对AI产生依赖也是不可回避的责任。对此,参与领投WaveForms的Andreessen Horowitz普通合伙人Martin Casado认为,人们更频繁地与AI交谈,未必是一件坏事。
"在网上和陌生人聊天,对方可能会欺负你、利用你;玩电子游戏,内容可能充斥暴力;而与AI对话则不同,"Casado在接受TechCrunch采访时说,"我认为这是一个值得深入研究的重要问题,如果最终发现与AI对话实际上更为健康,我不会感到意外。"
一些公司或许会将用户对AI产生深厚情感视为成功的标志,但从社会层面审视,这同样可能是一种彻底失败的信号——就如同电影《她》所试图揭示的那样。这正是WaveForms如今必须小心翼翼走过的一道钢丝。
Q&A
Q1:WaveForms AI是一家什么样的公司,主要做什么?
A:WaveForms AI是由ChatGPT高级语音模式的创造者Alexis Conneau创立的音频大语言模型初创公司,专注于训练自有音频基础模型。公司计划于2025年推出音频AI产品,目标是打造情感智能AI,使人与技术之间的语音交互更加自然流畅,并与OpenAI、谷歌等公司的产品展开竞争。公司已完成由Andreessen Horowitz领投的4000万美元种子轮融资。
Q2:ChatGPT高级语音模式和普通语音模式有什么区别?
A:普通语音模式的工作方式是将语音转为文字,再由GPT-4处理,最后将文字转回语音,是一套拼凑式的流程。而高级语音模式中,GPT-4o会直接将音频解析为Token(每秒音频约对应三个Token),并输入专为音频设计的Transformer模型进行处理,从而实现更低的响应延迟和更自然的对话体验。
Q3:AI音频模型真的能理解人类情绪吗?
A:并非真正意义上的"理解情绪"。音频大语言模型通过大量带有情绪标注的人类语音片段进行训练,学会识别与特定情绪相关联的音频特征,并在回应时模拟相应的情感语调。本质上是对音频模式的系统性识别,而非像人类一样真正感知和理解情绪。