ElevenLabs一年估值冲破11亿美元，生成式AI如何重塑全球音频产业？

AI资讯 · 1 阅读 · 2026-05-23 · 自动采集

2024年1月，伦敦人工智能初创公司ElevenLabs宣布完成8000万美元B轮融资，由Andreessen Horowitz（a16z）、企业家Nat Friedman及前GitHub首席执行官Daniel Gross等联合领投，公司估值迅速攀升至11亿美元，正式晋级独角兽行列。此时距离该公司在2022年由波兰裔工程师Piotr Kaczkowski与Mati Staniszewski创立，不过短短两年时间。此番资本狂潮，使ElevenLabs成为全球AI语音生成赛道最受瞩目的风向标。

ElevenLabs的诞生源于一次令人失望的电影观感。据两位创始人的公开表述，他们对劣质外语配音的“罐头式”机械质感深感不满，决心利用深度学习构建可精准还原人类音色、语调与情感的语音模型。2023年1月，公司推出首个语音合成测试版，凭借超逼真的声音克隆能力，迅速在创作者、开发者与媒体从业者群体中引发轰动。用户只需上传一段短至一分钟的参考音频，系统即可生成几乎无法用肉耳辨识的合成语音，并支持29种语言，包括中文、日语、韩语、阿拉伯语等。其核心“Eleven Multilingual”模型不仅能够跨语言保留说话者的声纹特征，还能根据文本语境自动调整语速、重音和情绪，例如朗读新闻时的沉稳克制与讲述惊悚故事时的紧张颤抖，可一键切换。

然而，技术的高超也带来尖锐的伦理争议。2023年2月，一段利用ElevenLabs技术伪造美国前总统拜登攻击跨性别者的虚假音频在社交媒体扩散，引发舆论哗然。此外，演员、声优等群体的声音被擅自克隆并用于商业内容的案例接连曝光。面对信任危机，ElevenLabs在2023年推出多项防护机制，包括AI语音检测工具“ElevenLabs Speech Classifier”、强制语音克隆用户进行声纹验证，并与安全研究机构合作阻断恶意使用。公司首席执行官Mati Staniszewski当时对媒体强调：“我们正在构建一个让合成声音既安全又可信的生态系统，这需要技术、政策与行业共识的多重护航。”

在商业化布局上，ElevenLabs展现出与争议同步狂飙的势头。2023年下半年，该公司上线“语音库（Voice Library）”，允许用户上传自有声音并设定共享条件，创作者可从后续商业使用中获取收益分成。这一模式吸引了大量配音演员、播客主播及有声书制作者入驻。2024年6月，旗下阅读应用“ElevenLabs Reader”正式登陆iOS与安卓平台，可将电子书、网页、PDF等文本实时转化为由AI演绎的自然听感语音，直接向亚马逊Audible等传统有声书平台发起冲击。同年，公司进一步推出“Projects”长文本编辑套件与“AI Sound Effects”音效生成工具——用户仅需输入“雨打在铁皮屋顶上，远处有闷雷”之类的文字描述，即可在数秒内获得高保真音频素材。据科技媒体The Information引用知情人士说法，截至2024年底，ElevenLabs年经常性收入（ARR）已达约8000万美元，全球注册用户超过百万，企业客户覆盖《纽约时报》《华盛顿邮报》、Spotify旗下播客制作部门，以及Paradox Interactive等游戏公司。

产业分析人士指出，ElevenLabs的高速扩张正深刻改写音频内容的生产链条。以往需要工作室、录音师、专业演员协同数天完成的配音工作，如今一个人通过浏览器便可在几分钟内交付多语种版本。这直接动摇了部分传统配音产业的根基。2023年好莱坞演员工会与编剧工会罢工期间，AI声音克隆对表演者权利的侵蚀成为核心博弈点之一。ElevenLabs此后主动与行业协会展开对话，尝试构建透明授权与公平报酬框架，避免重蹈图像生成公司的覆辙。

竞争格局同样激烈。OpenAI于2024年3月展示的“Voice Engine”仅需15秒音频即可复刻人声，但因安全考量迟迟未大规模开放；Google Cloud Text-to-Speech与亚马逊Polly则依赖云计算生态固守企业级市场；新兴对手Respeecher、Sonantic亦在电影与游戏垂直领域深耕。相比之下，ElevenLabs凭借更开放的工具套件与不断降低的使用门槛维持优势。其最新Turbo v2.5模型将生成延迟压缩至400毫秒以内，支持低端设备运行，进一步拓宽实时对话式AI的应用场景。

进入2025年初，ElevenLabs的国际化步伐明显加快。公司先后在纽约、旧金山设立办公室，并在东京组建亚洲业务团队，大力推广适合东亚语种的精细语音控制功能。针对日益严峻的深度伪造风险，ElevenLabs于2025年1月宣布加入“内容来源与真实性联盟”（C2PA），为所有生成音频内置可验证的元数据标签，以便社交媒体和新闻机构快速辨识内容来源。同时，欧盟《人工智能法案》逐步落地后，对合成媒体标注的强制要求也已覆盖该公司在欧盟区提供服务。据彭博社援引知情人士报道，ElevenLabs正在进行新一轮融资谈判，目标估值或升至30亿美元以上，以筹划进军实时语音翻译及更具交互性的AI虚拟角色领域。

从一家源于对糟糕配音不满而诞生的初创公司，到估值数十亿美元的音频产业重塑者，ElevenLabs的崛起历程恰是生成式AI技术双刃剑本质的缩影。其未来能否在极致创新与安全伦理之间找到平衡，不仅关乎企业自身命运，也将定义全球数十亿人未来与声音交互的方式。

ElevenLabs一年估值冲破11亿美元，生成式AI如何重塑全球音频产业？

相关推荐