ElevenLabs一年估值冲破11亿美元,生成式AI如何重塑全球音频产业?

AI资讯 · 1 阅读 · 2026-05-23 · 自动采集
2024年1月,伦敦人工智能初创公司ElevenLabs宣布完成8000万美元B轮融资,由Andreessen Horowitz(a16z)、企业家Nat Friedman及前GitHub首席执行官Daniel Gross等联合领投,公司估值迅速攀升至11亿美元,正式晋级独角兽行列。此时距离该公司在2022年由波兰裔工程师Piotr Kaczkowski与Mati Staniszewski创立,不过短短两年时间。此番资本狂潮,使ElevenLabs成为全球AI语音生成赛道最受瞩目的风向标。

ElevenLabs的诞生源于一次令人失望的电影观感。据两位创始人的公开表述,他们对劣质外语配音的“罐头式”机械质感深感不满,决心利用深度学习构建可精准还原人类音色、语调与情感的语音模型。2023年1月,公司推出首个语音合成测试版,凭借超逼真的声音克隆能力,迅速在创作者、开发者与媒体从业者群体中引发轰动。用户只需上传一段短至一分钟的参考音频,系统即可生成几乎无法用肉耳辨识的合成语音,并支持29种语言,包括中文、日语、韩语、阿拉伯语等。其核心“Eleven Multilingual”模型不仅能够跨语言保留说话者的声纹特征,还能根据文本语境自动调整语速、重音和情绪,例如朗读新闻时的沉稳克制与讲述惊悚故事时的紧张颤抖,可一键切换。

然而,技术的高超也带来尖锐的伦理争议。2023年2月,一段利用ElevenLabs技术伪造美国前总统拜登攻击跨性别者的虚假音频在社交媒体扩散,引发舆论哗然。此外,演员、声优等群体的声音被擅自克隆并用于商业内容的案例接连曝光。面对信任危机,ElevenLabs在2023年推出多项防护机制,包括AI语音检测工具“ElevenLabs Speech Classifier”、强制语音克隆用户进行声纹验证,并与安全研究机构合作阻断恶意使用。公司首席执行官Mati Staniszewski当时对媒体强调:“我们正在构建一个让合成声音既安全又可信的生态系统,这需要技术、政策与行业共识的多重护航。”

在商业化布局上,ElevenLabs展现出与争议同步狂飙的势头。2023年下半年,该公司上线“语音库(Voice Library)”,允许用户上传自有声音并设定共享条件,创作者可从后续商业使用中获取收益分成。这一模式吸引了大量配音演员、播客主播及有声书制作者入驻。2024年6月,旗下阅读应用“ElevenLabs Reader”正式登陆iOS与安卓平台,可将电子书、网页、PDF等文本实时转化为由AI演绎的自然听感语音,直接向亚马逊Audible等传统有声书平台发起冲击。同年,公司进一步推出“Projects”长文本编辑套件与“AI Sound Effects”音效生成工具——用户仅需输入“雨打在铁皮屋顶上,远处有闷雷”之类的文字描述,即可在数秒内获得高保真音频素材。据科技媒体The Information引用知情人士说法,截至2024年底,ElevenLabs年经常性收入(ARR)已达约8000万美元,全球注册用户超过百万,企业客户覆盖《纽约时报》《华盛顿邮报》、Spotify旗下播客制作部门,以及Paradox Interactive等游戏公司。

产业分析人士指出,ElevenLabs的高速扩张正深刻改写音频内容的生产链条。以往需要工作室、录音师、专业演员协同数天完成的配音工作,如今一个人通过浏览器便可在几分钟内交付多语种版本。这直接动摇了部分传统配音产业的根基。2023年好莱坞演员工会与编剧工会罢工期间,AI声音克隆对表演者权利的侵蚀成为核心博弈点之一。ElevenLabs此后主动与行业协会展开对话,尝试构建透明授权与公平报酬框架,避免重蹈图像生成公司的覆辙。

竞争格局同样激烈。OpenAI于2024年3月展示的“Voice Engine”仅需15秒音频即可复刻人声,但因安全考量迟迟未大规模开放;Google Cloud Text-to-Speech与亚马逊Polly则依赖云计算生态固守企业级市场;新兴对手Respeecher、Sonantic亦在电影与游戏垂直领域深耕。相比之下,ElevenLabs凭借更开放的工具套件与不断降低的使用门槛维持优势。其最新Turbo v2.5模型将生成延迟压缩至400毫秒以内,支持低端设备运行,进一步拓宽实时对话式AI的应用场景。

进入2025年初,ElevenLabs的国际化步伐明显加快。公司先后在纽约、旧金山设立办公室,并在东京组建亚洲业务团队,大力推广适合东亚语种的精细语音控制功能。针对日益严峻的深度伪造风险,ElevenLabs于2025年1月宣布加入“内容来源与真实性联盟”(C2PA),为所有生成音频内置可验证的元数据标签,以便社交媒体和新闻机构快速辨识内容来源。同时,欧盟《人工智能法案》逐步落地后,对合成媒体标注的强制要求也已覆盖该公司在欧盟区提供服务。据彭博社援引知情人士报道,ElevenLabs正在进行新一轮融资谈判,目标估值或升至30亿美元以上,以筹划进军实时语音翻译及更具交互性的AI虚拟角色领域。

从一家源于对糟糕配音不满而诞生的初创公司,到估值数十亿美元的音频产业重塑者,ElevenLabs的崛起历程恰是生成式AI技术双刃剑本质的缩影。其未来能否在极致创新与安全伦理之间找到平衡,不仅关乎企业自身命运,也将定义全球数十亿人未来与声音交互的方式。

🔌 需要 AI API?

国内直连 Claude/GPT/DeepSeek,支付宝充值,5分钟接入

查看中转推荐 →