重磅!它太危险了,不能公开发布
据参考消息13日援引美国趣味科学网站7月10日报道,科学家称,微软公司开发的新型人工智能(AI)语音生成器“达到了与人类相当的水平……但它太危险了,不能公开发布”。
报道称,VALL-E2是一个文本转语音(TTS)生成器,只需利用几秒钟的音频就能重现说话人的声音。其效果非常逼真,重磅!它太危险了,不能公开发布以至于无法向公众发布。
微软研究人员在6月17日发表在预印本文献库上的一篇论文中称,VALL-E2能够“准确、自然地生成与原说话人完全相同的语音,其生成的语音可与人类相媲美”。换句话说,这一新的AI语音生成器足够逼真,会让人误以为这是真人在说话——至少它的创造者是这么认为。
图片来源:视觉中国
微软研究人员在论文中写道:“VALL-E2代表着神经编解码语言模型的最新进展,它标志着零样本文本转语音合成的一个里程碑,并首次达到与人类语音相当的水平。”
论文还说:“此外,VALL-E2能够始终如一地合成高质量语音,即使是那些传统上因其复杂性或重复短语而具有挑战性的句子也不例外。”
研究人员使用语音资料库LibriSpeech和VCTK中的音频样本来评估VALL-E2与说话人录音的相似程度。他们还使用了ELLA-V(一个用于衡量生成语音的准确性和质量的评估框架)来确定VALL-E2能在多大程度上有效处理更复杂的语音生成任务。
研究人员写道:“我们基于LibriSpeech和VCTK数据集进行的实验表明,VALL-E2在语音的稳健性、自然度、与说话人相似度方面都超越了之前的零样本TTS系统。它是同类产品中第一个在这些基准上达到与人类相当水平的系统。”
微软研究人员在一篇博客文章中写道:“VALL-E2纯粹是一个研究项目。目前,我们还没有将VALL-E2纳入产品或向公众开放的计划。在模型被滥用方面,它可能存在潜在的风险,比如欺骗语音识别系统或冒充特定的说话人。”
尽管如此,他们确实表示,AI语音技术在未来可能会有实际应用。研究人员称:“VALL-E2可以合成维持说话人身份的语音,它可被用于教育学习、娱乐、新闻工作、自创内容、无障碍功能、交互式语音应答系统、翻译、聊天机器人等领域。”
另据公开报道,6月19日,在2024年戛纳狮子国际创意节上,特斯拉首席执行官埃隆·马斯克(ElonMusk)接受了全球知名营销服务公司WPP首席执行官马克·里德(MarkRead)专访。在谈到“人工智能是否真的会为我们处理所有事务”时,马斯克表示:我们不能盲目乐观或过度悲观。我非常赞同杰夫·辛顿(JeffHinton,人工智能教父)的观点。他认为有10%到20%的可能性会出现一些令人担忧的情境。然而,我们更应关注那80%的积极可能性。
因此,我认为最有可能的未来是,我们将进入一个物质极度丰富的时代,商品和服务将普及到地球上的每一个人。这不仅仅意味着全民基本收入,而是全民都能享受高收入。工作将变得可选,人们将拥有选择是否工作的自由。
这样的前景虽然诱人,却也可能引发一场有关生命意义的危机。当人工智能能够胜任我们所能做的所有工作,甚至做得更好时,我们做事的动机和意义又何在呢?这可能会引发一种存在主义式的困惑,即我们为何还要去做任何事情?
所以,我认为我们正迈向一个前所未有的繁荣时代。同时,我们也正处于历史上最为有趣的时刻。有句谚语说的好,“愿你生活在有趣的时代”,这看似是一种诅咒,但我认为我们正身处于这样一个时代。我的意思是,即使面对人工智能可能带来的最坏结果,即人类被消灭,我也会选择直面而非逃避。我想,我可能真的愿意亲眼见证这一切的发展。
每日经济新闻综合参考消息、公开消息
每日经济新闻