B 站的up主们快失业了。

著名的反政治正确教授 Jordan Peterson 用开讲座的唱腔娓娓道出 “You better lose yourself in the music, the moment. You own it, you better never let it go…” 这段 AI 生成的 Eminem 歌曲翻唱足够以假乱真。

创作者自称 Miles,他说自己只用了6个小时的 Peterson 讲话音频,应用的技术来自 arXiv 预印本上的 两篇论文。他使用 AI 进行从文本到语音的转换(TTS)和韵律匹配(prosody matching),让这首歌不仅声音听起来是 Peterson,而且整个节奏韵律也符合他的习惯,就像是他真唱了一遍,虽然少了几分喜剧感,但效果比各路会调音的视频剪辑高手做的还好。

而就像 deepfake 一样,如果有了合适的平台,做这件事门槛并不高。Facebook 18年就推出了文本语音转换工具 VoiceLoop,代码公开供所有人使用;还有人成功利用 LyrebirdModulate.ai 做过声音模型;谷歌去年也放出了自己的合成声音库

确实,当我们说话的方式,声音,面孔,甚至是一些怪癖,这些我们以为是人类特有的东西,都可以被 AI 逼真地模仿甚至再创造的时候,很难不 “palms get sweaty, knees weak, and arms heavy”。但别 lose yourself —— 想办法保持警惕,享受科技的乐趣,没啥好担心的。

除非你是 B 站鬼畜区的 up 主。

© 异视异色(北京)文化传播有限公司
版权所有,未经授权不得以任何形式转载及使用,违者必究。