IBM 安全研究人员证明,黑客可以使用生成人工智能和 Deepfake 音频技术来劫持和操纵实时对话。
另请参阅: 网络研讨会我通过企业客户决策的集成方法为您的组织提供面向未来的保障
研究人员使用“令人惊讶且极其简单”的音频劫持技术来拦截说话者的音频,并用深度伪造的声音替换真实声音的片段。他们说:“我们没有使用生成式人工智能为整个对话创建相对容易检测的假声音,而是找到了一种拦截实时对话并根据上下文替换关键字的方法。”
研究人员克隆声音所需的只是三秒的音频。
他们指示一个大型语言模型处理实时电话对话中两个来源的音频,并要求它监视特定的关键字和短语 – 在本例中为短语“银行帐户”。当模型检测到该短语时,它会用假账户替换真实的银行账户。
法学硕士充当中间人,监控现场对话。研究人员使用语音转文本将语音转换为文本,这使得法学硕士能够理解对话的上下文。他们说:“这类似于将对话中的人变成傀儡,并且由于保留了原始上下文,因此很难被发现。”
这种威胁不仅仅是金融操纵,黑客可能会诱骗受害者将数十亿美元存入他们的账户。该技术可用于审查信息、指示飞行员修改航线以及实时更改现场新闻广播和政治演讲的内容。
研究人员表示,开发人工智能系统来执行这项任务几乎没有什么挑战,即使实施攻击需要犯罪分子具备社会工程和网络钓鱼技能。
他们说,构建概念验证“非常简单,令人惊讶。我们花了大部分时间研究如何从麦克风捕获音频并将音频输入生成人工智能”。
研究人员确实遇到了一些影响攻击说服力的障碍。一是克隆的声音需要考虑语气和速度才能融入真实的对话。
其次,GPU 的延迟导致对话延迟,因为远程访问 LLM 和文本转语音 API 需要概念验证。但研究人员通过人为暂停来解决这个问题。他们训练模型使用桥接短语来填补模型处理操作所产生的任何空白。
“因此,当 PoC 在听到关键字‘银行账户’后激活并拉起恶意银行账户以插入对话时,延迟被桥接短语所覆盖,例如‘当然,请给我一点时间拉起它, “研究人员说。
他们补充说,黑客需要在本地拥有“大量”可用的计算能力,才能使这些攻击变得现实且可扩展。