几种主流的声音克隆检测与分析技术
一位上班族在忙碌的工作日接到了一个紧急电话。电话那头声称是他的老板,告知他在离开前忘记转账给新的合作伙伴,急需他立即处理。声音听起来非常真实,内容紧急且逼真,让他毫不犹豫地接受了转账任务。电话结束后,他按照提供的电汇信息完成了转账。然而,这是一个基于声音克隆的诈骗电话。
这种电话欺诈背后的关键是AI技术。通过先进的语音合成和深度学习算法,骗子生成极其逼真的声音样本,几乎无法分辨真假。这些声音样本不仅能够模仿一个人的语调和语气,还能够复制其语言习惯和表达方式,使得接收者很难怀疑其真实性。
声音克隆在电话诈骗中的应用表明,传统的身份验证方式已经不再安全可靠。面对这一挑战,技术专家和企业需要采取多层次的防护措施:一方面需要有效识别检测出伪造的声音,平台需要加强声音克隆的识别;另一方面防范声音克隆的利用和扩散,对使用者的行为和身份验证;从而有效降低攻击者的欺诈行为。
几种识别声音克隆的技术
利用先进的AI技术对声音进行真伪鉴定,及时发现并拦截可疑内容。开发和应用AI工具进行声音防伪,如通过声纹识别技术确认声音的真实性,为声音交流提供安全保障。
1、Resemble的Detect-2B
传统上,大多数由AI生成的音频剪辑听起来“过于干净”,缺乏真实录音中的自然噪音,基于AI的模型能够通过关注这些细微差别来做出判断。
Resemble公司最近推出的Detect-2B模型,作为一种专门设计用于检测克隆音频的AI解决方案。该模型架构基于Mamba-SSM或状态空间模型,选择不依赖于静态数据或重复模式,而是采用随机或随机概率模型。能够更好地响应不同的变量和动态,即使在录音质量较差的情况下也能保持高效性和准确性,有效处理音频信号的多样性,捕捉音频剪辑中的动态变化,从而有效发现声音克隆。
2、Meta的AudioSeal
Meta的基础AI研究(FAIR)团队推出了AudioSeal,这是一种专为检测人工智能生成语音的本地化技术而设计的音频水印技术。AudioSeal的核心技术包括先进的音频特征提取与比对算法,以及高效的音频处理和水印嵌入技术。通过这些技术手段,AI模型能够准确地识别并标记出源自人工智能生成的音频片段,从而使得检测过程更加迅速和高效。据报道,新的本地化检测方法使得检测速度提高了整整485倍,极大地提升了应对大规模音频数据的能力。
相比传统方法,AudioSeal能够在更长的音频片段中精确定位人工智能生成的语音段落,从而有效防止克隆或篡改。
3、McAfee的Project Mockingbird
McAfee开发的AI模型Project Mockingbird,专门用于检测和识别AI生成的音频内容。Project Mockingbird采用先进的神经网络架构和大规模数据训练,模型能够准确地分析音频特征,从而区分出AI生成的音频和真实录制的音频。具备快速响应的能力,可以在音频流传输的同时进行实时检测和识别,有效应对即时的音频欺诈风险。
4、顶象反欺诈技术
基于用户行为和身份识别攻击者。平台应通过分析用户的行为模式和身份信息,建立安全预警机制,对于异常登录、高频发送信息等可疑行为进行监控和限制。同时,分析鼠标移动模式、打字风格等用户行为模式并识别异常情况,标记偏离正常使用的可疑活动。并通过额外的身份和设备验证,以及大模型可以快速筛选海量数据,并识别出通常无法被人类检测到的细微不一致之处,发现攻击者的异常操作。
顶象设备指纹能对每个设备生成统一且唯一设备指纹,识别出虚拟机、代理服务器、模拟器等被恶意操控等风险设备,分析设备是否存在多账号登录、是否频繁更换IP地址、频是否繁更换设备属性等出现异常或不符合用户习惯的行为,追踪和识别欺诈者的活动。
顶象无感验证基于AIGC技术,能够防止AI的暴力破解、自动化攻击和钓鱼攻击等威胁,有效防止未经授权的访问、账户被盗用和恶意操作,从而保护系统的稳定性。
顶象Dinsight实时风控引擎帮助企业进行风险评估、反欺诈分析和实时监控,提高风控的效率和准确性。与Dinsight搭配的Xintell智能模型平台,能够对已知风险进行安全策略自动优化,基于风控日志和数据挖掘潜在风险,一键配置不同场景支持风控策略。