三只羊录音分析:犯罪分子如何利用AI合成虚假的音视频?
合肥市公安局高新分局9月26日发布警情通报称,接三只羊公司报警称,网上传播涉卢某某的音视频不实,严重侵害其合法权益。
侦查发现,9月22日晚,犯罪嫌疑人王某某利用从互联网下载的音视频资料,杜撰卢某某酒后言论脚本,先使用AI工具训练生成假冒卢某某的音频。其中,出现的女声也系AI工具训练生成。后用视频软件合成音视频,并通过网络发布,形成谣言大量传播。
目前,王某某已被依法采取刑事强制措施,案件正在进一步侦办中。
卢某某的声音在哪里被盗?
基于AI技术克隆任何人的声音非常容易,只需要通过公开渠道提取语音样本,仅需要十几秒甚至秒钟的样本,就能制作出高度逼真的声音克隆。这些声音样本不仅能够模仿一个人的语调和语气,还能够复制其语言习惯和表达方式,使得接收者很难怀疑其真实性。
顶象防御云业务安全情报中心认为,这些信息的泄露途径多种多样。
1、社交媒体。由于社交媒体已成为人们日常生活中不可或缺的一部分,避免在社交媒体上过度分享敏感信息,由此成为犯罪分子获取诈骗素材的库房。
2、网络数据泄露。大规模的网络数据泄露事件可能导致个人信息被泄露,包括照片、视频和声音等。犯罪分子通过暗网平台,可以获取这些泄露的数据来实施诈骗活动。
3、网络钓鱼和恶意软件。犯罪分子通过发送钓鱼邮件或利用恶意软件来获取受害人的个人信息,包括照片和视频。一旦他们成功获取了受害人的设备访问权限,就可以进一步获取更多的个人资料。
4、公开活动和活动现场。在包括会议、展会、社交活动等一些公共场所或特定活动中,犯罪分子可能搜集到受害人的照片、声音和视频。
普通人如何防范声音被克隆
面对AI的声音克隆挑战,需要采取多层次的防护措施:一方面需要有效识别检测出伪造的声音,平台需要加强声音克隆的识别;另一方面防范声音克隆的利用和扩散,对使用者的行为和身份验证;从而有效降低攻击者的欺诈行为。
1、个人减少敏感信息分享。避免在社交媒体上分享个人照片、声音和视频等敏感信息,减少公开个人账户、家庭、工作等私密信息,以降低身份被伪造的风险。一旦发现AI虚假的声音或视频,应立即向社交媒体管理员和执法部门报告,采取措施删除并追踪来源。
2、平台加强声音克隆识别。社交媒体和通讯平台需加强声音克隆的识别能力,利用先进的AI技术对声音进行真伪鉴定,及时发现并拦截可疑内容。开发和应用AI工具进行声音防伪,如通过声纹识别技术确认声音的真实性,为声音交流提供安全保障。
3、通过行为分析识别异常操作。平台应通过分析用户的行为模式和身份信息,建立安全预警机制,对于异常登录、高频发送信息等可疑行为进行监控和限制。同时,分析鼠标移动模式、打字风格等用户行为模式并识别异常情况,标记偏离正常使用的可疑活动。并通过额外的身份和设备验证,以及大模型可以快速筛选海量数据,并识别出通常无法被人类检测到的细微不一致之处,发现攻击者的异常操作。
顶象设备指纹能对每个设备生成统一且唯一设备指纹。并搭建基于设备、环境、行为的多维度识别策略模型,识别出虚拟机、代理服务器、模拟器等被恶意操控等风险设备,分析设备是否存在多账号登录、是否频繁更换IP地址、频是否繁更换设备属性等出现异常或不符合用户习惯的行为,追踪和识别欺诈者的活动,帮助企业实现全场景各渠道下同一ID的运营,助力跨渠道的风险识别与管控。
顶象无感验证基于AIGC技术,能够防止AI的暴力破解、自动化攻击和钓鱼攻击等威胁,有效防止未经授权的访问、账户被盗用和恶意操作,从而保护系统的稳定性。它集成了13种验证方式和多种防控策略,汇集了4380条风险策略、112类风险情报、覆盖24个行业和118种风险类型。其防控精准度高达99.9%,并能快速实现从风险到情报的转化。同时支持安全用户无感通过,实时对抗处置能力也缩减至60s内,进一步提高了数字登录服务体验的便捷性和效率。
顶象Dinsight实时风控引擎帮助企业进行风险评估、反欺诈分析和实时监控,提高风控的效率和准确性。Dinsight的日常风控策略的平均处理速度在100毫秒以内,支持多方数据的配置化接入与沉淀,能够基于成熟指标、策略、模型的经验储备,以及深度学习技术,实现风控自我性能监控与自迭代的机制。与Dinsight搭配的Xintell智能模型平台,能够对已知风险进行安全策略自动优化,基于风控日志和数据挖掘潜在风险,一键配置不同场景支持风控策略。其基于关联网络和深度学习技术,将复杂的数据处理、挖掘、机器学习过程标准化,提供从数据处理、特征衍生、模型构建到最终模型上线的一站式建模服务。
4、AI语音工具应强制增加防伪滥用特征。例如,微小的扰动、杂乱无章的噪音、固定的某个背景节奏等,使听到的人能够辨别出来。此外,AI语音融合工具录制音频的硬件增加内置传感器,用于检测和测量人体在说话时发出的生物信号,例如心跳、肺运动、声带振动以及嘴唇、下巴和舌头的运动,录制的声音能够附加到音频上,并为听众提供可验证的信息,以分别语音是自然录制还是AI伪造。