报告显示:互联网上,73%流量来自网络爬虫
Arkose Labs 发布了 2023 年第三季度的《恶意爬虫报告》告显示,2023年第三季度,恶意爬虫程序及欺诈流量占互联网流量73%。受恶意爬虫攻击最多的行业分别是:技术(76%)、游戏(29%)、社交媒体(46%)、电子商务(65%)和金融服务(45%)。
恶意爬虫增长有两个原因:一是人工智能技术的普遍可用性,提高恶意爬虫的性能;二是黑灰产通过“犯罪即服务”(CaaS,Crime-as-a-Service)提高了攻击的商业普及,让发起新攻击的速度加快,进一步增加黑灰产的数量。
所谓“犯罪即服务”,就是借个人想要针对某个企业或组织进行攻击,但没有资源、技术或时间,可以付费让另一个人或组织发行网络攻击。也就是说,“犯罪即服务”让那些有攻击意图但没有技能的人成为网络违法者。
恶意爬虫的主要攻击方向
恶意爬虫被用于多种目的,主要用于窃取数据、欺诈用户或破坏服务。给各个领域带来了巨大的损失和风险,有些是跨行业的,有些是针对特定行业的。
票务部门。这是恶意爬虫最常见的攻击对象之一,能够帮助组织和个人抢购门票,然后在黑市上高价转卖,导致正常消费者难以买到合理价格的门票。
金融机构。恶意爬虫通常会尝试入侵用户账户,进行金融诈骗或窃取敏感信息。此外,一些投资公司也利用网络爬虫机器人来获取竞争对手的数据和策略,以提高自己的投资和交易表现。例如,对冲基金会使用网络爬虫机器人来收集和分析库存水平、定价数据等非传统数据,以指导自己的投资决策。据报道,2020年对冲基金为此支付了20亿美元。
网络游戏。在线游戏则受到撞库机器人的侵扰,这些恶意爬虫试图盗取用户账户中的金钱或游戏物品,并在网上出售。
航空公司。航空公司流量中有25.9%来自恶意爬虫,而且航空公司的航班价格和座位被竞争对手或旅游中介抓取,影响了其收入和客户体验。更严重的是,一些黑灰产会利用恶意爬虫来窃取用户账户中累积的航空里程,并用于非法交易或兑换。
电商。电商网站中有18%的流量来自这些恶意爬虫,恶意爬虫用于内容抓取、账户接管、信用卡诈骗和各种优惠券。
社交资讯。恶意爬虫经常被用来进行内容抓取,不仅窃取内容并在其他渠道重新发布,还获取竞争对手的信息,以进行不公平的竞争。这不仅损害了合法网站的利益和声誉,还扭曲了整个网络生态系统。很多时候,网站可能会误以为自己的流量增加了,而实际上是受到了恶意爬虫的攻击。
窃取账号。撞库攻击是恶意爬虫另一个重要目的,使用弱密码或重复密码的账号很容易遭窃。
如何辨别恶意爬虫?
现在的恶意爬虫程序,具有随机 IP 地址、匿名代理、身份修改、模仿人类操作行为等特征,非常难检测和阻止。顶象防御云业务安全专家专家指出,可以在恶意爬虫的行为和属性进行分析识别。
一是访问目标。恶意爬虫的目的是获取网站、App的核心信息,比如用户数据、商品价格、评论内容等,因此它们通常只会访问包含这些信息的页面,而忽略其他无关的页面。
二是访问行为。恶意爬虫是由程序自动执行的,按照预设的流程和规则进行访问,因此它们的行为具有明显的规律性、节奏性和一致性,与正常用户的随机性、灵活性和多样性有很大差异。
三是访问设备。恶意爬虫的目标是在最短时间内抓取最多信息,因此它们会使用同一设备进行大量的访问操作,包括浏览、查询、下载等,这会导致该设备的访问频率、时长、深度等指标异常。
四是访问IP地址。恶意爬虫为了避免被网站识别和封禁,会采用各种手段变换IP地址,比如使用云服务、路由器、代理服务器等。这会导致该IP地址的来源地域、运营商、网络类型等信息不一致,或者与正常用户的分布有明显偏差。
五是访问时间段。恶意爬虫为了减少被发现的风险,通常会选择在网站流量较低、监控较弱的时间段进行批量爬取,比如深夜、凌晨等。这会导致该时间段内的访问量、带宽占用等指标异常。
六是大数据建模挖掘。通过对网站正常用户和恶意爬虫的访问数据进行收集、处理、挖掘和建模,可以构建出专属于网站自身的爬虫识别模型,从而提高识别准确率和效率。
有效的防控手段
恶意爬虫的攻击手段也日益智能化和复杂化,仅仅依靠限制访问频率或者前端页面加密已经难以有效防御,需要提升人机识别技术,增加黑产的识别和拦截能力,以限制机器人对其人类或系统目标的访问,提高恶意爬虫的攻击成本。顶象为企业提供了全流程的立体防控方案,能够有效防范恶意爬取行为。
首先,利用顶象防御云对平台和App的运行环境进行定期检测和安全加固,并对App和客户端进行代码混淆、加壳等保护措施,对通讯链路进行加密传输,保障端到端全链路的安全性。
其次,基于部署基于顶象防御云和顶象Dinsight风控引擎,通过大数据匹配和追踪,进行多维度和深层次的分析,准确识别出异常行为,实现对恶意爬虫的精准识别和拦截。
其中,顶象防御云的智能验证码利用人工智能技术,能够有效阻挡恶意爬虫盗用、盗取数据行为,并能够在注册、登录、查询等关键环节,对恶意账号、恶意爬取行为进行实时的核验、判定和拦截。顶象防御云的设备指纹技术,则能够对代码注入、hook、模拟器、云手机、root、越狱等风险做到有效监控和拦截,通过设备唯一标识符,实现对设备的精准识别和风险评估。
顶象Dinsight风控引擎则是根据业务查询场景的请求、客户端采集的设备指纹信息、用户行为数据等多维度信息,实现对恶意爬虫行为的有效识别,基于安全防控策略,有效地对恶意爬取行为进行识别和拦截。
最后,基于顶象Xintelll智能模型平台,对风险数据和业务数据进行深度分析,进一步挖掘潜在风险,并构建专属风控模型,实现安全策略的实时更迭,更有效拦截各种恶意攻击。