AI时代,内容平台如何防止原创被大规模剽窃
知识共享是互联网文化的重要组成部分,它通过共享资源许可证允许人们访问内容并创建衍生作品。随着生成式AI和大型语言模型的出现,对在线内容的大规模收集正在威胁到知识共享的原则。
生成式AI和大型语言模型的兴起,网络爬虫正在对在线内容的大规模收集已经成为常态,已经威胁到知识共享的原则。被爬虫收集的这些数据被用于开发AI模型。但是这些内容往往并未经过创作者的充分授权,这引发了对知识共享原则的争议,这与知识共享的理念相悖。
生成式AI、大模型对数据提出了前所未有的要求。市场逐渐凝成这样的共识:得数据者得天下,数据是大模型竞争的关键。目前,AI训练数据主要有两种来源:自采集和爬取。自采集数据需要大量的人力、物力和时间,成本较高。而爬取数据则相对容易获取。
2023年全球网络爬虫采集的数据量将达到1900亿条,其中超过80%的数据来自非授权。网络爬虫通常会通过编程的方式自动访问网站,获取用户信息或数据。这类行为不仅侵犯了用户的隐私,也给企业造成了巨大的经济损失。预计2024年,网络爬虫非法采集数据的情况有增无减。
面对这一问题,技术界亟需采取行动。
首先,对于在线内容网站所有者来说,可以通过robots.txt文件来阻止爬虫的访问。当然,这种方法是一种君子协定,因为目标明确的网络爬虫完全绕过这些规则。
其次,可以考虑采取技术手段来对抗爬虫,使用反爬虫技术来检测和阻止爬虫的访问。例如顶象为企业提供了全流程的立体防控方案,能够有效防范网络爬虫的恶意盗取行为。尤其方案的顶象无感验证,基于AIGC技术,能够防止AI的暴力破解、自动化攻击和钓鱼攻击等威胁,有效防止未经授权的访问、拦截网络爬虫盗取。
最后,需要加强法律法规的制定和执行,以保护内容创作者的权益,确保他们的作品不会被未经授权地使用。