“网络爬虫”是什么“害虫”?要怎么防?

2023-10-20 18:45
来源:保密科学技术

近年来,不法分子利用“爬虫”软件收集公民隐私数据案件屡见不鲜。2023年8月23日,北京市高级人民法院召开北京法院侵犯公民个人信息犯罪案件审判情况新闻通报会,通报侵犯公民个人隐私信息案件审判情况,并发布典型案例。在这些典型案例中,不法分子多是通过社交软件群、网站论坛等平台买卖或交换个人信息,“爬虫”软件成为收集大量信息的常用软件之一。


    


什么是网络爬虫?


网络爬虫(Web Crawler),也叫网络蜘蛛(Spider),它是一种自动化抓取互联网信息的程序,也是搜索引擎的核心组成部分。网络爬虫可以根据指定的规则,从互联网上下载网页、图片、视频等内容,并抽取其中的有用信息进行处理。

网络爬虫按照实现的技术和结构可以分为:通用网络爬虫、聚焦网络爬虫、增量式网络爬虫、深层网络爬虫等类型。在实际的网络爬虫中,通常是这几类爬虫的组合体,其工作原理主要是通过http协议进行通信,并从各个网站或服务器下载相应的资源。利用爬虫从互联网上获取数据的方式,不仅可以获取大量的数据而且成本低廉,是众多单位和个人获取数据的方式。

网络爬虫的工作过程包括以下几个步骤:

1.指定URL:指定要抓取的网页 URL;

2.发送http请求:发送 http 请求到对应的服务器;

3.获取响应:接收服务器返回的响应数据;

4.解析页面:解析响应数据,提取有用信息;

5.存储数据:将抓取到的数据保存到数据库或文件中。


    


目前,网络爬虫是数据安全的主要威胁之一,主要体现在两个方面:

一是爬虫超范围收集数据,搜集一些非必要的、无关的数据,可能涉及个人隐私数据;

二是多线程的爬虫大量爬取某一特定网站会实质性地占用网站的大量带宽资源,造成正常用户无法使用,这在实际效果上和分布式拒绝服务(DDos)攻击没什么区别。


防爬虫策略


目前常用的防爬虫策略主要有:

1.限制IP访问频率;

2.验证码登录;

3.User Agent标志限制;

4.增加cookie验证;

5.数据加密等方式。


互联网爬虫种类繁多,新的爬虫工具不断更新,且为了绕过网站管理员的防爬策略,专业的爬虫往往会不断变换爬取手段,依靠固定的单一规则很难实现防护。

Baidu
sogou