爬虫有什么类型？

发布时间：2021-09-20

　　爬虫有什么类型？尽管Python爬虫能够爬取页面，获取很多的信息，但要实现这个效果不是全部爬虫都能做到的。爬虫也有分类，不同的爬虫可以达到效果也是不同的，那么爬虫有哪些类型？这些不同类别的爬虫都可以抓取哪些内容？接下来陆零网络和大家一起来认识一下Python爬虫的几个类型。

一.按照授权状态
1.恶意爬虫
根据分析并自行构造参数对非公开接口进行数据爬取或提交，获取对方本不愿意被大量获取的数据，并有可能给对方服务器性能造成极大损耗。此处通常存在爬虫和反爬虫的激烈交锋。
2.合法爬虫
以符合Robots协议规范的行为爬取网页，或爬取网络公开接口，或购买接口授权进行爬取，均为合法爬虫，该类爬虫通常不用考虑反爬虫等对抗性工作。
二.根据爬虫功能
1.接口爬虫
通过精准构造特定API接口的请求数据，而获得大量数据信息。
3.网页爬虫
以搜索引擎爬虫为主，根据网页上的超链接进行遍历爬取。
三.根据被爬网站的数量
1.增量式网络爬虫
增量式更新指的是在更新的时候只更新改变的地方，而未改变的地方则不更新，只爬取内容发生变化的网页或者新产生的网页，一定程度上能保证所爬取的网页，尽可能是新网页。
2.通用爬虫
爬取目标资源在全互联网中，爬取目标数据巨大。对爬取性能要求非常高。应用于大型搜索引擎中，有非常高的应用价值。
爬行策略：主要有深度优先爬行策略和广度优先爬行策略。
基本构成：初始URL集合，URL队列，页面爬行模块，页面分析模块，页面数据库，链接过滤模块等构成。
3.深层网络爬虫
表层网页：不需要提交表单，使用静态的链接就能够到达的静态网页。
深层网页：隐藏在表单后面，不能通过静态链接直接获得，是需要提交一定的关键词之后才能够获取得到的网页。
深层网络爬虫最重要的部分即为表单填写部分。
基本构成：URL列表，LVS列表（LVS指的是标签/数值集合，即填充表单的数据源）爬行，解析器，LVS，表单分析器，表单处理器，响应分析器等。
深层网络爬虫表单填写有两种类型：。
基于领域知识的表单填写（建立一个填写表单的关键词库，在需要的时候，www.lu0.com根据语义分析选择对应的关键词进行填写）。
基于网页结构分析的表单填写（一般是领域只是有限的情况下使用，这种方式会根据网页结构进行分析，并自动的进行表单填写）。
4.聚焦网络爬虫
将爬取目标定位在与主题相关的页面中，主要应用在对特定信息的爬取中，主要为某一类特定的人群提供服务。
爬行策略：基于内容评价的爬行策略、基于链接评价的爬行策略、基于增强学习的爬行策略、基于语境图的爬行策略，关于聚焦网络爬虫具体的爬行策略。
基本构成：初始URL,URL队列，页面爬行模块，页面分析模块，页面数据库，连接过滤模块，内容评价模块，链接评价模块等构成。
有关爬虫有什么类型的疑问，文章说明了爬虫的三种分类，分别是根据授权、功能、被爬网站的数量来归类的，不同的爬虫爬取的内容不一样，可以根据实际爬取需求，比如仅仅是爬取网页某一部分的内容。

负载均衡

云数据库

域名注册

常见问题

云计算

爬虫有什么类型？

发布时间：2021-09-20