动态ip代理:使用爬虫实现前端页面渲染

发布时间:2021-09-23

  
在比较早的时候,大多数的网站基本都是利用后端做渲染的,就是在服务器端组装形成完整的HTML页面,然后在再将完整页面返回给前端进行展现。但是现在AJAX技术的不断普及,和AngularJS这类SPA框架的广泛应用,前端渲染的页面越来越多。


相信很多人也听说过,前端渲染是不利于进行seo的,影响排名,这样做会对网络爬虫不友好。原因就是前端渲染的页面需要在浏览器端执行avaScript代码(即AJAX请求)才能获取后端数据,之后才可以拼装成完整的HTML页面。
针对这样的状况,当前的解决方式有很多,最常用的就借助PhantomJS、puppeteer这类Headless浏览器工具,也就是相当于给网络爬虫中内置1个浏览器内核,
对爬取的页面先进行渲染,随后再对页面内容进行爬取。
要使用这样的方法解决,通常都是需要使用Javascript来开发网络爬虫工具,对于写惯了Python的人来说是很纠结的
ip代理:使用爬虫实现前端页面渲染
那么今天Python的使用的都是requests-html
写过Python的人,几乎全都会使用requests这么1个HTTP库,它最好的地方就是HTTP库1点也是不夸张(不限编程语言),对于其介绍语HTTPRequestsforHumans也是当之无愧。
也是这个原因,Locust和HttpRunner全全都是基于requests来进行开发的。
而requests-html,则是kennethreitz在requests的基础上开发的另1个开源项目,除了可以复用requests的全部功能外,还实现了对HTML页面的解析,即支持对Javascript的执行,和利用CSS和XPath对HTML页面元素进行提取的功能,这些全全都是编写网络爬虫工具非常需要的功能。
在实现Javascript执行方面,requests-html也是并没有自己造轮子,而是借助了pyppeteer这个开源项目。还记得前面提到的puppeteer项目么,这是GoogleChrome官方实现的NodeAPI;而pyppeteer这个项目,则相当于是使用Python语言对puppeteer的非官方实现,几乎具有puppeteer的所有功能。
代理ip:使用爬虫实现前端页面渲染
理清了以上关系后,相信大伙儿对requests-html也是就有了更好的理解。
在使用方面,requests-html也是十分简单,用法与requests几乎相同,只是多了render功能。
在执行render()之后,返回的就是经过渲染后的页面内容。

注册即送1000元现金券