今天我们就来看下,爬虫是如何爬取微博内容的。这里我们以新浪娱乐的微博为例,来抓取一下微博的内容信息。首先抓取登录微博的cookie,然后使用cookie来登录微博。
代码如下: # -*- coding: utf-8 -*- """ Created on Sun Apr 16 14:16:32 2017 @author: zch """ import requests from bs4 import BeautifulSoup import time import pandas as pd #放入cookie信息 cook = {"Cookie":"_T_WM=..."} #爬取新浪微博娱乐的内容 url = "微博地址" tent #使用Beautiful来解析网页内容。 soup =BeautifulSoup(html,"html.parser") r = soup.findAll('span',attrs={"class" : "ctt"}) for e in r: print(e.text) 通过以上代码,我们就可以简单的获取到新浪娱乐的微博内容了。陆零网络,数据采集服务服务提供商,为您提供更快,更可靠的服务。 |