爬虫之使用requests爬取某条标签并生成词云

一、爬虫前准备

1.工具：pychram(python3.7)

2.库：random，requests，fake-useragent，json，re，bs4，matplotlib，worldcloud，numpy，PIL，jieba

random：生成随机数

requests：发送请求获取网页信息

fake-useragent：生成代理服务器

json：数据转换

re：用于正则匹配

bs4：数据过滤

matpotlib：图像处理

worldcloud：生成词云

numpy：图像处理

PIL：图像处理

jieba：对中文进行分词(本次未用到)

3.爬虫流程

使用代码模拟浏览器发送请求-->浏览器返回信息(html/json)-->提取有用的信息-->进行储存

1)发起请求

使用代码向目标站点发送请求，即发送一个Request

请求应包含：请求头、请求体等

2)获取响应内容

发送请求成功后，会获得站点返回的信息(Response)

3)提取信息

解析html数据：正则表达式（RE模块），第三方解析库如Beautifulsoup，pyquery，xpath等

解析json数据：json模块

4)储存信息

以文件存储

存入数据库

二、开始爬虫

1.防止ip被封

为了防止多次访问某站点导致IP被封，对IP进行伪装。

找一些提供免费IP的网站爬取IP数据存储到本地文件中，将爬虫进行到底。

 # __Author__ :"Chen Yang"

 # __Time__: 2019/8/22 20:56

 import requests

 from fake_useragent import UserAgent

 import re

 def create_pool(ur):

     url = ur

     ua = UserAgent()

     # fake_useragent 提供的随机生成代理服务器

     headers = {"User-Agent": ua.random}

     r = requests.get(url, headers=headers)

     # 正则匹配所有IP

     comment = re.findall('<td data-title="IP">(.*)</td>', r.text)

     # 正则匹配所有端口

     port = re.findall('<td data-title="PORT">(.*)</td>', r.text)

     print(r.text)

     print(comment)

     print(port)

     # 将IP和端口对应 存入文件

     with open('ip-port.text', 'a', encoding='utf-8') as f:

         for i in range(len(comment) - 1):

             f.write(comment[i] + ":" + port[i])

             f.write('\n')

 if __name__ == "__main__":

     # 爬取该网页前7页IP

     for i in range(6):

         ur = 'http://www.qydaili.com/free/?action=china&page=' + str(i)

         create_pool(ur)

IP爬取

2.IP爬取成功后正式开始爬取某条

xhr：XMLHttpRequest 对象提供了对 HTTP 协议的完全的访问，包括做出 POST 和 HEAD 请求以及普通的 GET 请求的能力。

某条文章是动态随机推荐的，每次进入头条页面的文章都不同。

在多次分析后找到realtime_news/的xhr

访问open_url，爬取标签

至此，基本可以确定realtime_news的xhr就是要爬的文件。

思路：爬取realtime_news的xhr的文件-->获取其中open_url-->爬取标签-->生成词云

 import random

 import requests

 from fake_useragent import UserAgent

 import json

 import re

 from bs4 import BeautifulSoup

 import matplotlib.pyplot as plt  # 用于图像处理

 from wordcloud import WordCloud# 用于生成词云

 import numpy as np

 from PIL import Image

 # 词云形状文件  需要替换成你本地的图片

 backgroud_Image = np.array(Image.open("man.jpg"))

 # 词云字体 需要替换成你本地的字体

 WC_FONT_PATH = '黄引齐招牌体.ttf'

 def get_ip():

     f = open("ip-port.text", 'r')  # 从IP-port中读取IP

     ip_all = []

     for k in f:

         line = f.readline()

         ip_all.append(line[:-1])  # 去除/n

     f.close()

     # print(ip_all)

     i = random.randint(0, len(ip_all)-1)

     pr = ip_all[i]

     print("ip地址为：{}".format(pr))

     return pr

 def get_info():

     '''

     使用爬取的ip来进行ip代理

     使用fake_useragent进行服务器代理，防止IP被封

     '''

     url = 'https://www.toutiao.com/api/pc/realtime_news/'

     ua = UserAgent()

     agent = ua.random

     print("代理为：{}".format(agent))

     header = {"User-Agent": agent}

     ip = get_ip()

     proxies = {'url': ip}

     try:

         # 获取首页信息

         r = requests.get(url, headers=header, proxies=proxies)

         global_json = json.loads(r.text)

         print(global_json)

     except:

         print("请求头条主页失败")

     # 获取首页信息动态推荐文章的地址

     article = []

     for i in range(len(global_json['data'])):

         article.append(global_json['data'][i]['open_url'])

     # 头条得子文章页标号 会随机发生变化

     #print(article)

     # 取8篇文章得label

     for i in range(7):

         # 访问动态推荐文章地址

         content = "http://toutiao.com" + article[i]

         try:

             respon = requests.get(content, headers=header, proxies=proxies)

             # 输入返回对象的文本值

             # print(respon.text)

         except:

             print("请求文章失败")

         # 指定编码等于原始页面编码

         respon.encoding = respon.apparent_encoding

         # 获取想要地址对应的BeautifulSoup

         html = BeautifulSoup(respon.text, 'lxml')

         # 选择 第六个script标签 即数据所在标签

         try:

             src = html.select('script')[6].string

             #print(src)

         except:

             print("获取数据失败！")

         result = []

         try:

             # 正则找到数据中标签字段

             labels = re.findall('tags:(.*),', respon.text)

             #print(type(labels))

             # strip()去空格

             # 把字符串转为列表

             result = labels[0].strip()

             # print(type(result))

             # print(labels)

             # eval()  将字符串列表 转为列表

             result = eval(result)

             # print(result)

         except:

             print("未获得labels")

         with open("labels.json", 'a', encoding='utf-8') as f:

             for i in range(len(result)-1):

                 f.write(result[i]['name'])

                 f.write(' ')

 def cut_word():

     '''

     生成词云

     :return:

     '''

     with open("labels.json", 'r', encoding='utf-8') as f:

         label =f.read()

         wl = "".join(label)

         print(wl)

         return wl

 def create_word_cloud():

     '''

     生成词云

     :return:

     '''

     # 设置词云形状图片

     #wc_mask = np.array(WC_MASK_IMG)

     # 设置词云配置 字体 背景 大小等

     wc = WordCloud(background_color='white', max_words=2000, mask=backgroud_Image, scale=4,

                    max_font_size=50, random_state=42, font_path=WC_FONT_PATH)

     # 生成词云

     wc.generate(cut_word())

     # 在只设置mask情况下， 你会得到一个图片形得词云

     plt.imshow(wc, interpolation='bilinear')

     #plt.axis("off")

     plt.figure()

     plt.show()

 if __name__ == '__main__':

     get_info()

     create_word_cloud()

爬虫