python 网页爬取数据生成文字云图

1. 需要的三个包：

from wordcloud import WordCloud        #词云库

import matplotlib.pyplot as plt        #数学绘图库

import jieba;

2. 定义变量（将对于的变量到一个全局的文件中）：

import re;

pdurl_first='https://movie.douban.com/subject/26363254/comments?start=0'

head={'User-Agent':'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Ubuntu Chromium/59.0.3071.109 Chrome/59.0.3071.109 Safari/537.36'}

reg=re.compile(r'<a href="(.*?)&amp;.*?class="next">') #下一页

cookies={"__utma":"30149280.503249607.1504402391.1504402391.1504402391.1",

         "_utmb":"30149280.2.9.1504402391","__utmc":"","__utmt":"",

         "__utmz":"30149280.1504402391.1.1.utmcsr=(direct)|utmccn=(direct)|utmcmd=(none)",

         "ap":"","as":'"https://movie.douban.com/subject/26363254/comments?start=225&limit=20&sort=new_score&status=P"',

         "bid":"g7k4BGd2sRk","ck":"76vs","dbcl2":'"166279730:fohmXhoM9uU"',"ps":"y","push_doumail_num":"",

         "push_doumail_num":""}

3. 抓取数据

import requests;

import re;

from GrabData import Param;

import pandas as pd;

from bs4 import BeautifulSoup;

class GrabComent:

    ren = re.compile(r'<span class="votes">(.*?)</span>.*?comment">.*?</span>.*?<span.*?class="">(.*?)</a>.*?<span>(.*?)</span>.*?title="(.*?)"></span>.*?title="(.*?)"><p .*? > (.*?)</p>',re.S)

    def __init__(self):

        print('开始抓取数据');

        html = requests.get(Param.pdurl_first, headers=Param.head, cookies=Param.cookies);

        while html.status_code == 200:

            url_next = 'https://movie.douban.com/subject/26363254/comments' + re.findall(Param.reg, html.text)[0]

            zhanlang = re.findall(self.ren, html.text)

            print(zhanlang)

            data = pd.DataFrame(zhanlang)

            data.to_csv('H:\\python_projects\\ticket\\zhanlangpinglun.csv', header=False, index=False,

                        mode='a+')  # 写入csv文件,'a+'是追加模式

            data = []

            zhanlang = []

            print("下一页地址："+url_next);

            html = requests.get(url_next, cookies=Param.cookies, headers=Param.head)

if __name__ == '__main__':

    GrabComent();

4. 生成云图

from wordcloud import WordCloud        #词云库

import matplotlib.pyplot as plt        #数学绘图库

import jieba;

class WordYun:

    def __init__(self):

        print("开始读取文件!");

        self.main();

    def main(self):

        text = self.readFile();

        self.showTitle(text);

    def showTitle(self,text1):

        wc1 = WordCloud(

            background_color="white",

            width=1000,

            height=860,

            font_path="D:\\Windows\\Fonts\\STFANGSO.ttf",  # 不加这一句显示口字形乱码

            margin=2);

        wc2 = wc1.generate(text1)  # 我们观察到generate()接受一个Unicode的对象，所以之前要把文本处理成unicode类型

        plt.imshow(wc2)

        plt.axis("off")

        plt.show();

    def readFile(self):

        a = []

        f = open(r'H:\\python_projects\\ticket\\zhanlangpinglun.csv', 'r').read()

        words = list(jieba.cut(f))

        for word in words:

            if len(word) > 1:

                a.append(word);

        txt = r' '.join(a)

        print("readFile返回的结果："+txt);

        return txt;

if __name__ == '__main__':

    WordYun();

python 网页爬取数据生成文字云图的更多相关文章

Python分页爬取数据的分析
前言文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: 向右奔跑 PS:如有需要Python学习资料的小伙伴可以加点击下方链 ...
Python爬虫爬取数据的步骤
爬虫: 网络爬虫是捜索引擎抓取系统(Baidu.Google等)的重要组成部分.主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份. 步骤: 第一步:获取网页链接 1.观察需要爬取的多 ...
菜鸟学IT之python网页爬取多页爬取
作业来源:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3002 0.从新闻url获取点击次数,并整理成函数 newsUrl news ...
菜鸟学IT之python网页爬取初体验
作业来源:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2881 1. 简单说明爬虫原理爬虫简单来说就是通过程序模拟浏览器放松请求站 ...
python requests 爬取数据
import requests from lxml import etree import time import pymysql import json headers={ 'User-Agent' ...
python爬虫—爬取百度百科数据
爬虫框架:开发平台 centos6.7 根据慕课网爬虫教程编写代码片区百度百科url,标题,内容分为4个模块:html_downloader.py 下载器 html_outputer.py 爬取数 ...
python爬虫——爬取网页数据和解析数据
1.网络爬虫的基本概念网络爬虫(又称网络蜘蛛,机器人),就是模拟客户端发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序.只要浏览器能够做的事情,原则上,爬虫都能够做到. 2 ...
python之爬取网页数据总结（一）
今天尝试使用python,爬取网页数据.因为python是新安装好的,所以要正常运行爬取数据的代码需要提前安装插件.分别为requests Beautifulsoup4 lxml 三个插件 ...
Python实训day07pm【Selenium操作网页、爬取数据-下载歌曲】
练习1-爬取歌曲列表任务:通过两个案例,练习使用Selenium操作网页.爬取数据.使用无头模式,爬取网易云的内容. ''' 任务:通过两个案例,练习使用Selenium操作网页.爬取数据. 使用无 ...

随机推荐

Row_Number() OVER()函数使用举例
语法:ROW_NUMBER() OVER(PARTITION BY COLUMN ORDER BY COLUMN) 简单的说row_number()从1开始,为每一条分组记录返回一个数字,这里的ROW ...
Zynq 在Ubuntu上搭建编译环境
http://bbs.elecfans.com/jishu_487981_1_1.html 以下操作均在root用户下完成1,下载交叉编译器在ubuntu里下载arm-2010.09-62-arm-x ...
Chrome浏览器控件安装方法
说明:只需要安装up6.exe即可,up6.exe为插件集成安装包. 1.以管理员身份运行up6.exe.up6.exe中已经集成Chrome插件.
backquote
character (`) A backquote or backtick. echo 'date' date echo `date` 2015年 07月 03日星期五 16:11:13 CST j ...
HTML5+CSS3网站设计教程 (张晓景,胡克) [iso]
<HTML5+CSS3网站设计教程>系统地讲解了CSS的基础理论和实际运用技术,并结合多个案例讲解了采用CSS与层布局相结合制作网页的方法,在详细讲解各个案例的制作中,不仅介绍了CSS样式 ...
linux联网配置（更新）
重启网络配置:service network restart: 常见问题: linux 虚拟机ifconfig 显示eth1 文件ifcfg-eth0中device为eth0的问题为什么eth0 ...
趣图：快下班了，剩一个bug，修复一下再走
趣图:当我给老板展示我修复了那个 bug 时趣图:当我以为这是最后一个Bug时……
SpringMVC异常的使用
1.创建一个异常类,需要extend RuntimeException,继承父类中所有的方法 2.局部异常,仅能处理这个Controller中的异常在Controller中添加异常处理方法 @Exc ...
SpringCloud-Zuul搭建
一.创建工程,在pom中引入Zuul 二.重写路由加载类,实在路由的动态注册和路由转发 package com.genius.gateway.zuul; import com.genius.gatew ...
OEL6.8安装虚拟带库模拟器
最近在虚拟机下搭建了一个OSB备份环境,其中使用到了虚拟带库,以下是虚拟带库的配置过程,简要记录之. 1.下载虚拟带库的源码(mhvtl-2016-03-10.tgz). 2.解压缩源码. # cd ...

python 网页爬取数据生成文字云图

python 网页爬取数据生成文字云图的更多相关文章

随机推荐

热门专题