python抓取网页数据处理后可视化

抓取文章的链接，访问量保存到本地

 #coding=utf-8

 import requests as req

 import re

 import urllib

 from bs4 import BeautifulSoup

 import sys

 import codecs

 import time

 r=req.get('https://www.liaoxuefeng.com/wiki/0014316089557264a6b348958f449949df42a6d3a2e542c000',

          headers={'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36'})

 content=r.text

 #print(content)

 soup=BeautifulSoup(content,'html.parser')

 #下面2行内容解决UnicodeEncodeError: 'ascii' codec can't encode characters in position 63-64问题,但是加了后print就打印不出来了，需要查原因

 reload(sys)

 sys.setdefaultencoding('utf-8')

 i=0

 for tag in soup.find_all(re.compile(r'^a{1}'),{'class':'x-wiki-index-item'}):

     i=i+1

     if i%3==0:

         time.sleep(30)

     name=tag.get_text()

     href='https://www.liaoxuefeng.com'+tag['href']

     req2=req.get(href,headers={'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36'})

     time.sleep(3)

     soup2=BeautifulSoup(req2.text,'html.parser')

     count=soup2.find_all('div',{'class':'x-wiki-info'})

     try:

         co=count[0].find('span').get_text()

         co=co[7:]

     except IndexError as e:

         co=''

     with open('E:/sg_articles.xlsx', 'a+') as f:

         f.write(codecs.BOM_UTF8)#解决写入csv后乱码问题

         f.write(name+','+href+','+co+'\n')

 '''

 睡眠是因为网页访问过多就会报503 Service Unavailable for Bot网站超过了iis限制造成的由于2003的操作系统在提示IIS过多时并非像2000系统提示“链接人数过多”

 http://www.51testing.com/html/53/15150753-4455790.html --数据可视化

 http://www.cnblogs.com/xxoome/p/5880693.html --python引入模块时import与from ... import的区别

 https://www.cnblogs.com/amou/p/9184614.html --讲解几种爬取网页的匹配方式

 https://www.cnblogs.com/yinheyi/p/6043571.html --python基本语法

 '''

上面代码的思路：先获取主网页，再遍历主网页上的文章链接并请求这些链接以进入子网页，从而获得子网页中span标签保存的访问量。

下面打开本地文件，pandas进行数据分析，然后pyecharts实现图形化

 #coding=utf-8

 from pyecharts import Bar

 import pandas as pd

 p=pd.read_excel('E:\sg_articles.xls',names=["title","href","count"])

 a=p.sort_values(by='count',ascending=False)[0:3]

 title=a['title']

 count=a['count']

 bar=Bar("点击量TOP3", title_pos='center', title_top='', width=800, height=400)

 bar.add("", title, count, is_convert=True, xaxis_min=10, yaxis_rotate=30, yaxis_label_textsize=10, is_yaxis_boundarygap=True, yaxis_interval=0,

         is_label_show=True, is_legend_show=False, label_pos='right',is_yaxis_inverse=True, is_splitline_show=False)

 bar.render("E:\点击量TOP3.html")

最后的结果

同时还有很多疑问，需要懂的朋友帮忙解答：

1.第一段代码中保存的xlsx格式，实际保存后打开是提示有损坏的，使用xml打开则就没有问题，另存为xls格式后打开也没有问题

2.访问量过多会报错，我就利用了sleep，但实际上访问量间断性的读取到了值，有的为什么读不到值了？

3.利用sort_values对count列进行排序取前3，这个会自动排除掉excel表格的第一行，不知道是为什么

感觉后面我还需要强化1）pandas数据处理的方法，比如分组排序等

2）正则表达式的提取

3）pyecharts的图形绘制

4）在遇到网页有反爬情况下的虚拟ip设置等

记录我的python学习之路，大家一起努力哟~~

python抓取网页数据处理后可视化的更多相关文章

Python 抓取网页并提取信息(程序详解)
最近因项目需要用到python处理网页,因此学习相关知识.下面程序使用python抓取网页并提取信息,具体内容如下: #---------------------------------------- ...
python抓取网页例子
python抓取网页例子最近在学习python,刚刚完成了一个网页抓取的例子,通过python抓取全世界所有的学校以及学院的数据,并存为xml文件.数据源是人人网. 因为刚学习python,写的代码 ...
python抓取网页过程
准备过程 1.抓取网页的过程准备好http请求(http request)->提交对应的请求->获得返回的响应(http response)->获得网页源码 2.GET还是POST ...
Python抓取网页中的图片到本地
今天在网上找了个从网页中通过图片URL,抓取图片并保存到本地的例子: #!/usr/bin/env python # -*- coding:utf- -*- # Author: xixihuang # ...
python抓取网页引用的模块和类
在Python3.x中,我们可以使用urlib这个组件抓取网页,urllib是一个URL处理包,这个包中集合了一些处理URL的模块,如下:1.urllib.request模块用来打开和读取URLs:2 ...
python抓取网页中图片并保存到本地
#-*-coding:utf-8-*- import os import uuid import urllib2 import cookielib '''获取文件后缀名''' def get_file ...
python 抓取网页一部分
import re import requests from bs4 import BeautifulSoup response = requests.get("https://jecvay ...
网络爬虫－使用Python抓取网页数据
搬自大神boyXiong的干货! 闲来无事,看看了Python,发现这东西挺爽的,废话少说,就是干准备搭建环境因为是MAC电脑,所以自动安装了Python 2.7的版本添加一个库 Beauti ...
浅谈如何使用python抓取网页中的动态数据
我们经常会发现网页中的许多数据并不是写死在HTML中的,而是通过js动态载入的.所以也就引出了什么是动态数据的概念, 动态数据在这里指的是网页中由Javascript动态生成的页面内容,是在页面加载到 ...

随机推荐

asp源码微信扫码授权登陆电脑版
网站接入微信扫码登录并获取用户基本信息(完美绕过微信开放平台)电脑版网站实现微信扫码登录,注册会员还要设密码太麻烦,会员也记不住密码,采用微信扫码登录网站更方便,会员无需设密码,用他的微信做为系统登录 ...
mysql-5.7.20
. 下载mysql- wget https://dev.mysql.com/get/Downloads/MySQL-5.7/mysql-5.7.20-linux-glibc2.12-i686.tar. ...
struct 对齐和补齐原则
// 对齐原则:每一成员需对齐为后一成员类型的倍数 // 补齐原则:最终大小补齐为成员类型最大值的倍数 struct A { int a; // 4 short b; // (4) + ...
rabbitmq (五)RPC
Remote Procedure Call or RPC(远程函数调用) 当我们需要在远程计算机上运行一个函数,并且等待结果的时候,我们用到RPC 在rabbitmq客户端使用call函数,发送RPC ...
RN-进阶
ActivityIndicator 显示一个圆形的loading的提示符 react-native-tab-navigator npm install react-native-tab-navigat ...
Python课程第三天作业
一.统计⽂件数据中出现的的所有字符与该字符出现的个数(不区分⼤⼩写,标点与空格也算) ⽂件内容: hello friend, can you speak English! # 结果: { 'h': 1 ...
solr参数之facet
facet就像sql语句中的group一样,是对某一个字段进行group并count,即能够按照Facet的字段进行分组并统计. 一.基本使用: 必须属性:facet=true&facet.f ...
python-web自动化-鼠标操作
鼠标操作由ActionChains类来完成鼠标操作 perform() 执行鼠标操作move_to_element() 鼠标悬浮:最常用的操作double_click() 双击操作context_cl ...
关于Hibernate和Strtus2的xml提示问题
话不多说,上图 1.Windom 2.preferences 3.搜索框搜索xml catalog 点击Add 4.导入约束(具体操作图上1.2.3)
orcal - 多表查询
SQL1999语法标准 CROSS JOIN 产生笛卡尔积 SELECT * from EMP CROSS JOIN dept; NATURAL JOIN 自然连接相同列 SELECT * from ...

python抓取网页数据处理后可视化

python抓取网页数据处理后可视化的更多相关文章

随机推荐

热门专题