【爬虫案例】动态地图里的数据如何抓取:以全国PPP综合信息平台网站为例  http://mp.weixin.qq.com/s/BXWTf5hmq8vp91ZvgaphEw

【爬虫案例】动态页面的抓取!以东方财富网基金行情数据为例   http://mp.weixin.qq.com/s/bbw5caz4EfJn5mwbDMVfuQ

【爬虫案例】获取历史天气数据   http://mp.weixin.qq.com/s/MlqJUuH0JjTujMzGJp_7kw

【爬虫案例】电影票房数据抓取   https://mp.weixin.qq.com/s/UgH53P86Y0nfY-67EDQ8wA

#####http://www.lishi.tianqi.com/yangzhong/201407.html

#####http://lishi.tianqi.com/yangzhong/201407.html

#####www.cbooo.cn/year?year=2016

#####www.cpppc.org:8082/efmisweb/ppp/projectLibrary/toPPPMap.do

#####fundact.eastmoney.com/banner/gp.html?from=groupmessage&isappinstalled=0

#

#http://lishi.tianqi.com/yangzhong/201407.html

##################################################################

##############爬取票房纪要

#####www.cbooo.cn/year?year=2016

1、确认搜的票房数据在代码里(Ctrl+F搜索出来)搜索关键字:如"美人鱼",是否在页面上

2、模板(对于数据在页面上适用):获取页面/解析网页

3、找到数据在哪?定位数据首选用id定位

4、返回列表的话找对应的项

#########采用解析器:'lxml',解析页面;也可以用html.parse解析器

分析数据在哪个框里面,这是一个table,定位方式首选用id定位

soup.find_all 找到所有table,限制条件为id=tbContent

里面每一个tr代表一行,一个电影即为一行,找到所有tr标签

td表示当中的每一个单元,找出当中第一个中的a标签中的title属性即为需要的电影名称

dd与dl是现在很少用的标签,表示为定义式,有点类似于字典

import requests ############获取页面

from bs4 import BeautifulSoup  ############解析网页

year=2017

url='http://www.cbooo.cn/year?year='+str(year)

rawhtml=requests.get(url).content

print(type(rawhtml))

soup=BeautifulSoup(rawhtml,'lxml') #########采用解析器:'lxml',解析页面;也可以用html.parse解析器

###soup.select('dl.dltext dd')

###有快捷的方式:能把所有标签去掉,soup.select('dl.dltext dd')[0].get_text()

def getYear(year):

#year=2017

url='http://www.cbooo.cn/year?year='+str(year)

rawhtml=requests.get(url).content

#print(type(rawhtml))

soup=BeautifulSoup(rawhtml,'lxml') #########采用解析器:'lxml',解析页面;也可以用html.parse解析器

#print(type(soup))

return soup

def getInfo(url):

rawhtml=requests.get(url).content

soup=BeautifulSoup(rawhtml,'lxml')

return soup

print(type(soup))

movies_table=soup.find_all('table',{'id':"tbContent"})[0]  ####用find_all()方法,通过table标签,加上字典参数,属性为id=tbContent

movies=movies_table.find_all('tr')

moviename=[movie.find_all('td')[0].a.get('title') for movie in movies[1:]]

movielink=[movie.find_all('td')[0].a.get('href') for movie in movies[1:]]

movietype=[movie.find_all('td')[1].string for movie in movies[1:]]

movieboxoffice =[int(movie.find_all('td')[2].string) for movie in movies[1:]]

#moviedirector=[getInfo(url).find_all('dl',{'class':'dltext'})[0].find_all('dd')[0].a.get('title') for url in movielink]

moviedirector=[getInfo(url).select('dl.dltext dd')[0].get_text() for url in movielink]

############转成数据框&统计分析

import pandas as pd

df=pd.DataFrame({'names':moviename,'types':movietype,'boxoffice':movieboxoffice,'link':movielink,'directors':moviedirector})

import numpy as np

df.groupby('types').agg({'boxoffice':["count","mean"]})

#############写到文件中

df.to_csv(r'C:\Users\Administrator\Desktop\电影.csv')

标签是div,div在html中意思为一个块集

确认html页面真的存在代码中

确认数据在代码中,即好爬,如果不在代码中,用js进行渲染,即不好爬

再看有没有翻页,没有翻页,即OK

这里以一个电影评分的网站为例,介绍数据抓取的基本流程和方法。

标准配置:

--requests:抓取网址的HTML内容

--BeautifulSoup:解析HTML源码,提供方便的查询接口

--re:正则表达式,通过描述规则从字符中提取需要的数据

(这里不作介绍)

import requests  ########获取页面

from  bs4 import BeautifulSoup  #######解析网页

url='http://www.cbooo.cn/year?year=2016'

rawhtml=requests.get(url).content   #######获取内容

##################################################################

##############爬取天气纪要

###############http://www.tianqihoubao.com/weather/top/shenzhen.html

##############数据抓取:

##############某些情况下需要从网络抓取数据,比如舆情监控需要抓取相关的新闻内容;

##############判断天气原因是否对超市的销量有影响时,除了已有的销量数据外还需要从

##############网络抓取每日的天气数据

1、下载的url数据

2、在谷歌浏览器右键:检查,找到每一行数据在不在网页代码中,找到整个下载数据是个table,tblite_go

3、一页一页加载时,发现问题:网址未发生变化,没有刷新

1)打开network,点击每一页时发现Request URL不一致,此时表明为异步加载;

2)将不同页的链接复制出来,查看区别;

3)找到规律,将链接查看,即对应数据;

4)由于r.content为乱码,r.text为中文格式;

5)解析;

6)每一页写入;

import requests ############获取页面

from bs4 import BeautifulSoup  ############解析网页

url='http://www.tianqihoubao.com/weather/top/shenzhen.html'

rawhtml=requests.get(url).content

weatherhtml=BeautifulSoup(rawhtml,'lxml')

dateset=[weather.find_all('td')[1].b.a.string for weather in weatherhtml.find_all('table')[0].find_all('tr')[2:]]

dayweatherset=[weather.find_all('td')[2].string for weather in weatherhtml.find_all('table')[0].find_all('tr')[2:]]

daywindset=[weather.find_all('td')[3].string for weather in weatherhtml.find_all('table')[0].find_all('tr')[2:]]

daytempset=[weather.find_all('td')[4].string for weather in weatherhtml.find_all('table')[0].find_all('tr')[2:]]

nightweatherset=[weather.find_all('td')[5].string for weather in weatherhtml.find_all('table')[0].find_all('tr')[2:]]

nightwindset=[weather.find_all('td')[6].string for weather in weatherhtml.find_all('table')[0].find_all('tr')[2:]]

nighttempset=[weather.find_all('td')[7].string for weather in weatherhtml.find_all('table')[0].find_all('tr')[2:]]

import pandas as pd

df=pd.DataFrame({'日期':dateset,'白天天气':dayweatherset,'白天风向':daywindset,'白天温度':daytempset,'晚上天气':nightweatherset,'晚上风向':nightwindset,'晚上温度':nighttempset})

import numpy as np

df.to_csv(r'C:\Users\Administrator\Desktop\天气.csv')

python自动化之爬虫原理及简单案例的更多相关文章

  1. python——flask常见接口开发(简单案例)

    python——flask常见接口开发(简单案例)原创 大蛇王 发布于2019-01-24 11:34:06 阅读数 5208 收藏展开 版本:python3.5+ 模块:flask 目标:开发一个只 ...

  2. 爬虫之scrapy简单案例之猫眼

    在爬虫py文件下 class TopSpider(scrapy.Spider): name = 'top' allowed_domains = ['maoyan.com'] start_urls = ...

  3. 使用python开发ansible自定义模块的简单案例

    安装的版本ansible版本<=2.7,<=2.8是不行的哦 安装模块 pip install ansible==2.7 先导出环境变量 我们自定义模块的目录. 我存放的目录 export ...

  4. python自动化之爬虫模拟登录

    http://selenium-python.readthedocs.io/locating-elements.html ####################################### ...

  5. python静态网页爬虫之xpath(简单的博客更新提醒功能)

    直接上代码: #!/usr/bin/env python3 #antuor:Alan #-*- coding: utf-8 -*- import requests from lxml import e ...

  6. 爬虫之CrawlSpider简单案例之读书网

    项目名py文件下 class DsSpider(CrawlSpider): name = 'ds' allowed_domains = ['dushu.com'] start_urls = ['htt ...

  7. 微软最强 Python 自动化工具开源了!不用写一行代码!

    1. 前言 最近,微软开源了一款非常强大的 Python 自动化依赖库:playwright-python 它支持主流的浏览器,包含:Chrome.Firefox.Safari.Microsoft E ...

  8. 阿里最强 Python 自动化工具开源了!

    1. 前言 大家好,我是安果! 最近,阿里内部开源了一个 iOS 端由 Python 编写的自动化工具,即:tidevice 它是一款跨平台的自动化开源工具,不依赖 Xcode 就可以启动 WebDr ...

  9. Python分布式爬虫原理

    转载 permike 原文 Python分布式爬虫原理 首先,我们先来看看,如果是人正常的行为,是如何获取网页内容的. (1)打开浏览器,输入URL,打开源网页 (2)选取我们想要的内容,包括标题,作 ...

随机推荐

  1. 架构图+kubernetes 问题理解 -- kube-pproxy - endpoint

    1.详述kube-proxy原理,一个请求是如何经过层层转发落到某个pod上的整个过程.请求可能来自pod也可能来自外部. 1.1kube-proxy为集群提供service功能,相同功能的pods对 ...

  2. Hadoop详细配置教程

    windows下采用PuTTY或者Xshell连接远程主机 mac用终端连接远程linux主机:ssh user@hostname user 为 linux 服务器的管理员名称 hostname 为 ...

  3. android studio更新gradle失败的解决办法-转

    android studio中每次自动更新gradle时速度实在太慢因为gradle服务器比较慢,所以更新gradle会比较慢,建议先下载下来,然后手动添加到gradle的下载目录,提升速度. 使用下 ...

  4. 20155209林虹宇 Exp7 网络欺诈防范

    Exp7 网络欺诈防范 简单应用SET工具建立冒名网站 kali要作为web服务器让靶机访问冒名网站,所以要使用阿帕奇web服务器软件. 要阿帕奇使用80端口.进入配置文件/etc/apache2/p ...

  5. POJ 1860&&3259&&1062&&2253&&1125&&2240

    六道烦人的最短路(然而都是水题) 我也不准备翻译题目了(笑) 一些是最短路的变形(比如最长路,最短路中的最长边,判环),还有一些就是裸题了. 1860:找环,只需要把SPFA的松弛条件改一下即可,这里 ...

  6. Easy Pipeline,一种轻量级的Python Pipeline库

    嗯,很久没有写博客了,最近的工作都是偏开发性质的,以至于没有时间对自己感兴趣的领域进行探索,感觉个人的成长停滞了一些.如何在枯燥的工作中,提取出有助于自己成长的养分,对于每个人来说都是不小的考验. 这 ...

  7. 用C++实现一个Brainfuck解释器

    Brainfuck是一种极小化的计算机语言,只含有8种运算符,由于fuck在英语中是脏话,这种语言有时被称为brainfck或brainf**,甚至被简称为BF.正如它的名字所暗示,brainfuck ...

  8. bodymovin实现将AE动画转换成HTML5动画

    做一个简单的记录,直接贴代码吧,主要还是设计师提供的那个json <!DOCTYPE html> <html> <head> <style> body ...

  9. 账户控制器(AccountController)

    账户控制器(AccountController) Account控制器提供了登录,注册,忘了密码和电子邮件激活页面功能. Layout模板视图 在Account视图文件夹中单独建设了模板文件: 登录页 ...

  10. Asp.Net_Get跟Post

    1. Get(即使用QueryString显式传递)     方式:在url后面跟参数.     特点:简单.方便.     缺点:字符串长度最长为255个字符:数据泄漏在url中.     适用数据 ...