python爬虫抓取哈尔滨天气信息（静态爬虫）

python 爬虫 爬取哈尔滨天气信息 - http://www.weather.com.cn/weather/101050101.shtml

环境：

windows7

python3.4（pip install requests；pip install BeautifulSoup4）

代码：（亲测可以正确执行）

 # coding:utf-8

 """

 总结一下，从网页上抓取内容大致分3步：

 1、模拟浏览器访问，获取html源代码

 2、通过正则匹配，获取指定标签中的内容

 3、将获取到的内容写到文件中

 """

 import requests  # 用来抓取网页的html源代码

 import csv  # 将数据写入到csv文件中

 import random  # 取随机数

 import time  # 时间相关操作

 import socket  # 用于异常处理

 import http.client  # 用于异常处理

 from bs4 import BeautifulSoup  # 用来代替正则式取源码中相应标签中的内容

 # 获取网页中的html代码

 def get_content(url, data=None):

     header = {

         'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',

         'Accept-Encoding': 'gzip, deflate',

         'Accept-Language': 'zh-CN,zh;q=0.9',

         'Connection': 'keep-alive',

         'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'

     }

     timeout = random.choice(range(80, 180))  # timeout是设定的一个超时时间，取随机数是因为防止被网站认定为网络爬虫

     while True:

         try:

             rep = requests.get(url, headers=header, timeout=timeout)

             rep.encoding = 'utf-8'  # rep.encoding = ‘utf-8’是将源代码的编码格式改为utf-8

             break

         except socket.timeout as e:

             print('3:', e)

             time.sleep(random.choice(range(8, 15)))

         except socket.error as e:

             print('4:', e)

             time.sleep(random.choice(range(20, 60)))

         except http.client.BadStatusLine as e:

             print('5:', e)

             time.sleep(random.choice(range(30, 80)))

         except http.client.IncompleteRead as e:

             print('6:', e)

             time.sleep(random.choice(range(5, 15)))

     return rep.text

 # 获取html中我们所需要的字段

 def get_data(html_text):

     final = []

     bs = BeautifulSoup(html_text, "html.parser")  # 创建BeautifulSoup对象

     body = bs.body  # 获取body部分

     data = body.find('div', {'id': '7d'})  # 找到id为7d的div

     ul = data.find('ul')  # 获取ul部分

     li = ul.find_all('li')  # 获取所有的li

     for day in li:  # 对每个li标签中的内容进行遍历

         temp = []

         date = day.find('h1').string  # 找到日期

         temp.append(date)  # 添加到temp中

         inf = day.find_all('p')  # 找到li中的所有p标签

         temp.append(inf[0].string, )  # 第一个p标签中的内容（天气状况）加到temp中

         if inf[1].find('span') is None:

             temperature_highest = None  # 天气预报可能没有当天的最高气温（到了傍晚，就是这样），需要加个判断语句,来输出最低气温

         else:

             temperature_highest = inf[1].find('span').string  # 找到最高温

             temperature_highest = temperature_highest.replace('℃', '')  # 到了晚上网站会变，最高温度后面也有个℃

         temperature_lowest = inf[1].find('i').string  # 找到最低温

         temperature_lowest = temperature_lowest.replace('℃', '')  # 最低温度后面有个℃，去掉这个符号

         temp.append(temperature_highest)  # 将最高温添加到temp中

         temp.append(temperature_lowest)  # 将最低温添加到temp中

         final.append(temp)  # 将temp加到final中

     return final

 # 写入文件csv

 def write_data(data, name):

     file_name = name

     with open(file_name, 'a', errors='ignore', newline='') as f:

         f_csv = csv.writer(f)

         f_csv.writerows(data)

 if __name__ == '__main__':

     url = 'http://www.weather.com.cn/weather/101050101.shtml'

     html = get_content(url)

     result = get_data(html)

     write_data(result, 'weather.csv')

讲解：

python标准库-----内置函数open(file,mode='r',buffering=-1,encoding=None,errors=None,newline=None...)

函数作用：打开一个文件并返回文件对象。如果文件不能打开，抛出异常OSError。
file：是一个字符串的文件名称，或者是一个数组表示的文件名称。文件名称可以是相对当前目录的路径，也可以是绝对路径表示。
mode：是指打开文件的模式。

1）‘r’表示打开文件只读，不能写。

2）‘w’表示打开文件只写，并且清空文件。

3）‘x’表示独占打开文件，如果文件已经存打开就会失败。

4）‘a’表示打开文件写，不清空文件，在文件后尾追加的方式写入。

5）‘b’表示二进制的模式打开文件。

6）‘t’表示文本模式，默认情况下就是这种模式。

7）‘+’打开文件更新（读取或写入）。

8）缺省时的模式就相当于’rt’。比如’w+b’就是打开文件进入读写，把文件清空；’r+b’打开文件，但不把文件清空。

参数buffering是一个可选的参数，用来表示缓冲区的策略选择。设置为0时，表示不使用缓冲区，直接读写，仅在二进制模式下有效。设置为1时，表示在文本模式下使用行缓冲区方式。设置为大于1时，表示缓冲区的设置大小。如果参数buffering没有给出，使用默认时，会采用下面策略来选择：

1）对于二进制文件模式时，采用固定块内存缓冲区方式，内存块的大小根据系统设备的分配的磁盘块来决定，如果获取系统磁盘块的大小失败，就使用内部常量io.DEFAULT_BUFFER_SIZE定义的大小。一般的操作系统上，块的大小是4096或者8192字节大小。

2）对于交互的文本文件（采用isatty()判断为True）时，采用一行缓冲区的方式。其它文本文件使用跟二进制一样的方式。
参数encoding是指明对文件编码，仅适用于文本文件。如果不明编码方式，默认是使用locale.getpreferredencoding()函数返回的编码方式。
参数errors是用来指明编码和解码错误时怎么样处理。不能在二进制的模式下使用。

1）当指明为’strict’时，编码出错则抛出异常ValueError。

2）当指明为’ignore’时，忽略错误。

3）当指明为’replace’时，使用某字符进行替代模式，比如使用’?’来替换出错的。

4）其它相应还有surrogateescape/xmlcharrefreplacs/backslashreplace。
参数newline是用来控制文本模式之下，一行的结束字符。可以是None，’’，\n，\r，\r\n等。

1）当在读取模式下，如果新行符为None，那么就作为通用换行符模式工作，意思就是说当遇到\n，\r或\r\n都可以作为换行标识，并且统一转换为\n作为文本输入的换行符。当设置为空’’时，也是通用换行符模式工作，但不作转换为\n，输入什么样的，就保持原样全输入。当设置为其它相应字符时，就会判断到相应的字符作为换行符，并保持原样输入到文本。

2）当在输出模式时，如果新行符为None，那么所有输出文本都是采用\n作为换行符。如果设置为’’或者\n时，不作任何的替换动作。如果是其它字符，会在字符后面添加\n作为换行符。

python爬虫抓取哈尔滨天气信息（静态爬虫）的更多相关文章

基于scrapy的分布式爬虫抓取新浪微博个人信息和微博内容存入MySQL
为了学习机器学习深度学习和文本挖掘方面的知识,需要获取一定的数据,新浪微博的大量数据可以作为此次研究历程的对象一.环境准备 python 2.7 scrapy框架的部署(可以查看上一篇博客的简 ...
笔趣看小说Python3爬虫抓取
笔趣看小说Python3爬虫抓取获取HTML信息解析HTML信息整合代码获取HTML信息 # -*- coding:UTF-8 -*- import requests if __name__ ...
Python爬虫实战---抓取图书馆借阅信息
Python爬虫实战---抓取图书馆借阅信息原创作品,引用请表明出处:Python爬虫实战---抓取图书馆借阅信息前段时间在图书馆借了很多书,借得多了就容易忘记每本书的应还日期,老是担心自己会违约 ...
Python分布式爬虫抓取知乎用户信息并进行数据分析
在以前的文章中,我写过一篇使用selenium来模拟登录知乎的文章,然后在很长一段时间里都没有然后了... 不过在最近,我突然觉得,既然已经模拟登录到了知乎了,为什么不继续玩玩呢?所以就创了一个项目, ...
python 爬虫抓取心得
quanwei9958 转自 python 爬虫抓取心得分享 urllib.quote('要编码的字符串') 如果你要在url请求里面放入中文,对相应的中文进行编码的话,可以用: urllib.quo ...
Python抓取成都房价信息
Python里scrapy爬虫 scrapy爬虫,正好最近成都房价涨的厉害,于是想着去网上抓抓成都最近的房价情况,顺便了解一下,毕竟咱是成都人,得看看这成都的房子我以后买的起不~ 话不多说,进入正题: ...
如何利用Python网络爬虫抓取微信朋友圈的动态（上）
今天小编给大家分享一下如何利用Python网络爬虫抓取微信朋友圈的动态信息,实际上如果单独的去爬取朋友圈的话,难度会非常大,因为微信没有提供向网易云音乐这样的API接口,所以很容易找不到门.不过不要慌 ...
scrapy抓取拉勾网职位信息（一）——scrapy初识及lagou爬虫项目建立
本次以scrapy抓取拉勾网职位信息作为scrapy学习的一个实战演练 python版本:3.7.1 框架:scrapy(pip直接安装可能会报错,如果是vc++环境不满足,建议直接安装一个visua ...
Python爬虫----抓取豆瓣电影Top250
有了上次利用python爬虫抓取糗事百科的经验,这次自己动手写了个爬虫抓取豆瓣电影Top250的简要信息. 1.观察url 首先观察一下网址的结构 http://movie.douban.com/to ...

随机推荐

学习日常笔记<day12>jsp基础
1.Jsp基础 1.1Jsp引入 Servlet的作用:用java语言开发动态资源的技术 Jsp的作用:用java语言(+html语言)开发动态资源的技术 jsp就是servlet 1.2Jsp的特点 ...
洛谷 P2862 [USACO06JAN]把牛Corral the Cows
P2862 [USACO06JAN]把牛Corral the Cows 题目描述 Farmer John wishes to build a corral for his cows. Being fi ...
在SUSE12中使用 Machinery 进行高级系统管理
简单介绍在 SUSE Linux Enterprise 12 中.SUSE 如今推出了面向系统管理员的 Machinery.作为其高级系统管理模块的一部分.Machinery 是适用于 Linux ...
ubuntu磁盘分区和挂载
[React] Use the Fragment Short Syntax in Create React App 2.0
create-react-app version 2.0 added a lot of new features. One of the new features is upgrading to Ba ...
EntityFramework中经常使用的数据改动方式
上一篇文章里提到了 EntityFramework中经常使用的数据删除方式.那么改动对象值也有多种方式第一种相同是官方推荐的方式,先查询出来,再对要改动的字段赋值,这也应该是用的比較多的. 另外一 ...
<一>读<<大话设计模式>>之简单工厂模式
工厂模式尽管简单.可是写下这篇文章却不简单. 第一:本人经过内心的挣扎后才决定開始写博文的.为什么呢,由于好长时间没有写了,对自己的文学功底也是好不自信.可是技术这东西你不写出来你真不知道自己掌握多少 ...
初识mina框架
step1:创建java工程,导入jar包 step2:在src下配置log4j.properties文件 log4j.rootLogger=DEBUG,MINA,file log4j.appende ...
MYSQL将时间格式化
SELECT *,DATE_FORMAT(FROM_UNIXTIME(createtime), "%Y/%m/%d %H:%i:%s") AS dateFormat FROM `I ...
【小技能】如何检索苹果APP
有时候要临时在PC上查询一下苹果APP的信息,但是又没有安装itunes软件,那么你可以在必应里面使用类似如下的语句,例如来搜索“aboboo site:itunes.apple.com”,就可以搜索 ...

python爬虫抓取哈尔滨天气信息（静态爬虫）

python爬虫抓取哈尔滨天气信息（静态爬虫）的更多相关文章

随机推荐

热门专题