python获取网站http://www.weather.com.cn 城市 8-15天天气

参考一个前辈的代码，修改了一个案例开始学习beautifulsoup做爬虫获取天气信息，前辈获取的是7日内天气，

我看旁边还有8-15日就模仿修改了下。其实其他都没有变化，只变换了获取标签的部分。但是我碰到

一个span获取的问题，如我的案例中每日的源代码是这样的。

<li class="t">

<span class="time">周五（19日）</span>

<big class="png30 d301"></big>

<big class="png30 n301"></big>

<span class="wea">雨</span>

<span class="tem"><em>℃</em>/℃</span>

<span class="wind">东南风</span>

<span class="wind1">微风</span>

</li>

上门的所有span标签中，日期，天气，风向都可以通过beautifulsoup进行标签匹配获取。唯独温度获取不到，

获取到的值为none，我奇怪了好酒，用span.em能获取到36°，获取不完全，不符合我的要求。最后没办法。

我只能通过获取到这个span这一回内容

<span class="tem"><em>℃</em>/℃</span>

然后通过字符串替换替换掉多余的字符。剩余36℃/22℃

得到这个结果。存入变量并写入csv文件。

以下为全部代码，如有不对的地方欢迎指教。

'''

Created on 2017年5月10日

@author: bekey qq：402151718

'''

#conding:UTF-8

import requests

import csv

import random

import time

import socket

import http.client

#import urllib.request

from bs4 import BeautifulSoup

def get_content(url , data = None):

    header={

        'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',

        'Accept-Encoding': 'gzip, deflate, sdch',

        'Accept-Language': 'zh-CN,zh;q=0.8',

        'Connection': 'keep-alive',

        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.133 Safari/537.36'

    }

    timeout = random.choice(range(80, 180))

    while True:

        try:

            rep = requests.get(url,headers = header,timeout = timeout)

            rep.encoding = 'utf-8'

            # req = urllib.request.Request(url, data, header)

            # response = urllib.request.urlopen(req, timeout=timeout)

            # html1 = response.read().decode('UTF-8', errors='ignore')

            # response.close()

            break

        # except urllib.request.HTTPError as e:

        #         print( '1:', e)

        #         time.sleep(random.choice(range(5, 10)))

        #

        # except urllib.request.URLError as e:

        #     print( '2:', e)

        #     time.sleep(random.choice(range(5, 10)))

        except socket.timeout as e:

            print( '3:', e)

            time.sleep(random.choice(range(8,15)))

        except socket.error as e:

            print( '4:', e)

            time.sleep(random.choice(range(20, 60)))

        except http.client.BadStatusLine as e:

            print( '5:', e)

            time.sleep(random.choice(range(30, 80)))

        except http.client.IncompleteRead as e:

            print( '6:', e)

            time.sleep(random.choice(range(5, 15)))

    return rep.text

    # return html_text

def get_data(html_text):

        final = []

        bs = BeautifulSoup(html_text, "html.parser")  # 创建BeautifulSoup对象

        body = bs.body # 获取body部分

        data = body.find('div', {'id': '15d'})  # 找到id为7d的div

        ul = data.find('ul')  # 获取ul部分

        li = ul.find_all('li')  # 获取所有的li

        for day in li: # 对每个li标签中的内容进行遍历

            temp = []

            #print(day)

            span = day.find_all('span') #找到所有的span标签

            #print(span)

            date = span[0].string  # 找到日期

            temp.append(date)  # 添加到temp中

            wea1 = span[1].string#获取天气情况

            temp.append(wea1) #加入到list

            tem =str(span[2])

            tem = tem.replace('<span class="tem"><em>', '')

            tem = tem.replace('</span>','')

            tem = tem.replace('</em>','')

            #tem = tem.find('span').string #获取温度

            temp.append(tem) #温度加入list

            windy = span[3].string

            temp.append(windy)#加入到list

            windy1 = span[4].string

            temp.append(windy1)#加入到list

            final.append(temp)

        return final

def write_data(data, name):

    file_name = name

    with open(file_name, 'a', errors='ignore', newline='') as f:

            f_csv = csv.writer(f)

            f_csv.writerows(data)

if __name__ == '__main__':

    url ='http://www.weather.com.cn/weather15d/101180101.shtml'

    html = get_content(url)

    #print(html)

    result = get_data(html)

    #print(result)

    write_data(result, 'weather7.csv')

效果如图：

项目地址：git@github.com:zhangbei59/weather_get.git

python获取网站http://www.weather.com.cn 城市 8-15天天气的更多相关文章

[Python爬虫] 之一： Selenium+Phantomjs动态获取网站数据信息
本人刚才开始学习爬虫,从网上查询资料,写了一个利用Selenium+Phantomjs动态获取网站数据信息的例子,当然首先要安装Selenium+Phantomjs,具体的看 http://www.c ...
ios项目开发（天气预报项目）：使用正则获取 weather.com.cn站点信息
NSString *pattern = @"(?<=<td class=\"bigblod\">).*?(?=</td>)"; 2 ...
Python 获取车票信息
提示:该代码仅供学习使用,切勿滥用!!! 先来一个git地址:https://gitee.com/wang_li/li_wang 效果图: 逻辑: 1.获取Json文件的内容 2.根据信息生成URL ...
【原创分享】python获取乌云最新提交的漏洞，邮件发送
#!/usr/bin/env python # coding:utf-8 # @Date : 2016年4月21日 15:08:44 # @Author : sevck (sevck@jdsec.co ...
php 抓取天气情况 www.weather.com.cn
<?php print_r(getweather(101120501)); /** * Server 天气情况获取函数 * @param unknown $city */ function ge ...
Python识别网站验证码
http://drops.wooyun.org/tips/6313 Python识别网站验证码 Manning · 2015/05/28 10:57 0x00 识别涉及技术验证码识别涉及很多方面的内 ...
再谈获取网站图标Icon
上一篇文章讨论了一下获取网站图标方法,是通过从根目录直接获取和html解析结合的方式来获取的,并给出了相应的代码示例.这一篇来讨论一个更现成的方法,这个方法是从360导航的页面发现的,在导航页面中点击 ...
获取网站图标Icon
通常情况下,做网站的都会给自己的网站添加一个Icon,浏览器上一长排的标签页,用Icon来区分就显得更加醒目.现在想找一个没有Icon的网站并不好找,可见没有Icon的网站是多么的业余啊." ...
Python获取服务器的厂商和型号信息-乾颐堂
Python获取服务器的厂商和型号信息,在RHEHL6下,需要系统预装python-dmidecode这个包(貌似默认就已经装过了) 脚本内容如下 [root@linuxidc tmp]# cat t ...

随机推荐

如何灵活利用免费开源图标字体-IcoMoon篇——张鑫旭
一.温故知新之前有专门介绍过如何使用类似fontforge软件制作自定义字符字体以及如何在web中实际应用. 不过,文中提到的是利用系统自带的一些特殊字体,如WINGDNG3.ttf字体. 显然,系 ...
chrome跨域访问
这里设计到跨域访问的问题,如果非要在本地来访问,可以这是chrome的参数. 1.打开chrome快捷方式->属性 2.末尾添加: --args --disable-web-security 3 ...
vue + skyline 搭建一个开发环境
1.之前用的是ext + skyline搭建环境 ,正好最近是做前端的事情,有时间用vue + skyline 搭建一个三维场景 2.准备vue 2.x ,UI 用的是iview 和element ...
线程间的通信方式2--管道流Pipes
“管道”是java.io包的一部分.它是Java的特性,而不是Android特有的.一条“管道”为两个线程建立一个单向的通道.生产者负责写数据,消费者负责读取数据. 下面是一个使用管道流进行通信的例子 ...
mysql navicat 及命令行创建、删除数据库
1.命令行创建数据库 create database mybatis default character set utf8 collate utf8_general_ci; drop database ...
Android sync adapter初体验之为什么官方文档上的代码不能work
回答:因为其实可以work sync adapter就是google推出的一个同步框架,把各种同步操作放在一起智能管理比较省电之类的.对我而言最具体的好处反正就是,不用自己写代码了,用框架就可以了.目 ...
TestNG 判断文件下载成功
用WatchService写一个方法放在onTestStart()方法里监听文件夹的变化. 但是判断下载成功还需要写一个方法, 用来判断什么时候文件从.xlsx.rcdownload改成.xlsx才行 ...
MySQL->>innodb_autoinc_lock_mode参数控制auto_increment 插入数据时相关锁的模式
转自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/15498/viewspace-2141640/ ---------------------------------- ...
动态将彩色图片动画过渡到黑白图片的BlackAndWhiteView
动态将彩色图片动画过渡到黑白图片的BlackAndWhiteView 效果如下: BlackAndWhiteView.h 与 BlackAndWhiteView.m // // BlackAndWhi ...
NSMapTable、NSHashTable与NSPointerArray的封装
NSMapTable.NSHashTable与NSPointerArray的封装说明 NSMapTable对应NSDictionary:NSHashTable对应NSSet:NSPointerArr ...

python获取网站http://www.weather.com.cn 城市 8-15天天气

python获取网站http://www.weather.com.cn 城市 8-15天天气的更多相关文章

随机推荐

热门专题