python爬虫之天气预报网站--查看最近(15天)的天气信息(正则表达式)

思路:

1.首先找到一个自己想要查看天气预报的网站，选择自己想查看的地方，查看天气(例:http://www.tianqi.com/xixian1/15/)

2.打开"网页源代码",分析自己想要获取数据的特点

3.运用正则表达式来对数据进行处理，获得自己想要的数据 #网站可能反爬虫，需要绕过,这里用浏览器的代理(python默认的用户代理是自己,需要改成浏览器的用户代理，这样就能绕过一些网站简单的反爬虫)

4.获得数据后，对数据进行简单的美化

5.把数据写入文件(用pickle模块)

2.打开"网页源代码",分析自己想要获取数据的特点(不同网站的数据不同,需要具体问题具体分析)

3.1被网站禁止爬虫效果图如下:

3.2运用正则表达式来对数据进行处理，获得自己想要的数据

代码如下:

查看天气预报

import re

import requests

from prettytable import PrettyTable

url="http://www.tianqi.com/xixian1/15/"

#绕过网站反爬虫

txt=requests.get(url,headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36","Host":"www.tianqi.com"}).text

#print(txt)

s1=re.compile(r'<b>(\d\d月\d\d日)</b>')   #日期

print(s1.findall(txt))

s2=re.compile(r'<li class="temp">(.+) (-?\d+)(\W+)<b>(-?\d+)</b>℃</li>')

print(s2.findall(txt))

s3=re.compile('>(.{1,4})</b></li>')

print(s3.findall(txt))

s4=re.compile(r'<li>([\u4e00-\u9fa5].+)</li>')

print(s4.findall(txt))

tianqi=[]

for i in range(len(s1.findall(txt))):

    tianqi.append([s1.findall(txt)[i],s2.findall(txt)[i][0],s2.findall(txt)[i][1]+s2.findall(txt)[i][2]+s2.findall(txt)[i][3],s3.findall(txt)[i],s4.findall(txt)[i]])

print(tianqi)

ptable=PrettyTable('日期 天气 气温(℃) 空气质量 风级'.split())

for i in tianqi:

    ptable.add_row(i)

print(ptable)

运行效果如下:

5.把数据写入文件(pickle)

代码如下：

import re

import requests

import pickle

from prettytable import PrettyTable

url="http://www.tianqi.com/xixian1/15/"

#绕过网站反爬虫

#把内容写入到文件中(序列化)

try:

    with open("tianqi.txt","rb") as f:

        txt=pickle.load(f)

        print("结果已加载")

except:

    txt=requests.get(url,headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36","Host":"www.tianqi.com"}).text

    with open("tianqi.txt","wb") as f:

        pickle.dump(txt,f)

        print("文件已写入!")

#print(txt)

s1=re.compile(r'<b>(\d\d月\d\d日)</b>')   #日期

print(s1.findall(txt))

s2=re.compile(r'<li class="temp">(.+) (-?\d+)(\W+)<b>(-?\d+)</b>℃</li>')

print(s2.findall(txt))

s3=re.compile('>(.{1,4})</b></li>')

print(s3.findall(txt))

s4=re.compile(r'<li>([\u4e00-\u9fa5].+)</li>')

print(s4.findall(txt))

tianqi=[]

for i in range(len(s1.findall(txt))):

    tianqi.append([s1.findall(txt)[i],s2.findall(txt)[i][0],s2.findall(txt)[i][1]+s2.findall(txt)[i][2]+s2.findall(txt)[i][3],s3.findall(txt)[i],s4.findall(txt)[i]])

print(tianqi)

ptable=PrettyTable('日期 天气 气温(℃) 空气质量 风级'.split())

for i in tianqi:

    ptable.add_row(i)

print(ptable)

python爬虫之天气预报网站--查看最近(15天)的天气信息(正则表达式)的更多相关文章

python爬虫之12306网站--火车票信息查询
python爬虫之12306网站--火车票信息查询思路: 1.火车票信息查询是基于车站信息查询,先完成车站信息查询,然后根据车站信息查询生成的url地址去查询当前已知出发站和目的站的所有车次车票信息 ...
python爬虫之小说网站--下载小说(正则表达式)
python爬虫之小说网站--下载小说(正则表达式) 思路: 1.找到要下载的小说首页,打开网页源代码进行分析(例:https://www.kanunu8.com/files/old/2011/244 ...
Python爬虫某招聘网站的岗位信息
前言文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者:阿尔法游戏 PS:如有需要Python学习资料的小伙伴可以加点击下方链 ...
python爬虫之12306网站--车站信息查询
python爬虫查询车站信息目录: 1.找到要查询的url 2.对信息进行分析 3.对信息进行处理 python爬虫查询全拼相同的车站目录: 1.找到要查询的url 2.对信息进行分析 3.对信息 ...
利用Python爬虫刷新某网站访问量
前言:前一段时间看到有博友写了爬虫去刷新博客访问量一篇文章,当时还觉得蛮有意思的,就保存了一下,但是当我昨天准备复现的时候居然发现文章404了.所以本篇文章仅供学习交流,严禁用于商业用途很多人学习p ...
Python爬虫: "追新番"网站资源链接爬取
“追新番”网站追新番网站提供最新的日剧和日影下载地址,更新比较快. 个人比较喜欢看日剧,因此想着通过爬取该网站,做一个资源地图可以查看网站到底有哪些日剧,并且随时可以下载. 资源地图爬取的资源地 ...
编写python爬虫采集彩票网站数据，将数据写入mongodb数据库
1.准备工作: 1.1安装requests: cmd >> pip install requests 1.2 安装lxml: cmd >> pip install lxml ...
python爬虫1——获取网站源代码(豆瓣图书top250信息)
# -*- coding: utf-8 -*- import requests import re import sys reload(sys) sys.setdefaultencoding('utf ...
python爬虫爬小说网站涉及到(js加密,CSS加密)
我是对于xxxx小说网进行爬取只讲思路不展示代码请见谅一.涉及到的反爬 js加密 css加密请求头中的User-Agent以及 cookie 二.思路 1.对于js加密对于有js加密信息,我们一 ...

随机推荐

python的Web框架，Django自定义过滤器及标签
代码布局有的时候框架给的过滤器不够用,需要自定义一些过滤器,所以就需要我们自己来定义一些过滤器等自定义代码放置的路径某个app特用(独有)的 - app 目录下的 templatetags文件夹 ...
翻译：SET子句（已提交到MariaDB官方手册）
本文为mariadb官方手册:SET的译文. 原文:https://mariadb.com/kb/en/set/我提交到MariaDB官方手册的译文:https://mariadb.com/kb/zh ...
[转] javascript 保留两位小数 (且不四舍五入)
本文转自:https://blog.csdn.net/qq_40171039/article/details/79729503 保留两位小数且不四舍五入: 方法一: var a = 2.461; va ...
【转载】 Sqlserver查看数据库死锁的SQL语句
在Sqlsever数据库中,有时候操作数据库过程中会进行锁表操作,在锁表操作的过程中,有时候会出现死锁的情况出现,这时候可以使用SQL语句来查询数据库死锁情况,主要通过系统数据库Master数据库来查 ...
35.QT-多线程
程序和进程的区别进程是动态的,程序是静态的,进程是程序运行时的实例,是占用系统运行资源的程序进程是暂时的,程序是永久的, 进程是通过程序运行时得到的程序是一个数据文件,进程是内存中动态的运行实体 ...
三个线程T1,T2,T3.保证顺序执行的三种方法
经常看见面试题:有三个线程T1,T2,T3,有什么方法可以确保它们按顺序执行.今天手写测试了一下,下面贴出目前想到的3种实现方式说明:这里在线程中我都用到了sleep方法,目的是更容易发现问题.之前 ...
Docker 系列三（容器管理）.
一.运行容器 1.基于镜像新建一个容器并启动 : tomcat:8.0 -i:交互式操作 -t:终端 -rm:容器退出后随之将其删除,可以避免浪费空间 -p :端口映射 -d :容器在后台运行指明了 ...
几点建议帮你写出简洁的JS代码
译者按: 规范的代码可以有效避免代码bug,fundebug才会报警少一点! 原文: Tips for Writing Cleaner Code 译者: Fundebug 为了保证可读性,本文采用意译 ...
2017 ACM-ICPC西安网赛B-Coin
B-Coin Bob has a not even coin, every time he tosses the coin, the probability that the coin's front ...
讲讲网络模块中加解密那点儿事--AES+BASE64
本篇文章已授权微信公众号 dasuAndroidTv(大苏)独家发布这次想来讲讲网络安全通信这一块,也就是网络层封装的那一套加密.解密,编码.解码的规则,不会很深入,但会大概将这一整块的讲一讲. 之 ...

python爬虫之天气预报网站--查看最近(15天)的天气信息(正则表达式)

python爬虫之天气预报网站--查看最近(15天)的天气信息(正则表达式)的更多相关文章

随机推荐

热门专题