python爬虫之天气预报网站--查看最近(15天)的天气信息(正则表达式)

思路:

1.首先找到一个自己想要查看天气预报的网站，选择自己想查看的地方，查看天气(例:http://www.tianqi.com/xixian1/15/)

2.打开"网页源代码",分析自己想要获取数据的特点

3.运用正则表达式来对数据进行处理，获得自己想要的数据 #网站可能反爬虫，需要绕过,这里用浏览器的代理(python默认的用户代理是自己,需要改成浏览器的用户代理，这样就能绕过一些网站简单的反爬虫)

4.获得数据后，对数据进行简单的美化

5.把数据写入文件(用pickle模块)

2.打开"网页源代码",分析自己想要获取数据的特点(不同网站的数据不同,需要具体问题具体分析)

3.1被网站禁止爬虫效果图如下:

3.2运用正则表达式来对数据进行处理，获得自己想要的数据

代码如下:

查看天气预报

import re

import requests

from prettytable import PrettyTable

url="http://www.tianqi.com/xixian1/15/"

#绕过网站反爬虫

txt=requests.get(url,headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36","Host":"www.tianqi.com"}).text

#print(txt)

s1=re.compile(r'<b>(\d\d月\d\d日)</b>')   #日期

print(s1.findall(txt))

s2=re.compile(r'<li class="temp">(.+) (-?\d+)(\W+)<b>(-?\d+)</b>℃</li>')

print(s2.findall(txt))

s3=re.compile('>(.{1,4})</b></li>')

print(s3.findall(txt))

s4=re.compile(r'<li>([\u4e00-\u9fa5].+)</li>')

print(s4.findall(txt))

tianqi=[]

for i in range(len(s1.findall(txt))):

    tianqi.append([s1.findall(txt)[i],s2.findall(txt)[i][0],s2.findall(txt)[i][1]+s2.findall(txt)[i][2]+s2.findall(txt)[i][3],s3.findall(txt)[i],s4.findall(txt)[i]])

print(tianqi)

ptable=PrettyTable('日期 天气 气温(℃) 空气质量 风级'.split())

for i in tianqi:

    ptable.add_row(i)

print(ptable)

运行效果如下:

5.把数据写入文件(pickle)

代码如下：

import re

import requests

import pickle

from prettytable import PrettyTable

url="http://www.tianqi.com/xixian1/15/"

#绕过网站反爬虫

#把内容写入到文件中(序列化)

try:

    with open("tianqi.txt","rb") as f:

        txt=pickle.load(f)

        print("结果已加载")

except:

    txt=requests.get(url,headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36","Host":"www.tianqi.com"}).text

    with open("tianqi.txt","wb") as f:

        pickle.dump(txt,f)

        print("文件已写入!")

#print(txt)

s1=re.compile(r'<b>(\d\d月\d\d日)</b>')   #日期

print(s1.findall(txt))

s2=re.compile(r'<li class="temp">(.+) (-?\d+)(\W+)<b>(-?\d+)</b>℃</li>')

print(s2.findall(txt))

s3=re.compile('>(.{1,4})</b></li>')

print(s3.findall(txt))

s4=re.compile(r'<li>([\u4e00-\u9fa5].+)</li>')

print(s4.findall(txt))

tianqi=[]

for i in range(len(s1.findall(txt))):

    tianqi.append([s1.findall(txt)[i],s2.findall(txt)[i][0],s2.findall(txt)[i][1]+s2.findall(txt)[i][2]+s2.findall(txt)[i][3],s3.findall(txt)[i],s4.findall(txt)[i]])

print(tianqi)

ptable=PrettyTable('日期 天气 气温(℃) 空气质量 风级'.split())

for i in tianqi:

    ptable.add_row(i)

print(ptable)

python爬虫之天气预报网站--查看最近(15天)的天气信息(正则表达式)的更多相关文章

python爬虫之12306网站--火车票信息查询
python爬虫之12306网站--火车票信息查询思路: 1.火车票信息查询是基于车站信息查询,先完成车站信息查询,然后根据车站信息查询生成的url地址去查询当前已知出发站和目的站的所有车次车票信息 ...
python爬虫之小说网站--下载小说(正则表达式)
python爬虫之小说网站--下载小说(正则表达式) 思路: 1.找到要下载的小说首页,打开网页源代码进行分析(例:https://www.kanunu8.com/files/old/2011/244 ...
Python爬虫某招聘网站的岗位信息
前言文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者:阿尔法游戏 PS:如有需要Python学习资料的小伙伴可以加点击下方链 ...
python爬虫之12306网站--车站信息查询
python爬虫查询车站信息目录: 1.找到要查询的url 2.对信息进行分析 3.对信息进行处理 python爬虫查询全拼相同的车站目录: 1.找到要查询的url 2.对信息进行分析 3.对信息 ...
利用Python爬虫刷新某网站访问量
前言:前一段时间看到有博友写了爬虫去刷新博客访问量一篇文章,当时还觉得蛮有意思的,就保存了一下,但是当我昨天准备复现的时候居然发现文章404了.所以本篇文章仅供学习交流,严禁用于商业用途很多人学习p ...
Python爬虫: "追新番"网站资源链接爬取
“追新番”网站追新番网站提供最新的日剧和日影下载地址,更新比较快. 个人比较喜欢看日剧,因此想着通过爬取该网站,做一个资源地图可以查看网站到底有哪些日剧,并且随时可以下载. 资源地图爬取的资源地 ...
编写python爬虫采集彩票网站数据，将数据写入mongodb数据库
1.准备工作: 1.1安装requests: cmd >> pip install requests 1.2 安装lxml: cmd >> pip install lxml ...
python爬虫1——获取网站源代码(豆瓣图书top250信息)
# -*- coding: utf-8 -*- import requests import re import sys reload(sys) sys.setdefaultencoding('utf ...
python爬虫爬小说网站涉及到(js加密,CSS加密)
我是对于xxxx小说网进行爬取只讲思路不展示代码请见谅一.涉及到的反爬 js加密 css加密请求头中的User-Agent以及 cookie 二.思路 1.对于js加密对于有js加密信息,我们一 ...

随机推荐

【Apache Pulsar】Apache Pulsar单机环境及Go语言开发环境搭建
0x01 简介 Apache Pulsar是一个开源的分布式发布-订阅消息系统,与Kafka类似,但比后者更加强大.Pulsar最初由Yahoo开发并维护,目前已经成为Apache软件组织的一个孵化子 ...
项目详解2—LVS负载均衡详解
一.负载均衡集群介绍 1.集群 ① 集群(cluster)技术是一种较新的技术,通过集群技术,可以在付出较低成本的情况下获得在性能.可靠性.灵活性方面的相对较高的收益,其任务调度则是集群系统中的核心技 ...
Nodejs sublime text 3安装与配置
1.下载subline的nodejs插件 2.解压zip文件, 并重命名文件夹“Nodejs” 3. 打开sublime,操作"preference" --> " ...
【CSS学习】--- position属性
一.前言 1.HTML中的三种布局方式: 标准流(普通流):网页中默认的布局方式,即顺序布局浮动:float 定位:position 2.position属性的作用方式: 给position属性设置 ...
【转载】 C#中全角转半角以及半角转全角
半角指的是一个字符占用一个标准字符的位置.全角指一个字符占用两个标准字符位置的状态.在C#中,我们可以通过程序的方法,将相应的半角字符串信息转换为全角类型,也可以实现全角转半角功能. 相应封装好的方法 ...
【转载】Windows服务器修改远程桌面默认端口
因为 windows服务器远程桌面端口默认是 3389端口,使用系统默认端口的风险很大,很容易被攻击软件扫描以及攻击,同时频繁的扫描和攻击会导致服务器的 CPU 及带宽资源耗尽,因此为了保证服务器的安 ...
Opencv-python画图基础知识
相关函数介绍 1. Point 该数据结构表示了由其图像坐标和指定的2D点.可定义为: Point pt; pt.x = 10; pt.y = 8; 或者 Point pt = Point(10, ...
Try Catch 嵌套问题
程序错误问题描述: 在一个事物中,插入两张表数据,但是第一个成功,第二个失败了,没有起到所谓的事物的功能,这让我百思不得其解问题所在: 本质上其实报错了,但是错误被吃掉了,具体来说,就是 try ...
阿里云redis映射到阿里云服务器
参考文档:https://help.aliyun.com/document_detail/43850.html?spm=a2c4g.11186623.2.3.7yg9VH ECS Windows 篇 ...
.NET 配置文件实用指南
我想大家对配置文件一定不会陌生,在大部分的项目中都会用到它,在此笔者给出一些配置文件的实用示例. XML配置文件利用XML格式的配置文件储存连接字符串,再用反射技术读取. using System. ...

python爬虫之天气预报网站--查看最近(15天)的天气信息(正则表达式)

python爬虫之天气预报网站--查看最近(15天)的天气信息(正则表达式)的更多相关文章

随机推荐

热门专题