Python-简单的爬虫语句

今天做一个简单的天气查询的程序，主要用到Urllib2（python自带的），和Json（Java Script Object Notation，JavaScript 对象表示法），安装步骤：

json的安装包在这里：https://www.lfd.uci.edu/~gohlke/pythonlibs/#simplejson，

打开cmd，进入到Python安装目录的Scripts文件夹中.比如：D:\Program Files\Python\Scripts。使用pip安装刚刚下载好的whl文件，pip.exe install *.whl，例如：

cd D:\Program Files\python\Scripts>

pip.exe install D:\python\simplejson-3.10.0-cp36-cp36m-win_amd64.whl 

提示安装成功后，在\Python\Lib\site-packages目录下可以看到simplejson.

Urllib2用于获取网页的内容，Json用于对内容里的东西进行分析处理，

以下是一个简单的爬取语句：

import urllib2

web = urllib2.urlopen("http://www.sina.com")          #这里得加一个http://，不是直接写网页地址的

content = web.read()

print content

实例：

import urllib2

web = urllib2.urlopen("http://www.weather.com.cn/data/cityinfo/101200101.html")          #这里得加一个http://，不是直接写网页地址的

content = web.read()

print content

天气的查询是通过中国天气网（www.weather.com.cn）的信息获取完成的，点击http://www.weather.com.cn/data/cityinfo/101010100.html会发现101010100是北京的天气，这个网站是通过代号查询的，所以我们做一个城市与代号的字典，city.py，放在网盘中（https://pan.baidu.com/s/1c0Nw4m?errno=0&errmsg=Auth%20Login%20Sucess&&bduss=&ssnerror=0&traceid=），使用的时候只要放在和你的代码同一路径下，用

from city import city

前一个“city”是模块名，也就是py文件的名称，后一个“city”是模块中变量的名称。

我们分析http://www.weather.com.cn/data/cityinfo/101010100.html里的内容发现我们想要的内容都在里面，如果把101010100改成别的就变成了其他城市的天气，所以：

#python默认ASCII码，这一句是为了转换为UTF-8，不是注释同时city.py里也要声明

#在这个程序中第一行加了   # -*- coding: UTF-8 -*-     这句反而不行了，不知道为啥

import urllib2

import json   

city = {

    '北京': '101010100',

    '上海': '101020100',

    '天津': '101030100',

    '兰州': '101160101',

    '鄂州': '101200301',    

    '荆州': '101200801',

    '香港': '101320101',

    '新界': '101320103',

    '澳门': '101330101',

    '台北': '101340101',

    '高雄': '101340201',

    '台中': '101340401'

}

cityname = raw_input("The weather in which city do you want ?")

citycode = city.get(cityname)

print citycode             #测试代码，测试可行

url = ("http://www.weather.com.cn/data/cityinfo/%s.html"  %citycode)    #一定要注意%s

pagecontent = urllib2.urlopen(url).read()

print pagecontent

binggo。

得到如下数据：

{"weatherinfo":

{"city":"武汉",

"cityid":"101200101",

"temp1":"7℃",

"temp2":"19℃",

"weather":"小雨转多云",

"img1":"n7.gif",

"img2":"d1.gif",

"ptime":"18:00"}

}

接下来是分析的环节，我们发现这是嵌套的字典，我们只需要里面的temp1,2和weather的信息即可。

那么如何提取嗯?

现在我们需要借助json来完成了，可以先了解一下：http://www.w3school.com.cn/json/

import json

data = json.loads(pagecontent),这时候的data已经是一个字典，尽管在控制台中输出它，看上去和pagecontent没什么区别

这是编码上有区别：

{u'weatherinfo': {u'city': u'\u5357\u4eac', u'ptime': u'11:00', u'cityid': u'101190101', u'temp2': u'28\u2103', u'temp1': u'37\u2103', u'weather': u'\u591a\u4e91', u'img2': u'n1.gif', u'img1': u'd1.gif'}}

但如果你用type方法看一下它们的类型：

print type(pagecontent)

print type(data)

就知道区别在哪里了。

import urllib2

import json

city = {

    "北京":"101010100",

    "武汉":"101200101"

    }

cityname = raw_input("which city?\n")

citycode = city.get(cityname)

print citycode

print

if citycode:

    url = ("http://www.weather.com.cn/data/cityinfo/%s.html"  %citycode)

    print url

    print

    page = urllib2.urlopen(url).read()

    print page   #这里打印出来的东西里就有我们想要的东西了

    print

   #使用json

    data = json.loads(page)    #loads是json方法中的一种

    result = data["weatherinfo"]

    str_temp = ("%s\t%s - %s") % (

        result["weather"],

        result["temp1"],

        result["temp2"]

        )

    print str_temp

else:

    print "Can not find this city."

就可以输出：

晴-2℃ - 16℃

Python-简单的爬虫语句的更多相关文章

Python简单网络爬虫实战—下载论文名称，作者信息（下）
在Python简单网络爬虫实战—下载论文名称,作者信息(上)中,学会了get到网页内容以及在谷歌浏览器找到了需要提取的内容的数据结构,接下来记录我是如何找到所有author和title的 1.从sou ...
Selenium + PhantomJS + python 简单实现爬虫的功能
Selenium 一.简介 selenium是一个用于Web应用自动化程序测试的工具,测试直接运行在浏览器中,就像真正的用户在操作一样 selenium2支持通过驱动真实浏览器(FirfoxDrive ...
亲身试用python简单小爬虫
前几天基友分享了一个贴吧网页,有很多漂亮的图片,想到前段时间学习的python简单爬虫,刚好可以实践一下. 以下是网上很容易搜到的一种方法: #coding=utf-8 import urllib i ...
python简单页面爬虫入门 BeautifulSoup实现
本文可快速搭建爬虫环境,并实现简单页面解析 1.安装 python 下载地址:https://www.python.org/downloads/ 选择对应版本,常用版本有2.7.3.4 安装后,将安装 ...
Python 简单网页爬虫学习
#coding=utf-8 # 参考文章: # 1. python实现简单爬虫功能 # http://www.cnblogs.com/fnng/p/3576154.html # 2. Python 2 ...
python简单的爬虫，网页图片
1 #!/usr/bin/python 2 #coding=utf-8 3 import urllib 4 import re 5 6 def gethtml(url): 7 page=urllib. ...
python 简单的爬虫
import urllib.request import re import ssl # 处理https请求 import time import os # 创建目录用 def get_html(ur ...
Python简单分布式爬虫
分布式爬虫采用主从模式.主从模式是指由一台主机作为控制节点,负责管理所有运行网络爬虫的主机(url管理器,数据存储器,控制调度器),爬虫只需要从控制节点哪里接收任务,并把新生成任务提交给控制节点.此次 ...
python简单小爬虫爬取易车网图片
上代码: import requests,urllib.request from bs4 import BeautifulSoup url = 'http://photo.bitauto.com/' ...
Python简单网页爬虫——极客学院视频自动下载
http://blog.csdn.net/supercooly/article/details/51003921

随机推荐

Unity 阴影的制作方式
Unity阴影制作的三种方式. 方式一:Light中Shadow Type的类型包括Hard Shadows.Soft Shadows.No Shadows: Mesh Renderer中的属性 ...
LFYZ-OJ ID: 1020 过河卒（NOIP2002）
过河卒 Proble Description 如图,A 点有一个过河卒,需要走到目标 B 点.卒行走规则:可以向下.或者向右.同时在棋盘上的任一点有一个对方的马(如上图的C点),该马所在的点和所有跳跃 ...
第十九节: 结合【表达式目录树】来封装EF的BaseDal层的方法
一. 简介该章节,可以说是一个简单轻松的章节,只要你对Expression表达式树.EF的基本使用.泛型有所了解,那么本章节实质上就是一个非常简单的封装章节,便于我们快捷开发. PS:在该章节对于E ...
EffectiveC++ 第1章让自己习惯C++
我根据自己的理解,对原文的精华部分进行了提炼,并在一些难以理解的地方加上了自己的"可能比较准确"的「翻译」. Chapter 1 让自己习惯C++ 条款 1 :视 C++为一个语言 ...
“字节跳动-文远知行杯”广东工业大学第十四届程序设计竞赛 1010 Count
思路:矩阵快速幂.推一下初始矩阵就好了 #include<bits/stdc++.h> #define LL long long #define fi first #define se s ...
Go 环境配置
1.下载SDK 官网:https://golang.google.cn/ go中文在线文档:https://studygolang.com/pkgdoc 2.配置环境变量 windows使用.msi一 ...
第三章 Java的基础程序设计结构
一个简单的 Java 应用程序访问修饰符 public,private,protected main 方法必须时public修饰的,C#则不必须数据类型可以用16进制表示浮点数可以用2,8,1 ...
3D Slicer中文教程（四）—图像分割
1.数据获取 (1)下载3D Slicer自带的样本数据 (2)选择自由的数据 (3)网上数据库等其他方式下载数据 2.分割工具 Segment Editor是一个用于分割的模块.细分(也称为轮廓)描 ...
C语言学习及应用笔记之四：C语言volatile关键字及其使用
在C语言中,还有一个并不经常使用但却非常有用的关键字volatile.那么使用volatile关键字究竟能干什么呢?接下来我将就此问题进行讨论. 一个使用volatile关键字定义变量,其实就是告诉编 ...
【batch】命令对比两个文件夹下的文件（增删改的对比）
1.分别打印两个目录的结构 TREE D:\SOURCE /A /F >D:\SOURCE.TXT TREE D:\DEST /A /F >D:\DEST.TXT 2.然后使用工具/命令进 ...

Python-简单的爬虫语句

Python-简单的爬虫语句的更多相关文章

随机推荐

热门专题