今天做一个简单的天气查询的程序,主要用到Urllib2(python自带的),和Json(Java Script Object Notation,JavaScript 对象表示法),安装步骤:

json的安装包在这里:https://www.lfd.uci.edu/~gohlke/pythonlibs/#simplejson,

打开cmd,进入到Python安装目录的Scripts文件夹中.比如:D:\Program Files\Python\Scripts。使用pip安装刚刚下载好的whl文件,pip.exe install *.whl,例如:

cd D:\Program Files\python\Scripts>
pip.exe install D:\python\simplejson-3.10.0-cp36-cp36m-win_amd64.whl  提示安装成功后,在\Python\Lib\site-packages目录下可以看到simplejson. Urllib2用于获取网页的内容,Json用于对内容里的东西进行分析处理, 以下是一个简单的爬取语句: import urllib2
web = urllib2.urlopen("http://www.sina.com")          #这里得加一个http://,不是直接写网页地址的
content = web.read()
print content
实例:
import urllib2
web = urllib2.urlopen("http://www.weather.com.cn/data/cityinfo/101200101.html")          #这里得加一个http://,不是直接写网页地址的
content = web.read()
print content
天气的查询是通过中国天气网(www.weather.com.cn)的信息获取完成的,点击http://www.weather.com.cn/data/cityinfo/101010100.html会发现101010100是北京的天气,这个网站是通过代号查询的,所以我们做一个城市与代号的字典,city.py,放在网盘中(https://pan.baidu.com/s/1c0Nw4m?errno=0&errmsg=Auth%20Login%20Sucess&&bduss=&ssnerror=0&traceid=),使用的时候只要放在和你的代码同一路径下,用 from city import city 前一个“city”是模块名,也就是py文件的名称,后一个“city”是模块中变量的名称。 我们分析http://www.weather.com.cn/data/cityinfo/101010100.html里的内容发现我们想要的内容都在里面,如果把101010100改成别的就变成了其他城市的天气,所以: #python默认ASCII码,这一句是为了转换为UTF-8,不是注释同时city.py里也要声明
#在这个程序中第一行加了   # -*- coding: UTF-8 -*-     这句反而不行了,不知道为啥 import urllib2
import json    city = {
    '北京': '101010100',
    '上海': '101020100',
    '天津': '101030100',
    '兰州': '101160101',
    '鄂州': '101200301',    
    '荆州': '101200801',
    '香港': '101320101',
    '新界': '101320103',
    '澳门': '101330101',
    '台北': '101340101',
    '高雄': '101340201',
    '台中': '101340401'
} cityname = raw_input("The weather in which city do you want ?")
citycode = city.get(cityname)
print citycode             #测试代码,测试可行 url = ("http://www.weather.com.cn/data/cityinfo/%s.html"  %citycode)    #一定要注意%s
pagecontent = urllib2.urlopen(url).read()
print pagecontent
binggo。 得到如下数据: {"weatherinfo": {"city":"武汉", "cityid":"101200101", "temp1":"7℃", "temp2":"19℃", "weather":"小雨转多云", "img1":"n7.gif", "img2":"d1.gif", "ptime":"18:00"} } 接下来是分析的环节,我们发现这是嵌套的字典,我们只需要里面的temp1,2和weather的信息即可。 那么如何提取嗯? 现在我们需要借助json来完成了,可以先了解一下:http://www.w3school.com.cn/json/ import json data = json.loads(pagecontent),这时候的data已经是一个字典,尽管在控制台中输出它,看上去和pagecontent没什么区别 这是编码上有区别: {u'weatherinfo': {u'city': u'\u5357\u4eac', u'ptime': u'11:00', u'cityid': u'101190101', u'temp2': u'28\u2103', u'temp1': u'37\u2103', u'weather': u'\u591a\u4e91', u'img2': u'n1.gif', u'img1': u'd1.gif'}} 但如果你用type方法看一下它们的类型: print type(pagecontent) print type(data) 就知道区别在哪里了。 import urllib2
import json city = {
    "北京":"101010100",
    "武汉":"101200101"
    }
cityname = raw_input("which city?\n")
citycode = city.get(cityname)
print citycode
print if citycode:
    url = ("http://www.weather.com.cn/data/cityinfo/%s.html"  %citycode)
    print url
    print
    page = urllib2.urlopen(url).read()
    print page   #这里打印出来的东西里就有我们想要的东西了
    print    #使用json
    data = json.loads(page)    #loads是json方法中的一种
    result = data["weatherinfo"]
    str_temp = ("%s\t%s - %s") % (
        result["weather"],
        result["temp1"],
        result["temp2"]
        )
    print str_temp
else:
    print "Can not find this city."
就可以输出: 晴-2℃ - 16℃

  

Python-简单的爬虫语句的更多相关文章

  1. Python简单网络爬虫实战—下载论文名称,作者信息(下)

    在Python简单网络爬虫实战—下载论文名称,作者信息(上)中,学会了get到网页内容以及在谷歌浏览器找到了需要提取的内容的数据结构,接下来记录我是如何找到所有author和title的 1.从sou ...

  2. Selenium + PhantomJS + python 简单实现爬虫的功能

    Selenium 一.简介 selenium是一个用于Web应用自动化程序测试的工具,测试直接运行在浏览器中,就像真正的用户在操作一样 selenium2支持通过驱动真实浏览器(FirfoxDrive ...

  3. 亲身试用python简单小爬虫

    前几天基友分享了一个贴吧网页,有很多漂亮的图片,想到前段时间学习的python简单爬虫,刚好可以实践一下. 以下是网上很容易搜到的一种方法: #coding=utf-8 import urllib i ...

  4. python简单页面爬虫入门 BeautifulSoup实现

    本文可快速搭建爬虫环境,并实现简单页面解析 1.安装 python 下载地址:https://www.python.org/downloads/ 选择对应版本,常用版本有2.7.3.4 安装后,将安装 ...

  5. Python 简单网页爬虫学习

    #coding=utf-8 # 参考文章: # 1. python实现简单爬虫功能 # http://www.cnblogs.com/fnng/p/3576154.html # 2. Python 2 ...

  6. python简单的爬虫,网页图片

    1 #!/usr/bin/python 2 #coding=utf-8 3 import urllib 4 import re 5 6 def gethtml(url): 7 page=urllib. ...

  7. python 简单的爬虫

    import urllib.request import re import ssl # 处理https请求 import time import os # 创建目录用 def get_html(ur ...

  8. Python简单分布式爬虫

    分布式爬虫采用主从模式.主从模式是指由一台主机作为控制节点,负责管理所有运行网络爬虫的主机(url管理器,数据存储器,控制调度器),爬虫只需要从控制节点哪里接收任务,并把新生成任务提交给控制节点.此次 ...

  9. python简单小爬虫爬取易车网图片

    上代码: import requests,urllib.request from bs4 import BeautifulSoup url = 'http://photo.bitauto.com/' ...

  10. Python简单网页爬虫——极客学院视频自动下载

    http://blog.csdn.net/supercooly/article/details/51003921

随机推荐

  1. PHP之道 - php各方面的知识汇总

    看到一个PHP的知识各方面的汇总,写的很有借鉴意义,搬过来了 转自: https://laravel-china.github.io/php-the-right-way/ 欢迎阅读 其他语言版本 参与 ...

  2. 【强大精美的PS特效滤镜合集】Alien Skin Eye Candy for Mac 7.2.2.20

    [简介] Alien Skin Eye Candy for Mac 7.2.2 版本,支持最新的PhotoShop CC 2019.2018等版本,这是一款强大酷炫的PS特效滤镜合集,具有32种滤镜和 ...

  3. Pandas系列(五)-分类数据处理

    内容目录 1. 创建对象 2. 常用操作 3. 内存使用量的陷阱 一.创建对象 1.基本概念:分类数据直白来说就是取值为有限的,或者说是固定数量的可能值.例如:性别.血型. 2.创建分类数据:这里以血 ...

  4. Linux记录-grafana opentsdb安装

    wget https://dl.grafana.com/oss/release/grafana-6.1.4-1.x86_64.rpm sudo yum localinstall grafana-6.1 ...

  5. Angular记录(2)

    文档资料 箭头函数--MDN:https://developer.mozilla.org/zh-CN/docs/Web/JavaScript/Reference/Functions/Arrow_fun ...

  6. DirectX11 With Windows SDK--07 添加光照与常用几何模型

    前言 对于3D游戏来说,合理的光照可以让游戏显得更加真实.接下来会介绍光照的各种分量,以及常见的光照模型.除此之外,该项目还用到了多个常量缓冲区,因此还会提及HLSL的常量缓冲区打包规则以及如何设置多 ...

  7. 抓包工具Charles基本用法

    我们在进行B/S架构的Web项目开发时,在前端页面与后台交互的调试的时候,通常使用在JSP中加入“debugger;”断点,然后使用浏览器的F12开发者工具来查看可能出错的地方的数据.或者使用Http ...

  8. word插入公式不自动斜体的解决办法

    1.word-视图-宏 2.自己随便输入一个宏名,比如就叫InsertEqua,然后将 Sub InsertEqua() Selection.OMaths.Add Range:=Selection.R ...

  9. 在桌面右键创建html,css,js文件

    1.在开始里面输入regedit,进入注册表编辑器. 2.打开HKEY_CLASSES_ROOT项. 3.打开.html/.css/.js项. 4.右键新建项,起名ShellNew. 5.新建字符串值 ...

  10. (三)Java工程化--Git起步

    GIT学习参考:https://git-scm.com/book/zh/v2 版本控制 版本控制记录了一个或若干文件的历史变化,便于今后查阅,恢复. 三类版本控制系统 本地版本控制系统 RCS : 本 ...