爬虫小探-Python3 urllib.request获取页面数据

使用Python3 urllib.request中的Requests()和urlopen()方法获取页面源码，并用re正则进行正则匹配查找需要的数据。

#forex.py
#coding:utf-8

'''

urllib.request.urlopen() function in Python 3 is equivalent to urllib2.urlopen() in Python2

urllib.request.Request() function in Python 3 is equivalent to urllib2.Request() in Python2

'''

#python3.5

import urllib.request

#python2.7

#import urllib

#import urllib2

import re

def Gethtml(url, referer):

    user_agent="Mozilla/5.0 (Macintosh; Intel Mac OS X 10.10; rv:53.0) Gecko/20100101 Firefox/53.0"

    headers={"User-agent":user_agent,'referer':referer}

    #python3.5

    req=urllib.request.Request(url,headers=headers)

    response=urllib.request.urlopen(req,timeout=10)

    #python2.7

    #req=urllib2.Request(url,headers=headers)

    #response=urllib2.urlopen(req,timeout=10)

    return response.read()

url=referer="http://quote.forex.hexun.com/EURUSD.shtml"

html = str(Gethtml(url, referer))

reg = r'([0-1]{1}\.[0-9]{4})'

i = re.compile(reg)

r = re.findall(i, html)

print("Hexun ERUUSD:\nCur   |     Open |  Yesterday  |  Low  |  High")

print(r)

运行：python forex.py

输出：

Hexun ERUUSD:
Cur | Open | Yesterday | Low | High
['1.1278', '1.1211', '1.1211', '1.1203', '1.1285']

referer是反盗链，服务器会识别headers中的referer是不是它自己，如果不是，有的服务器不会响应，timeout=10 是超时设定。

参考：

http://www.jianshu.com/p/d4ebace4ddcf

爬虫小探-Python3 urllib.request获取页面数据的更多相关文章

Python3 urllib.request库的基本使用
Python3 urllib.request库的基本使用所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地. 在Python中有很多库可以用来抓取网页,我们先学习urlli ...
Python3.x：定时获取页面数据存入数据库
Python3.x:定时获取页面数据存入数据库 #间隔五分钟采集一次数据入库 import pymysql import urllib.request from bs4 import Beautifu ...
【转】python3 urllib.request 网络请求操作
python3 urllib.request 网络请求操作基本的网络请求示例 ''' Created on 2014年4月22日 @author: dev.keke@gmail.com ''' im ...
python3 urllib.request 网络请求操作
python3 urllib.request 网络请求操作基本的网络请求示例 ''' Created on 2014年4月22日 @author: dev.keke@gmail.com ''' im ...
在Servlet端获取html页面选中的checkbox值，request获取页面checkbox（复选框）值
html端代码: 选项框: <input type="checkbox" name="crowd" value="选项一">选项 ...
获取WebBrowser全cookie 和 httpWebRequest 异步获取页面数据
获取WebBrowser全cookie [DllImport("wininet.dll", CharSet = CharSet.Auto, SetLastError = true) ...
爬虫初探(1)之urllib.request
-----------我是小白------------ urllib.request是python3自带的库(python3.x版本特有),我们用它来请求网页,并获取网页源码. # 导入使用库 imp ...
（转）python3 urllib.request.urlopen() 错误UnicodeEncodeError: 'ascii' codec can't encode characters
代码内容: url = 'https://movie.douban.com/j/search_subjects?type=movie'+ str(tag) + '&sort=recommend ...
爬虫第一篇：爬虫详解之urllib.request模块
我将urllib.request 的GET请求和POST请求两种方法做了总结 GET请求 GET请求爬取: import urllib.request import urllib.parse head ...

随机推荐

hibernate 反向生成实体类
1,配置数据库连接步骤. 点击 windows -> open perspective - > myeclipse datebase Exprorer 打开了dateb ...
JDK源码及其他框架源码解析随笔地址导航
置顶一篇文章,主要是整理一下写过的JDK中各个类的源码及其他框架源码解析的文章,方便自己随时阅读也方便网友朋友们阅读与指正基础篇从为什么String=String谈到StringBuilder和S ...
Lintcode212 Space Replacement solution 题解
[题目描述] Write a method to replace all spaces in a string with%20. The string is given in a characters ...
自签名证书和私有CA签名的证书的区别创建自签名证书创建私有CA 证书类型证书扩展名【转】
自签名的证书无法被吊销,CA签名的证书可以被吊销能不能吊销证书的区别在于,如果你的私钥被黑客获取,如果证书不能被吊销,则黑客可以伪装成你与用户进行通信如果你的规划需要创建多个证书,那么使用私有 ...
自定义MVC框架---第一章
MVC基本介绍介绍: mvc是一种编程思想,用来解决开发项目的时候,代码如何编写,项目如何架构的问题,更具体一点就是解决多人协同开发时,如何分工协作的问题,从而提升开发效率举一个例子:有一个人想 ...
delphi JPG图片旋转切边缩放
unit UCutFigure_JPG; //JPG 切图 interface uses Windows, Messages, SysUtils, Variants, Classes, Graphic ...
工厂模式的进阶复习(Factory)
工厂模式进阶复习看了多遍的工厂模式,老是忘记不同模式有什么区别,本文重点说明一下工厂模式的三种方式(简单工厂模式,工厂方法模式,抽象工厂模式)的区别 1.简单工厂模式简单工厂模式通过Factory ...
读headFirst设计模式 - 工厂模式
每次写博客都不知道要怎么引入要写的主题,挺头疼的一件事.今天就直接开门见山,今天要学的就是工厂模式,工厂就是批量生产制造东西的地方.在这里,工厂就是批量生产对象的地方. 学习书上的例子假如你现在有一 ...
java 中的IO
什么是文件文件可认为是相关记录或放在一起的数据集合通过流来读写文件流是指一连串流动的字符,是以先进先出方式发送信息的通道输入输出流是相对计算机的内存来说的字节流是八位通用字节流,字符流是16位Un ...
TensorFlow-谷歌深度学习库用tfrecord写入读取
TensorFlow自带一种数据格式叫做tfrecords. 你可以把你的输入转成专属与TensorFlow的tfrecords格式并保存在本地. -关于输入碎碎念:输入比如图片,可以有各种格式呀首先 ...

爬虫小探-Python3 urllib.request获取页面数据

爬虫小探-Python3 urllib.request获取页面数据的更多相关文章

随机推荐

热门专题