Python爬虫基础

　　1.获取网页文本

　　　　　　通过urllib2包，根据url获取网页的html文本内容并返回

#coding:utf-8

import requests, json, time, re, os, sys, time

import urllib2

#设置为utf-8模式

reload(sys)

sys.setdefaultencoding( "utf-8" )

def getHtml(url):

    response = urllib2.urlopen(url)

    html = response.read()

    #可以根据编码格式进行编码

    #html = unicode(html,'utf-8')

    return html

url = 'https://www.cnblogs.com/'

print getHtml(url)

或者

def getHtml(url):

    #使用将urllib2.Request()实例化,需要访问的URL地址则作为Request实例的参数

    request = urllib2.Request(url)

    #Request对象作为urlopen()方法的参数,发送给服务器并接收响应的类文件对象

    response = urllib2.urlopen(request)

    #类文件对象支持文件对象操作方法

    #如read()方法读取返回文件对象的全部内容并将其转换成字符串格式并赋值给html

    html = response.read()

    #可以根据编码格式进行编码

    #html = unicode(html,'utf-8')

    return html 

url = 'https://www.cnblogs.com/'

print getHtml(url)

再添加ua和超时时间：

def getHtml(url):

    #构造ua

    ua_header = {"User-Agent":"Mozzila/5.0(compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0;"}

    #url连同headers一起构造Request请求,这个请求将附带IE9.0浏览器的User-Agent

    request = urllib2.Request(url,headers=ua_header)

    #设置超时时间

    response = urllib2.urlopen(request,timeout=60)

    html = response.read()

    return html

url = 'https://www.cnblogs.com/'

print getHtml(url)

添加header属性：

def getHtml(url):

    ua = {"User-Agent":"Mozzila/5.0(compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0;"}

    request = urllib2.Request(url)

    #也可以通过Request.add_header()添加/修改一个特定的header

    request.add_header("Connection","keep-alive")

    response = urllib2.urlopen(request)

    html = response.read()

    #查看响应码

    print '相应码为:',response.code

    #也可以通过Request.get_header()查看header信息

    print "Connection:",request.get_header("Connection")

    #或者

    print request.get_header(header_name = "Connection")

    #print html

    return html

添加随机ua

#coding:utf-8

import requests, json, time, re, os, sys, time

import urllib2

import random

#设置为utf-8模式

reload(sys)

sys.setdefaultencoding( "utf-8" )

def getHtml(url):

    #定义ua池,每次随机取出一个值

    ua_list = ["Mozilla/5.0 (Macintosh; Intel Mac OS X 10.6; rv2.0.1) Gecko/20100101 Firefox/4.0.1","Mozilla/5.0 (Windows NT 6.1; rv2.0.1) Gecko/20100101 Firefox/4.0.1","Opera/9.80 (Macintosh; Intel Mac OS X 10.6.8; U; en) Presto/2.8.131 Version/11.11","Opera/9.80 (Windows NT 6.1; U; en) Presto/2.8.131 Version/11.11","Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11"]

    user_agent = random.choice(ua_list)

    #print user_agent

    request = urllib2.Request(url)

    request.add_header("Connection","keep-alive")

    request.add_header("User-Agent",user_agent)

    response = urllib2.urlopen(request,data=None,timeout=60)

    html = response.read()

    #print '响应码为:',response.code

    #print 'URL:',response.geturl()

    #print 'Info:',response.info()

Python获取网页Html文本的更多相关文章

Python获取网页指定内容(BeautifulSoup工具的使用方法)
Python用做数据处理还是相当不错的,如果你想要做爬虫,Python是很好的选择,它有很多已经写好的类包,只要调用,即可完成很多复杂的功能,此文中所有的功能都是基于BeautifulSoup这个包. ...
python获取网页编码问题（encoding和apparent_encoding）
在requests获取网页的编码格式时,有两种方式,而结果也不同,通常用apparent_encoding更合适注:推荐一个大佬写的关于获取网页编码格式以及requests中text()和conte ...
Python获取网页html代码
获取网页html代码: import requests res = requests.get('https://www.cnblogs.com/easyidea/p/10214559.html') r ...
有关利用python获取网页，以及KDD近几年论文标题与摘要链接
最近一直在看KDD的论文,不过,由于老师并没有什么合理的方向性,所以考虑把kdd中的大部分内容都利用python将所有标题.摘要获取下来. 还有一个原因在于,看acm上的摘要,都只显示了两行,再看多点 ...
[python]获取网页中内容为汉字的字符串的判断
实际上是这样,将获取到网页中表单内容与汉字字符串作比较,即: a = request.POST['a'] if a == '博客园': print 'ok' else: print 'false' a ...
python获取网页源代码
最简单的网页取源(不用模拟浏览器的情况) import requests def getHTML(url): try: r = requests.get(url,timeout=30) r.raise ...
python获取网页信息的三种方法
import urllib.request import http.cookiejar url = 'http://www.baidu.com/' # 方法一 print('方法一') req_one ...
python 获取网页图片
re为正则表达式模组 re.findall在字符串中查找所有匹配的模式,返回一个list urllib2提供了使用简单的url工具 urllib2.urlopen发送url请求,返回一个文件流 imp ...
python 获取网页编码格式
f = urllib2.urlopen(url,timeout=10)data = f.read() # decode the htmlcontentType = f.headers.get(' ...

随机推荐

Java的Base64加密原理
出自: http://www.cnblogs.com/winner-0715/p/5920269.html http://www.cnblogs.com/koliop090/p/5203553.h ...
关于苹果safari浏览器登陆时Cookie无法保存的问题
前段时间,修改了登录处理后给到客户端浏览器Cookie的内容,新增了一个姓名的value,发现safari不能保存该Cookie的内容,同时Chrome.firefox.ie等浏览器都能正常的访问,直 ...
PHP数据结构之二线性表中的顺序表的PHP实现
线性表 (一)基本特点:最基本.最简单.最常用的一种数据结构在这种结构中: 1.存在一个唯一的被称为“第一个”的数据元素: 2.存在一个唯一的被称为“最后一个”的数据元素: 3.除第一个元素外,每个 ...
nginx搭建文件服务器配置文件
worker_processes 1; events { worker_connections 1024;} http { include mime.types; default_type appli ...
Using Browser Link in Visual Studio 2013
题记:Browser Link是VS 2013开始引入的一个强大功能,让前端代码(比如AngularJS的代码)在VS中的修改更加轻而易举. 前端代码是运行在浏览器中,而Visual Studio通 ...
Log4php使用指南
一.Log4php简介 Log4php是Log4xx系列日志组件之一,是Log4j迁移到php的版本,主要用来记录日志信息,支持多种输入目的地,包括:日志文件.日志回滚文件.数据库.日志服务器等等 ...
414. Third Maximum Number数组中第三大的数字
［抄题］: Given a non-empty array of integers, return the third maximum number in this array. If it does ...
类型或命名空间名称“Interop”在类或命名空间“Microsoft.Office”中不存在(是否缺少程序集引用？)
准备用C#编写Web程序,生成Excel报表,在使用下面语句时报错. using Microsoft.Office.Interop.Excel; 报错信息:类型或命名空间名称“Interop”在类或命 ...
CSS--抽屉（dig.chouti.com）页面
一.设置整体页面宽度一般写个样式命名为.d{}设置整体页面指定宽度和居中,京东命名为.w{},bootstrap里命名为.container{} 1 2 3 4 5 6 7 8 9 10 11 12 ...
Luogu 4091 [HEOI2016/TJOI2016]求和
BZOJ 4555 一道模板题. 第二类斯特林数有公式: $$S(n, m) = \frac{1}{m!}\sum_{i = 0}^{m}(-1)^i\binom{m}{i}(m - i)^n$$ 考 ...

Python获取网页Html文本

Python爬虫基础

1.获取网页文本

Python获取网页Html文本的更多相关文章

随机推荐

热门专题

　　1.获取网页文本