Python爬虫基础

　　1.获取网页文本

　　　　　　通过urllib2包，根据url获取网页的html文本内容并返回

#coding:utf-8

import requests, json, time, re, os, sys, time

import urllib2

#设置为utf-8模式

reload(sys)

sys.setdefaultencoding( "utf-8" )

def getHtml(url):

    response = urllib2.urlopen(url)

    html = response.read()

    #可以根据编码格式进行编码

    #html = unicode(html,'utf-8')

    return html

url = 'https://www.cnblogs.com/'

print getHtml(url)

或者

def getHtml(url):

    #使用将urllib2.Request()实例化,需要访问的URL地址则作为Request实例的参数

    request = urllib2.Request(url)

    #Request对象作为urlopen()方法的参数,发送给服务器并接收响应的类文件对象

    response = urllib2.urlopen(request)

    #类文件对象支持文件对象操作方法

    #如read()方法读取返回文件对象的全部内容并将其转换成字符串格式并赋值给html

    html = response.read()

    #可以根据编码格式进行编码

    #html = unicode(html,'utf-8')

    return html 

url = 'https://www.cnblogs.com/'

print getHtml(url)

再添加ua和超时时间：

def getHtml(url):

    #构造ua

    ua_header = {"User-Agent":"Mozzila/5.0(compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0;"}

    #url连同headers一起构造Request请求,这个请求将附带IE9.0浏览器的User-Agent

    request = urllib2.Request(url,headers=ua_header)

    #设置超时时间

    response = urllib2.urlopen(request,timeout=60)

    html = response.read()

    return html

url = 'https://www.cnblogs.com/'

print getHtml(url)

添加header属性：

def getHtml(url):

    ua = {"User-Agent":"Mozzila/5.0(compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0;"}

    request = urllib2.Request(url)

    #也可以通过Request.add_header()添加/修改一个特定的header

    request.add_header("Connection","keep-alive")

    response = urllib2.urlopen(request)

    html = response.read()

    #查看响应码

    print '相应码为:',response.code

    #也可以通过Request.get_header()查看header信息

    print "Connection:",request.get_header("Connection")

    #或者

    print request.get_header(header_name = "Connection")

    #print html

    return html

添加随机ua

#coding:utf-8

import requests, json, time, re, os, sys, time

import urllib2

import random

#设置为utf-8模式

reload(sys)

sys.setdefaultencoding( "utf-8" )

def getHtml(url):

    #定义ua池,每次随机取出一个值

    ua_list = ["Mozilla/5.0 (Macintosh; Intel Mac OS X 10.6; rv2.0.1) Gecko/20100101 Firefox/4.0.1","Mozilla/5.0 (Windows NT 6.1; rv2.0.1) Gecko/20100101 Firefox/4.0.1","Opera/9.80 (Macintosh; Intel Mac OS X 10.6.8; U; en) Presto/2.8.131 Version/11.11","Opera/9.80 (Windows NT 6.1; U; en) Presto/2.8.131 Version/11.11","Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11"]

    user_agent = random.choice(ua_list)

    #print user_agent

    request = urllib2.Request(url)

    request.add_header("Connection","keep-alive")

    request.add_header("User-Agent",user_agent)

    response = urllib2.urlopen(request,data=None,timeout=60)

    html = response.read()

    #print '响应码为:',response.code

    #print 'URL:',response.geturl()

    #print 'Info:',response.info()

Python获取网页Html文本的更多相关文章

Python获取网页指定内容(BeautifulSoup工具的使用方法)
Python用做数据处理还是相当不错的,如果你想要做爬虫,Python是很好的选择,它有很多已经写好的类包,只要调用,即可完成很多复杂的功能,此文中所有的功能都是基于BeautifulSoup这个包. ...
python获取网页编码问题（encoding和apparent_encoding）
在requests获取网页的编码格式时,有两种方式,而结果也不同,通常用apparent_encoding更合适注:推荐一个大佬写的关于获取网页编码格式以及requests中text()和conte ...
Python获取网页html代码
获取网页html代码: import requests res = requests.get('https://www.cnblogs.com/easyidea/p/10214559.html') r ...
有关利用python获取网页，以及KDD近几年论文标题与摘要链接
最近一直在看KDD的论文,不过,由于老师并没有什么合理的方向性,所以考虑把kdd中的大部分内容都利用python将所有标题.摘要获取下来. 还有一个原因在于,看acm上的摘要,都只显示了两行,再看多点 ...
[python]获取网页中内容为汉字的字符串的判断
实际上是这样,将获取到网页中表单内容与汉字字符串作比较,即: a = request.POST['a'] if a == '博客园': print 'ok' else: print 'false' a ...
python获取网页源代码
最简单的网页取源(不用模拟浏览器的情况) import requests def getHTML(url): try: r = requests.get(url,timeout=30) r.raise ...
python获取网页信息的三种方法
import urllib.request import http.cookiejar url = 'http://www.baidu.com/' # 方法一 print('方法一') req_one ...
python 获取网页图片
re为正则表达式模组 re.findall在字符串中查找所有匹配的模式,返回一个list urllib2提供了使用简单的url工具 urllib2.urlopen发送url请求,返回一个文件流 imp ...
python 获取网页编码格式
f = urllib2.urlopen(url,timeout=10)data = f.read() # decode the htmlcontentType = f.headers.get(' ...

随机推荐

微信小程序中在页面中实现下拉刷新显示提醒语后在消失
最近在做小程序的时候遇见一个问题,就是页面要下拉刷新给客户一个提醒语,查看了小程序的官方文档这里有个注意点:如果你是一页进行下拉刷新就在那个文件夹的json里面加上"enablePullD ...
docker 制作本地镜像
docker commit 55ddf8d62688 py_wb # 容器ID, 容器名称tag py_wb IP地址:5000/my-web:20180511 # 远程registory地址我的镜 ...
day63-webservice 01.cxf介绍
CXF功能就比较强了.CXF支持soap1.2.CXF和Spring整合的非常密切.它的配置文件基本就是Spring的配置文件了.CXF是要部署在服务器才能用的.CXF得放到Web容器里面去发布.CX ...
python中Dict与OrderedDict
使用dict时,Key是无序的.在对dict做迭代时,我们无法确定Key的顺序. 如果要保持Key的顺序,可以用OrderedDict: from collections import Ordered ...
百度Ueditor编辑器取消多图上传对话框中的图片搜索
百度Ueditor确实是一个非常强悍的编辑器,功能强大!但是实际开发需求复杂,总会有各种不符合要求的,比如想要取消多图上传的“图片搜索”选项卡(这个图片搜索真心难用)! 以ueditor 1.4.3为 ...
BOOL运算符号（从C#入门经典第五版中摘录）
只总结自己觉得难的哈: (1) var1=!var2; //(非) (2) var1=var2&var3; //(与) (3)var1=var2|var3; //(或) (4 ...
SparkR 读取数据& Spark运行的配置
1.本地LOCAL环境安装Spark并试运行配置(在Ubuntu系统下例子) # 打开文件配置环境变量: JAVA,SCALA,SPARK,HADOOP,SBT gedit /etc/profile ...
2.一个简单的c++程序。
每个程序员的Hello World程序 //This is a small c++ program #include <iostream> int main() { std::cout & ...
用CSS3.0画圆
CSS3.0中有一个border-radius属性,这个属性允许向 div 元素添加圆角边框,也就是div边角不再一直是直角,在CSS3.0中可以做成圆角了,所以我们可以用这个属性用div画一个圆,或 ...
在Struts2的Action中取得请求参数值的几种方法
先看GetRequestParameterAction类代码: public class GetRequestParameterAction extends ActionSupport { priva ...

Python获取网页Html文本

Python爬虫基础

1.获取网页文本

Python获取网页Html文本的更多相关文章

随机推荐

热门专题

　　1.获取网页文本