Python爬虫基础

  1.获取网页文本

      通过urllib2包,根据url获取网页的html文本内容并返回

#coding:utf-8
import requests, json, time, re, os, sys, time
import urllib2 #设置为utf-8模式
reload(sys)
sys.setdefaultencoding( "utf-8" ) def getHtml(url):
response = urllib2.urlopen(url)
html = response.read()
#可以根据编码格式进行编码
#html = unicode(html,'utf-8')
return html
url = 'https://www.cnblogs.com/'
print getHtml(url)

或者

def getHtml(url):
#使用将urllib2.Request()实例化,需要访问的URL地址则作为Request实例的参数
request = urllib2.Request(url)
#Request对象作为urlopen()方法的参数,发送给服务器并接收响应的类文件对象
response = urllib2.urlopen(request)
#类文件对象支持文件对象操作方法
#如read()方法读取返回文件对象的全部内容并将其转换成字符串格式并赋值给html
html = response.read()
#可以根据编码格式进行编码
#html = unicode(html,'utf-8')
return html url = 'https://www.cnblogs.com/'
print getHtml(url)

再添加ua和超时时间:

def getHtml(url):
#构造ua
ua_header = {"User-Agent":"Mozzila/5.0(compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0;"}
#url连同headers一起构造Request请求,这个请求将附带IE9.0浏览器的User-Agent
request = urllib2.Request(url,headers=ua_header)
#设置超时时间
response = urllib2.urlopen(request,timeout=60)
html = response.read()
return html url = 'https://www.cnblogs.com/'
print getHtml(url)

添加header属性:

def getHtml(url):
ua = {"User-Agent":"Mozzila/5.0(compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0;"}
request = urllib2.Request(url)
#也可以通过Request.add_header()添加/修改一个特定的header
request.add_header("Connection","keep-alive")
response = urllib2.urlopen(request)
html = response.read()
#查看响应码
print '相应码为:',response.code
#也可以通过Request.get_header()查看header信息
print "Connection:",request.get_header("Connection")
#或者
print request.get_header(header_name = "Connection")
#print html
return html

添加随机ua

#coding:utf-8
import requests, json, time, re, os, sys, time
import urllib2
import random #设置为utf-8模式
reload(sys)
sys.setdefaultencoding( "utf-8" ) def getHtml(url):
#定义ua池,每次随机取出一个值
ua_list = ["Mozilla/5.0 (Macintosh; Intel Mac OS X 10.6; rv2.0.1) Gecko/20100101 Firefox/4.0.1","Mozilla/5.0 (Windows NT 6.1; rv2.0.1) Gecko/20100101 Firefox/4.0.1","Opera/9.80 (Macintosh; Intel Mac OS X 10.6.8; U; en) Presto/2.8.131 Version/11.11","Opera/9.80 (Windows NT 6.1; U; en) Presto/2.8.131 Version/11.11","Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11"]
user_agent = random.choice(ua_list)
#print user_agent
request = urllib2.Request(url)
request.add_header("Connection","keep-alive")
request.add_header("User-Agent",user_agent)
response = urllib2.urlopen(request,data=None,timeout=60)
html = response.read()
#print '响应码为:',response.code
#print 'URL:',response.geturl()
#print 'Info:',response.info()

Python获取网页Html文本的更多相关文章

  1. Python获取网页指定内容(BeautifulSoup工具的使用方法)

    Python用做数据处理还是相当不错的,如果你想要做爬虫,Python是很好的选择,它有很多已经写好的类包,只要调用,即可完成很多复杂的功能,此文中所有的功能都是基于BeautifulSoup这个包. ...

  2. python获取网页编码问题(encoding和apparent_encoding)

    在requests获取网页的编码格式时,有两种方式,而结果也不同,通常用apparent_encoding更合适 注:推荐一个大佬写的关于获取网页编码格式以及requests中text()和conte ...

  3. Python获取网页html代码

    获取网页html代码: import requests res = requests.get('https://www.cnblogs.com/easyidea/p/10214559.html') r ...

  4. 有关利用python获取网页, 以及KDD近几年论文标题与摘要链接

    最近一直在看KDD的论文,不过,由于老师并没有什么合理的方向性,所以考虑把kdd中的大部分内容都利用python将所有标题.摘要获取下来. 还有一个原因在于,看acm上的摘要,都只显示了两行,再看多点 ...

  5. [python]获取网页中内容为汉字的字符串的判断

    实际上是这样,将获取到网页中表单内容与汉字字符串作比较,即: a = request.POST['a'] if a == '博客园': print 'ok' else: print 'false' a ...

  6. python获取网页源代码

    最简单的网页取源(不用模拟浏览器的情况) import requests def getHTML(url): try: r = requests.get(url,timeout=30) r.raise ...

  7. python获取网页信息的三种方法

    import urllib.request import http.cookiejar url = 'http://www.baidu.com/' # 方法一 print('方法一') req_one ...

  8. python 获取网页图片

    re为正则表达式模组 re.findall在字符串中查找所有匹配的模式,返回一个list urllib2提供了使用简单的url工具 urllib2.urlopen发送url请求,返回一个文件流 imp ...

  9. python 获取网页编码格式

    f = urllib2.urlopen(url,timeout=10)data = f.read()    # decode the htmlcontentType = f.headers.get(' ...

随机推荐

  1. krpano之语音介绍

    语音介绍:在每进入一个场景时,播放一段该场景的语音介绍. 制作步骤: 1.定义全局事件.在关闭场景时执行stopsounds(),在打开新场景时执行automusic(). <events on ...

  2. Python基础学习四 函数

    1.内置函数 Python内置了很多有用的函数,是可以直接调用的. 参考链接:https://docs.python.org/3/library/functions.html 调用函数的时候,如果传入 ...

  3. 10-EasyNetQ之控制队列名称

    EasyNetQ默认行为,当生成队列的名称时,使用消息类型名+subscription Id.例如:PartyInvitation 这个消息类型,命名空间为 EasyNetQ.Tests.Integr ...

  4. [JBPM3.2]TaskNode的signal属性详解

    TaskNode节点的signal属性决定了任务完成时对流程执行继续的影响,共有六种取值:unsynchronized,never,first,first-wait,last,last-wait.默认 ...

  5. 【286】◀▶ Python 内置函数说明

    参考: Python 内置函数 01   abs() 返回数字的绝对值. 02   all() 用于判断给定的可迭代参数 iterable 中的所有元素是否不为 0.''.False 或者 itera ...

  6. 09-nginx Rewrite语法详解

    和location类似,也是要负责URL解析的. rewrite  重写 nginx的配置非常多,nginx的第三方模块也非常非常多.不可能讲每一种模块的配置办法.通常碰到一个nginx的新问题你想怎 ...

  7. UOJ#46. 【清华集训2014】玄学

    传送门 分析 清华集训真的不是人做的啊嘤嘤嘤 我们可以考虑按操作时间把每个操作存进线段树里 如果现在点x正好使一个整块区间的右端点则更新代表这个区间的点 我们不难发现一个区间会因为不同的操作被分成若干 ...

  8. Shiro——概述

    Apache Shiro 是 Java 的一个安全(权限)框架. Shiro 可以非常容易的开发出足够好的应用,其不仅可以用在JavaSE 环境,也可以用在 JavaEE 环境. Shiro 可以完成 ...

  9. SQL语句学习积累·数据的操作

    数据的操作 select 取表中前五条数据 select top 5 from table_name 取表中前50%的数据 select top 50 percent from table_name ...

  10. Laravel 测试教程

    参考链接:https://laravel-news.com/seeding-data-testing 迁移文件 修改 database/migrations/2014_10_12_000000_cre ...