Python获取网页Html文本
Python爬虫基础
1.获取网页文本
通过urllib2包,根据url获取网页的html文本内容并返回
#coding:utf-8
import requests, json, time, re, os, sys, time
import urllib2 #设置为utf-8模式
reload(sys)
sys.setdefaultencoding( "utf-8" ) def getHtml(url):
response = urllib2.urlopen(url)
html = response.read()
#可以根据编码格式进行编码
#html = unicode(html,'utf-8')
return html
url = 'https://www.cnblogs.com/'
print getHtml(url)
或者
def getHtml(url):
#使用将urllib2.Request()实例化,需要访问的URL地址则作为Request实例的参数
request = urllib2.Request(url)
#Request对象作为urlopen()方法的参数,发送给服务器并接收响应的类文件对象
response = urllib2.urlopen(request)
#类文件对象支持文件对象操作方法
#如read()方法读取返回文件对象的全部内容并将其转换成字符串格式并赋值给html
html = response.read()
#可以根据编码格式进行编码
#html = unicode(html,'utf-8')
return html url = 'https://www.cnblogs.com/'
print getHtml(url)
再添加ua和超时时间:
def getHtml(url):
#构造ua
ua_header = {"User-Agent":"Mozzila/5.0(compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0;"}
#url连同headers一起构造Request请求,这个请求将附带IE9.0浏览器的User-Agent
request = urllib2.Request(url,headers=ua_header)
#设置超时时间
response = urllib2.urlopen(request,timeout=60)
html = response.read()
return html url = 'https://www.cnblogs.com/'
print getHtml(url)
添加header属性:
def getHtml(url):
ua = {"User-Agent":"Mozzila/5.0(compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0;"}
request = urllib2.Request(url)
#也可以通过Request.add_header()添加/修改一个特定的header
request.add_header("Connection","keep-alive")
response = urllib2.urlopen(request)
html = response.read()
#查看响应码
print '相应码为:',response.code
#也可以通过Request.get_header()查看header信息
print "Connection:",request.get_header("Connection")
#或者
print request.get_header(header_name = "Connection")
#print html
return html
添加随机ua
#coding:utf-8
import requests, json, time, re, os, sys, time
import urllib2
import random #设置为utf-8模式
reload(sys)
sys.setdefaultencoding( "utf-8" ) def getHtml(url):
#定义ua池,每次随机取出一个值
ua_list = ["Mozilla/5.0 (Macintosh; Intel Mac OS X 10.6; rv2.0.1) Gecko/20100101 Firefox/4.0.1","Mozilla/5.0 (Windows NT 6.1; rv2.0.1) Gecko/20100101 Firefox/4.0.1","Opera/9.80 (Macintosh; Intel Mac OS X 10.6.8; U; en) Presto/2.8.131 Version/11.11","Opera/9.80 (Windows NT 6.1; U; en) Presto/2.8.131 Version/11.11","Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11"]
user_agent = random.choice(ua_list)
#print user_agent
request = urllib2.Request(url)
request.add_header("Connection","keep-alive")
request.add_header("User-Agent",user_agent)
response = urllib2.urlopen(request,data=None,timeout=60)
html = response.read()
#print '响应码为:',response.code
#print 'URL:',response.geturl()
#print 'Info:',response.info()
Python获取网页Html文本的更多相关文章
- Python获取网页指定内容(BeautifulSoup工具的使用方法)
Python用做数据处理还是相当不错的,如果你想要做爬虫,Python是很好的选择,它有很多已经写好的类包,只要调用,即可完成很多复杂的功能,此文中所有的功能都是基于BeautifulSoup这个包. ...
- python获取网页编码问题(encoding和apparent_encoding)
在requests获取网页的编码格式时,有两种方式,而结果也不同,通常用apparent_encoding更合适 注:推荐一个大佬写的关于获取网页编码格式以及requests中text()和conte ...
- Python获取网页html代码
获取网页html代码: import requests res = requests.get('https://www.cnblogs.com/easyidea/p/10214559.html') r ...
- 有关利用python获取网页, 以及KDD近几年论文标题与摘要链接
最近一直在看KDD的论文,不过,由于老师并没有什么合理的方向性,所以考虑把kdd中的大部分内容都利用python将所有标题.摘要获取下来. 还有一个原因在于,看acm上的摘要,都只显示了两行,再看多点 ...
- [python]获取网页中内容为汉字的字符串的判断
实际上是这样,将获取到网页中表单内容与汉字字符串作比较,即: a = request.POST['a'] if a == '博客园': print 'ok' else: print 'false' a ...
- python获取网页源代码
最简单的网页取源(不用模拟浏览器的情况) import requests def getHTML(url): try: r = requests.get(url,timeout=30) r.raise ...
- python获取网页信息的三种方法
import urllib.request import http.cookiejar url = 'http://www.baidu.com/' # 方法一 print('方法一') req_one ...
- python 获取网页图片
re为正则表达式模组 re.findall在字符串中查找所有匹配的模式,返回一个list urllib2提供了使用简单的url工具 urllib2.urlopen发送url请求,返回一个文件流 imp ...
- python 获取网页编码格式
f = urllib2.urlopen(url,timeout=10)data = f.read() # decode the htmlcontentType = f.headers.get(' ...
随机推荐
- 使用K2时提示未能加载文件或程序集Microsoft.IdentityModel等
转:http://www.cnblogs.com/dannyli/archive/2012/10/15/2724931.html K2安装成功后,打开workspace管理流程时报错如下图: 未能加载 ...
- Ceph基本情况介绍
Ceph基本情况的介绍 Ceph是一个分布式存储软件. 它支持用3种方式存储数据,分别是:对象存储.块设备存储.分布式文件系统存储. Ceph最初的目标是做一个分布式文件系统,直到现在这个目标也不能算 ...
- JAVA 微信开发
公司最近要搭建一个java的微信系统,感觉自己没有记录的很多所以从今天开始每天开始更新一遍java的微信文章记录. 如有兴趣的可以加入群463676190,一起交流交流
- C#支持的编码格式
转自: http://www.java2s.com/Book/CSharp/0040__Essential-Types/Get_all_supported_encodings.htm using Sy ...
- elasticsearch配置小记(转)
原文 http://bigbo.github.io/pages/2015/04/10/elasticsearch_config/ 基于 elasticsearch 1.4.4 版本.安装方式为RPM ...
- 使用Java创建XML数据
------------siwuxie095 工程名:TestCreateXML 包名:com.siwuxie095.xml 类名:CreateXML. ...
- 62-U型数字
https://nanti.jisuanke.com/t/20683 #include <iostream> using namespace std; int main(){ int ct ...
- zookeeper 面试题 有用
.zookeeper是什么框架? zookeeper是一个开源的分布式协调服务框架. 2.有哪些应用场景? 应用场景:分布式通知/协调.负载均衡.配置中心.分布式锁.分布式队列等. 3.使用什么协议? ...
- 基于unittest测试框架的扩展
1 unittest介绍 Unittest,Python自带的单元测试框架,PyUnit类包含TestResult,TestCase, TestSuite,TextTestResult,TextTes ...
- ROS naviagtion analysis: costmap_2d--Layer
博客转载自:https://blog.csdn.net/u013158492/article/details/50493113 这个类中有一个LayeredCostmap* layered_costm ...