用python语言编写网络爬虫

本文主要用到python3自带的urllib模块编写轻量级的简单爬虫。至于怎么定位一个网页中具体元素的url可自行百度火狐浏览器的firebug插件或者谷歌浏览器的自带方法。

1、访问一个网址

re=urllib.request.urlopen('网址‘）

打开的也可以是个urllib.request.Request对象，后边也可以跟数据参数，当有传入数据时会自动变为POST请求；

2、urllib.request.Request(url,data=None,headers={})对象属性和方法

     full_url

     type

     host

     data

     selector

     method

     get_method()

     add_header(key,val)

     add_unredirected_header(key,header)

     has_header(header)

     remove_header(header)

     get_full_url(header)

     set_proxy(host,type)

     get_header(header_name,default=None)
15　　  header_items()

3、已连接对象的可用方法：

 re.read()    　　　　　　　　 读取内容，想要将内容保存下来，需先新建一个相应格式的文件，再将读取到的内容写入到这个文件内即可；

 re.geturl()    　　　　　　  可取得已打开对象的url地址；

 re.info()    　　　　　　　　 可取得响应服务器的信息；

 re.getcode()    　　　　　　 可取得响应状态码；

 urllib.parse.urlencode()　　将一个存储post数据的字典转换成打开网页所需要的数据格式；

可用json.loads()将文本转换成键值对

可在传地址时将header以一个字典数据的形式传入，以隐藏自己的访问方式；也可用re.add_header('') 的方式进行追加；

4、当知道一个文件的url时可用此方法直接下载保存到本地

urllib.request.urlretrieve('http://wx1.sinaimg.cn/mw600/9bbc284bgy1ffkuafn4xtj20dw0jgh08.jpg','bc.jpg')

5、登录功能的实现(post)

（1）利用session保留登录状态

 login_data = {

             '_xsrf': getXSRF(baseurl),

             'password': password,

             'remember_me': 'true',

             'email': email,

 session = requests.session()

 content = session.post(url, headers = headers_base, data = login_data)

 s = session.get("http://www.zhihu.com", verify = False)

 print s.text.encode('utf-8')

(2)利用cookie进行登录

 post = {

             'ua':self.ua,

             'TPL_checkcode':'',

             'CtrlVersion': '1,0,0,7',

             'TPL_password':'',

 }

 #将POST的数据进行编码转换

 postData = urllib.urlencode(post)

 cookie = cookielib.LWPCookieJar()

 cookieHandler = urllib2.HTTPCookieProcessor(cookie)

 opener = urllib2.build_opener(cookieHandler, urllib2.HTTPHandler)

 #第一次登录获取验证码尝试，构建request

 request = urllib2.Request(loginURL,postData,loginHeaders)

 #得到第一次登录尝试的相应

 response = self.opener.open(request)

 #获取其中的内容

 content = response.read().decode('gbk')

网站常用的编码方式有utf8,gbk,gb2132,gb18030等

6、代理的使用

同一个Ip设备在短时间内访问一个服务器次数过多会被服务器禁止访问，所以很多时候我们都需要用天代理来帮助我们解决这个问题。方法如下：

 proxy_support = urllib.request.ProxyHandler({类型：代理ip和端口号})

 opner = urllib.request.build_opener(proxy_suppoert)

 urllib.request.install_opener(opener)  #可选安装

 opener.open(url)        #或直接调用opener代理

注：如想实现更复杂的可使用更全面的scrapy框架。

附：自己写的一个验证网上代理的有效性的爬虫，此爬虫先从网站上获取代理的地址，然后使用这个代理来访问百度，验证是否能得到百度的网页，如能则将此代理地址保存。

 import threading,time,pickle,re

 import urllib.request

 class ProxyCheck(threading.Thread):

     def __init__(self,proxylist):

         threading.Thread.__init__(self)

         self.proxylist = proxylist

         self.timeout = 5

         self.test_url = 'http://www.baidu.com'

         self.test_str = ''

         self.checkedProxyList = []

     def checkProxy(self):

         cookies = urllib.request.HTTPCookieProcessor()

         for proxy in self.proxylist:

             proxy_handler = urllib.request.ProxyHandler({'http':r'%s://%s:%s' %(proxy[0],proxy[1],proxy[2])})

             opener = urllib.request.build_opener(cookies,proxy_handler)

             opener.addheaders = [('User-Agent', 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 '

                                                 '(KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36')]

             urllib.request.install_opener(opener)

             t1 = time.time()

             try:

                 req = urllib.request.urlopen(self.test_url,timeout=self.timeout)

                 result = req.read().decode('utf-8')

                 timeused = time.time() - t1

                 pos = result.find(self.test_str)

                 if pos > 1:

                     self.checkedProxyList.append((proxy[0],proxy[1],proxy[2],proxy[3],timeused))

                     print((proxy[0],proxy[1],proxy[2],proxy[3],timeused))

                 else:

                     continue

             except:

                 continue

     # def sort(self):

     #     sorted(self.checkedProxyList,cmp=lambda x,y:cmp(x[4],y[4]))

     def save(self,filename):

         with open("%s.txt"%filename,'w') as f:

             for proxy in self.checkedProxyList:

                 f.write("{}\t{}:{}\t{}\t{}\n".format(*proxy))

         with open("%s.pickle"%filename,'wb') as fb:

             pickle.dump(self.checkedProxyList,fb)

     def run(self):

         self.checkProxy()

         self.save("checked-50")

 class xiciProxy:

     def __init__(self):

         self.alllist = []

     def grep(self,url):

         # req = urllib.request.Request(url)

         # req.add_header('User-Agent', 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 '

         #                             '(KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36')

         result1 = urllib.request.urlopen(req)

         result2 = result1.read().decode('utf-8')

         regex = r"<td>(\d+.\d+.\d+.\d+)</td>\n.*?" \

                 r"<td>(\d+)</td>\n.*?" \

                 r"\n.*?" \

                 r"<a href=.*?>(.*?)</a>\n.*?" \

                 r"\n.*?" \

                 r"\n.*?" \

                 r"<td>(HTTPS?)</td>"

         get = re.findall(regex,result2)

         proxylist = []

         for i in get:

             proxylist.append((i[3],i[0],i[1],i[2]))

         return proxylist

     def save(self,filename):

         with open("%s.txt"%filename,'w') as f:

             for proxy in self.alllist:

                 f.write("{}\t{}:{}\t{}\n".format(*proxy))

         with open("%s.pickle"%filename,'wb') as fb:

             pickle.dump(self.alllist,fb)

     def run(self):

         for i in range(51,1951):

             url = "http://www.xicidaili.com/nn/{}".format(i)

             print(url)

             proxylist = self.grep(url)

             self.alllist += proxylist

             if i % 50 == 0:

                 self.save("xiciproxy-{}".format(i))

                 self.alllist = []

 with open("xiciproxy-50.pickle","rb") as fb:

     proxylist = pickle.load(fb)

 ProxyCheck(proxylist).run()

用python语言编写网络爬虫的更多相关文章

python3编写网络爬虫18-代理池的维护
一.代理池的维护上面我们利用代理可以解决目标网站封IP的问题在网上有大量公开的免费代理或者我们也可以购买付费的代理IP但是无论是免费的还是付费的,都不能保证都是可用的因为可能此IP被其他人使用 ...
Python语言编写BP神经网络
Python语言编写BP神经网络 2016年10月31日 16:42:44 ldy944758217 阅读数 3135 人工神经网络是一种经典的机器学习模型,随着深度学习的发展神经网络模型日益完善 ...
Python初学者之网络爬虫(二)
声明:本文内容和涉及到的代码仅限于个人学习,任何人不得作为商业用途.转载请附上此文章地址本篇文章Python初学者之网络爬虫的继续,最新代码已提交到https://github.com/octans ...
使用python/casperjs编写终极爬虫-客户端App的抓取-ZOL技术频道
使用python/casperjs编写终极爬虫-客户端App的抓取-ZOL技术频道使用python/casperjs编写终极爬虫-客户端App的抓取
运用Python语言编写获取Linux基本系统信息(三)：Python与数据库编程，把获取的信息存入数据库
运用Python语言编写获取Linux基本系统信息(三):Python与数据库编程有关前两篇的链接: 运用Python语言编写获取Linux基本系统信息(一):获得Linux版本.内核.当前时间运 ...
运用Python语言编写获取Linux基本系统信息(二)：文件系统使用情况获取
本文跟着上一篇文章继续写,上一篇文章的链接运用Python语言编写获取Linux基本系统信息(一):获得Linux版本.内核.当前时间一.随便说说获取文件系统使用情况的思路和上一篇获取主要系统是 ...
[Python学习] 简单网络爬虫抓取博客文章及思想介绍
前面一直强调Python运用到网络爬虫方面很有效,这篇文章也是结合学习的Python视频知识及我研究生数据挖掘方向的知识.从而简介下Python是怎样爬去网络数据的,文章知识很easy ...
利用Python编写网络爬虫下载文章
#coding: utf-8 #title..href... str0='blabla<a title="<论电影的七个元素>——关于我对电影的一些看法以及<后会无期 ...
吴裕雄--天生自然python学习笔记：编写网络爬虫代码获取指定网站的图片
我们经常会在网上搜索井下载图片,然而一张一张地下载就太麻烦了,本案例就是通过网络爬虫技术, 一次性下载该网站所有的图片并保存 . 网站图片下载并保存将指定网站的 .jpg 和 .png 格式的图片 ...

随机推荐

CentOS通过yum安装php7.0
一.删除旧版本如果已经安装过php就先删除之前的版本.检查方法如下: yum list installed | grep php 然后将安装的包进行删除比如 yum remove php.x86_ ...
Swift数组的存取与修改
对数组的存取与修改可以通过数组的方法和属性来进行,或者使用数组的下标语法. 要知道数组中元素的数量,可以查看它的只读属性count: println("The shopping list c ...
C#基础：.NET环境下WebConfig的加密
在将ASP.NET项目部署到服务器上时,内网环境下Web.Config往往是直接复制过去.对于外网环境,则需要对Web.Config文件进行加密. .NET环境下一共提供了2种方式的加密功能,分别是D ...
Linux文件属性上
文件属性概述(ls -lhi) linux里一切皆文件Linux系统中的文件或目录的属性主要包括:索引节点(inode),文件类型,权限属性,链接数,所归属的用户和用户组,最近修改时间等内容: 解释: ...
关于mysql查询数据库时间和系统时间差
1. MySQL数据库表中有两个时间的字段,需要计算他们的时间差: (1)datediff函数来表示时间差. 基本语法: DATEDIFF(datepart,startdate,enddate) 说明 ...
maven编译常见错误解决方法整理
程序包com.sun.xml.internal.ws.spi不存在当maven项目里面有用到JDK内部的一些类,接口(如:com.sun.xml.internal.ws.spi.ProviderIm ...
Jenkins 配置邮件通知
jenkins 是一个开源的自动化服务器.通过Jenkins,可以通过自动化加速软件开发过程.Jenkins管理和控制各种开发的生命周期过程,包括构建,文档,测试,包,阶段,部署,静态分析等等.您可以 ...
恐怖的ifdown eth0;0
下午闲的蛋疼,随手给测试机配了个浮动地址eth0:0. ping了下OK,内网访问没问题. 准备收手的时候,瞄了一眼ifcfg-eth0:0的配置,发现广播地址BROADCAST写成了BOADCAST ...
Vue.js 基本功能了解
一.写在前面隔了这么久才来出Vue的第二篇文章,真是堕落了,自己先惩罚下/(ㄒoㄒ)/~~ 回过头看自己第一篇相关文章<初试 Vue.js>(http://www.cnblogs.com ...
ES6中的Set、Map数据结构
Map.Set都是ES6新的数据结构,他们都是新的内置构造函数.也就是说typeof的结果,多了两个. 他们是什么: Set是不能重复的数组. Map是可以任何东西当做键的对象: ES6 提供 ...

用python语言编写网络爬虫

用python语言编写网络爬虫的更多相关文章

随机推荐

热门专题