python爬虫架构
Python 爬虫架构主要由五个部分组成，分别是

调度器、URL管理器、网页下载器、网页解析器、应用程序。

调度器：相当于一台电脑的CPU，主要负责调度URL管理器、下载器、解析器之间的协调工作。
URL管理器：包括待爬取的URL地址和已爬取的URL地址，防止重复抓取URL和循环抓取URL，实现URL管理器主要用三种方式，通过内存、数据库、缓存数据库来实现。
网页下载器：通过传入一个URL地址来下载网页，将网页转换成一个字符串，网页下载器有urllib2（Python官方基础模块）包括需要登录、代理、和cookie，requests(第三方包)
网页解析器：将一个网页字符串进行解析，可以按照我们的要求来提取出我们有用的信息，也可以根据DOM树的解析方式来解析。网页解析器有正则表达式（直观，将网页转成字符串通过模糊匹配的方式来提取有价值的信息，当文档比较复杂的时候，该方法提取数据的时候就会非常的困难）、html.parser（Python自带的）、beautifulsoup（第三方插件，可以使用Python自带的html.parser进行解析，也可以使用lxml进行解析，相对于其他几种来说要强大一些）、lxml（第三方插件，可以解析 xml 和 HTML），html.parser 和 beautifulsoup 以及 lxml 都是以 DOM 树的方式进行解析的。
应用程序：就是从网页中提取的有用数据组成的一个应用。
爬虫工作模式

python
urllib与urllib2

1.打开目标网站
urllib.urlopen(url[, data[, proxies[, context]]])

去远程请求响应的 url，并返回一个类文件对象。（注意，此处已经发起了远程请求，也就是进行了联网操作，有数量流量）
url ：一个完整的远程资源路径，一般是一个网站。（注意，要包含协议头，例如：http://www.baidu.com/，此处的 http:// 不能省略）
如果该URL没有指明协议类型，或者其协议标识符为file:，则该函数会打开本地文件。如果无法打开远程地址，将触发 IOError 异常。
data ：如果使用的是 http:// 协议，这是一个可选的参数，用于指定一个 POST 请求（默认使用的是 GET 方法）。这个参数必须使用标准的 application/x-www-form-urlencoded 格式。我们可以使用 urlencode() 方法来快速生成。
proxies ：设置代理，有需要的参照官方文档。下面给出官网的例子：

proxies = {‘http’: ‘http://www.someproxy.com:3128’}
加代理
filehandle = urllib.urlopen(some_url, proxies=proxies)
不使用用代理
filehandle = urllib.urlopen(some_url, proxies={})
使用环境中的代理 - 两个版本都是等效的
filehandle = urllib.urlopen(some_url, proxies=None)
filehandle = urllib.urlopen(some_url)

一个小演示
用来爬取百度图片配合正则来使用

f = urllib.urlopen(‘http://www.baidu.com/’)
b = f.read()
p = re.compile(r’<img.?src="//(.?.(?:jpg|gif|png))".*?>’, re.I)
result = p.findall(b)
print result

下载相应资源
urllib.urlretrieve(url[, filename[, reporthook[, data]]])
将给定的 url 下载为本地文件，如果 url指向的是本地的文件，或者是一个有效的缓存对象，那么将不会下载（注意，这里的存在是指下载的目录里有相同的文件了）。
返回一个元祖(filename, headers)，其中filename值的是本地保存的文件名，header指的是上面 info() 方法返回的对象。
url ：目标 url 。
filename ：下载到本地后保存的文件名，可以是决对路径或相对路径形式。如果没有给，将缓存到一个临时文件夹中。
reporthook：一个回调函数，方法会在连接建立时和下载完成时调用这个函数。同时会向函数传递三个参数：1.目前为止下载了多少数据块；2.数据块的大小（单位是字节）；3.文件的总大小；
data：如果使用的是 http:// 协议，这是一个可选的参数，用于指定一个 POST 请求（默认使用的是 GET方法）。这个参数必须使用标准的 application/x-www-form-urlencoded 格式。
我们可以使用urlencode()来快速生成。

urllib.urlencode(query[, doseq])
将一个python的字典快速转换为一个请求的格式，用于上面的 data 属性。

例子

aDict = {‘name’: ‘Georgina Garcia’, ‘hmdir’: ‘~ggarcia’}
print urllib.urlencode(aDict)

附赠一个小爬虫项目:

-- coding=utf-8 --

“”"
:type 抓取内涵段子-百思不得姐
:type Python 3.7 requests os
:rtype 存入文件
:param http://www.budejie.com/ “”"

import requests from fake_useragent import UserAgent from lxml import
etree

class connotation_paragraph(object):
def init(self):
self.page = 1
self.base_url = “http://www.budejie.com/%d”.format(self.page)
self.html = None
self.count = 200

def worker(self):
while 1:
if self.page >= self.count:
break
response = requests.get(self.base_url, params=self.get_header())
data = response.content
self.html = etree.HTML(data)
author_pic, author_name, article_title, article_url, article_info = self.get_info()
print(author_pic, author_name, article_title, article_url)
with open('./%s.txt' % article_title, 'rw+') as f:
f.write(author_pic)
f.write(author_name)
f.write(article_title)
f.write(article_url)
with open('./%s.jpg' % article_title, 'rw+') as f:
f.write(article_info)

def get_info(self):
info = etree.HTML(self.html)
author_pic = info.xpath('//li/div[@class="j-list-user"]/div[@class="u-img"]/a/img/@src')

作者图片

author_name = info.xpath(’//li/div[@class=“j-list-user”]/div[@class=“u-txt”]/a/text()’)

作者名字

article_title = info.xpath(’//li//div[@class=“j-r-list-c-desc”]/a/text()’) # 文章标题
article_url = info.xpath(’//li//div[@class=“j-r-list-c-img”]/a/@href’) # 文章链接地址
article_info = info.xpath(’//li//div[@class=“j-r-list-c-img”]/a//img/@src’) # 图片地址
return [author_pic, author_name, article_title, article_url, article_info]

def get_ua(self):
ua = UserAgent()
return ua.random

def get_header(self):
params = {"User-Agent": self.get_ua()}
return params
if name == ‘main’:
cp = connotation_paragraph()
cp.worker()

参考网址:https://www.cnblogs.com/scolia/p/5566554.html

python 爬虫使用的更多相关文章

Python 爬虫模拟登陆知乎
在之前写过一篇使用python爬虫爬取电影天堂资源的博客,重点是如何解析页面和提高爬虫的效率.由于电影天堂上的资源获取权限是所有人都一样的,所以不需要进行登录验证操作,写完那篇文章后又花了些时间研究了 ...
python爬虫成长之路（一）：抓取证券之星的股票数据
获取数据是数据分析中必不可少的一部分,而网络爬虫是是获取数据的一个重要渠道之一.鉴于此,我拾起了Python这把利器,开启了网络爬虫之路. 本篇使用的版本为python3.5,意在抓取证券之星上当天所 ...
python爬虫学习(7) —— 爬取你的AC代码
上一篇文章中,我们介绍了python爬虫利器--requests,并且拿HDU做了小测试. 这篇文章,我们来爬取一下自己AC的代码. 1 确定ac代码对应的页面如下图所示,我们一般情况可以通过该顺序 ...
python爬虫学习(6) —— 神器 Requests
Requests 是使用 Apache2 Licensed 许可证的 HTTP 库.用 Python 编写,真正的为人类着想. Python 标准库中的 urllib2 模块提供了你所需要的大多数 H ...
批量下载小说网站上的小说（python爬虫）
随便说点什么因为在学python,所有自然而然的就掉进了爬虫这个坑里,好吧,主要是因为我觉得爬虫比较酷,才入坑的. 想想看,你可以批量自动的采集互联网上海量的资料数据,是多么令人激动啊! 所以我就被 ...
python 爬虫（二）
python 爬虫 Advanced HTML Parsing 1. 通过属性查找标签:基本上在每一个网站上都有stylesheets,针对于不同的标签会有不同的css类于之向对应在我们看到的标签可能 ...
Python 爬虫1——爬虫简述
Python除了可以用来开发Python Web之后,其实还可以用来编写一些爬虫小工具,可能还有人不知道什么是爬虫的. 一.爬虫的定义: 爬虫——网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区 ...
Python爬虫入门一之综述
大家好哈,最近博主在学习Python,学习期间也遇到一些问题,获得了一些经验,在此将自己的学习系统地整理下来,如果大家有兴趣学习爬虫的话,可以将这些文章作为参考,也欢迎大家一共分享学习经验. Pyth ...
[python]爬虫学习（一）
要学习Python爬虫,我们要学习的共有以下几点(python2): Python基础知识 Python中urllib和urllib2库的用法 Python正则表达式 Python爬虫框架Scrapy ...
python爬虫学习(1) —— 从urllib说起
0. 前言如果你从来没有接触过爬虫,刚开始的时候可能会有些许吃力因为我不会从头到尾把所有知识点都说一遍,很多文章主要是记录我自己写的一些爬虫所以建议先学习一下cuiqingcai大神的 Pyth ...

随机推荐

【HDU 5145】 NPY and girls（组合+莫队）
pid=5145">[HDU 5145] NPY and girls(组合+莫队) NPY and girls Time Limit: 8000/4000 MS (Java/Other ...
[MST] Derive Information from Models Using Views
Redundant data or caching data is a constant source of bugs. MST adheres to the philosophy that no d ...
细说ReactiveCocoa的冷信号与热信号（一）
热信号:事件触发: 冷信号:订阅出发: 从本质上来说,是信号的存在和产生,是静态信号和动态信号的区别. 背景 ReactiveCocoa(简称RAC)是最初由GitHub团队开发的一套基于Cocoa的 ...
JavaScript笔记（3）
•位操作符所有的按位操作符的操作数都会被转成补码形式的有符号的32位整数. 运算符用法描述按位与(AND) a & b 对于每一个比特位,只有两个操作数相应的比特位都是1时,结果才为1 ...
CF19E Fairy(树上差分）
题目描述很久很久以前,有一个仙女叫做A.有一天一个少年B找到她,并且请求她预测他的未来.仙女看着她的水晶球,说这位少年不久将遇见世界上最美丽的公主,并且将迎娶她为妻.然后仙女在一张纸上画了n个点,并 ...
centeros 7配置mailx使用外部smtp服务器发送邮件
发送邮件的两种方式: 1.连接现成的smtp服务器去发送(此方法比较简单,直接利用现有的smtp服务器比如qq.新浪.网易等邮箱,只需要直接配置mail.rc文件即可实现) 2.自己搭建私有的smtp ...
css与jquery、图标字体
*)还能这样选择 header #search input[type="text"] *)按钮常用颜色:#008cBA(字母大小写没有区别) *)清除浮动后,text-align没 ...
Unity ContextMenu特性
有时候我们需要在编辑器下,频繁的做一些操作,比如说在不同的位置创建物体,一个个的修改坐标显然有点繁琐这时候ContextMenu就派上用处了例:利用 LineRenderer 画圆,我们不可能一个 ...
codevs——T2806 红与黑
http://codevs.cn/problem/2806/ 时间限制: 1 s 空间限制: 64000 KB 题目等级 : 白银 Silver 题解题目描述 Descriptio ...
poj2031-Building a Space Station（最小生成树，kruskal，prime）
Building a Space Station Time Limit: 1000MS Memory Limit: 30000K Total Submissions: 5874 Accepte ...

python 爬虫使用

-- coding=utf-8 --

作者图片

作者名字

python 爬虫使用的更多相关文章

随机推荐

热门专题