python——爬虫

网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

爬虫：

　　客户端：

　　　　Web应用本质

　　　　APP

　　服务器：

　　　　URL -> API

注：服务器提供API，URL有个专有名词叫API

自动程序（爬虫）：

　　起始URL：

　　　　https://www.cnblogs.com/

　　　　下载源码：

<!DOCTYPE html>

    <html lang="zh-cn">

    <head>

        <meta name="viewport" content="width=device-width, initial-scale=1"><meta charset="utf-8">

        <title>博客园 - 开发者的网上家园</title>

        <meta name="k

        ...

　　　　 --- 获取关键字，收录到数据库 -

　　　　-- 再获取其他URL，href

　　　　再继续访问......

　　requests.post（...）

自动登录需要注意几点：

1、登录时提交用户信息

2、接收返回值或者cookie

3、携带cookie或者返回值，再去访问

自动登录网站的几种认证方式:

　　第一次获取cookie

　　....

　　第一次访问：什么都不给

python爬虫几个步骤：

1、发送请求

　　- 需要验证

　　- 无需验证

2、获取内容

　　正则表达式，分类+分组

　　//div[@class='item_list']

　　//div[@class='item_list']/div

　　//div[@class='item_list']//span

　　//div[@class='item_list']//a/text()

　　//div[@class='item_list']//img/@

3、获取其他URL

　　//a/@href

4、自动递归请求url,重复执行1、2、3步操作

##############scrapy##############

1、安装

　　依赖：Twisted

　　基于python2.7做

　　pip install scrapy

　　windows依赖模块：

　　　　　　　　pywin32

　　安装python2.7

　　　　python-2.7.11.msi

　　　　python-2.7.11.adm64.msi

　　　　==> 环境变量 C：\python27 C:\python27\Script

　　装pip

　　安装steuptools

　　　　https://bootstrap.pypa.io/ez_setup.py

　　　　ez_setup.py

　　　　python ez_setup.py

　　pip（下载pip源码进行解压安装）

　　　　https://pypi.python.org/packages/11/b6/abcb525026a4be042b486df43905d6893fb04f05aac21c32c638e939e447/pip-9.0.1.tar.gz#md5=35f01da33009719497f01a4ba69d63c9

　　　　解压

　　　　进入模块

　　　　python setup.py install

　　pip install requests

　　pip install scrapy

　　　　scrapy需要装的一些依赖：

　　　　　　VCForPython27.msi

　　　　　　pywin32-220.win-amd64-py2.7.exe

　　　　　　pypiwin32-219.win32-py2.7.exe

　　　　　　lxml-2.3.win-amd64-py2.7.exe

　　　　　　lxml-2.3.win32-py2.7.exe

　　　　pip install scrapy

2、使用

　　环境变量：C :\python27\scrapy

　　scrapy startproject spiderl

　　创建spider文件（APP）

　　　　-name = ''nnnnn"

　　　　-start_urls

　　　　-parse

3、 scrapy crawl spider_name --nolog #nolog不要显示日志

**********************

scrapy

1、project

2、app,爬虫

　　- name

　　- start_urls

　　- parse

3、crawl name --nolog

4、parse

　　直接处理请求：

　　　　selector:

　　　　　　// #表示子子孙孙

　　　　　　/　　#从孩子里找

　　　　　　//div[@class='c1'] #表示属性选择器

　　　　　　//div[@class='c1'][@id='i1'] #两个属性

　　　　　　//div//img/@src 获取img下的src属性

　　　　　　//div//a[1]

　　　　　　//div//a[1]//text() #找a标签里面内容

　　　　　　====支持正则表达式

　　　　　　//div/a

Requests

Python标准库中提供了：urllib、urllib2、httplib等模块以供Http请求，但是，它的 API 太渣了。它是为另一个时代、另一个互联网所创建的。它需要巨量的工作，甚至包括各种方法覆盖，来完成最简单的任务。

import urllib2

import json

import cookielib

def urllib2_request(url, method="GET", cookie="", headers={}, data=None):

    """

    :param url: 要请求的url

    :param cookie: 请求方式，GET、POST、DELETE、PUT..

    :param cookie: 要传入的cookie，cookie= 'k1=v1;k1=v2'

    :param headers: 发送数据时携带的请求头，headers = {'ContentType':'application/json; charset=UTF-8'}

    :param data: 要发送的数据GET方式需要传入参数，data={'d1': 'v1'}

    :return: 返回元祖，响应的字符串内容 和 cookiejar对象

    对于cookiejar对象，可以使用for循环访问：

        for item in cookiejar:

            print item.name,item.value

    """

    if data:

        data = json.dumps(data)

    cookie_jar = cookielib.CookieJar()

    handler = urllib2.HTTPCookieProcessor(cookie_jar)

    opener = urllib2.build_opener(handler)

    opener.addheaders.append(['Cookie', 'k1=v1;k1=v2'])

    request = urllib2.Request(url=url, data=data, headers=headers)

    request.get_method = lambda: method

    response = opener.open(request)

    origin = response.read()

    return origin, cookie_jar

# GET

result = urllib2_request('http://127.0.0.1:8001/index/', method="GET")

# POST

result = urllib2_request('http://127.0.0.1:8001/index/',  method="POST", data= {'k1': 'v1'})

# PUT

result = urllib2_request('http://127.0.0.1:8001/index/',  method="PUT", data= {'k1': 'v1'})

封装urllib请求

Requests 是使用 Apache2 Licensed 许可证的基于Python开发的HTTP 库，其在Python内置模块的基础上进行了高度的封装，从而使得Pythoner进行网络请求时，变得美好了许多，使用Requests可以轻而易举的完成浏览器可有的任何操作。

Scrapy

Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架（类似Django）。
其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的，也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。

Scrapy用途广泛，例如：

数据挖掘
信息处理
存储历史数据
监测
自动化测试
...

详细参考：http://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/overview.html

Scrapy 使用了 Twisted异步网络库来处理网络通讯。整体架构大致如下

Scrapy主要包括了以下组件：

引擎(Scrapy)
用来处理整个系统的数据流处理, 触发事务(框架核心)
调度器(Scheduler)
用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回. 可以想像成一个URL（抓取网页的网址或者说是链接）的优先队列, 由它来决定下一个要抓取的网址是什么, 同时去除重复的网址
下载器(Downloader)
用于下载网页内容, 并将网页内容返回给蜘蛛(Scrapy下载器是建立在twisted这个高效的异步模型上的)
爬虫(Spiders)
爬虫是主要干活的, 用于从特定的网页中提取自己需要的信息, 即所谓的实体(Item)。用户也可以从中提取出链接,让Scrapy继续抓取下一个页面
项目管道(Pipeline)
负责处理爬虫从网页中抽取的实体，主要的功能是持久化实体、验证实体的有效性、清除不需要的信息。当页面被爬虫解析后，将被发送到项目管道，并经过几个特定的次序处理数据。
下载器中间件(Downloader Middlewares)
位于Scrapy引擎和下载器之间的框架，主要是处理Scrapy引擎与下载器之间的请求及响应。
爬虫中间件(Spider Middlewares)
介于Scrapy引擎和爬虫之间的框架，主要工作是处理蜘蛛的响应输入和请求输出。
调度中间件(Scheduler Middewares)
介于Scrapy引擎和调度之间的中间件，从Scrapy引擎发送到调度的请求和响应。

Scrapy运行流程大概如下：

引擎从调度器中取出一个链接(URL)用于接下来的抓取
引擎把URL封装成一个请求(Request)传给下载器
下载器把资源下载下来，并封装成应答包(Response)
爬虫解析Response
解析出实体（Item）,则交给实体管道进行进一步的处理
解析出的是链接（URL）,则把URL交给调度器等待抓取

python爬虫链接详细参考：http://www.cnblogs.com/wupeiqi/articles/5354900.html

#################################################################

爬虫博客推荐（python2.7）：http://www.cnblogs.com/xin-xin/p/4297852.html

python——爬虫的更多相关文章

Python 爬虫模拟登陆知乎
在之前写过一篇使用python爬虫爬取电影天堂资源的博客,重点是如何解析页面和提高爬虫的效率.由于电影天堂上的资源获取权限是所有人都一样的,所以不需要进行登录验证操作,写完那篇文章后又花了些时间研究了 ...
python爬虫成长之路（一）：抓取证券之星的股票数据
获取数据是数据分析中必不可少的一部分,而网络爬虫是是获取数据的一个重要渠道之一.鉴于此,我拾起了Python这把利器,开启了网络爬虫之路. 本篇使用的版本为python3.5,意在抓取证券之星上当天所 ...
python爬虫学习(7) —— 爬取你的AC代码
上一篇文章中,我们介绍了python爬虫利器--requests,并且拿HDU做了小测试. 这篇文章,我们来爬取一下自己AC的代码. 1 确定ac代码对应的页面如下图所示,我们一般情况可以通过该顺序 ...
python爬虫学习(6) —— 神器 Requests
Requests 是使用 Apache2 Licensed 许可证的 HTTP 库.用 Python 编写,真正的为人类着想. Python 标准库中的 urllib2 模块提供了你所需要的大多数 H ...
批量下载小说网站上的小说（python爬虫）
随便说点什么因为在学python,所有自然而然的就掉进了爬虫这个坑里,好吧,主要是因为我觉得爬虫比较酷,才入坑的. 想想看,你可以批量自动的采集互联网上海量的资料数据,是多么令人激动啊! 所以我就被 ...
python 爬虫（二）
python 爬虫 Advanced HTML Parsing 1. 通过属性查找标签:基本上在每一个网站上都有stylesheets,针对于不同的标签会有不同的css类于之向对应在我们看到的标签可能 ...
Python 爬虫1——爬虫简述
Python除了可以用来开发Python Web之后,其实还可以用来编写一些爬虫小工具,可能还有人不知道什么是爬虫的. 一.爬虫的定义: 爬虫——网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区 ...
Python爬虫入门一之综述
大家好哈,最近博主在学习Python,学习期间也遇到一些问题,获得了一些经验,在此将自己的学习系统地整理下来,如果大家有兴趣学习爬虫的话,可以将这些文章作为参考,也欢迎大家一共分享学习经验. Pyth ...
[python]爬虫学习（一）
要学习Python爬虫,我们要学习的共有以下几点(python2): Python基础知识 Python中urllib和urllib2库的用法 Python正则表达式 Python爬虫框架Scrapy ...
python爬虫学习(1) —— 从urllib说起
0. 前言如果你从来没有接触过爬虫,刚开始的时候可能会有些许吃力因为我不会从头到尾把所有知识点都说一遍,很多文章主要是记录我自己写的一些爬虫所以建议先学习一下cuiqingcai大神的 Pyth ...

随机推荐

DDD领域驱动设计
DDD领域驱动设计实践篇之如何提取模型需求说明: 省级用户可以登记国家指标省级用户和市级用户可以登记指标分解登记国家指标时,需要录入以下数据:指标批次.文号.面积,这里省略其他数据,下同登记指 ...
openGL的使用步骤
使用openGL步骤:1.创建GLSurfaceView对象2.创建GLSurfaceView.renderer实现类.3.设置activity的contentView,以及设置view的render ...
配置Sublime Text 2 的Python运行环境
Sublime Text 2作为一款轻量级的编辑器,特点鲜明,方便使用,愈发受到普罗大众的喜爱,我个人最近也开始用了起来.同时,我近段时间还在学习Python的相关东西,所以开始用ST2来写Pytho ...
Prototype,创建型模式
读书笔记_探索式测试_混合探索式测试一.测试场景 1.讲述用户故事 2.描述需求 3.演示产品功能 4.演示集成场景 5.描述设置和安装 6.描述警告和出错情况二.使用基于场景的探索式测试 1 ...
浅谈DevExpress<四>：TreeList中的拖拽功能
本篇要实现的目标,简单来说就是把一个treelist的节点用鼠标拖到另外的节点(自身或其他的listview)上,如下图: 1
[转]Apple iPod, iPhone (2g, 3g), iPad Dock connector pinout
Pin Signal Description Apple pin numbering* 1 GND Ground (-), internally connected with Pin 2 on iPo ...
IOS开发之路三（XML解析之GDataXML的使用）
最近再做一个项目需要用到xml的解析.今天查了一些资料自己做了一个小demo.纯OC没有界面.. 在IOS平台上进行XML文档的解析有很多种方法,在SDK里面有自带的解析方法,但是大多情况下都倾向于用 ...
一步一步深入spring(7)-- 整合spring和JDBC的环境
1.配置数据源 (1).添加支持数据源的jar包commons-dbcp.jar .commons-pool.jar 当然也要添加其他的spring用到的jar以及这里用到的数据库mysql的jar ...
WCF 学习笔记之异常处理
WCF 学习笔记之异常处理 1:WCF异常在配置文件 <configuration> <system.serviceModel> <behaviors> <s ...
桥接模式及C++实现 C++设计模式-AbstractFactory抽象工厂模式
桥接模式及C++实现桥接模式先说说桥接模式的定义:将抽象化(Abstraction)与实现化(Implementation)分离,使得二者可以独立地变化. 桥接模式号称设计模式中最难理解的模式之一 ...

python——爬虫

Requests

Scrapy

python——爬虫的更多相关文章

随机推荐

热门专题