爬虫

一、异步IO

线程：线程是计算机中工作的最小单元

IO请求（IO密集型）时多线程更好，计算密集型进程并发最好，IO请求不涉及CPU

自定义线程池

进程：进程默认有主线程，可以有多线程共存，并且共享内部资源

自定义进程

协程：使用进程中一个线程去完成多个任务，微线程（伪线程）

GIL：python特有，用于在进程中对线程枷锁，保证同一时刻只能有一个线程被CPU调度

# Author：wylkjj

# Date：2020/2/24

# -*- coding:utf-8 -*-

import requests

# 创建多线程

from concurrent.futures import ThreadPoolExecutor

# 创建多进程

from concurrent.futures import ProcessPoolExecutor

def async_url(url):

    try:

        response = requests.get(url)

    except Exception as e:

        print('异常结果', response.url, response.content)

    print('获取结果', response.url, response.content)

url_list = [

    'http://www.baidu.com',

    'http://www.chouti.com',

    'http://www.bing.com',

    'http://www.google.com',

]

# 线程池pool：创建五个线程,IO请求线程更适合

# GIL线程锁，只针对cpu的调用权限，针对IO请求不会锁住

pool = ThreadPoolExecutor(5)

# 进程池pools：创建五个线程,进程浪费资源

pools = ProcessPoolExecutor(5)

for url in url_list:

    print('开始请求：', url)

    pool.submit(async_url, url)

pool.shutdown(wait=True)

# 回调函数：.add_done_callback(回调的函数)

异步IO模块：

import asyncio缺点：只提供TCP，提供sleep，不提供http

事件循环：get_event_loop()

@asyncio.coroutine和yield from要同时配套使用，固定写法

异步IO：

asynico + aiohttp：asynico + request
gevent + request：gevent + request两个方法组合在一起后出现了一个grequests
twisted
tornado：异步非阻塞IO

# Author：wylkjj

# Date：2020/2/24

# -*- coding:utf-8 -*-

# 异步IO模块

import asyncio

@asyncio.coroutine

def func1():

    print('before...func1......')

    yield from asyncio.sleep(5)

    print('end...func1......')

tasks = [func1(), func1()]

loop = asyncio.get_event_loop()  # 事件循环

loop.run_until_complete(asyncio.gather(*tasks))  # 把任务作为列表传进来

loop.close()

# Author：wylkjj

# Date：2020/2/25

# -*- coding:utf-8 -*-

import asyncio

@asyncio.coroutine

def fetch_async(host, url='/'):

    print(host, url)

    reader, writer = yield from asyncio.open_connection(host, 80)

    request_header_content = """GET %s HTTP/1.0\r\nHost: %s\r\n\r\n""" % (url, host,)

    request_header_content = bytes(request_header_content, encoding='utf-8')

    writer.write(request_header_content)

    yield from writer.drain()

    text = yield from reader.read()

    print(host, url, str(text, encoding='utf-8'))

    writer.close()

tasks = [

    fetch_async('www.cnblogs.com', '/eric/'),

    fetch_async('dig.chouti.com', '/pic/show?nid=4073644713430508&lid=10273091')

]

loop = asyncio.get_event_loop()

results = loop.run_until_complete(asyncio.gather(*tasks))

loop.close()

# Author：wylkjj

# Date：2020/2/25

# -*- coding:utf-8 -*-

# 使用aiohttp和asyncio实现http请求 （aiohttp亲）

import aiohttp

import asyncio

@asyncio.coroutine

def fetch_async(url):

    print(url)

    response = yield from aiohttp.request('GET', url)

    # data = yield from response.read()

    # print(url, data)

    print(url, response)

    response.close()

# Author：wylkjj

# Date：2020/2/25

# -*- coding:utf-8 -*-

# asyncio和requests配合使用也可以支持HTTP （requests后）

import asyncio

import requests

@asyncio.coroutine

def fetch_async(func, *args):

    print(args)

    # 事件循环

    loop = asyncio.get_event_loop()

    future = loop.run_in_executor(None, func, *args)

    response = yield from future

    print(response.url, response.content)

tasks = [

    fetch_async(requests.get, 'http://www.cnblogs.com/eric/'),

    fetch_async(requests.get, 'http://dig.chouti.com/pic/show?nid=4073644713430508&lid=10273091')

]

loop = asyncio.get_event_loop()

results = loop.run_until_complete(asyncio.gather(*tasks))

loop.close()

# Author：wylkjj

# Date：2020/2/25

# -*- coding:utf-8 -*-

import gevent

from gevent import monkey

monkey.patch_all()

import requests

def fetch_async(method, url, req_kwargs):

    print(method, url, req_kwargs)

    response = requests.request(method=method, url=url, **req_kwargs)

    print(response.url, response.content)

# ##### 发送请求 #####

gevent.joinall([

    gevent.spawn(fetch_async, method='get', url='https://www.python.org/', req_kwargs={}),

    gevent.spawn(fetch_async, method='get', url='https://www.yahoo.com/', req_kwargs={}),

    gevent.spawn(fetch_async, method='get', url='https://github.com/', req_kwargs={}),

])

# pip3 install twisted

# pip3 install wheel

#       b. 下载twisted http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted

#       c. 进入下载目录，执行 pip3 install Twisted‑17.1.0‑cp35‑cp35m‑win_amd64.whl

from twisted.web.client import getPage

from twisted.internet import reactor

REV_COUNTER = 0

REQ_COUNTER = 0

def callback(contents):

    print(contents,)

    global REV_COUNTER

    REV_COUNTER += 1

    if REV_COUNTER == REQ_COUNTER:

        reactor.stop()

url_list = ['http://www.bing.com', 'http://www.baidu.com', ]

REQ_COUNTER = len(url_list)

for url in url_list:

    print(url)

    deferred = getPage(bytes(url, encoding='utf8'))

    deferred.addCallback(callback)

reactor.run()

import socket：它提供了标准的 BSD Sockets API，可以访问底层操作系统Socket接口的全部方法。

tronado框架原理

自定义异步IO：

基于socket，setblocking（False）

IO多路复用（也是同步IO）

while True:

r,w,e = select.select([ ],[ ],[ ],1)

关于IO的详情博客：事件驱动IO模型：https://www.cnblogs.com/wylshkjj/p/10896994.html

二、scrapy框架

scrapy框架的安装

Linux

pip3 install scrapy

Windows

1.

pip3 install wheel

安装Twisted：版本信息知识一个格式，非正确版本

a. http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted, 下载：Twisted-19.1.0-cp37-cp37m-win_amd64.whl

b. 进入文件所在目录

c. pip3 install Twisted-19.1.0-cp37-cp37m-win_amd64.whl

2.

pip3 install scrapy：，此版本与urllib3模块产生冲突，如有此模块需要先卸载此模块

3.

windows上scrapy依赖 https://sourceforge.net/projects/pywin32/files/

项目的创建和执行

scrapy使用方法
创建新项目命令：scrapy startproject scy （在想要创建的目录中执行此命令，scy是项目名）
创建一个爬虫：scrapy genspider example example.com （创建爬虫要先cd 到项目的目录中，example是爬虫文件名字，example.com 是所爬网页地址）
项目的执行命令：scrapy crawl chouti (抽屉是所要执行的爬虫文件)
过滤日志命令：scrapy crawl chouti --nolog （过滤chouti 爬的数据日志）
查看爬虫模板命令：scrapy genspider --list（显示四个模板：basic，crawl，csvfeed，xmlfeed）
防止蜘蛛（genspider ）的权限，robkts.txt属性，在项目setting配置文件中修改ROBOTSTXT_OBEY属性使其值为ROBOTSTXT_OBEY=False
project_name/
- scrapy.cfg 项目的主配置文件
- project_name/
  - __init__.py
  - items.py 设置数据存储模板，用于结构化数据，如：Django的Model
  - pipelines.py 数据处理行为，如：一般结构化的数据持久化
  - settings.py 真正配置文件，如：递归的层数，并发数，延迟下载等
  - spiders/ 爬虫目录，如：创建文件，编写爬虫规则
    - __init__.py
    - 爬虫1.py
    - 爬虫2.py
注意：创建爬虫还是要在命令行创建，运行项目，运行爬虫文件都要在命令行执行

# 部分项目代码展示，爬取优美图库图片

# -*- coding: utf-8 -*-

import scrapy

from scrapy.http import Request

from bs4 import BeautifulSoup

class UmeiSpider(scrapy.Spider):

    name = 'umei'

    allowed_domains = ['umei.cc']

    start_urls = ['https://www.umei.cc/meinvtupian/meinvxiezhen/1.htm']

    visited_set = set()

    def parse(self, response):

        self.visited_set.add(response.url)  # 已经爬取的网页

        # 1.将当前页所有的meizi图片爬下来

        # 获取a标签并且属性为 class = TypeBigPics

        main_page = BeautifulSoup(response.text, "html.parser")

        item_list = main_page.find_all("a", attrs={'class': 'TypeBigPics'})

        for item in item_list:

            item = item.find_all("img",)

            print(item)

        # 2.获取：https://www.umei.cc/meinvtupian/meinvxiezhen/（\d+）.htm

        page_list = main_page.find_all("div", attrs={'class': 'NewPages'})

        a_urls = 'https://www.umei.cc/meinvtupian/meinvxiezhen/'

        a_list = page_list[0].find_all("a")

        a_href = set()

        for a in a_list:

            a = a.get('href')

            if a:

                a_href.add(a_urls+a)

            else:

                pass

        for i in a_href:

            if i in self.visited_set:

                pass

            else:

                obj = Request(url=i, method='GET', callback=self.parse)

                yield obj

                print("obj:", obj)

爬虫基础知识及scrapy框架使用和基本原理的更多相关文章

Python爬虫进阶三之Scrapy框架安装配置
初级的爬虫我们利用urllib和urllib2库以及正则表达式就可以完成了,不过还有更加强大的工具,爬虫框架Scrapy,这安装过程也是煞费苦心哪,在此整理如下. Windows 平台: 我的系统是 ...
爬虫（九）scrapy框架简介和基础应用
概要 scrapy框架介绍环境安装基础使用一.什么是Scrapy? Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,非常出名,非常强悍.所谓的框架就是一个已经被集成了各种功能 ...
python网络爬虫（2）——scrapy框架的基础使用
这里写一下爬虫大概的步骤,主要是自己巩固一下知识,顺便复习一下. 一,网络爬虫的步骤 1,创建一个工程 scrapy startproject 工程名称创建好工程后,目录结构大概如下: 其中: sc ...
python 爬虫基础知识一
网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本. 网络爬虫必备知识点 1. Python基础知识2. P ...
分布式爬虫搭建系列之三---scrapy框架初用
第一,scrapy框架的安装通过命令提示符进行安装(如果没有安装的话) pip install Scrapy 如果需要卸载的话使用命令为: pip uninstall Scrapy 第二,scrap ...
爬虫(十五)：Scrapy框架(二) Selector、Spider、Downloader Middleware
1. Scrapy框架 1.1 Selector的用法我们之前介绍了利用Beautiful Soup.正则表达式来提取网页数据,这确实非常方便.而Scrapy还提供了自己的数据提取方法,即Selec ...
Python3爬虫（十七） Scrapy框架（一）
Infi-chu: http://www.cnblogs.com/Infi-chu/ 1.框架架构图: 2.各文件功能scrapy.cfg 项目的配置文件items.py 定义了Item数据结构,所有 ...
爬虫（5）- Scrapy 框架简介与入门
Scrapy 框架 Scrapy是用纯Python实现一个为了爬取网站数据.提取结构性数据而编写的应用框架,用途非常广泛. 框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页 ...
Java并发（基础知识）—— Executor框架及线程池
在Java并发(基础知识)—— 创建.运行以及停止一个线程中讲解了两种创建线程的方式:直接继承Thread类以及实现Runnable接口并赋给Thread,这两种创建线程的方式在线程比较少的时候是没有 ...
爬虫(十四)：Scrapy框架(一) 初识Scrapy、第一个案例
1. Scrapy框架 Scrapy功能非常强大,爬取效率高,相关扩展组件多,可配置和可扩展程度非常高,它几乎可以应对所有反爬网站,是目前Python中使用最广泛的爬虫框架. 1.1 Scrapy介绍 ...

随机推荐

MySQL底层概述—6.索引原理
大纲 1.索引原理 2.二叉查找树 3.平衡二叉树(AVL树) 4.红黑树 5.B-Tree 6.B+Tree 7.Hash索引 8.聚簇索引与非聚簇索引 1.索引原理索引会在数据文件中(ibd文件 ...
前端每日一知之BFC
脑图在线链接本文内容依据[js每日一题]公众号精彩文章总结而来
【Amadeus原创】k8s添加新master或node
Master 1,在master上生成新的token [root@it-1c2d ]# kubeadm token create --print-join-command kubeadm join k ...
Fleck：一个轻量级的C#开源WebSocket服务端库
推荐一个简单易用.轻量级的C#开源WebSocket服务端库,方便我们快速实现WebSocket的开发. 01 项目简介 Fleck 是一个用 C# 编写的轻量级 WebSocket 服务器库.它提供 ...
IdentityServer4 快速上手
IdentityServer4 是一个基于 .NET Core 的 OpenID Connect 实现框架. 基于框架创建可运行的应用,通常还需要多个步骤,添加引用.配置项目.框架初始化.按照一系列步 ...
ajax请求与前后端交互的数据编码格式
目录一.Ajax AJAX简介应用场景 AJAX的优点语法实现二.数据编码格式(Content-Type) 写在前面 form表单几种数据编码格式介绍三.ajax携带文件数据四.ajax ...
【转载】Spring Cloud Gateway限流详解
https://www.imooc.com/article/290828/ Spring Cloud Gateway限流详解 2019.08.11 12:56 7257浏览 Spring Clou ...
【网络安全】Linux基础详解
声明:学习视频来自 b 站 up 主泷羽 sec,如涉及侵权马上删除文章声明:本文主要用作技术分享,所有内容仅供参考.任何使用或依赖于本文信息所造成的法律后果均与本人无关.请读者自行判断风险,并遵 ...
工具大全-dirsearch探测Web目录
dirsearch介绍 dirsearch是一款开源的.基于Python开发的命令行工具,主要用于对Web服务器进行目录和文件的扫描,以发现潜在的安全漏洞. dirsearch下载地址: https: ...
Qt编写安防视频监控系统43-图片回放
一.前言之前就已经具备了本地回放.远程回放.设备播放3个模块,其中本地回放用来回放存储在软件本地电脑上的视频文件:远程回放需要通过调用厂家sdk或者GB28181(没实现,后期考虑增加)从NVR回放 ...

爬虫基础知识及scrapy框架使用和基本原理