aio 爬虫，去重，入库

#aio 爬虫，去重，入库

import asyncio

import aiohttp

import aiomysql

import re

from pyquery import PyQuery

stoping = False

start_url = 'http://www.jobbole.com/'

waiting_urls = []

seen_urls = set()

# url去重 --布隆过滤器 bloom filter

sem  = asyncio.Semaphore(3) #限制并发数量

async def fetch(url,session):

    async with sem:

        #await asyncio.sleep(0.5)

        try:

            async with session.get(url) as resp:

                print(resp.status)

                if resp.status in [200,201]:

                    data = await resp.text()

                    return data

        except Exception as e :

            print(e)

#因为不是耗费 io的 所以用普通函数

def extract_urls(html):

    urls = []

    pq = PyQuery(html)

    for link in pq.items('a'):

        url = link.attr('href')

        if url and url.startswith('http') and url not in seen_urls:

            urls.append(url)

            waiting_urls.append(url)

    return urls

async def init_urls(url,session):

    html = await fetch(url,session)

    seen_urls.add(url)

    extract_urls(html)

async def article_handeler(url,session,pool):

    #获取文章详情，并解析入库

    html = await fetch(url,session)

    seen_urls.add(url)

    extract_urls(html)

    pq = PyQuery(html)

    title = pq('title').text()

    async with pool.acquire() as conn:

        async with conn.cursor() as cur:

            await cur.execute('SELECT 42;')

            insert_sql = 'insert into aiomysql_test(title) VALUES ("{}")'.format(title)

            await cur.execute(insert_sql)

async def consumer(pool):

    async with aiohttp.ClientSession() as session:

        while not stoping:

            if len(waiting_urls) == 0:

                await asyncio.sleep(0.5)

                continue

            url = waiting_urls.pop()

            print('start get url:{}'.format(url))

            if re.match('http://.*?jobbole.com/\d+/',url):

                if url not in seen_urls:

                    asyncio.ensure_future(article_handeler(url,session,pool))

                    await asyncio.sleep(0.5)

            else:

                if url not in seen_urls:

                    asyncio.ensure_future(init_urls(url,session))

async def main(loop):

    #等待mysql链接建立好

    pool = await aiomysql.create_pool(host='127.0.0.1',port = 3306,

                                      user = 'root',password='',

                                      db = 'aiomysql_test',loop=loop,

                                      charset = 'utf8',autocommit = True)

    async with aiohttp.ClientSession() as session:

        html = await fetch(start_url, session)

        seen_urls.add(start_url)

        extract_urls(html)

    asyncio.ensure_future(consumer(pool))

if __name__ == "__main__":

    loop = asyncio.get_event_loop()

    asyncio.ensure_future(main(loop))

    loop.run_forever()

aio 爬虫，去重，入库的更多相关文章

笔记-爬虫-去重/bloomfilter
笔记-爬虫-去重/bloomfilter 1. 去重为什么要去重? 页面重复:爬的多了,总会有重复的页面,对已爬过的页面肯定不愿意再爬一次. 页面更新:很多页面是会更新的,爬取这种页面时就 ...
[js高手之路]Node.js+jade+mongodb+mongoose实现爬虫分离入库与生成静态文件
接着这篇文章[js高手之路]Node.js+jade抓取博客所有文章生成静态html文件继续,在这篇文章中实现了采集与静态文件的生成,在实际的采集项目中, 应该是先入库再选择性的生成静态文件.那么我选 ...
scrapy-redis的搭建分布式爬虫去重
master:一.spider文件1.需要更改继承的类from scrapy_redis.spiders import RedisSpider 2.注释掉start_urls 3.在爬虫目录下新创建一 ...
Scrapy爬虫学习笔记 - 爬虫基础知识
一.正则表达式二.深度和广度优先三.爬虫去重策略
转载:爬虫技术浅析(Python)
http://drops.wooyun.org/tips/3915 0x00 前言网络爬虫(Web crawler),是一种“自动化浏览网络”的程序,或者说是一种网络机器人.它们被广泛用于互联网搜索 ...
discuz数据批量入库接口
近期在做社区,首选discuz,数据需要用scrapy爬虫批量入库,就写了一个php入库接口. <?php define('PW', 'abc123456');//一定要修改 if($_REQU ...
scrapy补充-分布式爬虫
spiders 介绍:在项目中是创建爬虫程序的py文件 #1.Spiders是由一系列类(定义了一个网址或一组网址将被爬取)组成,具体包括如何执行爬取任务并且如何从页面中提取结构化的数据. #2.换句 ...
[js高手之路]Node.js+jade+mongoose实战todolist(分页,ajax编辑,删除)
该系列文章索引: [js高手之路]node js系列课程-创建简易web服务器与文件读写 [js高手之路]node js系列课程-图解express+supervisor+ejs用法 [js高手之路] ...
Redis入门_上
Redis是基于内存的Key-Value数据库,包含Set.String.SortedSet.List.Hash等数据结构,可用于缓存.排名.爬虫去重等应用场景. 1.思维导图 2.安装与配置 2.1 ...

随机推荐

Python的top-level脚本为什么在磁盘上没有对应的字节码？
在Python中,如果你使用python script.py这样的方式运行Python脚本,那么script.py就被称为top-level脚本.对于Python来说,这个脚本的字节码是不会写入到磁盘 ...
c++ 反射类型
来自: 实现代码=== // // Created by lizhen on 2017/9/29. // #ifndef BOOST_ALL_CALLBACKFUNCTION_H #define BO ...
计算器软件实现系列（六）windowform窗体+SQL+策略模式
一整体概述这个计算器软件的功能和以前的功能基本上一样,只不过是数据的保存形式发生了变化,,以前用的是txt文件保存,现在更正用SQL数据库,现在更改了以前的文件保存形式,是三层架构中数据层的更换, ...
css深入理解之 border
一 border-width不支持百分比值 1 不符合客观逻辑 2 w3成都一种约定吧 3 边框本身就像是一个包裹内容的界限类似的还有outline,box-shadow text-shadow均不 ...
XML 反序列化成对象，绑定到CheckBoxList控件
1.前台 <div class="control-group"> <label class="control-label"> 导航名称: ...
Qt窗口及控件-窗口Close()自动释放
版权声明:若无来源注明,Techie亮博客文章均为原创. 转载请以链接形式标明本文标题和地址: 本文标题:Qt-窗口Close()后自动释放空间本文地址:http://techieliang ...
POJ3421：X-factor Chains——题解
http://poj.org/problem?id=3421 题目大意:一个数列,起始为1,终止为一给定数X,满足Xi < Xi+1 并且Xi | Xi+1. 求出数列最大长度和该长度下的情况数 ...
BZOJ3675 & 洛谷3648 & UOJ104：[Apio2014]序列分割——题解
https://www.lydsy.com/JudgeOnline/problem.php?id=3675 https://www.luogu.org/problemnew/show/P3648 ht ...
BZOJ4034：[HAOI2015]树上操作——题解
http://www.lydsy.com/JudgeOnline/problem.php?id=4034 https://www.luogu.org/problemnew/show/P3178 有一棵 ...
bzoj3694: 最短路（树链剖分/并查集）
bzoj1576的帮我们跑好最短路版本23333(双倍经验!嘿嘿嘿这题可以用树链剖分或并查集写.树链剖分非常显然,并查集的写法比较妙,涨了个姿势,原来并查集的路径压缩还能这么用... 首先对于不在最 ...

aio 爬虫，去重，入库

aio 爬虫，去重，入库的更多相关文章

随机推荐

热门专题