sanic+aiohttp爬虫demo(爬图片，新闻，数据)

直接上代码，都是很简单的一些demo,爬取的网站，都没有什么加密措施，所以应该不涉及违法数据，哈哈

１.爬取网页数据（aiohttp+sanic+scrapy+xpath解析html）

from sanic import Sanic

import aiohttp  # 导入aiohttp

from sanic.response import text

from scrapy import Selector  # 导入html解析模块

app = Sanic(__name__)

headers = {

    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36(KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36"}

async def getsource(url):

    conn = aiohttp.TCPConnector(verify_ssl=False)  # 防止ssl报错

    async with aiohttp.ClientSession(connector=conn) as session:  # 创建session

        async with session.get(url, headers=headers, timeout=0) as req:  # 获得请求

            if req.status == 200:  # 判断请求码

                source = await req.text()  # 使用await关键字获取返回结果

                print('爬取的文章')

                sel = Selector(text=source)

                l = []

                a = sel.xpath('//ol[@class="breadcrumb"]/li[@class="active"]/text()').extract_first()

                b = sel.xpath('//ul[@class="nav nav-tabs"]/li[@class="active"]/a/text()').extract_first()

                c = sel.xpath('//span[@class="course-view"]/text()').extract_first()

                l.append((a, b, c))

                print(l)

            else:

                print("访问失败")

@app.route('/')

async def sanic_hello(request):

    myloop = request.app.loop  # 创建事件循环

    # == event_loop = asyncio.get_event_loop()

    for i in range(1, 10):

        url = "https://edu.hellobi.com/course/{}"

        try:

            myloop.create_task(getsource(url.format(i)))  # 添加任务到事件循环

        except Exception as e:

            pass

    return text('爬取成功')

if __name__ == "__main__":

    #用gunicorn部署命令

    # gunicorn api_pachong:app --bind 0.0.0.0:8090 --workers=4 --worker-class sanic.worker.GunicornWorker

    app.run(host='127.0.0.1', port=8090, workers=8)

#""

爬取的文章

[('微软 BI 实战入门系列【持续更新中】', '课程概览', '1742 人学习')]

爬取的文章

[('MS SQL数据库入门及初级BI教程', '课程概览', '1667 人学习')]

爬取的文章

[('IBM Cognos 中级视频教程 【模型和报表教程】', '课程概览', '1227 人学习')]

爬取的文章

[('咖啡姐 BIEE 11G 精品入门视频教程【新手必看】', '课程概览', '2626 人学习')]

爬取的文章

[('BI基础知识漫谈【献给所以热爱商业智能的朋友】', '课程概览', '2398 人学习')]

爬取的文章

[('数据仓库精品教程【特点，数据仓库和ETL设计思想、架构(自上而下、自下而上)、常用概念】', '课程概览', '3856 人学习')]

爬取的文章

[('IBM Cognos 初级教程 【入门必学】', '课程概览', '2520 人学习')]

爬取的文章

[('Oracle BIEE 提高视频教程【时间序列函数，多表头制作，数据同步】', '课程概览', '1151 人学习')]

爬取的文章

[('微软商业智能实战入门及提高视频教程', '课程概览', '249 人学习')]

"""

翻页爬去简单网页

2.爬取网页图片，并下载到本地（aiohttp+sanic+BeautifulSoup解析html）

import aiohttp

import requests

from sanic import Sanic

from bs4 import BeautifulSoup

from sanic.response import text

app = Sanic(__name__)

@app.route('/')

async def pars(request):

    async with aiohttp.ClientSession() as set:

        count = 0

        url = 'http://www.moko.cc/channels/post/151/{}.html'

        for i in range(1, 2):

            try:

                async with set.get(url.format(i))as respon:  # 异步发送请求

                    res = await respon.read()

                    soup = BeautifulSoup(res, 'html.parser')  # 解析网页

                    div_list = soup.find_all(name='div', attrs={'class': "cover"})  # 找到div标签所属的所有标签

                    for div in div_list:  # 循环读取div标签内容

                        img_l = div.find(name='img')  # 找到img标签

                        src2 = img_l.attrs.get('src2')  # 获取src图片链接

                        if src2:

                            count += 1

                            img_path = 'img/' + str(count) + ".jpg"  # 拼接图片存储路径以及文件名称

                            re_img = requests.get(src2)  # 下载图片

                            with open(img_path, 'wb')as f:  # 打开图片，存储

                                f.write(re_img.content)  # 获取图片内容

                    print('完成第{}页'.format(i))

            except Exception as e:

                print(e)

        return text('爬取成功')

if __name__ == '__main__':

    app.run(host="127.0.0.1", port=8811, workers=8)

翻页爬取网页图片并下载

３.爬取新闻,信息存储到本地txt文件中(aiohttp+sanic+BeautifulSoup解析html)

import aiohttp

from sanic import Sanic

from bs4 import BeautifulSoup

from sanic import response

app = Sanic(__name__)

async def get_content(url):

    async with aiohttp.ClientSession() as session:

        # for i in range(1,4):

        async with session.get(url) as ret:

            res = await ret.text()

            # print(url)

            # print(res)

            soup = BeautifulSoup(res, 'html.parser')

            div = soup.find(name="div", attrs={"id": "auto-channel-lazyload-article"})

            li_list = div.find_all(name="li")

            for li in li_list:

                title = li.find(name="h3")

                if not title:

                    continue

                p = li.find(name="p")

                a = li.find(name="a")

                # print(title.text)

                # print(a.attrs.get("href"))

                # print(p.text)

                with open('sanic_log.txt', 'a')as f:  # 把信息存储到sanic_log文本中

                    f.write('标题：' + title.text + '\n')

                    f.write('链接：' + a.attrs.get("href") + '\n')

                    f.write('文本：' + p.text)

@app.route('/index')

async def index(request):

    url = 'https://www.autohome.com.cn/news/'

    Loop = request.app.loop

    Loop.create_task(get_content(url))

    return response.text('hello sprider')

if __name__ == '__main__':

    app.run(host="127.0.0.1", port=8811, workers=8)

#"""

标题：10月27日预售 新款瑞虎5x更多信息曝光

链接：//www.autohome.com.cn/news/201810/923880.html#pvareaid=102624

文本：[汽车之家 新闻]  日前，我们从官方渠道获悉，新款奇瑞瑞虎5x 1.5L款将在10月27日全面开启预售。作为奇瑞汽车的核心车型，新车除了将搭载1.5...标题：广汽古惠南：未来或推方形/球形的汽车

链接：//www.autohome.com.cn/news/201810/923883.html#pvareaid=102624

文本：[汽车之家 新闻]  在10月19日举行的世界智能网联汽车大会上，广汽新能源总经理古惠南分享了他对未来汽车形态上的构想，他表示，未来汽车将不会只有轿车...标题：售19.28万起 长安福特蒙迪欧智控版上市

"""

爬取新闻

sanic+aiohttp爬虫demo(爬图片，新闻，数据)的更多相关文章

python爬虫——对爬到的数据进行清洗的一些姿势（5）
做爬虫,当然就要用数据.想拿数据进行分析,首先清洗数据.这个清洗数据包括清除无用数据列和维度,删除相同数据,对数据进行勘误之类的. 从各大不同新闻网站可以爬到重复新闻...这个可以有.之前为了对爬到的 ...
学习用java基于webMagic+selenium+phantomjs实现爬虫Demo爬取淘宝搜索页面
由于业务需要,老大要我研究一下爬虫. 团队的技术栈以java为主,并且我的主语言是Java,研究时间不到一周.基于以上原因固放弃python,选择java为语言来进行开发.等之后有时间再尝试pytho ...
Scrapy爬虫Demo 爬取资讯分类
爬取新浪网导航页所有下所有大类.小类.小类里的子链接,以及子链接页面的新闻内容. 效果演示图: items.py import scrapy import sys reload(sys) sys.se ...
Python3.x爬虫教程：爬网页、爬图片、自己主动登录
林炳文Evankaka原创作品. 转载请注明出处http://blog.csdn.net/evankaka 摘要:本文将使用Python3.4爬网页.爬图片.自己主动登录.并对HTTP协议做了一个简单 ...
一个月入门Python爬虫，轻松爬取大规模数据
Python爬虫为什么受欢迎如果你仔细观察,就不难发现,懂爬虫.学习爬虫的人越来越多,一方面,互联网可以获取的数据越来越多,另一方面,像 Python这样的编程语言提供越来越多的优秀工具,让爬虫变得 ...
第一个nodejs爬虫：爬取豆瓣电影图片
第一个nodejs爬虫:爬取豆瓣电影图片存入本地: 首先在命令行下 npm install request cheerio express -save; 代码: var http = require( ...
python爬虫——爬取网页数据和解析数据
1.网络爬虫的基本概念网络爬虫(又称网络蜘蛛,机器人),就是模拟客户端发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序.只要浏览器能够做的事情,原则上,爬虫都能够做到. 2 ...
爬虫07 /scrapy图片爬取、中间件、selenium在scrapy中的应用、CrawlSpider、分布式、增量式
爬虫07 /scrapy图片爬取.中间件.selenium在scrapy中的应用.CrawlSpider.分布式.增量式目录爬虫07 /scrapy图片爬取.中间件.selenium在scrapy ...
一起学爬虫——如何爬取通过ajax加载数据的网站
目前很多网站都使用ajax技术动态加载数据,和常规的网站不一样,数据时动态加载的,如果我们使用常规的方法爬取网页,得到的只是一堆html代码,没有任何的数据. 请看下面的代码: url = 'http ...

随机推荐

matlab中struct创建方法
MATLAB中struct创建方法可分为:直接创建法和struct()函数创建法 (1)直接创建: 直接定义字段,像使用一般matlab变量一样,不需要事先声明,支持动态扩充.下面创建一个Studen ...
【WPF】一些拖拽实现方法的总结（Window，UserControl）
原文:[WPF]一些拖拽实现方法的总结(Window,UserControl) 原文地址 https://www.cnblogs.com/younShieh/p/10811456.html 前文本文 ...
android中SharedPreferences
SharedPreferences:用于存储少量并且数据格式简单,基本上都是普通的字符串,标量类型的值,比如:应用程序的各种配置信息等. SharedPreferences:保存的数据格式主要是key ...
vue组件库的基本开发步骤（源代码）
上次发布的随笔忘记提供源代码了,今天特地来补充,如果有什么问题,欢迎大家为我修改指正. vue.config.js文件: const path = require('path') function r ...
CSS3中的transform转换属性
属性 transition-property 定义对象中参与过度的属性 transition-delay 延迟 transition-duration 持续时间 transition-timing-f ...
ASP.NET MVC 学习笔记之TempData、HttpContext和HttpContextBase杂谈
TempData本质上是Session 但是有一点不同的是,TempData被赋值之后,一旦被Action访问一次之后,马上就会清空. System.Web.HttpContext 和System.W ...
使用truelicense实现用于JAVA工程license机制（包括license生成和验证）
开发的软件产品在交付使用的时候,往往会授权一段时间的试用期,这个时候license就派上用场了.不同于在代码中直接加上时间约束,需要重新授权的时候使用license可以避免修改源码,改动部署,授权方直 ...
Codeforces Round #568 (Div. 2) G2. Playlist for Polycarp (hard version)
因为不会打公式,随意就先将就一下? #include<cstdio> #include<algorithm> #include<iostream> #include ...
javascript笔记 (持续更新)
1. 语言主要分为两大类:编译型语言和解释型语言. 对于静态语言来说(如Java.C++.C),处理上述这些事情的叫编译器(Compiler),相应地对于JavaScript这样的动态语言则叫解释器( ...
hdu 3374 最大最小表示法 next
题目大意: 就是求一个串的最大最小表示法的开始下标,然后求有多少个做大最小表示,输出格式为最小表示下标它的个数最大表示下标它的个数基本思路: 最小最大表示法模板题,然后求一下循环节,很容易知 ...

sanic+aiohttp爬虫demo(爬图片，新闻，数据)

sanic+aiohttp爬虫demo(爬图片，新闻，数据)的更多相关文章

随机推荐

热门专题