scrapy--json(喜马拉雅Fm)(二)

学习了对数据的储存,感觉还不够深入,昨天开始对储存数据进行提取、整合和图像化显示。实例还是喜马拉雅Fm,算是对之前数据爬取之后的补充。

明确需要解决的问题

1,蕊希电台全部作品的进行储存       --scrapy爬取:作品id(trackid),作品名称(title),播放量playCount

2,储存的数据进行提取,整合              --pandas运用:提取出trackid,playCount;对播放量进行排序,找出最高播放量(palyCount)的作品

3.整合的数据图像化显示 　　　　    --matplotlib图像化,清楚的查看哪些作品最受欢迎:trackid作为x轴,播放量(playCount)作为y轴

三、给大家看下成果

3.1_蕊希电台所有作品数(369)

3.2_全部储存到mongoDB数据库

3.3_导出csv文件:mongoexport -d ruixi -c ruixi -f trackid,playc --csv -o Desktop\ruixi.csv

3.4_图像化显示

二、items.py,middlewares.py就不讲了,可以看我之前的博客;重点说一下其他3个文件

2.1_爬虫文件:spiders/ruixi.py

# -*- coding: utf-8 -*-

import scrapy

from Ruixi.items import RuixiItem

import json

from Ruixi.settings import USER_AGENT

import re

class RuixiSpider(scrapy.Spider):

    name = 'ruixi'

    allowed_domains = ['www.ximalaya.com']

    start_urls = ['https://www.ximalaya.com/revision/track/trackPageInfo?trackId=129503750']

    def parse(self, response):

        ruixi = RuixiItem()

        #使用json,提取需要文件

        ruixi['trackid'] = json.loads(response.body)['data']['trackInfo']['trackId']

        ruixi['title']   = json.loads(response.body)['data']['trackInfo']['title']

        ruixi['playc']   = json.loads(response.body)['data']['trackInfo']["playCount"]

        yield ruixi

        #对当前页面的trackid进行提取,生成新的url,跳转至下一链接,继续提取

        for each_item in json.loads(response.body)['data']["moreTracks"]:

            each_trackid = each_item['trackId']

            new_url = 'https://www.ximalaya.com/revision/track/trackPageInfo?trackId=' + str(each_trackid)

            yield scrapy.Request(new_url,callback=self.parse)

2.2_管道文件配置:pipelines.py

# -*- coding: utf-8 -*-

# Define your item pipelines here

#

# Don't forget to add your pipeline to the ITEM_PIPELINES setting

# See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html

import scrapy

import pymongo

from scrapy.item import Item

from scrapy.exceptions import DropItem

import codecs

import json

from openpyxl import Workbook

#储存之前,进行去重处理

class DuplterPipeline():

    def __init__(self):

        self.set = set()

    def process_item(self,item,spider):

        name = item['trackid']

        if name in self.set():

            raise DropItem('Dupelicate the items is%s' % item)

        self.set.add(name)

        return item

class RuixiPipeline(object):

    def process_item(self, item, spider):

        return item

#存储到mongodb中

class MongoDBPipeline(object):

    @classmethod

    def from_crawler(cls,crawler):

        cls.DB_URL = crawler.settings.get("MONGO_DB_URL",'mongodb://localhost:27017/')

        cls.DB_NAME = crawler.settings.get("MONGO_DB_NAME",'scrapy_data')

        return cls()

    def open_spider(self,spider):

        self.client = pymongo.MongoClient(self.DB_URL)

        self.db     = self.client[self.DB_NAME]

    def close_spider(self,spider):

        self.client.close()

    def process_item(self,item,spider):

        collection = self.db[spider.name]

        post = dict(item) if isinstance(item,Item) else item

        collection.insert(post)

        return item

#储存至.Json文件

class JsonPipeline(object):

    def __init__(self):

        self.file = codecs.open('data_cn.json', 'wb', encoding='gb2312')

    def process_item(self, item, spider):

        line = json.dumps(dict(item)) + '\n'

        self.file.write(line.decode("unicode_escape"))

        return item

#储存至.xlsx文件

class XlsxPipeline(object):  # 设置工序一

    def __init__(self):

        self.wb = Workbook()

        self.ws = self.wb.active

    def process_item(self, item, spider):  # 工序具体内容

        line = [item['trackid'], item['title'], item['playc']]  # 把数据中每一项整理出来

        self.ws.append(line)  # 将数据以行的形式添加到xlsx中

        self.wb.save('ruixi.xlsx')  # 保存xlsx文件

        return item

2.3_设置文件:settings.py

MONGO_DB_URL = 'mongodb://localhost:27017/'

MONGO_DB_NAME = 'ruixi'

FEED_EXPORT_ENCODING = 'utf-8'

USER_AGENT =[       #设置浏览器的User_agent

    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1",

    "Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11",

    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1092.0 Safari/536.6",

    "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1090.0 Safari/536.6",

    "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/19.77.34.5 Safari/537.1",

    "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.9 Safari/536.5",

    "Mozilla/5.0 (Windows NT 6.0) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.36 Safari/536.5",

    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",

    "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",

    "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_0) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",

    "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",

    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",

    "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",

    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",

    "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",

    "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.0 Safari/536.3",

    "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24",

    "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24"

]

FEED_EXPORT_FIELDS = ['trackid','title','playc']

ROBOTSTXT_OBEY = False

CONCURRENT_REQUESTS = 10

DOWNLOAD_DELAY = 0.5

COOKIES_ENABLED = False

# Crawled (400) <GET https://www.cnblogs.com/eilinge/> (referer: None)

DEFAULT_REQUEST_HEADERS = 
{ 
'User-Agent': random.choice(USER_AGENT), 
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8', 
'Accept-Language': 'en', 
}

DOWNLOADER_MIDDLEWARES = 
{

    'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware':543,

    'Ruixi.middlewares.RuixiSpiderMiddleware': 144,

}

ITEM_PIPELINES = 
{

    'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware':1,

    'Ruixi.pipelines.DuplterPipeline': 290,

    'Ruixi.pipelines.MongoDBPipeline': 300,

    'Ruixi.pipelines.JsonPipeline':301,

    'Ruixi.pipelines.XlsxPipeline':302,

}

2.4_生成报表

#-*- coding:utf-8 -*-

import matplotlib as mpl

import numpy as np

import pandas as pd

import matplotlib.pyplot as plt

import pdb

df = pd.read_csv("ruixi.csv")

df1= df.sort_values(by='playc',ascending=False)

df2 = df1.iloc[:10,:]

df2.plot(kind='bar',x='trackid',y='playc',alpha=0.6) 
plt.xlabel("trackId") 
plt.ylabel("playc") 
plt.title("ruixi") 
plt.show()

scrapy--json(喜马拉雅Fm)(二)的更多相关文章

scrapy--json(喜马拉雅Fm)
已经开始听喜马拉雅Fm电台有2个月,听里面的故事,感觉能听到自己,特别是蕊希电台,始于声音,陷于故事,忠于总结.感谢喜马拉雅Fm陪我度过了这2个月,应该是太爱了,然后就开始对Fm下手了.QAQ 该博客 ...
喜马拉雅FM抓包之旅
一.概述最近学院组织安排大面积实习工作,今天刚刚发布了喜马拉雅FM实习生招聘的面试通知.通知要求:公司采用开放式题目的方式进行筛选,申请的同学须完成如下题目写程序输出喜马拉雅FM上与"卓 ...
[HMLY]5.模仿喜马拉雅 FM
项目介绍: 文:HansRove(github)XiMaLaYa-by-HansRove- 仿做喜马拉雅, 对AVFoundation框架的一次尝试软件环境: iOS9.1硬件环境: Mac O ...
scrapy爬虫学习系列二：scrapy简单爬虫样例学习
系列文章列表: scrapy爬虫学习系列一:scrapy爬虫环境的准备: http://www.cnblogs.com/zhaojiedi1992/p/zhaojiedi_python_00 ...
scrapy基本使用（二）
scrapy基本使用(二) 参考链接: http://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/tutorial.html#id5 scrapy基本使用(一 ...
喜马拉雅FM接入
最近有考虑接入,但是一方面由于沟通不畅等,另一方面没有浏览开发者协议,品牌规范等,多走了很多弯路,所以记下接入的注意事项和关键点一. 接入前准备工作喜马拉雅FM开放平台地址:http://open ...
iOS涂色涂鸦效果、Swift仿喜马拉雅FM、抽屉转场动画、拖拽头像、标签选择器等源码
iOS精选源码 LeeTagView 标签选择控件为您的用户显示界面添加美观的加载视图 Swift4: 可拖动头像,增加物理属性 Swift版抽屉效果,自定义转场动画管理器 Swift 仿写喜马拉雅 ...
iOS仿喜马拉雅FM做的毕业设计及总结（含新手福利源码）
其实仿喜马拉雅FM很早就开始了,从我刚接触iOS开始,就开始仿做了一部分,眼尖的人都从我的github找到了那个项目.随着找到实习iOS工作,仿写就落下了,但唯一的收获就是给过去打了一个响亮的耳光,因 ...
JY播放器【喜马拉雅FM电脑端，附带下载功能】
今天给大家带来一款神器----JY播放器.可以不用打开网页就在电脑端听喜马拉雅FM的节目,而且可以直接下载,对于我这种强迫症患者来说真的是神器.我是真的不喜欢电脑任务栏上面密密麻麻的. 目前已经支持平 ...

随机推荐

总结spring
通过对spring的学习什么是spring Spring是一个基于IOC和AOP的结构J2EE系统的框架 IOC 反转控制是Spring的基础,Inversion Of Control 简单说就是 ...
Spring-cloud微服务 Eureka学习教程-单服务器配置之快速搭建EurekaServer、EurekaClient（基础）
以下实例代码下载地址:https://github.com/wades2/EurekaDemo Eureka是Spring Cloud Netflix的一个子模块,也是核心模块之一.用于云端服务发现, ...
解决jQuery在chrome中获取height为0
笔者之前在一家创业公司做过项目,当时遇到这么一个奇怪的问题,我需要用一个jQuery的height()方法获取一个div的高度,但是在chrome浏览器上面有时可以正常获取,但是同一个页面刷新多几次获 ...
Javascript与jQuery
什么是Javascript? Javascript简称js是用于网页前端的脚本语言,几乎所有的网页动画.特效都是由Javascirpt实现的. 什么是jQuery? jQuery是一个非常棒的js框架 ...
DIV三列同行
<!doctype html> <html lang="en"> <head> <meta charset="UTF-8&quo ...
form提交
方法一:利用form的onsubmit()函数(经常使用) <script type="text/javascript"> function validateForm( ...
linux脚本的source和reload
什么时候用reload?有些程序, 当你修改了配置文件后, 需要重启之后, 配置才能生效,但是这个程序又不能重启 , 如大公司的httpd服务因此, 当你修改完了之后, 需要在不重启服务的情况下 ...
attachEvent方法的作用
用于HTML内代码层和UI层分离.比如,你要给一个按钮增加一个单击事件,你会怎么做?<input type="button" id="theBtn" va ...
StringBuffer和StringBuilder区别？
1. String是不可变类,改变String变量中的值,相当于开辟了新的空间存放新的string变量 2. StringBuffer 可变的类,可以通过append方法改变变量的值,且StringB ...
类型信息（RTTI和反射）——RTTI
运行时类型信息可以让你在程序运行时发现和使用类型信息. 在Java中运行时识别对象和类的信息有两种方式:传统的RTTI,以及反射.下面就先来说下RTTI. 1.RTTI: RTTI:在运行时,识别一个 ...

scrapy--json(喜马拉雅Fm)(二)

scrapy--json(喜马拉雅Fm)(二)的更多相关文章

随机推荐

热门专题