使用Python自带的库和正则表达式爬取熊猫直播主播观看人气

主要是体现代码的规范性

from urllib import request

import re

class Spider():

    url = 'https://www.panda.tv/cate/lol'

    root_pattern = '<div class="video-info">([\s\S]*?)</div>'

    name_pattern = '</i>([\s\S]*?)</span>'

    number_pattern = '<span class="video-number">([\s\S]*?)</span>'

    def __fetch_content(self):

        r = request.urlopen(Spider.url)

        htmls = r.read()

        htmls = str(htmls, encoding='utf-8')

        return htmls

    def __analysis(self, htmls):

        root_html = re.findall(Spider.root_pattern, htmls)

        anchors = []

        for html in root_html:

            name = re.findall(Spider.name_pattern, html)

            number = re.findall(Spider.number_pattern, html)

            anchor = {"name": name, "number": number}

            anchors.append(anchor)

        # print(root_html[1])

        # print(anchors[1])

        return anchors

    def __refine(self, anchors):

        L = lambda anchor: {"name": anchor['name'][0].strip(), 'number': anchor['name'][1]}

        return map(L, anchors)

    def __sort(self, anchors):

        anchors = sorted(anchors, key=self.__sort_seed, reverse=True)

        return anchors

    def __sort_seed(self, anchor):

        r = re.findall("\d*", anchor["number"])

        number = float(r[0])

        if '万' in anchor['number']:

            number = number * 10000

        return number

    def __show(self, anchors):

        for rank in range(0, len(anchors)):

            print("排名："+str(rank+1)+"  主播：" + anchors[rank]['name'] +

                  "--------" + "观看人数：" +

                  anchors[rank]['number'])

    def go(self):

        htmls = self.__fetch_content()

        anchors = self.__analysis(htmls)

        anchors = list(self.__refine(anchors))

        anchors = self.__sort(anchors)

        self.__show(anchors)

        print(len(anchors))

        # print(anchors)

spider = Spider()

spider.go()

使用Python自带的库和正则表达式爬取熊猫直播主播观看人气的更多相关文章

PYTHON 爬虫笔记八:利用Requests+正则表达式爬取猫眼电影top100（实战项目一）
利用Requests+正则表达式爬取猫眼电影top100 目标站点分析流程框架爬虫实战使用requests库获取top100首页: import requests def get_one_pag ...
python 3.6 urllib库实现天气爬取、邮件定时给妹子发送天气
#由于每天早上要和妹子说早安,于是做个定时任务,每天早上自动爬取天气,发送天气问好邮件##涉及模块:#(1)定时任务:windows的定时任务# 配置教程链接:http://b ...
爬虫基本库request使用—爬取猫眼电影信息
使用request库和正则表达式爬取猫眼电影信息. 1.爬取目标猫眼电影TOP100的电影名称,时间,评分,等信息,将结果以文件存储. 2.准备工作安装request库. 3.代码实现 impor ...
[python] 常用正则表达式爬取网页信息及分析HTML标签总结【转】
[python] 常用正则表达式爬取网页信息及分析HTML标签总结转http://blog.csdn.net/Eastmount/article/details/51082253 标签: pytho ...
初识python 之爬虫：使用正则表达式爬取“糗事百科 - 文字版”网页数据
初识python 之爬虫:使用正则表达式爬取"古诗文"网页数据的兄弟篇. 详细代码如下: #!/user/bin env python # author:Simple-Sir ...
初识python 之爬虫：使用正则表达式爬取“古诗文”网页数据
通过requests.re(正则表达式) 爬取"古诗文"网页数据. 详细代码如下: #!/user/bin env python # author:Simple-Sir # tim ...
[Python爬虫] 使用 Beautiful Soup 4 快速爬取所需的网页信息
[Python爬虫] 使用 Beautiful Soup 4 快速爬取所需的网页信息 2018-07-21 23:53:02 larger5 阅读数 4123更多分类专栏: 网络爬虫版权声明: ...
14-Requests+正则表达式爬取猫眼电影
'''Requests+正则表达式爬取猫眼电影TOP100''''''流程框架:抓去单页内容:利用requests请求目标站点,得到单个网页HTML代码,返回结果.正则表达式分析:根据HTML代码分析 ...
第三百三十节，web爬虫讲解2—urllib库爬虫—实战爬取搜狗微信公众号—抓包软件安装Fiddler4讲解
第三百三十节,web爬虫讲解2—urllib库爬虫—实战爬取搜狗微信公众号—抓包软件安装Fiddler4讲解封装模块 #!/usr/bin/env python # -*- coding: utf- ...

随机推荐

Restful概念
文章节选自: http://www.ruanyifeng.com/blog/2011/09/restful https://www.zhihu.com/question/28557115/answer ...
机器学习实战python3 决策树ID3
代码及数据:https://github.com/zle1992/MachineLearningInAction 决策树优点:计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关特 ...
对Java CAS的一些了解（正在整理学习中）
①引言在JDK 5之前Java语言是靠synchronized关键字保证同步的,这会导致有锁锁机制存在以下问题: (1)在多线程竞争下,加锁.释放锁会导致比较多的上下文切换和调度延时,引起性能问题 ...
linux堆栈
linux堆栈进程(执行的程序)会占用一定数量的内存,它或是用来存放从磁盘载入的程序代码,或是存放取自用户输入的数据等等.不过进程对这些内存的管理方式因内存用途不一而不尽相同,有些内存是事先静态 ...
maven常见指令和插件
总结自:https://www.cnblogs.com/ysocean/p/7416307.html#_label1及 https://blog.csdn.net/zhaojianting/artic ...
20145329 《Java程序设计》实验一总结
实验指导教师:娄嘉鹏老师实验日期:2016.4.8 实验时间:16:30~18:30 实验序号:实验一实验名称:Java开发环境的熟悉实验目的与要求: 使用JDK编译.运行简单的Java程序. ...
20145329 《Java程序设计》第五周学习总结
20145329 <Java程序设计>第五周学习总结教材学习内容总结第八章 Java异常处理是要处理Exception类及其子类(Checked Exception),RuntimeE ...
jQuery的$.each()遍历checkbox
$("input[type='checkbox']").each(function(){ var value = $(this).val(); //获得值 $(this).attr ...
windows环境下mysql的解压安装以及备份和还原
系统环境为server2012 1.下载mysql解压版,解压安装包到指定目录 2.在以上目录中,复制一份my-default.ini文件,重命名为my.ini,进行如下修改(按照需要): [mysq ...
jqGrid入门简单使用
jqGrid中文API:https://blog.mn886.net/jqGrid/ 这里没有请求后台,是直接读取本地.json文件就两个文件,一个html.一个json文件,jquery是jqgr ...

使用Python自带的库和正则表达式爬取熊猫直播主播观看人气

使用Python自带的库和正则表达式爬取熊猫直播主播观看人气的更多相关文章

随机推荐

热门专题