爬虫之爬取斗鱼官网LOL部分主播的状态

一个爬虫小程序爬取主播的排名及观看人数

import re

import requests

import request

class Spider():

    url = 'https://www.douyu.com/g_lol'

    root_pattern = '<p>([\s\S]*?)</p>'

    name_pattern = '<span class="dy-name ellipsis fl">([\s\S]*?)</span>'

    number_pattern = '<span class="dy-num fr"  >([\s\S]*?)</span>'

    def __fetch_content(self):

        r = requests.get(Spider.url)

        htmls = r.text

        return htmls

    def __analysis(self, htmls):

        root_htmls = re.findall(Spider.root_pattern, htmls)

        anchors = []

        for html in root_htmls:

            name = re.findall(Spider.name_pattern, html)

            number = re.findall(Spider.number_pattern, html)

            anchor = {'name': name, 'number': number}

            anchors.append(anchor)

        return anchors

    def __refine(self, anchors):

        l = lambda anchor: {

            'name': anchor['name'][0],

            'number': anchor['number'][0]

            }

        return map(l, anchors)

    def __sort(self, anchors):

        anchors = sorted(anchors, key=self.__sort_seed, reverse=True)

        return anchors

    def __sort_seed(self, anchor):

        r = re.findall('\d*', anchor['number'])

        number = float(r[0])

        if '万' in anchor['number']:

            number *= 10000

        return number

    def __show(self, anchors):

        for rank in range(0, len(anchors)):

            print(

                '人数排名' + str(rank + 1)

                + ' : ' + anchors[rank]['name']

                + '~~~~~~' + anchors[rank]['number']

            )

    def go(self):

        htmls = self.__fetch_content()

        anchors = self.__analysis(htmls)

        anchors = list(self.__refine(anchors))

        anchors = self.__sort(anchors)

        self.__show(anchors)

spider = Spider()

spider.go()

运行结果：

喜欢的朋友们可以去看主播的排名啦

爬虫之爬取斗鱼官网LOL部分主播的状态的更多相关文章

初识python 之爬虫：爬取中国天气网数据
用到模块: 获取网页并解析:import requests,html5lib from bs4 import BeautifulSoup 使用pyecharts的Bar可视化工具"绘制图表& ...
爬虫实例——爬取煎蛋网OOXX频道（反反爬虫——伪装成浏览器）
煎蛋网在反爬虫方面做了不少工作,无法通过正常的方式爬取,比如用下面这段代码爬取无法得到我们想要的源代码. import requests url = 'http://jandan.net/ooxx' ...
python爬虫：爬取易迅网价格信息，并写入Mysql数据库
本程序涉及以下方面知识: 1.python链接mysql数据库:http://www.cnblogs.com/miranda-tang/p/5523431.html 2.爬取中文网站以及各种乱码处 ...
用python爬虫简单爬取笔趣网：类“起点网”的小说
首先:文章用到的解析库介绍 BeautifulSoup: Beautiful Soup提供一些简单的.python式的函数用来处理导航.搜索.修改分析树等功能. 它是一个工具箱,通过解析文档为用户提供 ...
scrapy实验1 爬取中国人寿官网新闻，保存为xml
一.scrapy 实验爬中国人寿新闻,保存为xml 如需转发,请注明出处:小婷儿的python https://www.cnblogs.com/xxtalhr/p/10517297.html 链 ...
实战爬取Plati官网游戏实时最低价格-Python
需要修改url中的id_r="这个",这个id需要从Battlefield V (plati.ru)中获取,其实也是这个链接中的#s24235. 配合了e-mail推送,其实这个e ...
python爬取虎牙直播颜值区美女主播照片
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 python免费学习资 ...
Python爬虫之爬取慕课网课程评分
BS是什么? BeautifulSoup是一个基于标签的文本解析工具.可以根据标签提取想要的内容,很适合处理html和xml这类语言文本.如果你希望了解更多关于BS的介绍和用法,请看Beautiful ...
网络爬虫之定向爬虫：爬取当当网2015年图书销售排行榜信息（Crawler）
做了个爬虫,爬取当当网--2015年图书销售排行榜 TOP500 爬取的基本思想是:通过浏览网页,列出你所想要获取的信息,然后通过浏览网页的源码和检查(这里用的是chrome)来获相关信息的节点,最后 ...

随机推荐

Python tqdm show progress bar
tqdm can help to show a smart progress bar, and it is very easy to use, just wrap any iterable with ...
清理SharePoint 2010的SQL Server 2008 R2日志数据库的方法
最近发现Sharepoint的数据库磁盘经常满,导致无法保存数据,经检查发现数据磁盘的所有日志文件远远大于数据文件,因此需要收缩日志文件,一开始利用图形化的收缩文件方式,只有收缩数据文件的大小,对于日 ...
缓存溢出Buffer Overflow
缓存溢出(Buffer overflow),是指在存在缓存溢出安全漏洞的计算机中,攻击者可以用超出常规长度的字符数来填满一个域,通常是内存区地址.在某些情况下,这些过量的字符能够作为“可执行”代码来运 ...
mysql数据库 BETWEEN 语法的用法和边界值解析
between用法: 用于where表达式中,选取两个值之间的数据,如: SELECT id FROM user WHERE id BETWEEN value1 AND value2; 当betwee ...
ubuntu git svn 缺少 subversion-perl
在命令行中输入以下命令:sudo apt-get install subversion-tools等待安装成功即可.
expected expression __bridge
版权声明:本文为博主原创文章,未经博主同意不得转载. https://blog.csdn.net/u013020103/article/details/30491117 expected expres ...
POJ 2531 深搜剪枝
题意:全局最大割. 分析:有相应的算法,数据量很小,可以枚举源点,汇点,最大流. 这里用DFS,状态定义:分成两个集合,刚开始S集合全部点,然后一个一个放,这是一个回溯的过程. 没剪枝也过了. 剪枝技 ...
【[SCOI2010]生成字符串】
\(n=m\)时候经典的卡特兰那\(n!=m\)呢,还是按照卡特兰的方式来推首先总情况数就是\(\binom{n+m}{n}\),在\(n+m\)个里选择\(n\)个\(1\) 显然有不合法的情况 ...
JAVA程序员常用软件类库下载地址整理
IT行业是个发展更新特别快的领域,每个程序员在职业生涯中都会经历各类技术和工具的更新迭代. 俗话说:工欲善其事,必先利其器.本着独乐乐不如众乐乐的精神(其实是自己健忘)本人把经常要用到的软件工具官方下 ...
【luogu P4231 三步必杀】题解
题目链接:https://www.luogu.org/problemnew/show/P4231 诶我很迷啊..这跟树状数组有什么关系啊...拿二阶差分数组过了..? #include <cs ...

爬虫之爬取斗鱼官网LOL部分主播的状态

爬虫之爬取斗鱼官网LOL部分主播的状态的更多相关文章

随机推荐

热门专题