爬虫之爬取斗鱼官网LOL部分主播的状态

一个爬虫小程序爬取主播的排名及观看人数

import re

import requests

import request

class Spider():

    url = 'https://www.douyu.com/g_lol'

    root_pattern = '<p>([\s\S]*?)</p>'

    name_pattern = '<span class="dy-name ellipsis fl">([\s\S]*?)</span>'

    number_pattern = '<span class="dy-num fr"  >([\s\S]*?)</span>'

    def __fetch_content(self):

        r = requests.get(Spider.url)

        htmls = r.text

        return htmls

    def __analysis(self, htmls):

        root_htmls = re.findall(Spider.root_pattern, htmls)

        anchors = []

        for html in root_htmls:

            name = re.findall(Spider.name_pattern, html)

            number = re.findall(Spider.number_pattern, html)

            anchor = {'name': name, 'number': number}

            anchors.append(anchor)

        return anchors

    def __refine(self, anchors):

        l = lambda anchor: {

            'name': anchor['name'][0],

            'number': anchor['number'][0]

            }

        return map(l, anchors)

    def __sort(self, anchors):

        anchors = sorted(anchors, key=self.__sort_seed, reverse=True)

        return anchors

    def __sort_seed(self, anchor):

        r = re.findall('\d*', anchor['number'])

        number = float(r[0])

        if '万' in anchor['number']:

            number *= 10000

        return number

    def __show(self, anchors):

        for rank in range(0, len(anchors)):

            print(

                '人数排名' + str(rank + 1)

                + ' : ' + anchors[rank]['name']

                + '~~~~~~' + anchors[rank]['number']

            )

    def go(self):

        htmls = self.__fetch_content()

        anchors = self.__analysis(htmls)

        anchors = list(self.__refine(anchors))

        anchors = self.__sort(anchors)

        self.__show(anchors)

spider = Spider()

spider.go()

运行结果：

喜欢的朋友们可以去看主播的排名啦

爬虫之爬取斗鱼官网LOL部分主播的状态的更多相关文章

初识python 之爬虫：爬取中国天气网数据
用到模块: 获取网页并解析:import requests,html5lib from bs4 import BeautifulSoup 使用pyecharts的Bar可视化工具"绘制图表& ...
爬虫实例——爬取煎蛋网OOXX频道（反反爬虫——伪装成浏览器）
煎蛋网在反爬虫方面做了不少工作,无法通过正常的方式爬取,比如用下面这段代码爬取无法得到我们想要的源代码. import requests url = 'http://jandan.net/ooxx' ...
python爬虫：爬取易迅网价格信息，并写入Mysql数据库
本程序涉及以下方面知识: 1.python链接mysql数据库:http://www.cnblogs.com/miranda-tang/p/5523431.html 2.爬取中文网站以及各种乱码处 ...
用python爬虫简单爬取笔趣网：类“起点网”的小说
首先:文章用到的解析库介绍 BeautifulSoup: Beautiful Soup提供一些简单的.python式的函数用来处理导航.搜索.修改分析树等功能. 它是一个工具箱,通过解析文档为用户提供 ...
scrapy实验1 爬取中国人寿官网新闻，保存为xml
一.scrapy 实验爬中国人寿新闻,保存为xml 如需转发,请注明出处:小婷儿的python https://www.cnblogs.com/xxtalhr/p/10517297.html 链 ...
实战爬取Plati官网游戏实时最低价格-Python
需要修改url中的id_r="这个",这个id需要从Battlefield V (plati.ru)中获取,其实也是这个链接中的#s24235. 配合了e-mail推送,其实这个e ...
python爬取虎牙直播颜值区美女主播照片
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 python免费学习资 ...
Python爬虫之爬取慕课网课程评分
BS是什么? BeautifulSoup是一个基于标签的文本解析工具.可以根据标签提取想要的内容,很适合处理html和xml这类语言文本.如果你希望了解更多关于BS的介绍和用法,请看Beautiful ...
网络爬虫之定向爬虫：爬取当当网2015年图书销售排行榜信息（Crawler）
做了个爬虫,爬取当当网--2015年图书销售排行榜 TOP500 爬取的基本思想是:通过浏览网页,列出你所想要获取的信息,然后通过浏览网页的源码和检查(这里用的是chrome)来获相关信息的节点,最后 ...

随机推荐

python 初识
一.Python介绍 Python简介 Python的创始人为吉多·范罗苏姆(Guido van Rossum).1989年的圣诞节期间,吉多·范罗苏姆为了在阿姆斯特丹打发时间,决心开发一个新的脚本解 ...
JSTL标签概述
什么是JSTL JSP 标准标记库(JSP Standard Tag Library,JSTL)是一个实现 Web 应用程序中常见的通用功能的定制标记库集,这些功能包括迭代和条件判断.数据管理格式化. ...
day008-File文件
1. File 文件和目录路径名的抽象表示形式. 一个File类对象就代表了一个文件或文件夹. 1.1 File类的作用用来操作硬盘上的文件或文件夹绝对路径:一般是以盘符开始的,比如:C:/Jav ...
IE浏览器下 Vue2.x 和 Angular 应用无法打开
报错信息:SCRIPT5022: 引发了异常但未捕获 polyfills.bundle.js (861,36) 原因是es6报错,需要引用 polyfill. Vue项目中,$ npm install ...
增强for循环 java.util.ConcurrentModificationException
Java中的Iterator功能比较简单,并且只能单向移动: (1) 使用方法iterator()要求容器返回一个Iterator.第一次调用Iterator的next()方法时,它返回序列的第一个元 ...
第一次团队Scrum
长大一条龙之成绩查询一.项目介绍本项目的意义在于锻炼团队的scrum能力,加强团队合作能力.确定本项目采用的 ...
python接口测试-项目实践（一）测试需求与测试思路
测试需求: 第三方系统提供了3个接口,需要测试前端显示的字符串里的对应数据与接口数据是否一致. 测试分层: 开发人员的设计:每周从接口取一次数据,拼接完成后保存到数据库.再从数据库取数提供接口给前端开 ...
搭建packagist私服和composer
1.下载源码 https://github.com/composer/packagist 2.修改配置文件 cp app/config/parameters.yml.dist app/config/ ...
ubuntu git svn 缺少 subversion-perl
在命令行中输入以下命令:sudo apt-get install subversion-tools等待安装成功即可.
ZOJ 2386 容斥原理
题意:给出n个数,和m(1<=m<=200 000 000),求1~M中能被这n个数其中任意一个数整除的个数: 分析:n范围很小,可以枚举选择被哪些数整除,被奇数个整数整除加m/这个n个数 ...

爬虫之爬取斗鱼官网LOL部分主播的状态

爬虫之爬取斗鱼官网LOL部分主播的状态的更多相关文章

随机推荐

热门专题