selenium,webdriver爬取斗鱼主播信息实操

from selenium import webdriver

import time

from bs4 import BeautifulSoup

class douyuSelenium():

    #初始化,启动斗鱼浏览器

    def setUp(self):

        self.driver = webdriver.PhantomJS()

    #获取斗鱼房间信息

    def testDouyu(self):#'https://www.douyu.com/directory/all'

        self.driver.get('https://www.douyu.com/directory/all')

        while True:

            time.sleep(2)

            #指定解析器,生成一个soup对象

            soup = BeautifulSoup(self.driver.page_source,'lxml')

            #获取当前页面所有的房间标题,观众人数

            titles = soup.find_all('h3',{'class':'ellipsis'})

            nums = soup.find_all('span',{'class':'dy-num fr'})

            for title,num in zip(titles,nums):

                info = "房间标题:" + title.get_text().strip() + '\t' + "人气:" + num.get_text().strip()

                print(info)

            #下一页

            #查找下一页  在最后一页会有shark-pager-disable-next元素 表示没有下一页

            if self.driver.page_source.find('shark-pager-disable-next') != -1:

                break

            #点击 页面到下一页

            next_page = self.driver.find_element_by_class_name('shark-pager-next')

            next_page.click()

    def shutdown(self):

        print('加载完成...')

        #加载完成 退出浏览器

        self.driver.quit()

if __name__ == '__main__':

    douyu = douyuSelenium()

    douyu.setUp()

    douyu.testDouyu()

    douyu.shutdown()

selenium,webdriver爬取斗鱼主播信息实操的更多相关文章

『Scrapy』爬取斗鱼主播头像
分析目标爬取的是斗鱼主播头像,示范使用的URL似乎是个移动接口(下文有提到),理由是网页主页属于动态页面,爬取难度陡升,当然爬取斗鱼主播头像这么恶趣味的事也不是我的兴趣...... 目标URL如下, ...
爬虫之selenium爬取斗鱼主播图片
这是我GitHub上简单的selenium介绍与简单使用:https://github.com/bwyt/spider/tree/master/selenium%E5%9F%BA%E7%A1%80 & ...
【爬虫小程序：爬取斗鱼所有房间信息】Xpath
# 本程序亲测有效,用于理解爬虫相关的基础知识,不足之处希望大家批评指正from selenium import webdriver import time class Douyu: "&q ...
[python爬虫] Selenium定向爬取PubMed生物医学摘要信息
本文主要是自己的在线代码笔记.在生物医学本体Ontology构建过程中,我使用Selenium定向爬取生物医学PubMed数据库的内容. PubMed是一个免费的搜寻引擎,提供生物医学方 ...
【爬虫小程序：爬取斗鱼所有房间信息】Xpath(多进程版)
# 本程序亲测有效,用于理解爬虫相关的基础知识,不足之处希望大家批评指正 import requests from lxml import etree from multiprocessing imp ...
【爬虫小程序：爬取斗鱼所有房间信息】Xpath(协程池版)
# 本程序亲测有效,用于理解爬虫相关的基础知识,不足之处希望大家批评指正 from gevent import monkey monkey.patch_all() from gevent.pool i ...
【爬虫小程序：爬取斗鱼所有房间信息】Xpath(线程池版)
# 本程序亲测有效,用于理解爬虫相关的基础知识,不足之处希望大家批评指正 from queue import Queue import requests from lxml import etree ...
【爬虫小程序：爬取斗鱼所有房间信息】Xpath(多线程版)
# 本程序亲测有效,用于理解爬虫相关的基础知识,不足之处希望大家批评指正 from queue import Queue import requests from lxml import etree ...
python实战之原生爬虫(爬取熊猫主播排行榜)
""" this is a module,多行注释 """ import re from urllib import request # B ...

随机推荐

swagger2文档使用
①.导入依赖 <dependency> <groupId>io.springfox</groupId> <artifactId>springfox-sw ...
11、numpy——字符串函数
NumPy 字符串函数以下函数用于对 dtype 为 numpy.string_ 或 numpy.unicode_ 的数组执行向量化字符串操作. 它们基于 Python 内置库中的标准字符串函数. ...
NEO4J -模糊查询
模糊查询 match(emp) where emp.name =~'.*haha.*' return emp 现有节点创建关系 MATCH (cust:Customer),(cc:CreditCard ...
ECharts 图表导出
Echarts图形是由Javascript亲自在前端网页上绘制的 1.用ECharts配置项手册中的toolbox.feature.saveAsImage toolbox: { show: true, ...
【问题解决方案】关于Python中的语句 ' %matplotlib inline '
跟进小项目#GirlsInAI#-可视化时遇到的语句,之前没有遇到过在Stack Overflow上看到了一个解释: IPython有一组预定义的"魔术函数",您可以使用命令行样 ...
全栈开发系列学习2——django项目搭建
项目代码:http://yunpan.cn/cHajgT4HvgHqx (提取码:8350) 配置项目: 1. 首先确保你的机器安装了python和pip,这两种安装比较简单,这里就不说了. 2. 在 ...
关于手机端在同一个Grid中使用不同的布局展现即Layout的使用
标题可能说的不是很清楚,我举个栗子好了,现在你正在写手机端的一个审批模块,这个模块要求能够展示所有待审批的信息比如出差申请,请假申请,加班申请,以及报销申请那么我的思路有两个 1:建立一个Tab页 ...
TCP为什么会采用三次握手，若采用二次握手可以吗？
建立连接的过程是利用C/S(客户机/服务器)模式,假设A为客户端,B为服务器端. TCP是采用三次握手进行连接的,简要说明该过程: (1) A向B发送连接请求 (2) B对收的的A的报文段进行确认 ( ...
springboot dubbo logback shutdownhook简单总结
public class Test { public static void main(String[] args){ System.out.println("1: Main start ...
接口需要上一个接口的返回值（unittest）
import unittest,requests ''' 使用unittest框架的时候,这个接口需要上一个接口的返回值 ''' class Test_case(unittest.TestCase): ...

selenium,webdriver爬取斗鱼主播信息 实操

selenium,webdriver爬取斗鱼主播信息 实操的更多相关文章

随机推荐

热门专题

selenium,webdriver爬取斗鱼主播信息实操

selenium,webdriver爬取斗鱼主播信息实操的更多相关文章