selenium,webdriver爬取斗鱼主播信息实操

from selenium import webdriver

import time

from bs4 import BeautifulSoup

class douyuSelenium():

    #初始化,启动斗鱼浏览器

    def setUp(self):

        self.driver = webdriver.PhantomJS()

    #获取斗鱼房间信息

    def testDouyu(self):#'https://www.douyu.com/directory/all'

        self.driver.get('https://www.douyu.com/directory/all')

        while True:

            time.sleep(2)

            #指定解析器,生成一个soup对象

            soup = BeautifulSoup(self.driver.page_source,'lxml')

            #获取当前页面所有的房间标题,观众人数

            titles = soup.find_all('h3',{'class':'ellipsis'})

            nums = soup.find_all('span',{'class':'dy-num fr'})

            for title,num in zip(titles,nums):

                info = "房间标题:" + title.get_text().strip() + '\t' + "人气:" + num.get_text().strip()

                print(info)

            #下一页

            #查找下一页  在最后一页会有shark-pager-disable-next元素 表示没有下一页

            if self.driver.page_source.find('shark-pager-disable-next') != -1:

                break

            #点击 页面到下一页

            next_page = self.driver.find_element_by_class_name('shark-pager-next')

            next_page.click()

    def shutdown(self):

        print('加载完成...')

        #加载完成 退出浏览器

        self.driver.quit()

if __name__ == '__main__':

    douyu = douyuSelenium()

    douyu.setUp()

    douyu.testDouyu()

    douyu.shutdown()

selenium,webdriver爬取斗鱼主播信息实操的更多相关文章

『Scrapy』爬取斗鱼主播头像
分析目标爬取的是斗鱼主播头像,示范使用的URL似乎是个移动接口(下文有提到),理由是网页主页属于动态页面,爬取难度陡升,当然爬取斗鱼主播头像这么恶趣味的事也不是我的兴趣...... 目标URL如下, ...
爬虫之selenium爬取斗鱼主播图片
这是我GitHub上简单的selenium介绍与简单使用:https://github.com/bwyt/spider/tree/master/selenium%E5%9F%BA%E7%A1%80 & ...
【爬虫小程序：爬取斗鱼所有房间信息】Xpath
# 本程序亲测有效,用于理解爬虫相关的基础知识,不足之处希望大家批评指正from selenium import webdriver import time class Douyu: "&q ...
[python爬虫] Selenium定向爬取PubMed生物医学摘要信息
本文主要是自己的在线代码笔记.在生物医学本体Ontology构建过程中,我使用Selenium定向爬取生物医学PubMed数据库的内容. PubMed是一个免费的搜寻引擎,提供生物医学方 ...
【爬虫小程序：爬取斗鱼所有房间信息】Xpath(多进程版)
# 本程序亲测有效,用于理解爬虫相关的基础知识,不足之处希望大家批评指正 import requests from lxml import etree from multiprocessing imp ...
【爬虫小程序：爬取斗鱼所有房间信息】Xpath(协程池版)
# 本程序亲测有效,用于理解爬虫相关的基础知识,不足之处希望大家批评指正 from gevent import monkey monkey.patch_all() from gevent.pool i ...
【爬虫小程序：爬取斗鱼所有房间信息】Xpath(线程池版)
# 本程序亲测有效,用于理解爬虫相关的基础知识,不足之处希望大家批评指正 from queue import Queue import requests from lxml import etree ...
【爬虫小程序：爬取斗鱼所有房间信息】Xpath(多线程版)
# 本程序亲测有效,用于理解爬虫相关的基础知识,不足之处希望大家批评指正 from queue import Queue import requests from lxml import etree ...
python实战之原生爬虫(爬取熊猫主播排行榜)
""" this is a module,多行注释 """ import re from urllib import request # B ...

随机推荐

【接口工具】接口抓包工具之Charles
上篇我们讲了Fiddler,Fiddler是用C#开发的,所以Fiddler不能在Mac系统中运行,没办法直接用Fiddler来截获MAC系统中的HTTP/HTTPS, Mac 用户怎么办呢? 1.F ...
Jenkins windows 执行批量cmd命令XCOPY 提示'XCOPY' 不是内部或外部命令，也不是可运行的程序或批处理文件。
由于Jenkins没有配置环境变量造成打开Jenkins=>Manage Jenkins =>Configure System =>全局属性新增全局变量健: Path 值: % ...
falcon的api
一.判断session是否有效 # -*- coding: UTF- -*- #!/usr/bin/env python # Created by Administrator on // import ...
Linux文件行排序
sort:对文件的行排序 - 准备一份文件:char.txt - sort char.txt:结果会按照头字母顺序排 - sort -o sortchar.txt char.txt:排序char.tx ...
七、WebApi跨域操作
情景:测试后返回"no response from server"? 请求响应: js调试控制台: 一.搜索安装 Microsoft.AspNet.WebApi.Cors 二.添加 ...
[HNOI2015]亚瑟王（概率dp）
题面太长了就不复制了,传送门一道做了还是很懵逼的题目,感觉以后碰到类似的还是不会,果然HNOI题目很皮. 题解传送补充一下吧.//感觉他的博客已经写得很好了......Orz 需要的可以两边一起看 ...
Djano中static和media文件路径的设置
对于常用的css.js.image和常用的工具类在django项目中要设置一个全局的路径,对所有的app都可以访问到这个路径下的文件 1在django项目的setting文件中设置对应的static和 ...
mangodb语句
{ field: { $exists: <boolean> } }
环境变量，env, set
separate: win(;), linux(:) liunx 写 export PYTHONPATH=.:./lib:./libraryexport http_proxy=http://proxy ...
Java线程通信-生产者消费者问题
线程通信示例——生产者消费者问题这类问题描述了一种情况,假设仓库中只能存放一件产品,生产者将生产出来的产品放入仓库,消费者将仓库中的产品取走消费.假设仓库中没有产品,则生产者可以将产品放入仓库,有 ...

selenium,webdriver爬取斗鱼主播信息 实操

selenium,webdriver爬取斗鱼主播信息 实操的更多相关文章

随机推荐

热门专题

selenium,webdriver爬取斗鱼主播信息实操

selenium,webdriver爬取斗鱼主播信息实操的更多相关文章