Python 之selenium+phantomJS斗鱼抓取案例

from selenium import webdriver

from bs4 import BeautifulSoup

import time

if __name__ == '__main__':

    driver = webdriver.PhantomJS()

    driver.get("https://www.douyu.com/directory/all")

    count = 0  # 总页数

    total = 0  # 房间数

    time.sleep(5)

    while True:

        # 判断是否到达尾页，如果是true，则推出循环

        attr = driver.find_element_by_css_selector(".dy-Pagination-next").get_attribute("aria-disabled")

        if "true" in attr:

            break

        try:

            page_count = 0 # 记录每页多少条数据

            # 解析html

            soup = BeautifulSoup(driver.page_source, "lxml")

            names = soup.find_all("h2", attrs={"class": "DyListCover-user"})

            looks = soup.find_all("span", attrs={"class": "DyListCover-hot"})

            for name, look in zip(names, looks):

                print("房间：" + name.get_text() + "\t人数：" + look.get_text())

                total += 1

                page_count += 1

            count += 1

            print("==================第%s页，每页%s条数据==================" % (str(count), str(page_count)))

            # 保存每一页的图片

            driver.save_screenshot("./douyu/douyu_%s.png" % str(count))

            # 点击下一页

            driver.find_element_by_css_selector(".dy-Pagination-next").click()

            # 等待数据加载完毕

            time.sleep(3)

        except RuntimeError as e:

            print(e)

    print("总页数：" + str(count))

    print("总房间数：" + str(total))

结果如图：

Python 之selenium+phantomJS斗鱼抓取案例的更多相关文章

数据抓取的艺术（一）：Selenium+Phantomjs数据抓取环境配置
数据抓取的艺术(一):Selenium+Phantomjs数据抓取环境配置 2013-05-15 15:08:14 分类: Python/Ruby 数据抓取是一门艺术,和其他软件不同,世界上 ...
Python开发爬虫之动态网页抓取篇：爬取博客评论数据——通过Selenium模拟浏览器抓取
区别于上篇动态网页抓取,这里介绍另一种方法,即使用浏览器渲染引擎.直接用浏览器在显示网页时解析 HTML.应用 CSS 样式并执行 JavaScript 的语句. 这个方法在爬虫过程中会打开一个浏览器 ...
Selenium模拟浏览器抓取淘宝美食信息
前言: 无意中在网上发现了静觅大神(崔老师),又无意中发现自己硬盘里有静觅大神录制的视频,于是乎看了其中一个,可以说是非常牛逼了,让我这个用urllib,requests用了那么久的小白,体会到sel ...
使用selenium模拟浏览器抓取淘宝信息
通过Selenium模拟浏览器抓取淘宝商品美食信息,并存储到MongoDB数据库中. from selenium import webdriver from selenium.common.excep ...
python网络爬虫-动态网页抓取（五）
动态抓取的实例在开始爬虫之前,我们需要了解一下Ajax(异步请求).它的价值在于在与后台进行少量的数据交换就可以使网页实现异步更新. 如果使用Ajax加载的动态网页抓取,有两种方法: 通过浏览器审查 ...
python爬虫beta版之抓取知乎单页面回答（low 逼版）
闲着无聊,逛知乎.发现想找点有意思的回答也不容易,就想说要不写个爬虫帮我把点赞数最多的给我搞下来方便阅读,也许还能做做数据分析(意淫中--) 鉴于之前用python写爬虫,帮运营人员抓取过京东的商品品 ...
利用python脚本（xpath）抓取数据
有人会问re和xpath是什么关系?如果你了解js与jquery,那么这个就很好理解了. 上一篇:利用python脚本(re)抓取美空mm图片 # -*- coding:utf-8 -*- from ...
Python爬虫实战四之抓取淘宝MM照片
原文:Python爬虫实战四之抓取淘宝MM照片其实还有好多,大家可以看 Python爬虫学习系列教程福利啊福利,本次为大家带来的项目是抓取淘宝MM照片并保存起来,大家有没有很激动呢? 本篇目标 1. ...
Python爬虫实战六之抓取爱问知识人问题并保存至数据库
大家好,本次为大家带来的是抓取爱问知识人的问题并将问题和答案保存到数据库的方法,涉及的内容包括: Urllib的用法及异常处理 Beautiful Soup的简单应用 MySQLdb的基础用法正则表 ...

随机推荐

源码分析-react1-根节点渲染
[转]C++回调函数(callback)的使用
原文地址:http://blog.sina.com.cn/s/blog_6568e7880100p77y.html 什么是回调函数(callback) 模块A有一个函数foo,他向模块B传递fo ...
HDU 4499 Cannon （暴力搜索）
题意:在n*m的方格里有t个棋子,问最多能放多少个炮且每一个炮不能互相攻击(炮吃炮) 炮吃炮:在同一行或同一列且中间有一颗棋子. #include <stdio.h> #include & ...
HTTPS那些事用java实现HTTPS工作原理
HTTPS那些事用java实现HTTPS工作原理博客分类: java历险今天被问到关于https原理的问题,结果由于知识掌握不牢靠,停留于表面,很多细节都无法回答清楚,于是决定把https的 ...
Android对方向感应器的封装调用
Android自动的SensorManager使用起来已经很方便,但由于一些情况我们希望对其中的功能进行封装: 只使用个别的sensor,功能相对单一要对sensor返回的raw data进行算法处 ...
[LeetCode][Java] Trapping Rain Water
题意: Given n non-negative integers representing an elevation map where the width of each bar is 1, co ...
splay专题复习——bzoj 3224 & 1862 & 1503 题解
[前言]快要省选二试了.上次去被虐出翔了~~这次即便是打酱油.也要打出风採!于是暂停新东西的学习.然后開始复习曾经的知识,为骗分做准备.PS:区间翻转的临时跳过,就算学了也来不及巩固了. [BZOJ3 ...
5313 [JL]判断邮箱地址升级版
5313 [JL]判断邮箱地址升级版时间限制: 1 s 空间限制: 1000 KB 题目等级 : 黄金 Gold 题解查看运行结果题目描述 Description 正确的邮箱地 ...
ROS人脸检测使用webcam实现
github地址https://github.com/ngunauj/facedetection 熟悉ros环境.ubuntu16.04 + ros kinetic版本.使用笔记本自带摄像头,完成人脸 ...
ubuntu安装go语言
1.下载安装包 2.解压 sudo tar -zvxf go1.10.linux-amd64.tar.gz -C /usr/local 3.配置 sudo vim /etc/profile 添加 #s ...

Python 之selenium+phantomJS斗鱼抓取案例

Python 之selenium+phantomJS斗鱼抓取案例的更多相关文章

随机推荐

热门专题