Python——selenium爬取斗鱼房间信息

 from selenium import webdriver

 import os

 import json

 import time

 class Douyu:

     def __init__(self):

         # 1.发送首页的请求

         self.driver = webdriver.Chrome('../chromedriver.exe')

         self.driver.get('https://www.douyu.com/g_yz')

     # 获取页面内容

     def get_content(self):

         time.sleep(3)

         li_list = self.driver.find_elements_by_xpath("//*[@class='layout-Cover-list']/li[@class='layout-Cover-item']")

         length = len(li_list)

         contents = []

         # 遍历房间列表

         for i in range(length):

             item = {}

             item['主播'] = self.driver.find_elements_by_xpath('//h2[@class="DyListCover-user"]')[i].text

             item['房间名'] = self.driver.find_elements_by_xpath('//h3[@class="DyListCover-intro"]')[i].get_attribute(

                 'title')

             item['热度'] = self.driver.find_elements_by_xpath('//span[@class="DyListCover-hot"]')[i].text

             item['封面'] = self.driver.find_elements_by_class_name('DyImg-content')[i].get_attribute(

                 'src')

             contents.append(item)

         return contents

     # 保存数据到本地

     def save_content(self, contents):

         with open('douyu.json', 'a',encoding='utf-8') as f:

             for content in contents:

                 json.dump(content, f, ensure_ascii=False, indent=2)

                 f.write(os.linesep)

     def run(self):

         # 1.发送首页的请求：初始化时已经发送请求

         # 2.获取第一页的数据

         contents = self.get_content()

         self.save_content(contents)

         # 3.循环:点击下一页按钮,只要没有下一页的按钮

         while self.driver.find_elements_by_class_name('dy-Pagination-item-custom')[1]:

             # 点击下一页的按钮

             self.driver.find_elements_by_class_name('dy-Pagination-item-custom')[1].click()

             # 4.继续获取下一页的内容

             contents = self.get_content()

             # 4.保存下一页保存内容

             self.save_content(contents)

 if __name__ == '__main__':

     douyu = Douyu()

     douyu.run()

Python——selenium爬取斗鱼房间信息的更多相关文章

Python+Selenium爬取动态加载页面（2）
注: 上一篇<Python+Selenium爬取动态加载页面(1)>讲了基本地如何获取动态页面的数据,这里再讲一个稍微复杂一点的数据获取全国水雨情网.数据的获取过程跟人手动获取过程类似,所 ...
Python+Selenium爬取动态加载页面（1）
注: 最近有一小任务,需要收集水质和水雨信息,找了两个网站:国家地表水水质自动监测实时数据发布系统和全国水雨情网.由于这两个网站的数据都是动态加载出来的,所以我用了Selenium来完成我的数据获取. ...
selenium模块使用详解、打码平台使用、xpath使用、使用selenium爬取京东商品信息、scrapy框架介绍与安装
今日内容概要 selenium的使用打码平台使用 xpath使用爬取京东商品信息 scrapy 介绍和安装内容详细 1.selenium模块的使用 # 之前咱们学requests,可以发送htt ...
Python+selenium爬取智联招聘的职位信息
整个爬虫是基于selenium和Python来运行的,运行需要的包 mysql,matplotlib,selenium 需要安装selenium火狐浏览器驱动,百度的搜寻. 整个爬虫是模块化组织的,不 ...
利用selenium爬取京东商品信息存放到mongodb
利用selenium爬取京东商城的商品信息思路: 1.首先进入京东的搜索页面,分析搜索页面信息可以得到路由结构 2.根据页面信息可以看到京东在搜索页面使用了懒加载,所以为了解决这个问题,使用递归.等待 ...
Scrapy实战篇（七）之Scrapy配合Selenium爬取京东商城信息（下）
之前我们使用了selenium加Firefox作为下载中间件来实现爬取京东的商品信息.但是在大规模的爬取的时候,Firefox消耗资源比较多,因此我们希望换一种资源消耗更小的方法来爬取相关的信息. 下 ...
简单的python爬虫--爬取Taobao淘女郎信息
最近在学Python的爬虫,顺便就练习了一下爬取淘宝上的淘女郎信息:手法简单,由于淘宝网站本上做了很多的防爬措施,应此效果不太好! 爬虫的入口:https://mm.taobao.com/json/r ...
爬虫—Selenium爬取JD商品信息
一,抓取分析本次目标是爬取京东商品信息,包括商品的图片,名称,价格,评价人数,店铺名称.抓取入口就是京东的搜索页面,这个链接可以通过直接构造参数访问https://search.jd.com/Sea ...
python itchat 爬取微信好友信息
原文链接:https://mp.weixin.qq.com/s/4EXgR4GkriTnAzVxluJxmg 「itchat」一个开源的微信个人接口,今天我们就用itchat爬取微信好友信息,无图言虚 ...

随机推荐

DRF - 序列化组件（GET/PUT/DELETE接口设计）、视图优化组件
一.序列化组件基于上篇随笔的表结构 , 通过序列化组件的ModelSerializer设计如下三个接口 : GET 127.0.0.1:8000/books/{id} # 获取一条数据,返回值:{} ...
ORACLE各版本下载地址
ORACLE 10g下载|ORACLE 10g下载地址|ORACLE 10g官网下载地址 ORACLE 10g下载地址 oracle 下载还需要用户名我自己注册了个方便大家使用下载 user:1603 ...
leetcode486
public class Solution { public bool PredictTheWinner(int[] nums) { // int n = nums.Length; // int[,] ...
Java微信公众平台开发【番外篇】(七)--公众平台测试帐号的申请
转自:http://www.cuiyongzhi.com/post/45.html 前面几篇一直都在写一些比较基础接口的使用,在这个过程中一直使用的都是我个人微博认证的一个个人账号,原本准备这篇是写[ ...
最长上升子序列（LIS)
最长递增子序列,Longest Increasing Subsequence 下面我们简记为 LIS.排序+LCS算法以及 DP算法就忽略了,这两个太容易理解了. 假设存在一个序列d[1..9] = ...
VS 配置外部DLL的引用路径【可执行文件的环境路径】
右键项目,属性->配置属性->调试->环境,在这里写入可执行文件运行时的环境路径,格式为:PATH=ABC,如PATH=$(SolutionDir)/env 这样,我们就可以把运行时 ...
【原】Coursera—Andrew Ng机器学习—课程笔记 Lecture 2_Linear regression with one variable 单变量线性回归
Lecture2 Linear regression with one variable 单变量线性回归 2.1 模型表示 Model Representation 2.1.1 线性回归 Li ...
linux 目录和用户权限命令
1.linux 修改文件目录所有者例:要将当前目录下名 title 的文件夹及其子文件的所有者改为geust组的su用户,方法如下: #chown -R su.geust title -R 递归式地 ...
客户端级别的渲染分析工具 dynaTrace
dynaTrace Ajax Edition是一款很好的javaScript性能分析工具.目前支持IE和Firefox 2款浏览器. dynaTrace如图所示: 点击Click here to st ...
selenium2 用testNG对百度首页输入框进行测试（三）
如果还没有安装testNG的亲,可以点击http://www.cnblogs.com/milanmi/p/4346580.html查看安装过程. 这节主要是对百度首页的输入框进行输入测试. packa ...

Python——selenium爬取斗鱼房间信息

Python——selenium爬取斗鱼房间信息的更多相关文章

随机推荐

热门专题