Python——selenium爬取斗鱼房间信息

 from selenium import webdriver

 import os

 import json

 import time

 class Douyu:

     def __init__(self):

         # 1.发送首页的请求

         self.driver = webdriver.Chrome('../chromedriver.exe')

         self.driver.get('https://www.douyu.com/g_yz')

     # 获取页面内容

     def get_content(self):

         time.sleep(3)

         li_list = self.driver.find_elements_by_xpath("//*[@class='layout-Cover-list']/li[@class='layout-Cover-item']")

         length = len(li_list)

         contents = []

         # 遍历房间列表

         for i in range(length):

             item = {}

             item['主播'] = self.driver.find_elements_by_xpath('//h2[@class="DyListCover-user"]')[i].text

             item['房间名'] = self.driver.find_elements_by_xpath('//h3[@class="DyListCover-intro"]')[i].get_attribute(

                 'title')

             item['热度'] = self.driver.find_elements_by_xpath('//span[@class="DyListCover-hot"]')[i].text

             item['封面'] = self.driver.find_elements_by_class_name('DyImg-content')[i].get_attribute(

                 'src')

             contents.append(item)

         return contents

     # 保存数据到本地

     def save_content(self, contents):

         with open('douyu.json', 'a',encoding='utf-8') as f:

             for content in contents:

                 json.dump(content, f, ensure_ascii=False, indent=2)

                 f.write(os.linesep)

     def run(self):

         # 1.发送首页的请求：初始化时已经发送请求

         # 2.获取第一页的数据

         contents = self.get_content()

         self.save_content(contents)

         # 3.循环:点击下一页按钮,只要没有下一页的按钮

         while self.driver.find_elements_by_class_name('dy-Pagination-item-custom')[1]:

             # 点击下一页的按钮

             self.driver.find_elements_by_class_name('dy-Pagination-item-custom')[1].click()

             # 4.继续获取下一页的内容

             contents = self.get_content()

             # 4.保存下一页保存内容

             self.save_content(contents)

 if __name__ == '__main__':

     douyu = Douyu()

     douyu.run()

Python——selenium爬取斗鱼房间信息的更多相关文章

Python+Selenium爬取动态加载页面（2）
注: 上一篇<Python+Selenium爬取动态加载页面(1)>讲了基本地如何获取动态页面的数据,这里再讲一个稍微复杂一点的数据获取全国水雨情网.数据的获取过程跟人手动获取过程类似,所 ...
Python+Selenium爬取动态加载页面（1）
注: 最近有一小任务,需要收集水质和水雨信息,找了两个网站:国家地表水水质自动监测实时数据发布系统和全国水雨情网.由于这两个网站的数据都是动态加载出来的,所以我用了Selenium来完成我的数据获取. ...
selenium模块使用详解、打码平台使用、xpath使用、使用selenium爬取京东商品信息、scrapy框架介绍与安装
今日内容概要 selenium的使用打码平台使用 xpath使用爬取京东商品信息 scrapy 介绍和安装内容详细 1.selenium模块的使用 # 之前咱们学requests,可以发送htt ...
Python+selenium爬取智联招聘的职位信息
整个爬虫是基于selenium和Python来运行的,运行需要的包 mysql,matplotlib,selenium 需要安装selenium火狐浏览器驱动,百度的搜寻. 整个爬虫是模块化组织的,不 ...
利用selenium爬取京东商品信息存放到mongodb
利用selenium爬取京东商城的商品信息思路: 1.首先进入京东的搜索页面,分析搜索页面信息可以得到路由结构 2.根据页面信息可以看到京东在搜索页面使用了懒加载,所以为了解决这个问题,使用递归.等待 ...
Scrapy实战篇（七）之Scrapy配合Selenium爬取京东商城信息（下）
之前我们使用了selenium加Firefox作为下载中间件来实现爬取京东的商品信息.但是在大规模的爬取的时候,Firefox消耗资源比较多,因此我们希望换一种资源消耗更小的方法来爬取相关的信息. 下 ...
简单的python爬虫--爬取Taobao淘女郎信息
最近在学Python的爬虫,顺便就练习了一下爬取淘宝上的淘女郎信息:手法简单,由于淘宝网站本上做了很多的防爬措施,应此效果不太好! 爬虫的入口:https://mm.taobao.com/json/r ...
爬虫—Selenium爬取JD商品信息
一,抓取分析本次目标是爬取京东商品信息,包括商品的图片,名称,价格,评价人数,店铺名称.抓取入口就是京东的搜索页面,这个链接可以通过直接构造参数访问https://search.jd.com/Sea ...
python itchat 爬取微信好友信息
原文链接:https://mp.weixin.qq.com/s/4EXgR4GkriTnAzVxluJxmg 「itchat」一个开源的微信个人接口,今天我们就用itchat爬取微信好友信息,无图言虚 ...

随机推荐

openstack 租户ip 手动配置 openstack静态租户ip
作者:[吴业亮]云计算开发工程师博客:http://blog.csdn.net/wylfengyujiancheng 1.综述: 在日常开发和生产环境中经常需要将OpenStack虚拟机配置一个静态 ...
leetcode421
public class Solution { public int FindMaximumXOR(int[] nums) { , mask = ; ; i >= ; i--) { mask = ...
itemize,enumerate,description 用法【LaTeX 使用】
itemize和enumerate还有description 是LaTeX里列举的三种样式,分别讲一些使用技巧.itemize(意为分条目):\begin{itemize}\item[*] a\ite ...
Scala语言简介和开发环境配置
Scala语言的简介和开发环境搭建 Scala是一门结合了面向对象特征和函数式编程特征的语言,它是一个创新的编程语言产品.Scala可以做脚本(就像shell脚本一样),可以做服务端编程语言,可以写数 ...
配置Linux的SSH双重认证
背景:双因子认证(简称:2FA,以下简称2FA),在这里其为SSH的第二重认证.2FA指的是密码以及实物(信用卡.SMS手机.令牌或指纹等生物标志)两种条件对用户进行认证的方法.通过两种不同的认证程序 ...
【原创】1. MYSQL++简介
MYSQL++是对于MYSQL C API的C++完全包装. MYSQL++能够至少做如下几件事情 1. 连接数据库通过TCP连接数据库通过WINDOWS命名管道连接数据库 UNIX域SOCKET ...
07-Location之正则匹配
大网站专门有自己的图片服务器,起码也得单独放一个目录里面. 淘宝网有些图片开启了防盗链(即使是小图片,也不让你下载,真小气).163新闻可以下载. 用正则匹配uri中的image,就是说你的uri中到 ...
libevent 源码深度剖析十三
libevent 源码深度剖析十三 —— libevent 信号处理注意点前面讲到了 libevent 实现多线程的方法,然而在多线程的环境中注册信号事件,还是有一些情况需要小心处理,那就是不能在多 ...
ArcEngine开发遇到的问题（转）
ArcEngine开发遇到的问题 https://blog.csdn.net/u013751758/article/category/6971559 转载 2018年02月11日 17:28:11 1 ...
jQuery 给class附点击事件获取对应的索引
有一类div标签,class为pointbox,数量不等,有多个.我需要在点击某一个标签的时候实时获取该标签在这类标签中索引值,以便进行其他操作. 代码很简单: $(".pointbox&q ...

Python——selenium爬取斗鱼房间信息

Python——selenium爬取斗鱼房间信息的更多相关文章

随机推荐

热门专题