爬虫之selenium爬取斗鱼主播图片

这是我GitHub上简单的selenium介绍与简单使用：https://github.com/bwyt/spider/tree/master/selenium%E5%9F%BA%E7%A1%80

 """

 发送请求

     1.1生成driver对象

     2.1窗口最大化

     2.2下拉滚动条（保证每个位置都刷新）

     3.获取所有li标签列表

     遍历li标签列表提取图片的连接以及主播的名字

     保存图片

 翻页

 """

 import time

 import requests

 from selenium import webdriver

 # 生成driver对象

 driver = webdriver.Chrome()

 # 先将窗口最大化

 driver.maximize_window()

 # 再到达指定路由

 driver.get('https://www.douyu.com/g_hpjy')

 while True:

     time.sleep(2)

     # 下拉滚动条（保证每个位置都刷新）

     for i in range(2):

         driver.execute_script('window.scrollTo(0,{})'.format(i*500))

         time.sleep(1)

     # 获取所有图片的li标签列表

     lis = driver.find_elements_by_xpath('//ul[@class="layout-Cover-list"]/li')

     # 遍历li标签列表提取图片的连接以及主播的名字

     for li in lis:

         img_url = li.find_element_by_xpath('.//a[1]/div/div[1]/img').get_attribute('src')

         peo_url = li.find_element_by_xpath('.//h2').text

         # 保存图片

         response = requests.get(img_url)

         data = response.content

         file = 'images/' + peo_url + '.webp'

         with open(file, 'wb') as f:

             f.write(data)

     try:

         # 翻页

         next_url = driver.find_element_by_xpath('//li[@class=" dy-Pagination-next"]').click()

     except Exception as e:

         print(e)

         break

 time.sleep(5)

 driver.close()

爬虫之selenium爬取斗鱼主播图片的更多相关文章

『Scrapy』爬取斗鱼主播头像
分析目标爬取的是斗鱼主播头像,示范使用的URL似乎是个移动接口(下文有提到),理由是网页主页属于动态页面,爬取难度陡升,当然爬取斗鱼主播头像这么恶趣味的事也不是我的兴趣...... 目标URL如下, ...
selenium,webdriver爬取斗鱼主播信息实操
from selenium import webdriver import time from bs4 import BeautifulSoup class douyuSelenium(): #初始化 ...
Python爬虫使用selenium爬取qq群的成员信息（全自动实现自动登陆）
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: python小爬虫 PS:如有需要Python学习资料的小伙伴可以 ...
python爬虫——用selenium爬取京东商品信息
1.先附上效果图(我偷懒只爬了4页) 2.京东的网址https://www.jd.com/ 3.我这里是不加载图片,加快爬取速度,也可以用Headless无弹窗模式 options = webdri ...
python3 [爬虫实战] selenium 爬取安居客
我们爬取的网站:https://www.anjuke.com/sy-city.html 获取的内容:包括地区名,地区链接: 安居客详情一开始直接用requests库进行网站的爬取,会访问不到数据的, ...
Python——selenium爬取斗鱼房间信息
from selenium import webdriver import os import json import time class Douyu: def __init__(self): # ...
爬虫之selenium爬取京东商品信息
import json import time from selenium import webdriver """ 发送请求 1.1生成driver对象 2.1窗口最大 ...
Scrapy爬虫框架之爬取校花网图片
Scrapy Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 其可以应用在数据挖掘,信息处理或存储历史数据等一系列的程序中.其最初是为了页面抓取 (更确切来说, 网络抓取 )所设 ...
python爬虫+正则表达式实例爬取豆瓣Top250的图片
直接上全部代码新手上路代码风格可能不太好 import requests import re from fake_useragent import UserAgent #### 用来伪造爬头部信息 ...

随机推荐

ssm配置文件
mybatis配置文件SqlMapConfig.xml <?xml version="1.0" encoding="UTF-8"?> <!DO ...
SSL证书自签名使用及监控
前言证书简介信息安全越来越受重视,HTTPS已经相当普及,要让我们的HTTP接口支持HTPPS,只需要一个SSL证书就可以啦全称公钥证书(Public-Key Certificate, PKC) ...
技术不错的Java程序员，为何面试却“屡战屡败”
为何很多有不少编程经验,技术能力不错的程序员,去心仪公司面试时却总是失败?至于失败的原因,可能很多人都没意识到过. 01想要通关面试,千万别让数据结构拖了后腿很多公司,比如 BAT.Google.F ...
0基础学Java快速扫盲指南，月入2W的基础
学Java,掌握一些基本的概念是第一步,本文简单为大家介绍一些扫盲级别的内容,希望帮助小白快速入门. 一.基本概念 JVM:java虚拟机,负责将编译产生的字节码转换为特定机器代码,实现一次编译多处执 ...
案例——TCP上传图片
TCP上传图片继续做一个TCP的相关案例,在客户端上传一张图片到服务端,服务端收到图片后,给客户端回馈上传成功信息. 实现细节: 对于一些文件的读取,若文件偏大,可以始用缓冲区去读取和写入,可以 ...
wireshark分析https
0x01 分析淘宝网站的https数据流打开淘宝 wireshark抓取到如下第一部分: 因为https是基于http协议上的,可以看到首先也是和http协议一样的常规的TCP三次握手的连接建立, ...
[JZOJ5818] 【NOIP提高A组模拟2018.8.15】做运动
Description 一天,Y 君在测量体重的时候惊讶的发现,由于常年坐在电脑前认真学习,她的体重有了突飞猛进的增长. 幸好 Y 君现在退役了,她有大量的时间来做运动,她决定每天从教学楼跑到食堂来 ...
Redis实战篇
Redis实战篇 1 Redis 客户端 1.1 客户端通信原理客户端和服务器通过 TCP 连接来进行数据交互, 服务器默认的端口号为 6379 . 客户端和服务器发送的命令或数据一律以 \r\n ...
muduo Library
muduo是由陈硕(http://www.cnblogs.com/Solstice)开发的一个Linux多线程网络库,采用了很多新的Linux特性(例如eventfd.timerfd)和GCC内置函数 ...
【OUC2019写作】学术论文写作第九小组第一次博客作业
个人简介潘旻琦:我是潘旻琦:我的爱好是游泳:羊肉泡馍是海大食堂中我最喜欢的一道菜(清真食堂):一句想说的话是:“追随本心,坚持不懈”. 郭念帆:我是郭念帆:我的爱好是足球:海大食堂中最喜欢的一道菜偏 ...

爬虫之selenium爬取斗鱼主播图片

爬虫之selenium爬取斗鱼主播图片的更多相关文章

随机推荐

热门专题