Selenium-[实例]猫眼电影爬取

import random

import time

from selenium import webdriver

from selenium.webdriver import ActionChains

from selenium.webdriver.chrome.service import Service as ChromeService

from selenium.webdriver.common.by import By

DIRVER_PATH = r'C:\Users\Administrator\Desktop\chromedriver.exe'

# 跳过selenium检测

STEALTH_JS = r'C:\Users\Administrator\Desktop\stealth.min.js'

def main():

    service = ChromeService(executable_path=DIRVER_PATH)

    options = webdriver.ChromeOptions()

    options.add_experimental_option("excludeSwitches", ["enable-automation"])

    options.add_experimental_option("useAutomationExtension", False)

    # 不退出浏览器

    # options.add_experimental_option('detach', True)

    # 防止检测到selenium

    options.add_argument("--disable-blink-features")

    options.add_argument("--disable-blink-features=AutomationControlled")

    driver = webdriver.Chrome(service=service, options=options)

    with open(STEALTH_JS) as f:

        js = f.read()

    driver.execute_cdp_cmd(

        cmd="Page.addScriptToEvaluateOnNewDocument",

        cmd_args={

            "source": js

        }

    )

    # 打开一个标签页

    # driver.get("https://bot.sannysoft.com/")

    driver.get("https://www.maoyan.com/films?showType=3")

    # 最大化

    driver.maximize_window()

    # 隐式等待最长时间：5秒

    driver.implicitly_wait(5)

    while next_page_ele := driver.find_element(By.LINK_TEXT, "下一页"):

        elements = driver.find_elements(By.XPATH,'//div[@class="movies-list"]/dl/dd/div[@class="movie-item film-channel"]')

        for index, element in enumerate(elements, 1):

            print("点击电影item元素")

            ActionChains(driver).move_to_element(element).click().perform()

            print("切换到最后的标签页")

            driver.switch_to.window(driver.window_handles[-1])

            print("查找评分的元素")

            try:

                # 评分是字体加密的，这时候就可以利用针对元素进行截图，然后丢给OCR识别

                rate_ele = driver.find_element(By.XPATH, "//span[@class='index-left info-num ']/span")

                # 丢给OCR识别

            except:

                print("暂无评分")

            else:

                print("可以获取到评分元素")

            # 关闭标签页

            driver.close()

            # 回到原来的页面

            driver.switch_to.window(driver.window_handles[0])

            # 休息一下

            time.sleep(random.randint(1, 3))

        print("点击下一页")

        #ActionChains(driver,).move_to_element(next_page_ele).click().perform()

        next_page_ele.click()

    time.sleep(10)

    driver.quit()

if __name__ == '__main__':

    main()

Selenium-[实例]猫眼电影爬取的更多相关文章

猫眼电影爬取(三)：requests+pyquery，并将数据存储到mysql数据库
还是以猫眼电影为例,这次用pyquery库进行爬取 1.简单demo,看看如何使用pyquery提取信息,并将提取到的数据进行组合 # coding: utf-8 # author: hmk impo ...
猫眼电影爬取(二)：requests+beautifulsoup，并将数据存储到mysql数据库
上一篇通过requests+正则爬取了猫眼电影榜单,这次通过requests+beautifulsoup再爬取一次(其实这个网站更适合使用beautifulsoup库爬取) 1.先分析网页源码可以看 ...
猫眼电影爬取(一)：requests+正则，并将数据存储到mysql数据库
前面讲了如何通过pymysql操作数据库,这次写一个爬虫来提取信息,并将数据存储到mysql数据库 1.爬取目标爬取猫眼电影TOP100榜单要提取的信息包括:电影排名.电影名称.上映时间.分数 2 ...
使用Selenium&PhantomJS的方式爬取代理
前面已经爬取了代理,今天我们使用Selenium&PhantomJS的方式爬取快代理 :快代理 - 高速http代理ip每天更新. 首先分析一下快代理,如下使用谷歌浏览器,检查,发现每个代理 ...
单线程多任务协程vip电影爬取
单线程多任务协程vip电影爬取 --仅供学习使用勿作商用如有违规后果自负!!! 这几天一直在使用python爬取电影,主要目的也是为了巩固前段时间强化学习的网络爬虫,也算是一个不错的检验吧,面对众 ...
Python实训day07pm【Selenium操作网页、爬取数据-下载歌曲】
练习1-爬取歌曲列表任务:通过两个案例,练习使用Selenium操作网页.爬取数据.使用无头模式,爬取网易云的内容. ''' 任务:通过两个案例,练习使用Selenium操作网页.爬取数据. 使用无 ...
使用selenium+phantomJS实现网页爬取
有些网站反爬虫技术设计的非常好,很难采用WebClient等技术进行网页信息爬取,这时可以考虑采用selenium+phantomJS模拟浏览器(其实是真实的浏览器)的方式进行信息爬取.之前一直使用的 ...
爬虫新手学习2-爬虫进阶(urllib和urllib2 的区别、url转码、爬虫GET提交实例、批量爬取贴吧数据、fidder软件安装、有道翻译POST实例、豆瓣ajax数据获取)
1.urllib和urllib2区别实例 urllib和urllib2都是接受URL请求相关模块,但是提供了不同的功能,两个最显著的不同如下: urllib可以接受URL,不能创建设置headers的 ...
selenium+谷歌无头浏览器爬取网易新闻国内板块
网页分析首先来看下要爬取的网站的页面查看网页源代码:你会发现它是由js动态加载显示的所以采用selenium+谷歌无头浏览器来爬取它 1 加载网站,并拖动到底,发现其还有个加载更多 2 模拟点击 ...
前端反爬虫策略--font-face 猫眼数据爬取
1 .font-face定义了字符集,通过unicode去印射展示. 2 .font-face加载网络字体,我么可以自己创建一套字体,然后自定义一套字符映射关系表例如设置0xefab是映射字符1, ...

随机推荐

js详细讲解放大镜的实现
实现放大镜的整体思路 1.当鼠标放在图片上的时候,出现蒙层. 2.出现蒙层,让鼠标在蒙层中心 3.限制蒙层移动的范围 4.放大镜移动最终实现的效果鼠标放上去的时候,出现一个蒙层. 蒙层的移动范围只 ...
5.0 CRC32校验技术概述
CRC校验技术是用于检测数据传输或存储过程中是否出现了错误的一种方法,校验算法可以通过计算应用与数据的循环冗余校验(CRC)检验值来检测任何数据损坏.通过运用本校验技术我们可以实现对特定内存区域以及磁 ...
探析ElasticSearch Kibana在测试工作中的实践应用
一. 为什么使用ES Kibana 离线数据测试中最重要的就是数据验证,一部分需要测试es存储数据的正确性,另一部分就需要验证接口从es取值逻辑的正确性.而为了验证es取值逻辑的正确性,就需要用到Ki ...
Python中的转义符\
1.转义符可以百度百科查询 2.Python中的转义符我目前知道的Python中的转义符使用场景有两个:一个是字符串,一个是正则表达式 2.1.字符串的转义 2.1.1.反斜杠"\&qu ...
es针对nested类型数据无法进行过滤查询的问题记录
问题描述 es中存在有一个名为task_data_1的索引,其字段映射关系如下所示: { "task_data_1" : { "mappings" : { &q ...
流水线中便捷迭代，鲲鹏DevKit 23.0新能力抢先看
本文分享自华为云社区<鲲鹏DevKit 23.0:流水线中便捷迭代鲲鹏版本,迁移.开发.调优无缝衔接>,作者:华为云社区精选 . 数字时代,海量的行业应用驱动着多样性算力的飞速发展,以鲲鹏 ...
【BUU刷题日记】--第二周
[BUU刷题日记]--第二周一.[WUSTCTF2020]朴实无华 1 目录爆破使用dirsearch扫描发现没有结果,因为如果dirsearch请求过快则会导致超出服务器最大请求,扫描不出本来可 ...
DeepSpeed：大模型训练框架
背景: 目前,大模型的发展已经非常火热,关于大模型的训练.微调也是各个公司重点关注方向.但是大模型训练的痛点是模型参数过大,动辄上百亿,如果单靠单个GPU来完成训练基本不可能.所以需要多卡或者分布式训 ...
Java 基础学习第一弹
1. equels和==的区别 equals方法用于比较对象的内容是否相等,可以根据自定义的逻辑来定义相等的条件,而==操作符用于比较对象的引用是否相等,即它们是否指向同一块内存地址.equals方法 ...
TerraMoursGPT V1.0 开发总结
TerraMoursGPT V1.0 开发总结 TerraMoursGPT V1.0 是之前gpt项目基于TerraMours后端框架的重构,实现用户登陆和基于SK的多语言模型聊天.基于chatgpt ...

Selenium-[实例]猫眼电影爬取

Selenium-[实例]猫眼电影爬取的更多相关文章

随机推荐

热门专题