selenium实现淘宝的商品爬取

一、问题

本次利用selenium自动化测试，完成对淘宝的爬取，这样可以避免一些反爬的措施，也是一种爬虫常用的手段。本次实战的难点：

1.如何利用selenium绕过淘宝的登录界面

2.获取淘宝的页面内容实现翻页，并判断是否翻页成功。

3.获取每一页的信息，实现数据的抓取工作。

4.环境python3.6，对应的Chrome的webdriver驱动网址：http://chromedriver.storage.googleapis.com/index.html，将自己对应的webdriver放入scripts的环境内。

二、解决

1.在登录淘宝界面的时候，会弹出界面窗口，需要捕捉当前的页面，判断是否有变化。

先用self.browser【驱动名称】.current_window_handle来捕获当前的界面信息。

用self.browser【驱动名称】.switch_to_window(now_handle),来进行页面变化的判断

　　　　 self.browser.get(self.url)

            input_content = self.wait.until(

                EC.presence_of_element_located((By.CSS_SELECTOR, '#q'))

            )

            submit = self.wait.until(

                EC.element_to_be_clickable((By.CSS_SELECTOR, "#J_TSearchForm > div.search-button > button"))

            )

            now_handle = self.browser.current_window_handle

            input_content.send_keys(self.key)

            submit.click()

            self.browser.switch_to_window(now_handle)

2.在当前页码的判断，确定是否翻页成功。

获取输入标签的值，和点击按钮，完成翻页动作，再用EC.text_to_be_present_in_element来检测是否完成了翻页的动作。

　　　　 print("正在翻第{0}页".format(number))

            input_content = self.wait.until(

                EC.presence_of_element_located((By.CSS_SELECTOR, '#mainsrp-pager > div > div > div > div.form > input'))

            )

            submit = self.wait.until(

                EC.element_to_be_clickable((By.CSS_SELECTOR, "#mainsrp-pager > div > div > div > div.form > span.btn.J_Submit"))

            )

            input_content.clear()

            input_content.send_keys(number)

            submit.click()

            self.wait.until(

                EC.text_to_be_present_in_element((By.CSS_SELECTOR, '#mainsrp-pager > div > div > div > ul > li.item.active > span'), str(number))

            )

            self.get_content()

3.利用选择器获取整个页面的内容：

利用xpath进行解析，也可以利用pyquery等一系列的解析方式进行解析。

　　　self.wait.until(

            EC.presence_of_element_located((By.CSS_SELECTOR, '#mainsrp-itemlist > div > div > div:nth-child(1)'))

        )

        html = self.browser.page_source

        content_text = etree.HTML(html)

        names = content_text.xpath('*//div[@class="pic"]/a/img/@alt')

        srcs = content_text.xpath('*//div[@class="pic"]/a/img/@data-src')

        totals = [(name, src) for (name, src) in zip(names, srcs)]

三、结果呈现

四、总结

本项目利用了selenium来完成数据的自动爬取，需要注意获取的数据元素，以及数据信息。

重点在于弹出页面的判断以及对翻页成功的判断，其余的内容就是一般的数据爬取的方式。淘宝实战需要对webdriver有一定的基础和了解。才可以正确获取到标签内容。

webdriver的参考文档：

https://selenium-python.readthedocs.io/api.html#module-selenium.webdriver.common.action_chains

selenium实现淘宝的商品爬取的更多相关文章

python 简单实现淘宝关键字商品爬取
本文有2个文件 1:taobao_re_xpath 2:taobao_re_xpath_setting # 1:taobao_re_xpath # -*- coding:utf-8 -*- # aut ...
selenium跳过webdriver检测并爬取淘宝我已购买的宝贝数据
简介上一个博文已经讲述了如何使用selenium跳过webdriver检测并爬取天猫商品数据,所以在此不再详细讲,有需要思路的可以查看另外一篇博文. 源代码 # -*- coding: utf-8 ...
selenium+PhantomJS 抓取淘宝搜索商品
最近项目有些需求,抓取淘宝的搜索商品,抓取的品类还多.直接用selenium+PhantomJS 抓取淘宝搜索商品,快速完成. #-*- coding:utf-8 -*-__author__ =''i ...
简单的抓取淘宝关键字信息、图片的Python爬虫|Python3中级玩家：淘宝天猫商品搜索爬虫自动化工具（第一篇）
Python3中级玩家:淘宝天猫商品搜索爬虫自动化工具(第一篇) 淘宝改字段,Bugfix,查看https://github.com/hunterhug/taobaoscrapy.git 由于Gith ...
手把手教你写电商爬虫-第四课淘宝网商品爬虫自动JS渲染
版权声明:本文为博主原创文章,未经博主允许不得转载. 系列教程: 手把手教你写电商爬虫-第一课找个软柿子捏捏手把手教你写电商爬虫-第二课实战尚妆网分页商品采集爬虫手把手教你写电商爬虫-第三课 ...
python爬虫-京东商品爬取
京东商品爬取仅供学习一.使用selenium from selenium import webdriver from selenium.webdriver.common.keys import K ...
iOS 集成阿里百川最新版（3.1.1.96）实现淘宝授权登录以及调用淘宝客户端商品详情页
公司最近要做第三方登录,由于是做导购项目,必不可少的有淘宝的授权登录.本来就是一个授权登录,没什么大不了的.但淘宝的无线开放业务——阿里百川更新的最新版本3.1.1.96,开发文档不是不详细,是很 ...
使用selenium抓取淘宝的商品信息
淘宝的页面大量使用了js加载数据,所以采用selenium来进行爬取更为简单,selenum作为一个测试工具,主要配合无窗口浏览器phantomjs来使用. import re from seleni ...
使用Python 爬取京东，淘宝。商品详情页的数据。（避开了反爬虫机制）
以下是爬取京东商品详情的Python3代码,以excel存放链接的方式批量爬取.excel如下代码如下 from selenium import webdriver from lxml import ...

随机推荐

MySQL修改数据库、表、列、外键字符编码和排序编码
在重启Confluence应用时,突然遇见这个检查错误,查询总结需要修改Mysql数据库的所有字符编码和排序编码,报错如下: Confluence Help – This installation o ...
【转】java面试题
http://blog.csdn.net/jackfrued/article/details/44921941 Java面试题转
python中定时任务
今天看网络框架时,突然想看一下定时器,于是往上搜索了一下python中timer task的实现,但是由于python本身对线程的支持不是太好,因为全局排它锁的存在,使得多线程在访问资源时效率比较低. ...
linux 查看端口被占用
linux 查看端口被占用 1.lsof -i : 端口号用于查看某一端口的占用情况,比如查看8080端口使用情况,lsof -i:8080 如果执行 lsof -i:8080 系统提示 : ...
【学习】基础知识：数组和矢量计量【Numpy】
Numpy是高性能科学计算和数据分析的基础包.功能如下: ndarray 一个具有矢量算法运算和复杂广播能力的快速且节省空间的多维数组用于对整组数据进行快速运算的标准数学函数(无需编写循环) 用于读 ...
[leetcode]2. Add Two Numbers.cpp
You are given two non-empty linked lists representing two non-negative integers. The digits are stor ...
struts2 default.xml详解
struts2 default.xml 内容 1 bean节点制定Struts在运行的时候创建的对象类型. 2 指定Struts-default 包用户写的package(struts.xml) ...
Ado.net之对数据库的增删改查
一.了解Command对象 1.Command对象:封装了所有对外部数据源的操作,包括增删改查和执行存储过程,并在执行完成后返回合适的结果,同Connection一样,对于不同的数据源,Ado.net ...
常用的stm32库函数
//初始化的方式:先定义初始化机构体.再打开时钟使能.在对每一组GPIO口进行初始化. GPIO_InitTypeDef LED_GPIO; RCC_APB2PeriphClockCmd(RCC_AP ...
SpringCloud-day02-服务消费者项目建立
4.4microservice-ticket-consumer-80服务消费者项目建立我们新建一个服务器提供者module子模块,类似前面建的common公共模块,名称是 microservice- ...

selenium实现淘宝的商品爬取

selenium实现淘宝的商品爬取的更多相关文章

随机推荐

热门专题