声明：

由于某些原因，我这里会用手机代替，其实是一样的！

环境：

windows
python3.6.5

模块：

time
selenium
re

环境与模块介绍完毕后，就可以来实行我们的操作了。

第一步：

进入淘宝首页：

driver = webdriver.Chrome()
driver.get('http://www.taobao.com')

第二步：

在输入框中，输入想要查找的商品（keyword），往后用手机代替。
点击搜索按钮

driver.find_element_by_id('q').send_keys(keyword)
driver.find_element_by_class_name('btn-search').click()

它会跳转到我们的登陆界面：

我们选择扫码登陆，那么既然要扫码，肯定就需要等待时间。一般提供10S即可，取决于你单身的年龄

time.sleep(10)

登陆后，我们跳转到了含有信息的页面：

第三步：

提取出我们需要的信息，价格、订单量、商品信息、卖家地址：

很容易发现我们的商品信息都是包括在了class属性为item J_MouserOnverReq 的div标签当中。

所以可以写出我们的xpath规则：

        info = li.find_element_by_xpath('.//div[@class="row row-2 title"]').text
        price = li.find_element_by_xpath('.//a[@class="J_ClickStat"]').get_attribute('trace-price') + '元'
        deal = li.find_element_by_xpath('.//div[@class="deal-cnt"]').text
        name = li.find_element_by_xpath('.//div[@class="shop"]/a/span[2]').text
        position = li.find_element_by_xpath('.//div[@class="row row-3 g-clearfix"]/div[@class="location"]').text

第四步：

第一页采集完毕后，我们需要进行翻页操作。

记住，这里千万不要去模拟点击下一页，会被反爬虫策略命中！

我们可以构造url，

很容易发现我们的url的步长为44，并且总页数为100。那么我们可以先提取出我们的总页数：

    token = driver.find_element_by_xpath('//*[@id="mainsrp-pager"]/div/div/div/div[1]')
    token = token.text
    token = int(re.compile('(\d+)').search(token).group(1))

然后循环构造url：

    num = 1
    while num != token - 1:
        driver.get('https://s.taobao.com/search?q={}&s={}'.format(keyword, 44 * num))
        driver.implicitly_wait(10)
        drop_down()
        get_product()
        num += 1

效果：

少儿不宜

好了今天的教程到此结束，希望对你有所帮助！

Python攻破淘宝网各类反爬手段，采集淘宝网ZDB（女用）的销量！的更多相关文章

k 近邻算法解决字体反爬手段｜效果非常好
字体反爬,是一种利用 CSS 特性和浏览器渲染规则实现的反爬虫手段.其高明之处在于,就算借助(Selenium 套件.Puppeteer 和 Splash)等渲染工具也无法拿到真实的文字内容. 这种反 ...
python之爬虫（十一）实例爬取上海高级人民法院网开庭公告数据
通过前面的文章已经学习了基本的爬虫知识,通过这个例子进行一下练习,毕竟前面文章的知识点只是一个一个单独的散知识点,需要通过实际的例子进行融合分析网站其实爬虫最重要的是前面的分析网站,只有对要爬取 ...
python爬虫--爬虫与反爬
爬虫与反爬爬虫:自动获取网站数据的程序,关键是批量的获取. 反爬虫:使用技术手段防止爬虫程序的方法误伤:反爬技术将普通用户识别为爬虫,从而限制其访问,如果误伤过高,反爬效果再好也不能使用(例如封i ...
关于使用scrapy框架编写爬虫以及Ajax动态加载问题、反爬问题解决方案
Python爬虫总结总的来说,Python爬虫所做的事情分为两个部分,1:将网页的内容全部抓取下来,2:对抓取到的内容和进行解析,得到我们需要的信息. 目前公认比较好用的爬虫框架为Scrapy,而且 ...
常见的反爬措施：UA反爬和Cookie反爬
摘要:为了屏蔽这些垃圾流量,或者为了降低自己服务器压力,避免被爬虫程序影响到正常人类的使用,开发者会研究各种各样的手段,去反爬虫. 本文分享自华为云社区<Python爬虫反爬,你应该从这篇博客开 ...
python爬虫实例，一小时上手爬取淘宝评论(附代码)
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 1 明确目的通过访问天猫的网站,先搜索对应的商品,然后爬取它的评论数据. ...
python高级—— 从趟过的坑中聊聊爬虫、反爬以及、反反爬，附送一套高级爬虫试题
前言: 时隔数月,我终于又更新博客了,然而,在这期间的粉丝数也就跟着我停更博客而涨停了,唉是的,我改了博客名,不知道为什么要改,就感觉现在这个名字看起来要洋气一点. 那么最近到底咋不更新博客了呢?说 ...
Python爬虫入门教程 63-100 Python字体反爬之一，没办法，这个必须写，反爬第3篇
背景交代在反爬圈子的一个大类,涉及的网站其实蛮多的,目前比较常被爬虫coder欺负的网站,猫眼影视,汽车之家,大众点评,58同城,天眼查......还是蛮多的,技术高手千千万,总有五花八门的反爬技术 ...
Python爬虫反反爬：CSS反爬加密彻底破解！
刚开始搞爬虫的时候听到有人说爬虫是一场攻坚战,听的时候也没感觉到特别,但是经过了一段时间的练习之后,深以为然,每个网站不一样,每次爬取都是重新开始,所以,爬之前谁都不敢说会有什么结果. 前两天,应几个 ...

随机推荐

Lambada和linq查询数据库的比较
1. 查询Student表中的所有记录的Sname.Ssex和Class列.select sname,ssex,class from studentLinq: from s in Student ...
【故障公告】再次出现数据库 CPU 居高不下的问题以及找到问题的线索
非常非常抱歉,今天上午的故障又一次给大家带来麻烦了,再次恳请大家的谅解. 在昨天升级阿里云 RDS SQL Server 实例的配置后(详见昨天的博文),万万没有想到,今天上午更高配置的阿里云 RDS ...
testlink+vertrigoServ搭建测试用例管理系统
1.testlink简介 Testlink是一个开源的基于web的测试用例管理系统,主要功能是测试用例的创建.管理和执行,并且提供了一些简单的统计功能. 目前的公司没有专用的测试用例管理系统,为了测试 ...
2019nc#5
题号标题已通过代码题解/讨论通过率团队的状态 A digits 2 点击查看 1017/2384 通过 B generator 1 点击查看 567/3692 通过 C generato ...
zoj 3724 树状数组经典
问题:n个点,对于每个点i,都有一条连向i+1的有向边,另外有m条其他的有向边,有q个询问(u,v)求u到v的最短路将m条有向边和q个询问对所表示的点对一起排序,(u,v)u大的排前,u一样的v ...
Codeforces Technocup 2017 - Elimination Round 2 E Subordinates（贪心）
题目链接 http://codeforces.com/contest/729/problem/E 题意:给你n个人,主管id为s,然后给你n个id,每个id上对应一个数字表示比这个人大的有几个. 最后 ...
谈谈你对HTML语义化的理解。
1.什么是HTML语义化? 基本上都是围绕着几个主要的标签,像标题(h1-h6),列表(li),强调(strong em)等. 根据内容的语义化(内容结构化),选择合适的标签(代码语义化),便于开发者 ...
Centos7 设置redis开机自启
Centos7 设置redis开机自启标签(空格分隔):Linux 环境 Centos7.1 redis-3.0.6 chkconfig方式 **service和chkconfig命令的功能好像都被 ...
C++类的this指针详解
这篇文章主要讲解隐式this指针的概念,以及如何使用,包含const 先直接给出一个C++Primer里的类,你可能还不能完全看懂,但是不着急,我们一点点解释 class Sales_data { s ...
Micrometer 快速入门
Micrometer为最流行的监控系统提供了一个简单的仪表客户端外观,允许仪表化JVM应用,而无需关心是哪个供应商提供的指标.它的作用和SLF4J类似,只不过它关注的不是Logging(日志),而是a ...

Python攻破淘宝网各类反爬手段，采集淘宝网ZDB（女用）的销量！

声明：

环境：

模块：