去年写的一个小功能，一年过得好快，好快！

目的：爬取京东商品详情页面的内容（商品名称、价格、评价数量）后存储到xls文档中，方便商家分析自己商品的动态。

软件：chrome（windows）、chromedriver.exe、phantomjs.exe 、anaconda、pycharm

实现：用selenium自动化工具实现内容抓取，模拟谷歌浏览器打开url，内容展示在浏览器后（js动态内容展示）定位到各个文本和按钮的位置，然后抓取内容和模拟人工点击按钮继续操作浏览器来展示动态的内容（滚动页面，点击“下一页”等按钮），最后写入excel中。

打包发布：整个程序需要python环境，这样不方便客户使用，最终打包成双击可运行的win程序，不用安装任何编译工具，方便妹子使用。

目前的问题:多线程没有实现，不晓得哪里的问题，求指导！！！

代码连接

chromedriver版本问题

Selenium 是什么？

ping监控网络状况

py2exe--打包成双击可用的程序

运行日志

D:\python\app\anaconda2\python.exe D:/python/workspace/京东爬虫.py

--

发现URL文件，准备开始爬虫

-- ::

#############   一共  条数据要爬虫   #############

http://item.jd.com/712579.html

#############   努力加载链接中，请耐心等待   #############

 debugprint@@@   打印url

False RETURN_CODE

#############   网页已经被打开，耗时：5秒   #############

 debugprint@@@   scrolldown1

 debugprint@@@   准备开始滚动500

 debugprint@@@   已向下滚动500

 debugprint@@@   scrolldown2

 debugprint@@@   start find name btn

#############   1名称：   #############

浪琴(Longines)瑞士手表 瑰丽系列机械男表L4.821.4.11.6

 debugprint@@@   start getprice

#############   1价格：   #############

7599.00

商品评价(+)

好评度： %

#############   多线程开始   #############

#############   MyThread_totalcom线程开始   #############

全部评价(+):

#############   多线程结束   #############

晒图():

好评(+):

中评(+):

差评(+):

test111111111

#############   准备插入第  条数据,一共：8列   #############

#############   写入如下数据   #############

链接 http://item.jd.com/712579.html

名称 浪琴(Longines)瑞士手表 瑰丽系列机械男表L4.821.4.11.6

价格 7599.00

晒图

好评

中评

差评

全部评价

#############   该条数据写入完成耗时：7秒，还剩3条数据待分析，即将开始下一个链接的抓取！！！！！！！！！！！！！！！！！！！！！！！！！！！！！！！！！！！！   #############

https://item.jd.com/7275691.html

#############   努力加载链接中，请耐心等待   #############

 debugprint@@@   打印url

False RETURN_CODE

#############   网页已经被打开，耗时：4秒   #############

 debugprint@@@   scrolldown1

 debugprint@@@   准备开始滚动500

 debugprint@@@   已向下滚动500

 debugprint@@@   scrolldown2

 debugprint@@@   start find name btn

#############   1名称：   #############

荣耀 MagicBook 14英寸超轻薄窄边框笔记本电脑(i7-8550U 8G 256G MX150 2G独显 指纹识别 正版Office)冰河银

 debugprint@@@   start getprice

#############   3价格：   #############

5698.00

#############   无法获取xpath如下   #############

//*[@id="detail"]/div[1]/ul/li[5]

商品评价(+)

好评度： %

#############   多线程开始   #############

#############   MyThread_totalcom线程开始   #############

全部评价(+):

#############   多线程结束   #############

晒图():

好评(+):

中评():

差评():

test111111111

#############   准备插入第  条数据,一共：8列   #############

#############   写入如下数据   #############

链接 https://item.jd.com/7275691.html

名称 荣耀 MagicBook 14英寸超轻薄窄边框笔记本电脑(i7-8550U 8G 256G MX150 2G独显 指纹识别 正版Office)冰河银

价格 5698.00

晒图

好评

中评

差评

全部评价

#############   该条数据写入完成耗时：26秒，还剩2条数据待分析，即将开始下一个链接的抓取！！！！！！！！！！！！！！！！！！！！！！！！！！！！！！！！！！！！   #############

http://www.qq.com

#############   努力加载链接中，请耐心等待   #############

 debugprint@@@   打印url

 RETURN_CODE

#############   页面被跳转   #############

test111111111

#############   准备插入第  条数据,一共：8列   #############

#############   写入如下数据   #############

链接 http://www.qq.com

名称 !!页面被跳转

价格

晒图

好评

中评

差评

全部评价

#############   该条数据写入完成耗时：0秒，还剩1条数据待分析，即将开始下一个链接的抓取！！！！！！！！！！！！！！！！！！！！！！！！！！！！！！！！！！！！   #############

https://item.jd.com/3347170.html

#############   努力加载链接中，请耐心等待   #############

 debugprint@@@   打印url

False RETURN_CODE

#############   网页已经被打开，耗时：2秒   #############

 debugprint@@@   scrolldown1

 debugprint@@@   准备开始滚动500

 debugprint@@@   已向下滚动500

 debugprint@@@   scrolldown2

 debugprint@@@   start find name btn

#############   1名称：   #############

南极人（NanJiren）套件 全棉纯棉双人四件套 1.8/.0米床 被套220*240cm 抹茶花

 debugprint@@@   start getprice

#############   1价格：   #############

268.00

商品评价(+)

好评度： %

#############   多线程开始   #############

#############   MyThread_totalcom线程开始   #############

全部评价(+):

#############   多线程结束   #############

晒图():

好评(+):

中评(+):

差评(+):

test111111111

#############   准备插入第  条数据,一共：8列   #############

#############   写入如下数据   #############

链接 https://item.jd.com/3347170.html

名称 南极人（NanJiren）套件 全棉纯棉双人四件套 1.8/.0米床 被套220*240cm 抹茶花

价格 268.00

晒图

好评

中评

差评

全部评价

#############   该条数据写入完成耗时：3秒，还剩0条数据待分析，即将开始下一个链接的抓取！！！！！！！！！！！！！！！！！！！！！！！！！！！！！！！！！！！！   #############

#############   @@@@@$$$$$$$$@@@@@            所有代码正常运行 无报错          @@@@@@@@@@@$$$$$$$$$$$$$$$@@@@@@@@@@@@@@@@   #############

#############   整个爬虫一共耗时：38秒,单条链接平均爬虫耗时:.5秒   #############

#############   sleep 10s后关闭浏览器   #############

我的第一个爬虫【python selenium】的更多相关文章

第一节：Python+Selenium环境搭建
一.selenium工作原理二.安装python Window系统下,python的安装很简单.访问python.org/download,下载最新版本,安装过程与其他windows软件类似.记得下 ...
Python爬虫之selenium的使用（八）
Python爬虫之selenium的使用一.简介二.安装三.使用一.简介 Selenium 是自动化测试工具.它支持各种浏览器,包括 Chrome,Safari,Firefox 等主流界面式浏 ...
使用Python + Selenium打造浏览器爬虫
Selenium 是一款强大的基于浏览器的开源自动化测试工具,最初由 Jason Huggins 于 2004 年在 ThoughtWorks 发起,它提供了一套简单易用的 API,模拟浏览器的各种操 ...
Python爬虫之selenium高级功能
Python爬虫之selenium高级功能原文地址表单操作元素拖拽页面切换弹窗处理表单操作表单里面会有文本框.密码框.下拉框.登陆框等. 这些涉及与页面的交互,比如输入.删除.点击等. ...
Python爬虫之selenium库使用详解
Python爬虫之selenium库使用详解本章内容如下: 什么是Selenium selenium基本使用声明浏览器对象访问页面查找元素多个元素查找元素交互操作交互动作执行JavaS ...
Python项目之我的第一个爬虫----爬取豆瓣图书网，统计图书数量
今天,花了一个晚上的时间边学边做,搞出了我的第一个爬虫.学习Python有两个月了,期间断断续续,但是始终放弃,今天搞了一个小项目,有种丰收的喜悦.废话不说了,直接附上我的全部代码. # -*- co ...
python爬虫__第一个爬虫程序
前言机缘巧合,最近在学习机器学习实战, 本来要用python来做实验和开发环境得到一个需求,要爬取大众点评中的一些商户信息, 于是开启了我的第一个爬虫的编写,里面有好多心酸,主要是第一次. 我的文 ...
Python爬虫小白---（二）爬虫基础--Selenium PhantomJS
一.前言前段时间尝试爬取了网易云音乐的歌曲,这次打算爬取QQ音乐的歌曲信息.网易云音乐歌曲列表是通过iframe展示的,可以借助Selenium获取到iframe的页面元素, 而QQ音乐采用的是 ...
[Python爬虫]使用Selenium操作浏览器订购火车票
这个专题主要说的是Python在爬虫方面的应用,包括爬取和处理部分 [Python爬虫]使用Python爬取动态网页-腾讯动漫(Selenium) [Python爬虫]使用Python爬取静态网页-斗 ...
Python 爬虫利器 Selenium 介绍
Python 爬虫利器 Selenium 介绍转 https://mp.weixin.qq.com/s/YJGjZkUejEos_yJ1ukp5kw 前面几节,我们学习了用 requests 构造页 ...

随机推荐

LoadRunner的Capture Level
场景:录制loadrunner的web站点问题:录制的过程中发现除了页面正常的请求外还有些看不懂的请求(包含乱码),脚本如下: web_url("WebTours", " ...
Java基础知识笔记第七章：内部类和异常类
内部类 /* *Java支持在一个类中定义另一个类,这样的类称为内部类,而包含内部类的类称为内部类的外嵌类 */ 重要关系: /* *1.内部类的外嵌类在内部类中仍然有效,内部类的方法也可以外嵌类的方 ...
Maven笔记一
简介:什么是maven Maven是一个跨平台的项目管理工具,主要用于基于java平台的项目构建,依赖管理. 如图为项目构建的过程. 解决的项目的问题: 1. 如果有好几个项目,这好几个项目中,需要 ...
JavaWeb之过滤器
过滤器什么是过滤器 1示意图: 过滤器的作用: 1.过滤器的作用好比一个保安.是servlet规范中的技术 2.用户在访问应用的资源之前或者之后,可以对请求做出一定的处理编写过滤器步骤: 1.编写 ...
django annotate()的使用
https://www.zmrenwu.com/post/18/ 博客文章通常都有分类,有时候我们会看到分类名后面还跟着该分类下的文章数量.前面我们通过学习 django 博客开发入门教程搭建了一个小 ...
FTP、SFTP、SCP的区别
转载于>> FTP(File Transfer Protocol) 是TCP/IP网络上两台计算机传送文件的协议,FTP是在TCP/IP网络和INTERNET上最早使用的协议之一,它属于网 ...
找出crontab表达式内符合的下一次出发时间点(经典!!!)
参考: https://blog.csdn.net/crazycoder2010/article/details/7905848
腾讯玄武实验室向（CNVD）提交了一个重大漏洞“BucketShock”
导读 11 月 21 日,在小米 IoT 安全峰会上,腾讯安全玄武实验室负责人于旸(花名:TK 教主)在演讲中透露,腾讯玄武实验室最近向国家信息安全漏洞共享平台(CNVD)提交了一个重大漏洞“Buck ...
nginx 书籍
1.<实战nginx> 2.<深入理解nginx> 3.nginx开发从入门到精通 http://tengine.taobao.org/book/ 4.Nginx源码学习,配置 ...
Linux CentOS7 rsync通过服务同步、linux系统日志、screen工具
一.rsync通过服务同步 rsyncd.conf配置文件详解 port:指定在哪个端口启动rsyncd服务,默认是873端口. log file:指定日志文件. pid file:指定pid文件,这 ...

我的第一个爬虫【python selenium】

chromedriver版本问题

我的第一个爬虫【python selenium】的更多相关文章

随机推荐

热门专题