我的第一个爬虫【python selenium】
去年写的一个小功能,一年过得好快,好快!
目的:爬取京东商品详情页面的内容(商品名称、价格、评价数量)后存储到xls文档中,方便商家分析自己商品的动态。
软件:chrome(windows)、chromedriver.exe、phantomjs.exe 、anaconda、pycharm
实现:用selenium自动化工具实现内容抓取,模拟谷歌浏览器打开url,内容展示在浏览器后(js动态内容展示) 定位到各个文本和按钮的位置,然后抓取内容和模拟人工点击按钮继续操作浏览器来展示动态的内容(滚动页面,点击“下一页”等按钮),最后写入excel中。
打包发布:整个程序需要python环境,这样不方便客户使用,最终打包成双击可运行的win程序,不用安装任何编译工具,方便妹子使用。
目前的问题:多线程没有实现,不晓得哪里的问题,求指导!!!

chromedriver版本问题
py2exe--打包成双击可用的程序
运行日志
D:\python\app\anaconda2\python.exe D:/python/workspace/京东爬虫.py
--
发现URL文件,准备开始爬虫
-- :: ############# 一共 条数据要爬虫 #############
http://item.jd.com/712579.html ############# 努力加载链接中,请耐心等待 #############
debugprint@@@ 打印url
False RETURN_CODE
############# 网页已经被打开,耗时:5秒 #############
debugprint@@@ scrolldown1
debugprint@@@ 准备开始滚动500
debugprint@@@ 已向下滚动500
debugprint@@@ scrolldown2
debugprint@@@ start find name btn
############# 1名称: #############
浪琴(Longines)瑞士手表 瑰丽系列机械男表L4.821.4.11.6
debugprint@@@ start getprice
############# 1价格: #############
7599.00
商品评价(+)
好评度: %
############# 多线程开始 #############
############# MyThread_totalcom线程开始 #############
全部评价(+):
############# 多线程结束 #############
晒图():
好评(+):
中评(+):
差评(+):
test111111111
############# 准备插入第 条数据,一共:8列 #############
############# 写入如下数据 #############
链接 http://item.jd.com/712579.html
名称 浪琴(Longines)瑞士手表 瑰丽系列机械男表L4.821.4.11.6
价格 7599.00
晒图
好评
中评
差评
全部评价
############# 该条数据写入完成耗时:7秒,还剩3条数据待分析,即将开始下一个链接的抓取!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!! #############
https://item.jd.com/7275691.html ############# 努力加载链接中,请耐心等待 #############
debugprint@@@ 打印url
False RETURN_CODE
############# 网页已经被打开,耗时:4秒 #############
debugprint@@@ scrolldown1
debugprint@@@ 准备开始滚动500
debugprint@@@ 已向下滚动500
debugprint@@@ scrolldown2
debugprint@@@ start find name btn
############# 1名称: #############
荣耀 MagicBook 14英寸超轻薄窄边框笔记本电脑(i7-8550U 8G 256G MX150 2G独显 指纹识别 正版Office)冰河银
debugprint@@@ start getprice
############# 3价格: #############
5698.00
############# 无法获取xpath如下 #############
//*[@id="detail"]/div[1]/ul/li[5]
商品评价(+)
好评度: %
############# 多线程开始 #############
############# MyThread_totalcom线程开始 #############
全部评价(+):
############# 多线程结束 #############
晒图():
好评(+):
中评():
差评():
test111111111
############# 准备插入第 条数据,一共:8列 #############
############# 写入如下数据 #############
链接 https://item.jd.com/7275691.html
名称 荣耀 MagicBook 14英寸超轻薄窄边框笔记本电脑(i7-8550U 8G 256G MX150 2G独显 指纹识别 正版Office)冰河银
价格 5698.00
晒图
好评
中评
差评
全部评价
############# 该条数据写入完成耗时:26秒,还剩2条数据待分析,即将开始下一个链接的抓取!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!! #############
http://www.qq.com ############# 努力加载链接中,请耐心等待 #############
debugprint@@@ 打印url
RETURN_CODE
############# 页面被跳转 #############
test111111111
############# 准备插入第 条数据,一共:8列 #############
############# 写入如下数据 #############
链接 http://www.qq.com
名称 !!页面被跳转
价格
晒图
好评
中评
差评
全部评价
############# 该条数据写入完成耗时:0秒,还剩1条数据待分析,即将开始下一个链接的抓取!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!! #############
https://item.jd.com/3347170.html
############# 努力加载链接中,请耐心等待 #############
debugprint@@@ 打印url
False RETURN_CODE
############# 网页已经被打开,耗时:2秒 #############
debugprint@@@ scrolldown1
debugprint@@@ 准备开始滚动500
debugprint@@@ 已向下滚动500
debugprint@@@ scrolldown2
debugprint@@@ start find name btn
############# 1名称: #############
南极人(NanJiren)套件 全棉纯棉双人四件套 1.8/.0米床 被套220*240cm 抹茶花
debugprint@@@ start getprice
############# 1价格: #############
268.00
商品评价(+)
好评度: %
############# 多线程开始 #############
############# MyThread_totalcom线程开始 #############
全部评价(+):
############# 多线程结束 #############
晒图():
好评(+):
中评(+):
差评(+):
test111111111
############# 准备插入第 条数据,一共:8列 #############
############# 写入如下数据 #############
链接 https://item.jd.com/3347170.html
名称 南极人(NanJiren)套件 全棉纯棉双人四件套 1.8/.0米床 被套220*240cm 抹茶花
价格 268.00
晒图
好评
中评
差评
全部评价
############# 该条数据写入完成耗时:3秒,还剩0条数据待分析,即将开始下一个链接的抓取!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!! #############
############# @@@@@$$$$$$$$@@@@@ 所有代码正常运行 无报错 @@@@@@@@@@@$$$$$$$$$$$$$$$@@@@@@@@@@@@@@@@ #############
############# 整个爬虫一共耗时:38秒,单条链接平均爬虫耗时:.5秒 #############
############# sleep 10s后关闭浏览器 #############


我的第一个爬虫【python selenium】的更多相关文章
- 第一节:Python+Selenium环境搭建
一.selenium工作原理 二.安装python Window系统下,python的安装很简单.访问python.org/download,下载最新版本,安装过程与其他windows软件类似.记得下 ...
- Python爬虫之selenium的使用(八)
Python爬虫之selenium的使用 一.简介 二.安装 三.使用 一.简介 Selenium 是自动化测试工具.它支持各种浏览器,包括 Chrome,Safari,Firefox 等主流界面式浏 ...
- 使用Python + Selenium打造浏览器爬虫
Selenium 是一款强大的基于浏览器的开源自动化测试工具,最初由 Jason Huggins 于 2004 年在 ThoughtWorks 发起,它提供了一套简单易用的 API,模拟浏览器的各种操 ...
- Python爬虫之selenium高级功能
Python爬虫之selenium高级功能 原文地址 表单操作 元素拖拽 页面切换 弹窗处理 表单操作 表单里面会有文本框.密码框.下拉框.登陆框等. 这些涉及与页面的交互,比如输入.删除.点击等. ...
- Python爬虫之selenium库使用详解
Python爬虫之selenium库使用详解 本章内容如下: 什么是Selenium selenium基本使用 声明浏览器对象 访问页面 查找元素 多个元素查找 元素交互操作 交互动作 执行JavaS ...
- Python项目之我的第一个爬虫----爬取豆瓣图书网,统计图书数量
今天,花了一个晚上的时间边学边做,搞出了我的第一个爬虫.学习Python有两个月了,期间断断续续,但是始终放弃,今天搞了一个小项目,有种丰收的喜悦.废话不说了,直接附上我的全部代码. # -*- co ...
- python爬虫__第一个爬虫程序
前言 机缘巧合,最近在学习机器学习实战, 本来要用python来做实验和开发环境 得到一个需求,要爬取大众点评中的一些商户信息, 于是开启了我的第一个爬虫的编写,里面有好多心酸,主要是第一次. 我的文 ...
- Python爬虫小白---(二)爬虫基础--Selenium PhantomJS
一.前言 前段时间尝试爬取了网易云音乐的歌曲,这次打算爬取QQ音乐的歌曲信息.网易云音乐歌曲列表是通过iframe展示的,可以借助Selenium获取到iframe的页面元素, 而QQ音乐采用的是 ...
- [Python爬虫]使用Selenium操作浏览器订购火车票
这个专题主要说的是Python在爬虫方面的应用,包括爬取和处理部分 [Python爬虫]使用Python爬取动态网页-腾讯动漫(Selenium) [Python爬虫]使用Python爬取静态网页-斗 ...
- Python 爬虫利器 Selenium 介绍
Python 爬虫利器 Selenium 介绍 转 https://mp.weixin.qq.com/s/YJGjZkUejEos_yJ1ukp5kw 前面几节,我们学习了用 requests 构造页 ...
随机推荐
- php cli 下 php.ini 配置
// 查看phpcli 模式下 扩展 php -m // 查看php cli 版本 php -v 查看命令行的ini路径,命令行下运行 php --ini Loaded Configuration F ...
- 使用win32com操作woord的方法记录
CSDN博客平台中有众多的 win32com 库操作word 的说明,对于通用的内容将一笔带过,主要介绍目前看来独一无二的内容. import win32com from win32com.clien ...
- Django中的prefetch_related()函数优化
对于多对多字段(ManyToManyField)和一对多字段, 可以使用prefetch_related()来进行优化 prefetch_related()和select_related()的设计目的 ...
- PPT页面切换动画
想要自己的PPT更加炫酷一些的话,可以再给每个页面的切换,加上动画效果. 第一步,按住ctrl键,鼠标点击选择想要增加切换动画的页面,然后点击菜单栏的“切换” 第二步,在切换菜单下面选择具体的切换效果 ...
- MongoDB的分片数据库命令总结
sh._adminCommand 在admin数据库运行database command ,就像db.runCommand() ,不过可以保证只在 mongos 上运行. sh._checkFullN ...
- shell脚本中执行sql命令
1.mysql 数据库表信息 2.shell脚本(a.sh)信息 #!/bin/sh mysql -u root << myInsert insert into test.t values ...
- Spring注解@Qualifier、@Autowired、@Primary
@Qualifier 1.当一个接口有多个实现类,且均已注入到Spring容器中了,使用@AutoWired是byType的,而这些实现类类型都相同,此时就需要使用@Qualifier明确指定使用那个 ...
- Go的WaitGroup
goroutine使用方便,但是如果不加以处理一般会deadlock,因为goroutine配合Chanel的话只能是一进一出,否则就会卡在那里.下面一个示例就是利用这个WaitGroup处理这种死锁 ...
- Android。WebView加载UR请求使用Cookie储存User_Id记录用户是否登陆过
1.WebView初始化的时候用倒如下代码: if (Build.VERSION.SDK_INT >= 21) { CookieManager.getInstance().setAcceptTh ...
- ARM CORTEX-M3 内核架构理解归纳
ARM CORTEX-M3 内核架构理解归纳 来源:网络 个人觉得对CM3架构归纳的非常不错,因此转载 基于<ARM-CORTEX M3 权威指南>做学习总结: 在我看来,Cotex-M3 ...