我的第一个爬虫【python selenium】
去年写的一个小功能,一年过得好快,好快!
目的:爬取京东商品详情页面的内容(商品名称、价格、评价数量)后存储到xls文档中,方便商家分析自己商品的动态。
软件:chrome(windows)、chromedriver.exe、phantomjs.exe 、anaconda、pycharm
实现:用selenium自动化工具实现内容抓取,模拟谷歌浏览器打开url,内容展示在浏览器后(js动态内容展示) 定位到各个文本和按钮的位置,然后抓取内容和模拟人工点击按钮继续操作浏览器来展示动态的内容(滚动页面,点击“下一页”等按钮),最后写入excel中。
打包发布:整个程序需要python环境,这样不方便客户使用,最终打包成双击可运行的win程序,不用安装任何编译工具,方便妹子使用。
目前的问题:多线程没有实现,不晓得哪里的问题,求指导!!!

chromedriver版本问题
py2exe--打包成双击可用的程序
运行日志
D:\python\app\anaconda2\python.exe D:/python/workspace/京东爬虫.py
--
发现URL文件,准备开始爬虫
-- :: ############# 一共 条数据要爬虫 #############
http://item.jd.com/712579.html ############# 努力加载链接中,请耐心等待 #############
debugprint@@@ 打印url
False RETURN_CODE
############# 网页已经被打开,耗时:5秒 #############
debugprint@@@ scrolldown1
debugprint@@@ 准备开始滚动500
debugprint@@@ 已向下滚动500
debugprint@@@ scrolldown2
debugprint@@@ start find name btn
############# 1名称: #############
浪琴(Longines)瑞士手表 瑰丽系列机械男表L4.821.4.11.6
debugprint@@@ start getprice
############# 1价格: #############
7599.00
商品评价(+)
好评度: %
############# 多线程开始 #############
############# MyThread_totalcom线程开始 #############
全部评价(+):
############# 多线程结束 #############
晒图():
好评(+):
中评(+):
差评(+):
test111111111
############# 准备插入第 条数据,一共:8列 #############
############# 写入如下数据 #############
链接 http://item.jd.com/712579.html
名称 浪琴(Longines)瑞士手表 瑰丽系列机械男表L4.821.4.11.6
价格 7599.00
晒图
好评
中评
差评
全部评价
############# 该条数据写入完成耗时:7秒,还剩3条数据待分析,即将开始下一个链接的抓取!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!! #############
https://item.jd.com/7275691.html ############# 努力加载链接中,请耐心等待 #############
debugprint@@@ 打印url
False RETURN_CODE
############# 网页已经被打开,耗时:4秒 #############
debugprint@@@ scrolldown1
debugprint@@@ 准备开始滚动500
debugprint@@@ 已向下滚动500
debugprint@@@ scrolldown2
debugprint@@@ start find name btn
############# 1名称: #############
荣耀 MagicBook 14英寸超轻薄窄边框笔记本电脑(i7-8550U 8G 256G MX150 2G独显 指纹识别 正版Office)冰河银
debugprint@@@ start getprice
############# 3价格: #############
5698.00
############# 无法获取xpath如下 #############
//*[@id="detail"]/div[1]/ul/li[5]
商品评价(+)
好评度: %
############# 多线程开始 #############
############# MyThread_totalcom线程开始 #############
全部评价(+):
############# 多线程结束 #############
晒图():
好评(+):
中评():
差评():
test111111111
############# 准备插入第 条数据,一共:8列 #############
############# 写入如下数据 #############
链接 https://item.jd.com/7275691.html
名称 荣耀 MagicBook 14英寸超轻薄窄边框笔记本电脑(i7-8550U 8G 256G MX150 2G独显 指纹识别 正版Office)冰河银
价格 5698.00
晒图
好评
中评
差评
全部评价
############# 该条数据写入完成耗时:26秒,还剩2条数据待分析,即将开始下一个链接的抓取!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!! #############
http://www.qq.com ############# 努力加载链接中,请耐心等待 #############
debugprint@@@ 打印url
RETURN_CODE
############# 页面被跳转 #############
test111111111
############# 准备插入第 条数据,一共:8列 #############
############# 写入如下数据 #############
链接 http://www.qq.com
名称 !!页面被跳转
价格
晒图
好评
中评
差评
全部评价
############# 该条数据写入完成耗时:0秒,还剩1条数据待分析,即将开始下一个链接的抓取!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!! #############
https://item.jd.com/3347170.html
############# 努力加载链接中,请耐心等待 #############
debugprint@@@ 打印url
False RETURN_CODE
############# 网页已经被打开,耗时:2秒 #############
debugprint@@@ scrolldown1
debugprint@@@ 准备开始滚动500
debugprint@@@ 已向下滚动500
debugprint@@@ scrolldown2
debugprint@@@ start find name btn
############# 1名称: #############
南极人(NanJiren)套件 全棉纯棉双人四件套 1.8/.0米床 被套220*240cm 抹茶花
debugprint@@@ start getprice
############# 1价格: #############
268.00
商品评价(+)
好评度: %
############# 多线程开始 #############
############# MyThread_totalcom线程开始 #############
全部评价(+):
############# 多线程结束 #############
晒图():
好评(+):
中评(+):
差评(+):
test111111111
############# 准备插入第 条数据,一共:8列 #############
############# 写入如下数据 #############
链接 https://item.jd.com/3347170.html
名称 南极人(NanJiren)套件 全棉纯棉双人四件套 1.8/.0米床 被套220*240cm 抹茶花
价格 268.00
晒图
好评
中评
差评
全部评价
############# 该条数据写入完成耗时:3秒,还剩0条数据待分析,即将开始下一个链接的抓取!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!! #############
############# @@@@@$$$$$$$$@@@@@ 所有代码正常运行 无报错 @@@@@@@@@@@$$$$$$$$$$$$$$$@@@@@@@@@@@@@@@@ #############
############# 整个爬虫一共耗时:38秒,单条链接平均爬虫耗时:.5秒 #############
############# sleep 10s后关闭浏览器 #############


我的第一个爬虫【python selenium】的更多相关文章
- 第一节:Python+Selenium环境搭建
一.selenium工作原理 二.安装python Window系统下,python的安装很简单.访问python.org/download,下载最新版本,安装过程与其他windows软件类似.记得下 ...
- Python爬虫之selenium的使用(八)
Python爬虫之selenium的使用 一.简介 二.安装 三.使用 一.简介 Selenium 是自动化测试工具.它支持各种浏览器,包括 Chrome,Safari,Firefox 等主流界面式浏 ...
- 使用Python + Selenium打造浏览器爬虫
Selenium 是一款强大的基于浏览器的开源自动化测试工具,最初由 Jason Huggins 于 2004 年在 ThoughtWorks 发起,它提供了一套简单易用的 API,模拟浏览器的各种操 ...
- Python爬虫之selenium高级功能
Python爬虫之selenium高级功能 原文地址 表单操作 元素拖拽 页面切换 弹窗处理 表单操作 表单里面会有文本框.密码框.下拉框.登陆框等. 这些涉及与页面的交互,比如输入.删除.点击等. ...
- Python爬虫之selenium库使用详解
Python爬虫之selenium库使用详解 本章内容如下: 什么是Selenium selenium基本使用 声明浏览器对象 访问页面 查找元素 多个元素查找 元素交互操作 交互动作 执行JavaS ...
- Python项目之我的第一个爬虫----爬取豆瓣图书网,统计图书数量
今天,花了一个晚上的时间边学边做,搞出了我的第一个爬虫.学习Python有两个月了,期间断断续续,但是始终放弃,今天搞了一个小项目,有种丰收的喜悦.废话不说了,直接附上我的全部代码. # -*- co ...
- python爬虫__第一个爬虫程序
前言 机缘巧合,最近在学习机器学习实战, 本来要用python来做实验和开发环境 得到一个需求,要爬取大众点评中的一些商户信息, 于是开启了我的第一个爬虫的编写,里面有好多心酸,主要是第一次. 我的文 ...
- Python爬虫小白---(二)爬虫基础--Selenium PhantomJS
一.前言 前段时间尝试爬取了网易云音乐的歌曲,这次打算爬取QQ音乐的歌曲信息.网易云音乐歌曲列表是通过iframe展示的,可以借助Selenium获取到iframe的页面元素, 而QQ音乐采用的是 ...
- [Python爬虫]使用Selenium操作浏览器订购火车票
这个专题主要说的是Python在爬虫方面的应用,包括爬取和处理部分 [Python爬虫]使用Python爬取动态网页-腾讯动漫(Selenium) [Python爬虫]使用Python爬取静态网页-斗 ...
- Python 爬虫利器 Selenium 介绍
Python 爬虫利器 Selenium 介绍 转 https://mp.weixin.qq.com/s/YJGjZkUejEos_yJ1ukp5kw 前面几节,我们学习了用 requests 构造页 ...
随机推荐
- 「luogu3402」【模板】可持久化并查集
「luogu3402」[模板]可持久化并查集 传送门 我们可以用一个可持久化数组来存每个节点的父亲. 单点信息更新和查询就用主席树多花 一个 \(\log\) 的代价来搞. 然后考虑如何合并两个点. ...
- 单链表 C++ 实现 - 含虚拟头节点
本文例程下载链接:ListDemo 链表 vs 数组 链表和数组的最大区别在于链表不支持随机访问,不能像数组那样对任意一个(索引)位置的元素进行访问,而需要从头节点开始,一个一个往后访问直到查找到目标 ...
- where、having区别
where << group by << having where筛选是在分组之前筛选,筛选完之后再group by having是分组之后再筛选,筛选完之前先g ...
- sqlmap命令手册
http://127.0.0.1/sqli-labs-master/Less-1/?id=1 当给sqlmap上面这么一个url的时候,它会自动: 1.判断可注入的参数 2.判断可以用那种SQL注入技 ...
- CSS阴影 box-shadow属性用法
box-shadow: 它可以设置一个或者多个下拉阴影的框 语法:box-shadow:h-shadow v-shadow blur spread color inset 注意:该属性把一个或者多个下 ...
- URL和 URI 的区别
URL:统一资源定位符 URI:统一资源标识符 URL 是 URI 的一个子集: 来源知乎 1.统一资源标识符 URI 就是在某一规则下能把一个资源独一无二的表示出来. 拿人做例子,假设这个世界上多有 ...
- spring boot中的底层配置文件application.yam(application.property)的装配原理初探
*在spring boot中有一个基础的配置文件application.yam(application.property)用于对spring boot的默认设置做一些改动. *在spring boot ...
- Python学习第十八课——继承,接口继承等
1.继承:字面意思 # 继承 : 字面意思 class father: pass class grandfather: pass class children(father): # 单继承 pass ...
- mysql 统计索引执行情况
select distinct b.TABLE_SCHEMA,b.TABLE_NAME , b.INDEX_NAME , a.count_starfrom performance_schema.tab ...
- 【PAT甲级】1020 Tree Traversals (25 分)(树知二求一)
题意: 输入一个正整数N(N<=30),给出一棵二叉树的后序遍历和中序遍历,输出它的层次遍历. trick: 当30个点构成一条单链时,如代码开头处的数据,大约1e9左右的结点编号大小,故采用结 ...