我的第一个爬虫【python selenium】
去年写的一个小功能,一年过得好快,好快!
目的:爬取京东商品详情页面的内容(商品名称、价格、评价数量)后存储到xls文档中,方便商家分析自己商品的动态。
软件:chrome(windows)、chromedriver.exe、phantomjs.exe 、anaconda、pycharm
实现:用selenium自动化工具实现内容抓取,模拟谷歌浏览器打开url,内容展示在浏览器后(js动态内容展示) 定位到各个文本和按钮的位置,然后抓取内容和模拟人工点击按钮继续操作浏览器来展示动态的内容(滚动页面,点击“下一页”等按钮),最后写入excel中。
打包发布:整个程序需要python环境,这样不方便客户使用,最终打包成双击可运行的win程序,不用安装任何编译工具,方便妹子使用。
目前的问题:多线程没有实现,不晓得哪里的问题,求指导!!!

chromedriver版本问题
py2exe--打包成双击可用的程序
运行日志
D:\python\app\anaconda2\python.exe D:/python/workspace/京东爬虫.py
--
发现URL文件,准备开始爬虫
-- :: ############# 一共 条数据要爬虫 #############
http://item.jd.com/712579.html ############# 努力加载链接中,请耐心等待 #############
debugprint@@@ 打印url
False RETURN_CODE
############# 网页已经被打开,耗时:5秒 #############
debugprint@@@ scrolldown1
debugprint@@@ 准备开始滚动500
debugprint@@@ 已向下滚动500
debugprint@@@ scrolldown2
debugprint@@@ start find name btn
############# 1名称: #############
浪琴(Longines)瑞士手表 瑰丽系列机械男表L4.821.4.11.6
debugprint@@@ start getprice
############# 1价格: #############
7599.00
商品评价(+)
好评度: %
############# 多线程开始 #############
############# MyThread_totalcom线程开始 #############
全部评价(+):
############# 多线程结束 #############
晒图():
好评(+):
中评(+):
差评(+):
test111111111
############# 准备插入第 条数据,一共:8列 #############
############# 写入如下数据 #############
链接 http://item.jd.com/712579.html
名称 浪琴(Longines)瑞士手表 瑰丽系列机械男表L4.821.4.11.6
价格 7599.00
晒图
好评
中评
差评
全部评价
############# 该条数据写入完成耗时:7秒,还剩3条数据待分析,即将开始下一个链接的抓取!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!! #############
https://item.jd.com/7275691.html ############# 努力加载链接中,请耐心等待 #############
debugprint@@@ 打印url
False RETURN_CODE
############# 网页已经被打开,耗时:4秒 #############
debugprint@@@ scrolldown1
debugprint@@@ 准备开始滚动500
debugprint@@@ 已向下滚动500
debugprint@@@ scrolldown2
debugprint@@@ start find name btn
############# 1名称: #############
荣耀 MagicBook 14英寸超轻薄窄边框笔记本电脑(i7-8550U 8G 256G MX150 2G独显 指纹识别 正版Office)冰河银
debugprint@@@ start getprice
############# 3价格: #############
5698.00
############# 无法获取xpath如下 #############
//*[@id="detail"]/div[1]/ul/li[5]
商品评价(+)
好评度: %
############# 多线程开始 #############
############# MyThread_totalcom线程开始 #############
全部评价(+):
############# 多线程结束 #############
晒图():
好评(+):
中评():
差评():
test111111111
############# 准备插入第 条数据,一共:8列 #############
############# 写入如下数据 #############
链接 https://item.jd.com/7275691.html
名称 荣耀 MagicBook 14英寸超轻薄窄边框笔记本电脑(i7-8550U 8G 256G MX150 2G独显 指纹识别 正版Office)冰河银
价格 5698.00
晒图
好评
中评
差评
全部评价
############# 该条数据写入完成耗时:26秒,还剩2条数据待分析,即将开始下一个链接的抓取!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!! #############
http://www.qq.com ############# 努力加载链接中,请耐心等待 #############
debugprint@@@ 打印url
RETURN_CODE
############# 页面被跳转 #############
test111111111
############# 准备插入第 条数据,一共:8列 #############
############# 写入如下数据 #############
链接 http://www.qq.com
名称 !!页面被跳转
价格
晒图
好评
中评
差评
全部评价
############# 该条数据写入完成耗时:0秒,还剩1条数据待分析,即将开始下一个链接的抓取!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!! #############
https://item.jd.com/3347170.html
############# 努力加载链接中,请耐心等待 #############
debugprint@@@ 打印url
False RETURN_CODE
############# 网页已经被打开,耗时:2秒 #############
debugprint@@@ scrolldown1
debugprint@@@ 准备开始滚动500
debugprint@@@ 已向下滚动500
debugprint@@@ scrolldown2
debugprint@@@ start find name btn
############# 1名称: #############
南极人(NanJiren)套件 全棉纯棉双人四件套 1.8/.0米床 被套220*240cm 抹茶花
debugprint@@@ start getprice
############# 1价格: #############
268.00
商品评价(+)
好评度: %
############# 多线程开始 #############
############# MyThread_totalcom线程开始 #############
全部评价(+):
############# 多线程结束 #############
晒图():
好评(+):
中评(+):
差评(+):
test111111111
############# 准备插入第 条数据,一共:8列 #############
############# 写入如下数据 #############
链接 https://item.jd.com/3347170.html
名称 南极人(NanJiren)套件 全棉纯棉双人四件套 1.8/.0米床 被套220*240cm 抹茶花
价格 268.00
晒图
好评
中评
差评
全部评价
############# 该条数据写入完成耗时:3秒,还剩0条数据待分析,即将开始下一个链接的抓取!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!! #############
############# @@@@@$$$$$$$$@@@@@ 所有代码正常运行 无报错 @@@@@@@@@@@$$$$$$$$$$$$$$$@@@@@@@@@@@@@@@@ #############
############# 整个爬虫一共耗时:38秒,单条链接平均爬虫耗时:.5秒 #############
############# sleep 10s后关闭浏览器 #############


我的第一个爬虫【python selenium】的更多相关文章
- 第一节:Python+Selenium环境搭建
一.selenium工作原理 二.安装python Window系统下,python的安装很简单.访问python.org/download,下载最新版本,安装过程与其他windows软件类似.记得下 ...
- Python爬虫之selenium的使用(八)
Python爬虫之selenium的使用 一.简介 二.安装 三.使用 一.简介 Selenium 是自动化测试工具.它支持各种浏览器,包括 Chrome,Safari,Firefox 等主流界面式浏 ...
- 使用Python + Selenium打造浏览器爬虫
Selenium 是一款强大的基于浏览器的开源自动化测试工具,最初由 Jason Huggins 于 2004 年在 ThoughtWorks 发起,它提供了一套简单易用的 API,模拟浏览器的各种操 ...
- Python爬虫之selenium高级功能
Python爬虫之selenium高级功能 原文地址 表单操作 元素拖拽 页面切换 弹窗处理 表单操作 表单里面会有文本框.密码框.下拉框.登陆框等. 这些涉及与页面的交互,比如输入.删除.点击等. ...
- Python爬虫之selenium库使用详解
Python爬虫之selenium库使用详解 本章内容如下: 什么是Selenium selenium基本使用 声明浏览器对象 访问页面 查找元素 多个元素查找 元素交互操作 交互动作 执行JavaS ...
- Python项目之我的第一个爬虫----爬取豆瓣图书网,统计图书数量
今天,花了一个晚上的时间边学边做,搞出了我的第一个爬虫.学习Python有两个月了,期间断断续续,但是始终放弃,今天搞了一个小项目,有种丰收的喜悦.废话不说了,直接附上我的全部代码. # -*- co ...
- python爬虫__第一个爬虫程序
前言 机缘巧合,最近在学习机器学习实战, 本来要用python来做实验和开发环境 得到一个需求,要爬取大众点评中的一些商户信息, 于是开启了我的第一个爬虫的编写,里面有好多心酸,主要是第一次. 我的文 ...
- Python爬虫小白---(二)爬虫基础--Selenium PhantomJS
一.前言 前段时间尝试爬取了网易云音乐的歌曲,这次打算爬取QQ音乐的歌曲信息.网易云音乐歌曲列表是通过iframe展示的,可以借助Selenium获取到iframe的页面元素, 而QQ音乐采用的是 ...
- [Python爬虫]使用Selenium操作浏览器订购火车票
这个专题主要说的是Python在爬虫方面的应用,包括爬取和处理部分 [Python爬虫]使用Python爬取动态网页-腾讯动漫(Selenium) [Python爬虫]使用Python爬取静态网页-斗 ...
- Python 爬虫利器 Selenium 介绍
Python 爬虫利器 Selenium 介绍 转 https://mp.weixin.qq.com/s/YJGjZkUejEos_yJ1ukp5kw 前面几节,我们学习了用 requests 构造页 ...
随机推荐
- Asteroids!_poj2225
这是一个立方体的空间的路径搜索问题,若可达输出步数,不可达输出“NO ROUTE” 一道……课后题 输入的话我是按字符输入这个空间的 然后普通的bfs,一个方向数组,一个空间数组(因为只用一次,懒的再 ...
- 设计模式课程 设计模式精讲 3-10 里氏替换原则coding
1 代码演练 1.1 继承关系判别(是否是真正意义的继承) 1.2 入参控制 1.3 出参控制 1 代码演练 1.1 继承关系判别(是否是真正意义的继承)(其实我觉得这个例子有点牵强) 1.1.1 反 ...
- 【转】Chrome开发者工具详解
https://www.jianshu.com/p/7c8552f08e7a Chrome开发者工具详解(1)-Elements.Console.Sources面 Chrome开发者工具详解(2)-N ...
- C 语言入门---第十一章---C语言重要知识点补充
====C语言typedef 的用法==== 1. C语言允许为一个数据类型起一个新的别名,就像给人起绰号一样. typedef OldName newName; typedef 和 #define ...
- LeetCode 83. Remove Duplicates from Sorted List(从有序链表中删除重复节点)
题意:从有序链表中删除重复节点. /** * Definition for singly-linked list. * struct ListNode { * int val; * ListNode ...
- 如何用C++读取图片中的像素
来源:https://bbs.csdn.net/topics/391956973 3楼 #include <iostream> #include <fstream> #inc ...
- ApacheDbUtilsUpdate
ApacheDbUtilsUpdate package p1; import com.DataSourceUtil; import org.apache.commons.dbutils.QueryRu ...
- [swscaler @ ...] deprecated pixel format used, make sure you did set range correctly
我自己在使用如下函数进行转换时报的错 int sws_scale(struct SwsContext *c, const uint8_t *const srcSlice[], const int sr ...
- 写给想要入门python或者正在入门python的小朋友们
写在前面: 最近好像python挺火,虽然我也在天天写python,但是python毕竟是动态语言,就拿常被人吐槽的java来说,python绝大不多数地方是不如java的.python只能是你的一个 ...
- java也可以做出很漂亮的界面
其实java想把界面做漂亮点的话,只要把背景做好就行了,在jdk1.6以后可以继承JFrame,或JWindow后如下设置即可 setUndecorated(true);//不要标题栏的修饰,主要防止 ...