我的第一个爬虫【python selenium】
去年写的一个小功能,一年过得好快,好快!
目的:爬取京东商品详情页面的内容(商品名称、价格、评价数量)后存储到xls文档中,方便商家分析自己商品的动态。
软件:chrome(windows)、chromedriver.exe、phantomjs.exe 、anaconda、pycharm
实现:用selenium自动化工具实现内容抓取,模拟谷歌浏览器打开url,内容展示在浏览器后(js动态内容展示) 定位到各个文本和按钮的位置,然后抓取内容和模拟人工点击按钮继续操作浏览器来展示动态的内容(滚动页面,点击“下一页”等按钮),最后写入excel中。
打包发布:整个程序需要python环境,这样不方便客户使用,最终打包成双击可运行的win程序,不用安装任何编译工具,方便妹子使用。
目前的问题:多线程没有实现,不晓得哪里的问题,求指导!!!
chromedriver版本问题
py2exe--打包成双击可用的程序
运行日志
D:\python\app\anaconda2\python.exe D:/python/workspace/京东爬虫.py
--
发现URL文件,准备开始爬虫
-- :: ############# 一共 条数据要爬虫 #############
http://item.jd.com/712579.html ############# 努力加载链接中,请耐心等待 #############
debugprint@@@ 打印url
False RETURN_CODE
############# 网页已经被打开,耗时:5秒 #############
debugprint@@@ scrolldown1
debugprint@@@ 准备开始滚动500
debugprint@@@ 已向下滚动500
debugprint@@@ scrolldown2
debugprint@@@ start find name btn
############# 1名称: #############
浪琴(Longines)瑞士手表 瑰丽系列机械男表L4.821.4.11.6
debugprint@@@ start getprice
############# 1价格: #############
7599.00
商品评价(+)
好评度: %
############# 多线程开始 #############
############# MyThread_totalcom线程开始 #############
全部评价(+):
############# 多线程结束 #############
晒图():
好评(+):
中评(+):
差评(+):
test111111111
############# 准备插入第 条数据,一共:8列 #############
############# 写入如下数据 #############
链接 http://item.jd.com/712579.html
名称 浪琴(Longines)瑞士手表 瑰丽系列机械男表L4.821.4.11.6
价格 7599.00
晒图
好评
中评
差评
全部评价
############# 该条数据写入完成耗时:7秒,还剩3条数据待分析,即将开始下一个链接的抓取!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!! #############
https://item.jd.com/7275691.html ############# 努力加载链接中,请耐心等待 #############
debugprint@@@ 打印url
False RETURN_CODE
############# 网页已经被打开,耗时:4秒 #############
debugprint@@@ scrolldown1
debugprint@@@ 准备开始滚动500
debugprint@@@ 已向下滚动500
debugprint@@@ scrolldown2
debugprint@@@ start find name btn
############# 1名称: #############
荣耀 MagicBook 14英寸超轻薄窄边框笔记本电脑(i7-8550U 8G 256G MX150 2G独显 指纹识别 正版Office)冰河银
debugprint@@@ start getprice
############# 3价格: #############
5698.00
############# 无法获取xpath如下 #############
//*[@id="detail"]/div[1]/ul/li[5]
商品评价(+)
好评度: %
############# 多线程开始 #############
############# MyThread_totalcom线程开始 #############
全部评价(+):
############# 多线程结束 #############
晒图():
好评(+):
中评():
差评():
test111111111
############# 准备插入第 条数据,一共:8列 #############
############# 写入如下数据 #############
链接 https://item.jd.com/7275691.html
名称 荣耀 MagicBook 14英寸超轻薄窄边框笔记本电脑(i7-8550U 8G 256G MX150 2G独显 指纹识别 正版Office)冰河银
价格 5698.00
晒图
好评
中评
差评
全部评价
############# 该条数据写入完成耗时:26秒,还剩2条数据待分析,即将开始下一个链接的抓取!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!! #############
http://www.qq.com ############# 努力加载链接中,请耐心等待 #############
debugprint@@@ 打印url
RETURN_CODE
############# 页面被跳转 #############
test111111111
############# 准备插入第 条数据,一共:8列 #############
############# 写入如下数据 #############
链接 http://www.qq.com
名称 !!页面被跳转
价格
晒图
好评
中评
差评
全部评价
############# 该条数据写入完成耗时:0秒,还剩1条数据待分析,即将开始下一个链接的抓取!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!! #############
https://item.jd.com/3347170.html
############# 努力加载链接中,请耐心等待 #############
debugprint@@@ 打印url
False RETURN_CODE
############# 网页已经被打开,耗时:2秒 #############
debugprint@@@ scrolldown1
debugprint@@@ 准备开始滚动500
debugprint@@@ 已向下滚动500
debugprint@@@ scrolldown2
debugprint@@@ start find name btn
############# 1名称: #############
南极人(NanJiren)套件 全棉纯棉双人四件套 1.8/.0米床 被套220*240cm 抹茶花
debugprint@@@ start getprice
############# 1价格: #############
268.00
商品评价(+)
好评度: %
############# 多线程开始 #############
############# MyThread_totalcom线程开始 #############
全部评价(+):
############# 多线程结束 #############
晒图():
好评(+):
中评(+):
差评(+):
test111111111
############# 准备插入第 条数据,一共:8列 #############
############# 写入如下数据 #############
链接 https://item.jd.com/3347170.html
名称 南极人(NanJiren)套件 全棉纯棉双人四件套 1.8/.0米床 被套220*240cm 抹茶花
价格 268.00
晒图
好评
中评
差评
全部评价
############# 该条数据写入完成耗时:3秒,还剩0条数据待分析,即将开始下一个链接的抓取!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!! #############
############# @@@@@$$$$$$$$@@@@@ 所有代码正常运行 无报错 @@@@@@@@@@@$$$$$$$$$$$$$$$@@@@@@@@@@@@@@@@ #############
############# 整个爬虫一共耗时:38秒,单条链接平均爬虫耗时:.5秒 #############
############# sleep 10s后关闭浏览器 #############
我的第一个爬虫【python selenium】的更多相关文章
- 第一节:Python+Selenium环境搭建
一.selenium工作原理 二.安装python Window系统下,python的安装很简单.访问python.org/download,下载最新版本,安装过程与其他windows软件类似.记得下 ...
- Python爬虫之selenium的使用(八)
Python爬虫之selenium的使用 一.简介 二.安装 三.使用 一.简介 Selenium 是自动化测试工具.它支持各种浏览器,包括 Chrome,Safari,Firefox 等主流界面式浏 ...
- 使用Python + Selenium打造浏览器爬虫
Selenium 是一款强大的基于浏览器的开源自动化测试工具,最初由 Jason Huggins 于 2004 年在 ThoughtWorks 发起,它提供了一套简单易用的 API,模拟浏览器的各种操 ...
- Python爬虫之selenium高级功能
Python爬虫之selenium高级功能 原文地址 表单操作 元素拖拽 页面切换 弹窗处理 表单操作 表单里面会有文本框.密码框.下拉框.登陆框等. 这些涉及与页面的交互,比如输入.删除.点击等. ...
- Python爬虫之selenium库使用详解
Python爬虫之selenium库使用详解 本章内容如下: 什么是Selenium selenium基本使用 声明浏览器对象 访问页面 查找元素 多个元素查找 元素交互操作 交互动作 执行JavaS ...
- Python项目之我的第一个爬虫----爬取豆瓣图书网,统计图书数量
今天,花了一个晚上的时间边学边做,搞出了我的第一个爬虫.学习Python有两个月了,期间断断续续,但是始终放弃,今天搞了一个小项目,有种丰收的喜悦.废话不说了,直接附上我的全部代码. # -*- co ...
- python爬虫__第一个爬虫程序
前言 机缘巧合,最近在学习机器学习实战, 本来要用python来做实验和开发环境 得到一个需求,要爬取大众点评中的一些商户信息, 于是开启了我的第一个爬虫的编写,里面有好多心酸,主要是第一次. 我的文 ...
- Python爬虫小白---(二)爬虫基础--Selenium PhantomJS
一.前言 前段时间尝试爬取了网易云音乐的歌曲,这次打算爬取QQ音乐的歌曲信息.网易云音乐歌曲列表是通过iframe展示的,可以借助Selenium获取到iframe的页面元素, 而QQ音乐采用的是 ...
- [Python爬虫]使用Selenium操作浏览器订购火车票
这个专题主要说的是Python在爬虫方面的应用,包括爬取和处理部分 [Python爬虫]使用Python爬取动态网页-腾讯动漫(Selenium) [Python爬虫]使用Python爬取静态网页-斗 ...
- Python 爬虫利器 Selenium 介绍
Python 爬虫利器 Selenium 介绍 转 https://mp.weixin.qq.com/s/YJGjZkUejEos_yJ1ukp5kw 前面几节,我们学习了用 requests 构造页 ...
随机推荐
- UITextField的快速基本使用代码块
概述 UITextField在界面中显示可编辑文本区域的对象. 您可以使用文本字段来使用屏幕键盘从用户收集基于文本的输入.键盘可以配置许多不同类型的输入,如纯文本,电子邮件,数字等等.文本字段使用目标 ...
- Python 文件和目录操作学习
文件与文件路径 文件有两个关键属性:文件名和路径. 路径指明了文件在计算机上的位置. 文件名中,最后一个句点之后的部分称为文件的"扩展名",它指出了文件的类型 目录也叫文件夹,文件 ...
- SQL SERVER2005自动备份 2012.3.29
要想在 SQL2005上进行数据库的自动备份必须把sql server的SQL Server Agent服务开启,否则是无法进行自动备份的 启动完成之后,用户可以直接在“管理”下面的“维护计划”选项来 ...
- 吴裕雄--天生自然PythonDjangoWeb企业开发:需求
开发或者做一个项目,是要有一个需求过来的,而不是无缘无故的,启动一个项目,或者推动整个项目进行下一步迭代.这个需求可能是根据用户反馈增加的,可能是老板提出来的,也有可能是产品经理提出来的,但是无论是什 ...
- tomcat启动报错failed to start component
严重: A child container failed during start java.util.concurrent.ExecutionException: org.apache.catali ...
- 学习笔记(3)- BioASQ
本次目的是验证BioBERT在QA的效果. A challenge on large-scale biomedical semantic indexing and question answering ...
- c数据结构线性表的总结
1:连表的特点 1.链表是一种存储结构,用于存放线性表 2.连表的结点是根据需要调用动态分配内存函数进行分配的,因此链表可随需要伸长缩短 在腰存储的数据个数未知的情况下节省内存. ...
- 关于JDK+Tomcat+eclipse+MyEclipse的配置方法
说一下关于JDK+Tomcat +eclipse+MyEclipse的配置方法: 1.jdk的配置 我用的是jdk1.6版本,与jdk1.5方法相同.执行完安装程序后就要在进行一下配置,步骤如下:右键 ...
- Python 基础之面向对象类的继承与多态
一.继承 定义:一个类除了拥有自身的属性方法之外,还拥有另外一个类的属性和方法继承: 1.单继承 2.多继承子类: 一个类继承了另外一个类,那么这个类是子类(衍生类)父类:一个类继承了另外一个类,被继 ...
- Spring Boot整合Mybatis(注解方式和XML方式)
其实对我个人而言还是不够熟悉JPA.hibernate,所以觉得这两种框架使用起来好麻烦啊. 一直用的Mybatis作为持久层框架, JPA(Hibernate)主张所有的SQL都用Java代码生成, ...