爬虫系列——selenium

【爬虫系列——selenium】的更多相关文章

爬虫系列---selenium详解

一安装 pip install Selenium 二安装驱动 chrome驱动文件:点击下载chromedriver (yueyu下载) 三配置chromedrive的路径(仅添加环境变量即可) 我的电脑–>属性–>系统设置–>高级–>环境变量–>系统变量–>Path,将“F:\GeckoDriver”目录添加到Path的值中.比如:Path字段;F:\GeckoDriver 四 selenium定位操作 find_element_by_id() #通过id查找获…

Python爬虫系列-Selenium详解

自动化测试工具,支持多种浏览器.爬虫中主要用来解决JavaScript渲染的问题. 用法讲解模拟百度搜索网站过程: from selenium import webdriver from selenium.webdriver.common.by import By from selenium.webdriver.common.keys import Keys from selenium.webdriver.support import expected_conditions as EC fro…

Python爬虫系列-Selenium+Chrome/PhantomJS爬取淘宝美食

1.搜索关键字利用Selenium驱动浏览器搜索关键字,得到查询后的商品列表 2.分析页码并翻页得到商品页码数,模拟翻页,得到后续页面的商品列表 3.分析提取商品内容利用PyQuery分析源码,解析得到商品列表 4.存储至MongoDB 将商品列表信息存储到数据库MongoDB 无法解决登录的问题,所以代码还是需要修改 from selenium import webdriver from selenium.common.exceptions import TimeoutException…

爬虫系列(十二) selenium的基本使用

一.selenium 简介随着网络技术的发展,目前大部分网站都采用动态加载技术,常见的有 JavaScript 动态渲染和 Ajax 动态加载对于爬取这些网站,一般有两种思路: 分析 Ajax 请求,通过模拟请求得到真实的数据,这种方法在之前的文章中已经多次使用,这里就不再赘述了使用 selenium 模拟浏览器进行动态渲染,从而获取网站返回的真实数据,以下我们将详细讲解这种方法 selenium 究竟是什么呢?简单来说,selenium 就是一个用于 Web 应用程序的测试工具根据官方…

爬虫系列(十三) 用selenium爬取京东商品

这篇文章,我们将通过 selenium 模拟用户使用浏览器的行为,爬取京东商品信息,还是先放上最终的效果图: 1.网页分析 (1)初步分析原本博主打算写一个能够爬取所有商品信息的爬虫,可是在分析过程中发现,不同商品的网页结构竟然是不一样的所以,后来就放弃了这个想法,转为只爬取笔记本类型商品的信息如果需要爬取其它类型的商品信息,只需把提取数据的规则改变一下就好,有兴趣的朋友可以自己试试看呀好了,下面我们正式开始! 首先,用 Chrome 浏览器打开笔记本商品首页,我们很容易发现该网页是一…

爬虫系列(三) urllib的基本使用

一.urllib 简介 urllib 是 Python3 中自带的 HTTP 请求库,无需复杂的安装过程即可正常使用,十分适合爬虫入门 urllib 中包含四个模块,分别是 request:请求处理模块 parse:URL 处理模块 error:异常处理模块 robotparser:robots.txt 解析模块以下我们将会分别讲解 urllib 中各模块的使用方法,但是由于篇幅问题,本文只会涉及模块中比较常用的内容详细内容可以参考官方文档:https://docs.python.org/3…

爬虫系列(九) xpath的基本使用

一.xpath 简介究竟什么是 xpath 呢?简单来说,xpath 就是一种在 XML 文档中查找信息的语言而 XML 文档就是由一系列节点构成的树,例如,下面是一份简单的 XML 文档: <html> <body> <div> <p>Hello world<p> <a href="/home">Click here</a> </div> </body> </html…

爬虫系列(二) Chrome抓包分析

在这篇文章中,我们将尝试使用直观的网页分析工具(Chrome 开发者工具)对网页进行抓包分析,更加深入的了解网络爬虫的本质与内涵 1.测试环境浏览器:Chrome 浏览器浏览器版本:67.0.3396.99 (正式版本) (32 位) 网页分析工具:开发者工具 2.网页分析 (1)网页源代码分析我们知道,网页有静态网页和动态网页之分,很多人会误认为静态网页就是没有动态效果的网页,其实这种说法是不对的静态网页是指没有后台数据库的不可交互网页 ,常以 .htm..html..xml 为后缀…

爬虫系列(四) 用urllib实现英语翻译

这篇文章我们将以百度翻译为例,分析网络请求的过程,然后使用 urllib 编写一个英语翻译的小模块 1.准备工作首先使用 Chrome 浏览器打开百度翻译,这里,我们选择 Chrome 浏览器自带的开发者工具对网站进行抓包分析 2.抓包分析打开 Network 选项卡进行监控,并选择 XHR 作为 Filter 进行过滤然后,我们在输入框中输入待翻译的文字进行测试,可以看到列表中出现三个数据包分别是 sug.v2transapi 和 langdetect,下面我们一个一个进行分析…

爬虫系列(五) re的基本使用

1.简介究竟什么是正则表达式 (Regular Expression) 呢?可以用下面的一句话简单概括: 正则表达式是一组特殊的字符序列,由一些事先定义好的字符以及这些字符的组合形成,常常用于匹配字符串在 Python 中,re 模块就是一个用于处理正则表达式的模块,详细信息可以参考官方文档另外,这里再给大家推荐一个博主常用的测试正则表达式的网站:http://tool.oschina.net/regex,不妨一试 2.特殊符号上面说过,正则表达式实际上是由一些事先定义好的字符以…