Python使用selenium进行爬虫（一）

JAVA爬虫框架很多，类似JSOUP，WEBLOGIC之类的爬虫框架都十分好用，个人认为爬虫的大致思路就是：

1、挑选需求爬的URL地址，将其放入需求网络爬虫的队列，也可以把爬到的符合一定需求的地址放入这个队列中

2、获取一个url进行DNS解析，获取其主机IP

3、针对这个url地址将其页面加载下来（也就是这个页面的html或者jsp）加载下来，不同的框架有不同的页面处理方法，和抽取有用信息的方法，类似根据id选择抽取，根据标签抽取，根据class抽取，根据css抽取等。

4、最后Pipeline负责抽取结果的处理，包括计算、持久化到文件、数据库等

在这里我们介绍一种十分方便的爬虫工具：selenium，selenium爬虫个人感觉适合对那种需求登录的页面进行爬取，因为它本身可以加载浏览器驱动，模拟登录这个操作，然后把需求的静态页面加载进来。

from selenium import webdriver

import time

# browser = webdriver.Chrome()

# browser = webdriver.Firefox()

# help(webdriver)

#加载谷歌浏览器驱动，这里我使用的谷歌，你也可以下载firefox或者ie的驱动

#使用什么驱动则模拟该操作的就是这个浏览器，需要注意的是，chromedriver.exe对不同浏览器版本也是有自己版本的

browser = webdriver.Chrome("D:\driver\chromedriver.exe")

#这里通过get请求需要模拟登录的页面

browser.get("https://crm.xiaoshouyi.com/global/login.action")

#

# print(browser.page_source)

# browser.switch_to_frame("page_source")

#这里通过name选择器获取登录名和密码并把需要set值给放进去

browser.find_element_by_name("loginName").send_keys("你的登录名")

browser.find_element_by_name("password").send_keys("你的登录密码")

#这一步模拟点击登录

browser.find_element_by_class_name("pg-btn-submit").click()

# browser.implicitly_wait(10)

time.sleep(5)

#这一步模拟点击某个a标签连接

hrefs=browser.find_element_by_partial_link_text(u"客户")

hrefs.click()

time.sleep(5)

#我们可以通过browser.page_source把当前页面的静态资源打印出来看看，然后根据自己需求进行提取有用的资源

print(browser.page_source)

现在我们可以看到，我们已经把页面的静态资源加载到了browser里面，我们可以开始根据自己的需求从browser里面拿自己需要的资源了，我这里先简单介绍一下selenium的使用，有关其具体选择器和选择方法，如下所示：

browser.find_element_by_id("id的name")

browser.find_element("")

browser.find_element_by_tag_name("标签name")

browser.find_element_by_class_name("classname")

browser.find_element_by_css_selector("css选择器，cssname")

browser.find_element_by_partial_link_text("带有链接的文本，获取其跳转地址，后面跟click事件可以模拟跳转")

browser.find_element_by_xpath("里面可以跟正则表达式，XPath一般在实际自动化测试项目中用到比较多，其定位元素十分方便")

此处例举xpath用法：

假如一个html是这个样子的：

<html>

 <body>

  <form id="myform">

   <input name="name" type="text" />

   <input name="pwd" type="password" />

   <input name="continue" type="submit" value="Login" />

  </form>

</body>

<html>

我们需要用xpath定位他的pwd：

pwd = browser.find_element_by_xpath("//form[input/@name='pwd']")---获取form下input标签中name为pwd的资源

pwd = browser.find_element_by_xpath("//form[@id='loginForm']/input[2]")---获取第二个input标签的资源

pwd = browser.find_element_by_xpath("//input[@name='pwd']")---直接获取input为pwd的资源

以上为selenium的基础用法，欢迎提问评论

Python使用selenium进行爬虫（一）的更多相关文章

Python之Selenium的爬虫用法
Selenium 2,又名 WebDriver,它的主要新功能是集成了 Selenium 1.0 以及 WebDriver(WebDriver 曾经是 Selenium 的竞争对手).也就是说 Sel ...
【爬虫】如何用python+selenium网页爬虫
一.前提爬虫网页(只是演示,切勿频繁请求):https://www.kaola.com/ 需要的知识:Python,selenium 库,PyQuery 参考网站:https://selenium- ...
第14.15节爬虫实战1：使用Python和selenium实现csdn博文点赞
写在前面:本文仅供参考学习,请勿用作它途,禁止转载! 在开始学爬虫时,学习了csdn博客专家(id:明天依旧可好 | 柯尊柏)<实战项目二:实现CSDN自动点赞>的文章,文章介绍了通过Py ...
【Python】 Selenium 模拟浏览器寻路
selenium 最开始我碰到SE,是上学期期末,我们那个商务小组做田野调查时发的问卷的事情.当时在问卷星上发了个问卷,但是当时我对另外几个组员的做法颇有微词,又恰好开始学一些软件知识了,就想恶作剧( ...
Python 配置 selenium 模拟浏览器环境，带下载链接
使用浏览器渲染引擎.直接用浏览器在显示网页时解析HTML,应用CSS样式并执行JavaScript的语句. 这方法在爬虫过程中会打开一个浏览器,加载该网页,自动操作浏览器浏览各个网页,顺便把数据抓下来 ...
selenium+phantomJS爬虫，适用于登陆限制强，点触验证码等一些场景
selenium是非常出名的自己主动化測试工具,多数场景是測试project师用来做自己主动化測试,可是相同selenium能够作为基本上模拟浏览器的工具,去爬取一些基于http request不能或 ...
selenium在爬虫领域的初涉（自动打开网站爬取信息）
selenium简介 Selenium 是一个用于Web应用程序测试的工具.Selenium测试直接运行在浏览器中,就像真正的用户在操作一样.这个工具的主要功能包括:测试与浏览器的兼容性--测试你的应 ...
安装python的selenium库和驱动
对于使用selenium来进行python爬虫操作可以简化好多操作,它实际上的运行就是通过打开一个浏览器来一步一步的按照你的代码来执行如果安装过python编译器后应该pip工具也是有的,验证pyt ...
Python初学者之网络爬虫(二)
声明:本文内容和涉及到的代码仅限于个人学习,任何人不得作为商业用途.转载请附上此文章地址本篇文章Python初学者之网络爬虫的继续,最新代码已提交到https://github.com/octans ...

随机推荐

MOVE降低高水位 HWM
MOVE降低高水位 HWM --创建实验表空间SQL> create tablespace andy03 datafile '/home/oracle/app/oradata/orcl/andy ...
bzoj 1004 Cards & poj 2409 Let it Bead —— 置换群
题目:https://www.lydsy.com/JudgeOnline/problem.php?id=1004 关于置换群:https://www.cnblogs.com/nietzsche-oie ...
resiprocate使用入门：内网搭建基于repro的sipproxy测试环境
测试环境 sipproxy:repro + centos 客户端:windows电脑客户端使用X-Lite,手机andriod客户端使用linphone repro配置和启动 log的配置如果使用默 ...
Java面试知识点总结（1）
1.Java中的原始数据类型都有哪些,它们的大小及对应的封装类是什么? 原始数据类型大小(byte) 对应封装类型 boolean 1或4 Boolean byte 1 Byte short 2 S ...
CentOS虚拟机通过主机网络上网
0 环境简介环境如下: (1)宿主机为WIN7系统,连接内网,同时通过网关服务器上外网: (2)虚拟机为VMWare12下的CentOS7系统. 宿主机通过WIFI方式上外网的配置方法,参考本人另一 ...
如何用CSS实现矩形按钮右边缘的中间有个往里凹的小半圆
<!DOCTYPE HTML> <html lang="en-US"> <head> <meta charset="UTF-8& ...
B - Simple Game
B - Simple Game Time Limit:1000MS Memory Limit:262144KB 64bit IO Format:%I64d & %I64u Su ...
Dev Envirenment - Windows 10 && Visual Studio 2019 && OpenCV 4.1.0
当每天用着 C# && Winform && VS 2010 && .Net Framework 4.0 && Halcon & ...
Listbox 实现Item双击事件
void listBox1_MouseDoubleClick(object sender, MouseEventArgs e) { int index = this.listBox1.IndexFro ...
Java基础--常用API--字符串相关API
一.java.lang.String 1.string对象不可变,被final修饰,不能被继承. 2.赋值方式: (1)直接赋值.比如: String name = "rick"; ...

Python使用selenium进行爬虫（一）

Python使用selenium进行爬虫（一）的更多相关文章

随机推荐

热门专题