selenium在爬虫领域的初涉（自动打开网站爬取信息）

selenium简介

Selenium 是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中，就像真正的用户在操作一样。这个工具的主要功能包括：测试与浏览器的兼容性——测试你的应用程序看是否能够很好得工作在不同浏览器和操作系统之上。测试系统功能——创建回归测试检验软件功能和用户需求。支持自动录制动作和自动生成 .Net、Java、Perl等不同语言的测试脚本。

github地址：https://github.com/SeleniumHQ/selenium

为什么selenium可以用在爬虫领域？

一般的写爬虫的方法是用python脚本直接对目标网站进行访问，而且只对目标数据进行采集，访问速度很快，这样目标网站很容易就识别出你是机器人，然后把你封锁了~~而使用selenium写爬虫，python脚本操控浏览器进行访问，也就是说python脚本和目标网站之间多了个浏览器的操作，这样的行为更像是人类行为。这样很多难爬的网站也可以轻而易举的抓数据了。

使用selenium前的准备

如果你没有安装selenium，请先使用conda install selenium或pip install selenium.
下载好你的firefox浏览器（这里推荐firefox，当然chrome也行）
安装geckodriver 。geckodrive下载地址：https://github.com/mozilla/geckodriver/releases

将下载的geckodriver.exe 放到path路径下 D:/Python/Python35-32/（就是放到你的python安装路径下，我这里是假设你已经安装好了python并且Python安装路径已经被添加到了path环境变量下）

如果你没有安装geckodriver.exe应该会出现如下的错误：

WebDriverException: ‘geckodriver’ executable needs to be in PATH.

selenium基本知识

自动打开某个网址

from selenium import webdriver

from bs4 import BeautifulSoup

初始化浏览器

driver = webdriver.Firefox()

打开某个网址

driver.get(url)

输入登录账号密码（如果需要登录的话）

#这里是根据xpath输入账号和密码的

driver.find_element_by_xpath(xpath).clear()

driver.find_element_by_xpath(xpath).send_keys("你的账号")

driver.find_element_by_xpath(xpath).clear()

driver.find_element_by_xpath(xpath).send_keys("你的密码")

#定位“点击登录”框的位置的xpath，通过click()执行登录

driver.find_element_by_xpath(xpath).click()

访问你想爬的网页

#获取该网页的源码

driver.get(url)

html = driver.page_source

bs4 = BeautifulSoup（html，'lxml'）

selenium使用

打开百度首页

## 引入WebDriver的包

from selenium import webdriver

## 创建浏览器对象

browser = webdriver.Firefox()

## 打开百度网站

browser.get('https://www.baidu.com/')

 效果：自动打开浏览器，然后打开百度首页

模拟登录csdn

from selenium import webdriver

## 创建浏览器对象

browser = webdriver.Firefox()

## 打开小米社区网站

browser.get('https://passport.csdn.net/account/login')

browser.find_element_by_xpath("//*[@id='username']").clear()#清空输入框

browser.find_element_by_xpath("//*[@id='username']").send_keys("你的账号")#输入账号

browser.find_element_by_xpath("//*[@id='password']").clear()#清空输入框

browser.find_element_by_xpath("//*[@id='password']").send_keys("你的密码")#输入密码

browser.find_element_by_xpath("/html/body/div[4]/div/div/div[2]/div/div[1]/div/form/input[8]").click()#登录

 效果：自动打开浏览器，然后打开csdn登录首页，自动输入用户名和密码实现登录。

模拟登录小米社区并抓取帖子标题

## 引入WebDriver的包

from selenium import webdriver

from bs4 import BeautifulSoup

## 创建浏览器对象

browser = webdriver.Firefox()

## 打开小米社区网站

browser.get('https://account.xiaomi.com/pass/serviceLogin?callback=http%3A%2F%2Fbbs.xiaomi.cn%2Flogin%2Fcallback%3Ffollowup%3Dhttp%253A%252F%252Fbbs.xiaomi.cn%252F%26sign%3DM2E4MTg3MzE3MGJmZGFiMTc0MTE5NmNjZTAyYWNmMDZhNTEwOTU2NQ%2C%2C&sid=new_bbs_xiaomi_cn&_locale=zh_CN')

browser.find_element_by_xpath("//*[@id='username']").clear()#清空输入框

browser.find_element_by_xpath("//*[@id='username']").send_keys("你的账号")#输入账号

browser.find_element_by_xpath("//*[@id='pwd']").clear()#清空输入框

browser.find_element_by_xpath("//*[@id='pwd']").send_keys("你的密码")#输入密码

browser.find_element_by_xpath("//*[@id='login-button']").click()#登录

base_url="http://bbs.xiaomi.cn/d-{page}"

#我这里是抓取了前5页，当然你可以抓取的更多

for i in range(1,6):

    url=base_url.format(page=i)

    browser.get(url)

    bs4=BeautifulSoup(browser.page_source,'lxml')

    titles=bs4.find_all('div', {'class':'title'})

    for title in titles:

        title_content=title.get_text().strip('\n')

        print(title_content)

效果：

遇到的一些问题

如何获取xpath?

这里说一个最简单的方法：

打开firefox浏览器，进入相应页面，右键某个网页元素点击查看元素，然后复制xpath.如下图所示：
WebDriverException: ‘geckodriver’ executable needs to be in PATH.

这个上面也提到过。

geckodrive下载地址：https://github.com/mozilla/geckodriver/releases

将下载的geckodriver.exe 放到path路径下 D:/Python/Python35-32/（就是放到你的python安装路径下，我这里是假设你已经安装好了python并且Python安装路径已经被添加到了path环境变量下）

github项目地址（系列文章包含常见第三库的使用与爬虫，会持续更新）

selenium在爬虫领域的初涉（自动打开网站爬取信息）的更多相关文章

Python爬虫入门教程 2-100 妹子图网站爬取
妹子图网站爬取---前言从今天开始就要撸起袖子,直接写Python爬虫了,学习语言最好的办法就是有目的的进行,所以,接下来我将用10+篇的博客,写爬图片这一件事情.希望可以做好. 为了写好爬虫,我们 ...
selenium在爬虫中的应用之动态数据爬取
一.selenium概念 selenium 是一个基于浏览器自动化的模块 selenium爬虫之间的关联: 1.便捷的获取动态加载的数据 2.实现模拟登录基本使用 pip install selen ...
爬虫系列(十一) 用requests和xpath爬取豆瓣电影评论
这篇文章,我们继续利用 requests 和 xpath 爬取豆瓣电影的短评,下面还是先贴上效果图: 1.网页分析 (1)翻页我们还是使用 Chrome 浏览器打开豆瓣电影中某一部电影的评论进行分析 ...
爬虫系列(六) 用urllib和re爬取百度贴吧
这篇文章我们将使用 urllib 和 re 模块爬取百度贴吧,并使用三种文件格式存储数据,下面先贴上最终的效果图 1.网页分析 (1)准备工作首先我们使用 Chrome 浏览器打开百度贴吧,在输入 ...
爬虫系列(十) 用requests和xpath爬取豆瓣电影
这篇文章我们将使用 requests 和 xpath 爬取豆瓣电影 Top250,下面先贴上最终的效果图: 1.网页分析 (1)分析 URL 规律我们首先使用 Chrome 浏览器打开豆瓣电影 T ...
爬虫入门（三）——动态网页爬取：爬取pexel上的图片
Pexel上有大量精美的图片,没事总想看看有什么好看的自己保存到电脑里可能会很有用但是一个一个保存当然太麻烦了所以不如我们写个爬虫吧(๑•̀ㅂ•́)و✧ 一开始学习爬虫的时候希望爬取pexel上的 ...
爬虫概念与编程学习之如何爬取视频网站页面（用HttpClient）（二）
先看,前一期博客,理清好思路. 爬虫概念与编程学习之如何爬取网页源代码(一) 不多说,直接上代码. 编写代码运行 <!DOCTYPE html><html><head& ...
selenium和phantomjs,完成豆瓣音乐排行榜的内容爬取
代码要多敲注释要清晰哪怕再简单 #使用selenium和phantomjs,完成豆瓣音乐排行榜的内容爬取 #地址:https://music.douban.com/chart #导入需要的模块 f ...
Python爬虫入门教程：豆瓣Top电影爬取
基本开发环境 Python 3.6 Pycharm 相关模块的使用 requests parsel csv 安装Python并添加到环境变量,pip安装需要的相关模块即可. 爬虫基本思路一. ...

随机推荐

js 控制
js 制动控制代码是 :setInterval(function(){$(".egg").click();},1000); 使用方法:调出浏览器放控制台(console),一般 ...
MySQL、HBase、ES的特点和区别
MySQL:关系型数据库,主要面向OLTP,支持事务,支持二级索引,支持sql,支持主从.Group Replication架构模型(本文全部以Innodb为例,不涉及别的存储引擎). HBase:基 ...
Matlab快捷键
1. 在命令窗口(Command Window)中: 1) [上.下键]――切换到之前.之后的命令,可以重复按多次来达到你想要的命令 2) clc――清除命令窗口显示的语句,此命令并不清空当前工作区的 ...
线程同步(使用了synchronized)和线程通讯(使用了wait,notify)
线程同步什么是线程同步? 当使用多个线程来访问同一个数据时,非常容易出现线程安全问题(比如多个线程都在操作同一数据导致数据不一致),所以我们用同步机制来解决这些问题. 实现同步机制有两个方法:1.同 ...
dpr dproj 扩展名区别，dprdproj
这段时间用xe6,看了下目录下生成的一些文件,因为隐藏了扩展名,看到两个名字一样的文件,右键属性看了下,同名但扩展名不同,百度了下区别,没有找到答案,问群里的朋友才知道区别,特此记录下来: dpr:D ...
【bzoj1231】[Usaco2008 Nov]mixup2 混乱的奶牛状态压缩dp
题目描述混乱的奶牛[Don Piele, 2007]Farmer John的N(4 <= N <= 16)头奶牛中的每一头都有一个唯一的编号S_i (1 <= S_i <= ...
【bzoj4720】[NOIP2016]换教室期望dp
题目描述对于刚上大学的牛牛来说,他面临的第一个问题是如何根据实际情况申请合适的课程.在可以选择的课程中,有2n节课程安排在n个时间段上.在第i(1≤i≤n)个时间段上,两节内容相同的课程同时在不同的 ...
Socket_SSH-1
服务器端: import socket,os server=socket.socket() server.bind(('localhost',9999)) server.listen() while ...
[LouguT30212]玩游戏
题面在这里 description 对于$k=1,2,...,t$,求\[\frac{1}{nm}\sum_{i=1}^{n}\sum_{j=1}^{m}(a_i+b_j)^k\] 对\(9982 ...
[NOI2009]管道取珠 DP + 递推
---题面--- 思路: 主要难点在思路的转化, 不能看见要求$\sum{a[i]^2}$就想着求a[i], 我们可以对其进行某种意义上的拆分,即a[i]实际上可以代表什么? 假设我们现在有两种取出某 ...