这个专题主要说的是Python在爬虫方面的应用,包括爬取和处理部分

[Python爬虫]使用Python爬取动态网页-腾讯动漫(Selenium)

[Python爬虫]使用Python爬取静态网页-斗鱼直播

[Python爬虫]使用Python爬取动态网页-豆瓣电影(JSON)

[Python爬虫]使用Selenium操作浏览器订购火车票

上节我们说了如何使用selenium打开网页做些简单操作

这节内容为操作浏览器自动订购12306火车票


开发环境

操作系统:windows 10

Python版本 :3.6

爬取网页模块:selenium

分析网页工具:xpath


关于Selenium

selenium 是一个Web自动测试的工具,可以用来操作一些浏览器Driver,例如Chrome,Firefox等,也可以使用一些headless的driver,例如Phantomjs

具体请参加官网:

http://selenium-python.readthedocs.io/

关于xpath

XPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进行遍历。

XPath 是 W3C XSLT 标准的主要元素,并且 XQuery 和 XPointer 都构建于 XPath 表达之上。

因此,对 XPath 的理解是很多高级 XML 应用的基础。

selenium可以使用xpath的形式来定位网页元素,我们可以通过开发者模式的来获取xpath路径,但是不推荐直接引用

详细教程查看如下网站

http://www.aibbt.com/a/18046.html

模块安装

pip3 install selenium

Chrome Driver 下载

这里我们下载Chrome driver

其他的driver见官网

http://selenium-python.readthedocs.io/installation.html#drivers

下载完成后可以放到系统环境变量中,如:

C:\Windows\System32

https://sites.google.com/a/chromium.org/chromedriver/downloads

程序原理

代码介绍

1. import相关的模块

import selenium.webdriver

from selenium.webdriver.common.keys import Keys

from selenium.webdriver.common.by import By

from selenium.webdriver.support.ui import WebDriverWait

from selenium.webdriver.support import expected_conditions as EC

 

2. 调用Chrome

driver = selenium.webdriver.Chrome()

3. 定位用户名密码

find_element_by_id表示使用id属性进行查找input标签

username= driver.find_element_by_id('username')

password= driver.find_element_by_id('password')

4. 清除用户名密码输入框内容

username.clear()

password.clear()

5. 自动输入用户名密码

username.send_keys("username")

password.send_keys("password")

 

6. 判断是否登陆成功

7. 选择出发地,目的地,时间后点击查询

8. 填写需要订购的火车车次

多个车次使用列表形式,冒号后面位表格的ID属性值,不包括ticket_

tickets=['D3094:5l000D309460','G7024:51000d702454']

9.获取预定,二等座,无座的xpath

yd_path='//*[@id="ticket_'+path+'"]/td[13]/a'

edz_path='//*[@id="ticket_'+path+'"]/td[4]'

wz_path = '//*[@id="ticket_' + path + '"]/td[11]'

 

10. 判断是否可订购

该语句表示判断是否可点击,超时时间为10s

以及是否有票

11. 确认选座

执行结果


注意事项:

  1. 打开新的页面请使用selenium wait功能以使页面完全加载
  2. 最后提交的时候可能会需要再次输入用户名密码,输入即可
  3. 本脚本仅用于学习用途
  4. http://www.aibbt.com/a/18046.html

源码位置:

源码请访问我的github主页也可点击阅读全文:

https://github.com/bsbforever/spider/blob/master/selenium_12306.py

[Python爬虫]使用Selenium操作浏览器订购火车票的更多相关文章

  1. python爬虫:使用Selenium模拟浏览器行为

    前几天有位微信读者问我一个爬虫的问题,就是在爬去百度贴吧首页的热门动态下面的图片的时候,爬取的图片总是爬取不完整,比首页看到的少.原因他也大概分析了下,就是后面的图片是动态加载的.他的问题就是这部分动 ...

  2. Python 爬虫利器 Selenium 介绍

    Python 爬虫利器 Selenium 介绍 转 https://mp.weixin.qq.com/s/YJGjZkUejEos_yJ1ukp5kw 前面几节,我们学习了用 requests 构造页 ...

  3. Python爬虫之selenium的使用(八)

    Python爬虫之selenium的使用 一.简介 二.安装 三.使用 一.简介 Selenium 是自动化测试工具.它支持各种浏览器,包括 Chrome,Safari,Firefox 等主流界面式浏 ...

  4. Python爬虫之selenium高级功能

    Python爬虫之selenium高级功能 原文地址 表单操作 元素拖拽 页面切换 弹窗处理 表单操作 表单里面会有文本框.密码框.下拉框.登陆框等. 这些涉及与页面的交互,比如输入.删除.点击等. ...

  5. Python爬虫之selenium库使用详解

    Python爬虫之selenium库使用详解 本章内容如下: 什么是Selenium selenium基本使用 声明浏览器对象 访问页面 查找元素 多个元素查找 元素交互操作 交互动作 执行JavaS ...

  6. 每次用 selenium 操作浏览器都还原了 (比如没有浏览器历史记录)

    每次用 selenium 操作浏览器都还原了 (比如没有浏览器历史记录)

  7. Python爬虫之selenium爬虫,模拟浏览器爬取天猫信息

    由于工作需要,需要提取到天猫400个指定商品页面中指定的信息,于是有了这个爬虫.这是一个使用 selenium 爬取天猫商品信息的爬虫,虽然功能单一,但是也算是 selenium 爬虫的基本用法了. ...

  8. python爬虫利器Selenium使用详解

    简介: 用pyhon爬取动态页面时普通的urllib2无法实现,例如下面的京东首页,随着滚动条的下拉会加载新的内容,而urllib2就无法抓取这些内容,此时就需要今天的主角selenium. Sele ...

  9. python爬虫之selenium、phantomJs

    图片懒加载技术 什么是图片懒加载技术 图片懒加载是一种网页优化技术.图片作为一种网络资源,在被请求时也与普通静态资源一样,将占用网络资源,而一次性将整个页面的所有图片加载完,将大大增加页面的首屏加载时 ...

随机推荐

  1. [原]开源的视频转换器,支持gpu,绝对好用ffmpeg的GUI==》dmMediaConverter最新版本2.3

    dmMediaConverter is a crossplatform FFmpeg frontend (GUI) exposing some of its features. It is inten ...

  2. WPF 使用DMSkin for WPF 快速搭建漂亮的WPF程序

    DMSkin-for-WPF是一个基于WPF的.Net WPF开源界面库,实现了无边框的WPF开发方案,内置部分控件模板. 你可以参照模板自行修改完善.(以下简称DFW). 核心 DFW实现了比较完美 ...

  3. python写一个md5解密器

    前言: md5解密,百度了一下发现教程不是很多也不详细. 这个图都没一张...跳转地址:点我 0x01 windows环境,kali也可以啊 burpsuite requests模块 bs4模块 0x ...

  4. 爬虫(Spider),反爬虫(Anti-Spider),反反爬虫(Anti-Anti-Spider)

    爬虫(Spider),反爬虫(Anti-Spider),反反爬虫(Anti-Anti-Spider),这之间的斗争恢宏壮阔... Day 1小莫想要某站上所有的电影,写了标准的爬虫(基于HttpCli ...

  5. Vijos 1404 遭遇战

    Vijos 1404 遭遇战 背景 你知道吗,SQ Class的人都很喜欢打CS.(不知道CS是什么的人不用参加这次比赛). 描述 今天,他们在打一张叫DUSTII的地图,万恶的恐怖分子要炸掉藏在A区 ...

  6. kubernetes 集群的安装部署

    本文来自我的github pages博客http://galengao.github.io/ 即www.gaohuirong.cn 摘要: 首先kubernetes得官方文档我自己看着很乱,信息很少, ...

  7. 浅谈PHP答题卡识别(一)

    最近期末考试考完了,我们也要放寒假了.于是突发奇想,想用PHP写一个答题卡识别程序.已经实现了一些,现分享给大家. 具体的步骤如下: 上传答题卡=>图片二值化(已实现)=>寻找定位点(已实 ...

  8. Android App 压力测试方法(Monkey)

    一.为什么要开展压力测试 a.提高产品的稳定性:b.提高产品的留存率 二.什么时候开展压力测试 a.首轮功能测试通过后:b.下班后的夜间进行 三.7个基础知识(理论部分) 3.1 手动测试场景与自动测 ...

  9. 浅谈扩展欧几里得算法(exgcd)

    在讲解扩展欧几里得之前我们先回顾下辗转相除法: \(gcd(a,b)=gcd(b,a\%b)\)当a%b==0的时候b即为所求最大公约数 好了切入正题: 简单地来说exgcd函数求解的是\(ax+by ...

  10. 剑指offer面试题-Java版-持续更新

    最近在用Java刷剑指offer(第二版)的面试题.书中原题的代码采用C++编写,有些题的初衷是为了考察C++的指针.模板等特性,这些题使用Java编写有些不合适.但多数题还是考察通用的算法.数据结构 ...