python BeautifulSoup4 获取 script 节点问题

在爬取12306站点名时发现，BeautifulSoup检索不到station_version的节点

因为script标签在</html>之外，如果用‘lxml’解析器会忽略这一部分，而使用html5lib则不会。

　　...
 1 <!-- 购物车 -->

 <div style="display: none;" class="buy-cart"><div class="cart-hd"><span class="num">0</span>

 </div>

 <div class="cart-bd" style="display: none;"><div class="cart-bd-top"><h3><span id="hbTrainDate">候补购票需求列表</span>

 <a id="hbClear" href="javascript:void(0)" shape="rect">[清空]</a>

 </h3>

 <a href="javascript:void(0)" class="close" shape="rect">×</a>

 </div>

 <div class="cart-bd-con"><ul class="cart-tlist"></ul>

 </div>

 <div class="cart-bd-ft"><p class="cart-ft-tips">1、候补订单需求中可包含2个相邻乘车日期，每个乘车日期可包含2个不同“车次+席别”的组合需求。</p>

 <p class="cart-ft-tips">2、排位是指您的订单在待兑现订单中的位置。当前排位仅供参考，实际排位以支付成功后为准。</p>

 <a id="hbSubmit" href="javascript:void(0)" class="btn72 fr" shape="rect">添加乘客</a>

 </div>

 </div>

 </div>

 </body>

 </html> 　# 用‘lxml’得到的汤到此为止

 <script type="text/javascript" src="/otn/resources/js/framework/station_name.js?station_version=1.9115" xml:space="preserve"></script>

 <script type="text/javascript" src="/otn/resources/js/framework/favorite_name.js" xml:space="preserve"></script>

 <script type="text/javascript" src="/otn/resources/merged/queryLeftTicket_end_js.js?scriptVersion=1.9158" xml:space="preserve"></script>
　　...

 1 >>> url = "https://kyfw.12306.cn/otn/leftTicket/init?linktypeid=dc&fs=%E4%B8%87%E5%B7%9E,WYW&ts=%E8%A5%BF%E5%AE%89,XAY&date=2019-11-05&flag=N,N,Y"

 2 ... response = requests.get(url, timeout=10)

 3 ... response.encoding = 'utf-8'

 4 ... lxml = bs(response.text, 'lxml')

 5 ... html5lib = bs(response.text, 'html5lib')

 6 ... response.close()

 7 >>> lxml.find_all(src=re.compile(".*station_version.*"))

 8 []

 9 >>> html5lib.find_all(src=re.compile(".*station_version.*"))

10 [<script src="/otn/resources/js/framework/station_name.js?station_version=1.9115" type="text/javascript" xml:space="preserve"></script>]

python BeautifulSoup4 获取 script 节点问题的更多相关文章

python爬虫beautifulsoup4系列4-子节点
前言很多时候我们无法直接定位到某个元素,我们可以先定位它的父元素,通过父元素来找子元素就比较容易一.子节点 1.以博客园首页的摘要为例:<div class="c_b_p_desc ...
python爬虫beautifulsoup4系列4-子节点【转载】
本篇转自博客:上海-悠悠原文地址:http://www.cnblogs.com/yoyoketang/tag/beautifulsoup4/ 前言很多时候我们无法直接定位到某个元素,我们可以先定位 ...
【python+beautifulsoup4】Beautifulsoup4
Beautiful soup将复杂HTML文档转换成一个复杂的属性结构,每个节点都是python对象,所有对象可归纳为4种Tag,NavigableString,BeautifulSoup,Comme ...
jQuery 获取当前节点的html包含当前节点的方法
在开发过程中,jQuery.html() 是获取当前节点下的html代码,并不包含当前节点本身的代码,然后我们有时候确需要,找遍jQuery api文档也没有任何方法可以拿到. 看到有的人通过pare ...
python BeautifulSoup4
source form http://www.bkjia.com/ASPjc/908009.html 昨天把传说中的BeautifulSoup4装上了,还没有装好的童鞋,请看本人的上一篇博客: Py ...
JavaScript之怎样获取元素节点
JavaScript获取元素节点一共有三种方法,分别是通过元素ID.通过标签名字和通过类名字来获取: 1.通过元素ID属性的ID值来获得元素对象-getElementById() DOM提供了一个名为 ...
zTree实现获取一级节点数据
zTree实现获取一级节点数据 1.实现源码 <!DOCTYPE html> <html> <head> <title>zTree实现基本树</t ...
vue的数据双向绑定和ref获取dom节点
vue是一个MVVM的框架业务逻辑代码即js部分是model部分, html是view部分. 当model改变的时候,view也会改变 view 改变是,model也会改变 <template ...
原生JS获取DOM 节点到浏览器顶部的距离或者左侧的距离
关于js获取dom 节点到浏览器顶/左部的距离,Jquery里面有封装好的offset().top/offset().left,只到父级的顶/左部距离position().top/position() ...

随机推荐

Spring Boot2 系列教程(二十一)整合 MyBatis
前面两篇文章和读者聊了 Spring Boot 中最简单的数据持久化方案 JdbcTemplate,JdbcTemplate 虽然简单,但是用的并不多,因为它没有 MyBatis 方便,在 Sprin ...
svn:"Update item to this version"、"Revert to this version"及"Revert changes from this version"详细说明
背景: 今天在svn分支上做了一些课题性研究,发现当前的环境版本不稳定, 和领导研究后决定还原到前面的版本以继续进行课题. 问题: 因此遇到了问题,是应该选择“Update item to this ...
二、安装JDK - Java软件的安装
jdk是 Java 语言的软件开发工具包,主要用于移动设备.嵌入式设备上的java应用程序. 1.安装包的下载:http://pan.baidu.com/s/1mgh58ve (该安装包是绿色的,解压 ...
salesforce lightning零基础学习(十四) Toast 浅入浅出
本篇参考: https://developer.salesforce.com/docs/component-library/bundle/force:showToast/specification h ...
怎么把CAT客户端的RootMessageId记录到每条日志中？
什么是RootMessageId? 为了理解RootMessageId先简单介绍一下CAT的数据结构设计.CAT客户端会将所有消息都封装为一个完整的消息树(MessageTree),消息树可能包括Tr ...
ASP.NET Core 1.0: Using Entity Framework Core
伴随着ASP.NET Core 1.0发布的还有Entity Framework Core 1.0; 官方文档链接:https://docs.efproject.net/en/latest/platf ...
MyBatis动态语句if与choose的区别
if(通过“title”和“author”两个参数进行可选搜索): <select id="findActiveBlogLike" resultType="Blog ...
QKD 一些术语的含义
密钥率:每个信道使用的比特数. 系统开销:不能用来提取最终密钥的信号百分比. SNU:散粒噪声单元 RNG:随机数发生器 QRNG:量子随机数发生器 TRNG:真正的随机数生成器 PRNG:伪随机数发 ...
NetCore基于EasyNetQ的高级API使用RabbitMq
一.消息队列消息队列作为分布式系统中的重要组件,常用的有MSMQ,RabbitMq,Kafa,ActiveMQ,RocketMQ.至于各种消息队列的优缺点比较,在这里就不做扩展了,网上资源很多. 更 ...
【Java】final修饰符的使用
final修饰符的使用 1.修饰类: final修饰的类不能被继承,final修饰的类里面的方法都是(隐式)final方法 2.修饰方法: final修饰的方法不能被重写 3.修饰变量(被修饰的变量一 ...

python BeautifulSoup4 获取 script 节点问题

python BeautifulSoup4 获取 script 节点问题的更多相关文章

随机推荐

热门专题