【scrapy】关于xpath helper中能匹配，但是在程序里匹配为none的问题

原本使用xpath helper匹配的时候还是好好的，然鹅，把这个.//*[@id='novelInfo']/table/tbody/tr[3]/td[1]/复制到代码里就不行了，debug的时候显示none

novelMonthClick=response.xpath(".//*[@id='novelInfo']/table/tbody/tr[3]/td[1]/text()").extract_first() 这里debug结果时None

由于我要爬取的信息在第二个tap的一个表格里（网页打开时，默认显示tap1）原以为是因为js，试过用selenium来模拟，点击tap2：

self.driver = webdriver.Chrome()
self.driver.get(response.url)
time.sleep(3)
tap2=self.driver.find_element_by_id('novelInfoTab').click()

可是结果依旧 = =

搞了大半天，终于终于被我找到解决方法，感谢这位网友https://blog.csdn.net/u012836179/article/details/69950730

原因：浏览器复制的xpath会自动优化，自己加上tbody，其实网页源代码里是没有的。

解决办法：去掉xpath中的tbody即可。

果然将的上面的代码改为

novelMonthClick=response.xpath(".//*[@id='novelInfo']/table/tr[3]/td[1]/text()").extract_first()

再来debug就可以啦！！

而且事实证明上面使用那个selenium模拟点击并没什么卵用。。。所以这个纯粹只是浏览器自己添加了tbody的原因，和动态加载网友并木有关系。。。。

【scrapy】关于xpath helper中能匹配，但是在程序里匹配为none的问题的更多相关文章

11.在Chrome谷歌浏览器中安装插件XPath Helper的方法
1.首先在以下链接下载XPath Helper插件,链接:https://pan.baidu.com/s/1Ng7HAGgsVfOyqy6dn094Jg 提取码:a1dv 2.插件下载完成后解压,然后 ...
python技巧 — Chrome浏览器中的 XPath Helper
用于XPath 爬取网页结构的时候使用, 安装后快捷键调用左边 ctrl+ shift+x 启动安装流程: 1. 打开chrome浏览器,扩展程序 .搜索 XPath Helper 下载安装(前 ...
【转载】教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神
原文:教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力.本文以校花网为例进行爬取,校花网:http:/ ...
谷歌浏览器使用SelectorGadget和Xpath Helper获取xpath和css path
在上篇文章里,介绍了如何在火狐浏览器中获取网页元素的xpath和css path. 这篇文章将介绍,在谷歌浏览器中使用SelectorGadget和Xpath Helper实现同样功能. 这两个谷歌浏 ...
09 Scrapy框架在爬虫中的使用
一.简介 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架.它集成高性能异步下载,队列,分布式,解析,持久化等. Scrapy 是基于twisted框架开发而来,twisted是一个 ...
xpath定位中starts-with、contains和text()的用法
starts-with 顾名思义,匹配一个属性开始位置的关键字 contains 匹配一个属性值中包含的字符串 text() 匹配的是显示文本信息,此处也可以用来做定位用 eg //input[sta ...
XPath Helper使用教程
下载地址百度网盘下载密码:yuuv下载完成后选择保留安装在导航栏中输入chrome://extensions:将.crx文件拖拽到扩展程序页面中,勾选已启用按钮. 使用重启浏览器,快捷键CTR ...
xPath Helper插件
xPath Helper插件 xPath helper是一款Chrome浏览器的开发者插件,安装了xPath helper后就能轻松获取HTML元素的xPath,程序员就再也不需要通过搜索html源代 ...
Xpath Helper的使用
xPath Helper插件 xPath helper是一款Chrome浏览器的开发者插件,安装了xPath helper后就能轻松获取HTML元素的xPath,程序员就再也不需要通过搜索html源代 ...

随机推荐

web session 原理1
原理我们都知道,浏览器无状态的.浏览器是操作不了session的,浏览器能够做的只是传递cookie,每次都传递. 把当前主机下的,和当前请求相同域下的cookie 传递到服务器去,只要cooki ...
linux write/wall 1
linux:/opt/software/lktest/c # wallhellllllllllllllllllllooooooooooooooooo^[[AasZZZZZZ^Clinux:/opt/s ...
oracle数据库创建并导入dmp文件
导出:exp userid=xcgwjxuser/xcgwjxuser@orcl file=D:\xcgwjx2014.dmp 导入:imp userid=xcgwjxuser/xcgwjxuser@ ...
android的体系结构
android 体系结构:采用软件堆层的架构 ,四层1应用程序“: 提供一系列的核心应用程序 2应用程序框架 :提供安卓平台基本的管理功能和组件重用机制activityManager 管理应用程序的生 ...
在windows、linux中开启nginx的Gzip压缩大大提高页面、图片加载速度<转>
为了降低tomcat服务的压力,把页面上的图片采用windows版的nginx进行加载,由于有些图片比较大,加载特别的慢,所以在nginx中打开了gzip的压缩功能.加载图片的速度快了很多. 通过站长 ...
原生java读取存储为xml格式的数据，并存储到java bean里
一.举例读取的文件为:X-bond可交易债券信息_20180917.xml <?xml version="1.0" encoding="UTF-8"?&g ...
rocketmq 4.2.0 版本控制台本地搭建(史上最简单教程)
就像发现新大陆一般,瞎折腾,搞出来了..并没有网上说的一大串....(本人公司的项目从未使用过springboot....) rocketmq 控制台,官方使用springboot 做后端,前端使用 ...
python正则表达式查找汉字
使用正则表达是查找汉字之前,要将所有的字符串都转码成utf8 import re string_test = "This is test string 这是测试字符串" strin ...
shell命令中用source 和sh（或者bash）执行脚本的区别，以及export的作用
用户登录到Linux系统后,系统将启动一个用户shell,我们暂且称这个shell为shell父. 在这个shell父中,可以使用shell命令或声明变量,也可以创建并运行shell脚本程序. 当使用 ...
plsql和tsql常用函数比对
http://www.jb51.net/list/list_154_1.htm 数学函数 1.绝对值 S:select abs(-1) value O:select abs(-1) value fro ...

【scrapy】关于xpath helper中能匹配，但是在程序里匹配为none的问题

【scrapy】关于xpath helper中能匹配，但是在程序里匹配为none的问题的更多相关文章

随机推荐

热门专题