爬虫过程中获取不到列表页的url

例1：

采集某网站的时候根据网页页面显示的url链接提取的，最后始终没有数据返回。

主要原因是页面源码中标签的 href 属性值和页面上的不一样。

页面上显示是‘http://www.xxx.org.cn/crs/xhjj/index.jhtml’

源码中显示是‘http://www.xxx.org.cn:80/crs/xhjj/index.jhtml’

对比就发现多了一个80：

所以写正则的时候就一直没有匹配到，不能只看网页，需要在源码中看链接

例2：

采集某网站的时候也是根据网页上的信息定位文章内容标签的，

在页面上内容包含在 tr【4】下面，用xpath helper也能在页面上显示出来，但是就是打印不出来，

在页面的 tr【3】下面显示的是

<tr>

    <td class="bt_content">

      <div id="zoom" style="text-align:left">

        <!--<$[信息内容]>begin--><!--ZJEG_RSS.content.begin--><meta name="ContentStart">
　　　　</div>
　　</td>
</tr>

原因是在源码中内容是在tr【3】下面显示的，所以抓取页面信息的时候还是要根据源码来定位。

爬虫过程中获取不到列表页的url的更多相关文章

从BIRT报表文件中获取页面设置信息（页边距、纸张大小、输出方向）的方法
从BIRT报表文件中获取页面设置信息(页边距.纸张大小.输出方向)的方法报表打印时,尤其是套打的报表,页面设置信息非常重要,比如页边距,纸张大小,输出方向等,而且每个报表的相关参数有可能不同 ...
Python 爬虫过程中的中文乱码问题
python+mongodb 在爬虫的过程中,抓到一个中文字段,encode和decode都无法正确显示注:以下print均是在mongodb中截图显示的,在pythonshell中可能会有所不同 ...
Activity启动过程中获取组件宽高的五种方式
第一种:(重写Activity的onWindowFocusChanged方法) /** * 重写Acitivty的onWindowFocusChanged方法 */ @Override public ...
爬虫——response中获取的不带主域名的url的拼接
scrapy中response提取的没有主域名的url拼接 # 1.导入urllib的parse # 2.调用parse.urljoin()进行拼接,例子中response.url会自动提取出当前页面 ...
解决在onCreate()过程中获取View的width和Height为0的4种方法
很经常当我们动态创建某些View时,需要通过获取他们的width和height来确定别的view的布局,但是在onCreate()获取view的width和height会得到0.view.getWid ...
解决在onCreate()过程中获取View的width和Height为0的方法
最近在看Android底层代码的view绘制原理的时候讲到一个很有意思的事情,也是我几年前刚开始学习Android开发的时候比较纳闷的一个问题,如果你不理解Android的底层绘制,请看我之前一片文章 ...
Python：Scrap爬虫过程中遇到的各种错误
1.KeyError: 'Spider not found: BDS' 原因:settings.py中缺少了几项与spider名字配置相关的项: BOT_NAME = 'BDS' SPIDER_MOD ...
【Android】源码external/目录中在编译过程中生成的文件列表
=> external/eyes-free: accessibilityvalidator.jar (host,share) => external/mesa3d: libMesa ...
python 爬虫过程中出现：ConnectionResetError: [WinError 10054] 远程主机强迫关闭了一个现有的连接
参考: https://blog.csdn.net/illegalname/article/details/77164521

随机推荐

highcharts 柱状图在柱子顶部显示y轴数据
var plotOptions={ column:{ //borderColor: "#CCCC66",//边框 shadow: true, //阴影 dataLabels:{ / ...
OpenCV 输入输出XML和YAML文件
#include <opencv2/core/core.hpp> #include <iostream> #include <string> using names ...
php 依赖注入和控制反转 php设计模式
https://blog.csdn.net/zyddj123/article/details/82753650 什么是依赖注入?IOC:英文全称:Inversion of Control,中文名称:控 ...
SpringMVC学习笔记七:SpringMVC的数据验证
SpringMVC支持JSR(Java Specification Requests, Java规范提案)303-Bean Validation数据验证规范,该规范的实现者很多,其中较常用的是 Hib ...
Cenos配置Android集成化环境, 最终Centos libc库版本过低放弃
To honour the JVM settings for this build a new JVM will be forked. Please consider using the daemon ...
关于JavaScript中的==与！的转换问题
最近遇到了一道很有趣的JavaScript试题,感觉很有趣.记录一下免得以后面试遇到题目是: console.log([]==![],{}==!{},[]==!{},{}==![]) 这道题考察的主 ...
在腾讯云centos7.2上安装配置Node.js记录
应为爱好前端所以打算在腾讯云服务器上安装JavaScript引擎Node.js,下面是安装步骤: 安装准备: 下载node.js的.tar.xz安装包:https://nodejs.org/dist/ ...
Apollo配置中心介绍与使用指南
转载于https://github.com/ctripcorp/apollo,by Ctrip, Inc. Apollo配置中心介绍 Apollo(阿波罗)是携程框架部门研发的分布式配置中心,能够集中 ...
centos7上Jenkins通过rpm包方式直接安装及使用war包方式升级
一.通过rpm包方式直接安装jenkins 1.官网下载rpm安装包(前提是安装jdk) wget https://pkg.jenkins.io/redhat-stable/jenkins-2.121 ...
使用python模拟登录网易邮箱网站
环境要求 python 3.6 chromedriver.exe 文件人工登录人工登录某个网站,首先需要用浏览器打开登录页面,然后在输入框中输入对应的账号和密码,最后点击登录,以下使用代码模拟以上 ...

爬虫过程中获取不到列表页的url

爬虫过程中获取不到列表页的url的更多相关文章

随机推荐

热门专题