定向爬虫之爬一爬各个学校新闻的认识（【1】对Url的认识）

　　昨天早上，我习惯性的打开博客园，看一看别人的写的博客。突然想起，自己好像没有写过什么博客，所以就心血来潮，把我现在做得事情写出来，

这也是对我目前的学习的一种总结。望大神指点。。。。

对于一间学校的新闻，主要有两种值得去捉取的Url，一种是List页面的Url，一种是Detail页面的Url，List页和Detail页面是我对如下的两种Url的简称。

【List页面】List页面类型：http://news2.sysu.edu.cn/news01/index.htm

【Detail页面】Detail页面类型：http://news2.sysu.edu.cn/news01/140075.htm

在详细介绍学校的Url之前，必须要懂得三个名词，分别是静态Url，伪静态Url，和动态Url

根据某个网站的解释：http://www.admin5.net/thread-2214256-1-1.html

　　一个动态的网址是一个网页解决这一结果从搜索的数据库驱动的网站或URL中的一个网站，运行一个脚本。相比之下，以静态的URL ，其中的内容网页上

保持不变，除非改变硬编码到HTML格式的，动态的URL产生的具体问题给某个站点的数据库。动态页基本上只有一个模板，其中，以展示成果数据库查询。

而不是不断变化的信息，在HTML源代码中，数据的改变而改变在数据库中。

伪静态Url就是把动态Url经转化而成的静态Url。

　　基本大部分学校的List页面和Deteal页面都会使用伪静态的Url，也会存在少部分使用动态Url的学校，还有小部分的使用ajax加json或者xml来加载页面的学校。

所以先说说List页面的伪静态Url的情况。

List页面的伪静态Url：上面提到，伪静态Url是由动态Url转化而来的，其本质还是动态Url，所以其里面是包含这查询字符串的。所以这个查询字符串就是这个Detail

页面的特征量，一般来说这个特征量由两部分组成，第一个是栏目，第二个是页数。不过仅仅是一般来说是这样，有小部分比较奇葩的大学却在页数中做文章。一般会分成

3种情况。

　　情况1：第一页和以后的的List页面的Url的规律不一样,首页【http://news.gcu.edu.cn/news/xinwen/xinwen.html】，

非首页【http://news.gcu.edu.cn/news/xinwen/xinwen_2.html】，首页的Url居然不是http://news.gcu.edu.cn/news/xinwen/xinwen_1.html，这种情况是最

常发生的，我也不知道为什么，大牛们可以告诉我这是出于什么目的？？？？

　　情况2：List的是按时间来展示的http://www.gdyzy.edu.cn/DocLib2/Forms/AllPages.aspx?Paged=TRUE&p__x65e5__x671f_=20140302%2016%3a00%3a00&p_ID=1615&View=%7b3C7F240C-0A23-4972-9796-B26C42EF4948%7d&PageFirstRow=101

其中标红的20140302%2016%3a00%3a00解码之后是20140302 16:00:00，这个Url意思是查询在20140302 16:00:00之前发布的前100条记录，这些记录明显是按时间排序的。

情况3：List页面是以倒叙的方式展示的，代表为广外，首页Url【http://new1.gdufs.edu.cn/xxyw.htm】，第二页Ulr【http://new1.gdufs.edu.cn/xxyw/1152.htm】，

第三页Url【http://new1.gdufs.edu.cn/xxyw/1151.htm】，原理为按发布时间排序，最早发布的前20条记录为第一页，所以就会出现跟普通的List页面不一样的情况。

　　List页面的使用静态Ur：一般都是使用Post的方式的,并且是使用ajax来加载数据的。例子：http://www.gdrtvu.edu.cn/cms/wwwgdrtvu/xuexiaoxinwen/xuexiaoyaowen/index.xml Post的数据temp=0.664261247497052&&&&&page=5&size=15。

　　List页面使用动态Url：例子http://www.gtxy.cn/xyxwnew.asp?cid=24&page=2，这种Url对于我来说是最简单，也是做容易实现捉取的动作的。

时间不早了，学生党需要吃饭勒，必须吐槽一下学校的饭堂，能不能卫生一点啊！！！有空继续。。。

定向爬虫之爬一爬各个学校新闻的认识（【1】对Url的认识）的更多相关文章

python爬虫学习(二)：定向爬虫例子-->使用BeautifulSoup爬取"软科中国最好大学排名-生源质量排名2018"，并把结果写进txt文件
在正式爬取之前,先做一个试验,看一下爬取的数据对象的类型是如何转换为列表的: 写一个html文档: x.html<html><head><title>This is ...
Python写爬虫-爬甘农大学校新闻
Python写网络爬虫(一) 关于Python: 学过C. 学过C++. 最后还是学Java来吃饭. 一直在Java的小世界里混迹. 有句话说: "Life is short, you ne ...
【图文详解】scrapy爬虫与动态页面——爬取拉勾网职位信息（2）
上次挖了一个坑,今天终于填上了,还记得之前我们做的拉勾爬虫吗?那时我们实现了一页的爬取,今天让我们再接再厉,实现多页爬取,顺便实现职位和公司的关键词搜索功能. 之前的内容就不再介绍了,不熟悉的请一定要 ...
python 网络爬虫（一）爬取天涯论坛评论
我是一个大二的学生,也是刚接触python,接触了爬虫感觉爬虫很有趣就爬了爬天涯论坛,中途碰到了很多问题,就想把这些问题分享出来, 都是些简单的问题,希望大佬们以宽容的眼光来看一个小菜鸟
python爬虫Scrapy(一)-我爬了boss数据
一.概述学习python有一段时间了,最近了解了下Python的入门爬虫框架Scrapy,参考了文章Python爬虫框架Scrapy入门.本篇文章属于初学经验记录,比较简单,适合刚学习爬虫的小伙伴. ...
Python 爬虫入门实例（爬取小米应用商店的top应用apk）
一,爬虫是什么? 爬虫就是获取网络上各种资源,数据的一种工具.具体的可以自行百度. 二,如何写简单爬虫 1,获取网页内容可以通过 Python(3.x) 自带的 urllib,来实现网页内容的下载. ...
Python爬虫实战二之爬取百度贴吧帖子
大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子.与上一篇不同的是,这次我们需要用到文件的相关操作. 前言亲爱的们,教程比较旧了,百度贴吧页面可能改版,可能代码不 ...
Python爬虫实战一之爬取糗事百科段子
大家好,前面入门已经说了那么多基础知识了,下面我们做几个实战项目来挑战一下吧.那么这次为大家带来,Python爬取糗事百科的小段子的例子. 首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把 ...
转 Python爬虫实战二之爬取百度贴吧帖子
静觅 » Python爬虫实战二之爬取百度贴吧帖子大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子.与上一篇不同的是,这次我们需要用到文件的相关操作. 本篇目标 ...
转 Python爬虫实战一之爬取糗事百科段子
静觅 » Python爬虫实战一之爬取糗事百科段子首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 友情提示糗事百科在前一段时间进行了改版,导致 ...

随机推荐

如何用C#使用java
如何使用C#调用Java 今天需要使用C#调用Java的包,研究了一下,大体是以下几种解决方案: 把Java包转换为DLL或者EXE后注册为com组件,之后调用. 使用web service 比如:H ...
SWT的ListVierer的使用
package com.test; import java.util.ArrayList; import java.util.List; import model.People; import org ...
SVN配置文件详解
本章将详细介绍前一章所涉及的两个配置文件, svnserve.conf 和 authz.conf,通过对配置逐行的描述,来阐明其中的一些细节含义.除此之外的其他配置.安装等内容,不是本文重点,读者若有 ...
poj 3172 Scales 搜索
其实这个题目要是注意到了题目的一点关键性的描述就会变得很简单,题意是给出的砝码是至少是前两个的和的,有了这一点,那么砝码的数量应该就在几十左右,这样的话适当剪枝的搜索是应该可以过的. #include ...
浅析JAVA设计模式之工厂模式(一)
1 工厂模式简单介绍工厂模式的定义:简单地说,用来实例化对象,取代new操作. 工厂模式专门负责将大量有共同接口的类实例化.工作模式能够动态决定将哪一个类实例化.不用先知道每次要实例化哪一个类. 工 ...
Cocos2d-x中父节点scale对子节点的影响
背景:在前几天,刚接触cocos2d-x,随便找了一张图,作为一个CCSprite,而且设置了scale属性,然后在这个sprite上创建了一个CCLabelTTF,并用sprite->addC ...
sharepoint 2013 userprofile 用户信息
Sharepoint2013获得当前用户userfrofile 基本介绍: 什么使用户配置文件. 用户属性和用户配置文件属性提供有关 SharePoint 用户的信息,如显示名称.电子邮件.标题以及其 ...
win7提示“ipconfig不是内部或外部命令”
进入windows环境变量设置->系统变量,找到path,添加C:\Windows\SysWOW64,或者c:\windows\system32
HTML5 RPG游戏引擎地图实现篇
一,话说全国年夜事前没有暂看到lufy的专客上,有一名伴侣念要一个RPG游戏引擎,出于兴趣筹办入手做一做.因为我研讨lufylegend有冶时间了,对它有必然的依赖性,因而便筹办将那个引擎基于 ...
PL/SQL 游标的使用
游标的使用 ①游标概念为了处理SQL 语句,ORACLE 必须分配一片叫上下文( context area )的区域来处理所必需的信息, 当中包含要处理的行的数目.一个指向语句被分析以后的表示 ...

定向爬虫之爬一爬各个学校新闻的认识（【1】对Url的认识）

定向爬虫之爬一爬各个学校新闻的认识（【1】对Url的认识）的更多相关文章

随机推荐

热门专题