昨天早上,我习惯性的打开博客园,看一看别人的写的博客。突然想起,自己好像没有写过什么博客,所以就心血来潮,把我现在做得事情写出来,

这也是对我目前的学习的一种总结。望大神指点。。。。

对于一间学校的新闻,主要有两种值得去捉取的Url,一种是List页面的Url,一种是Detail页面的Url,List页和Detail页面是我对如下的两种Url的简称。

【List页面】List页面类型:http://news2.sysu.edu.cn/news01/index.htm

【Detail页面】Detail页面类型:http://news2.sysu.edu.cn/news01/140075.htm

在详细介绍学校的Url之前,必须要懂得三个名词,分别是静态Url,伪静态Url,和动态Url

根据某个网站的解释:http://www.admin5.net/thread-2214256-1-1.html

  一个动态的网址是一个网页解决这一结果从搜索的数据库驱动的网站或URL中的一个网站,运行一个脚本。相比之下,以静态的URL ,其中的内容网页上

保持不变,除非改变硬编码到HTML格式的,动态的URL产生的具体问题给某个站点的数据库。动态页基本上只有一个模板,其中,以展示成果数据库查询。

而不是不断变化的信息,在HTML源代码中,数据的改变而改变在数据库中。

伪静态Url就是把动态Url经转化而成的静态Url。

  基本大部分学校的List页面和Deteal页面都会使用伪静态的Url,也会存在少部分使用动态Url的学校,还有小部分的使用ajax加json或者xml来加载页面的学校。

所以先说说List页面的伪静态Url的情况。

List页面的伪静态Url:上面提到,伪静态Url是由动态Url转化而来的,其本质还是动态Url,所以其里面是包含这查询字符串的。所以这个查询字符串就是这个Detail

页面的特征量,一般来说这个特征量由两部分组成,第一个是栏目,第二个是页数。不过仅仅是一般来说是这样,有小部分比较奇葩的大学却在页数中做文章。一般会分成

3种情况。

  情况1:第一页和以后的的List页面的Url的规律不一样,首页【http://news.gcu.edu.cn/news/xinwen/xinwen.html】,

非首页【http://news.gcu.edu.cn/news/xinwen/xinwen_2.html】,首页的Url居然不是http://news.gcu.edu.cn/news/xinwen/xinwen_1.html,这种情况是最

常发生的,我也不知道为什么,大牛们可以告诉我这是出于什么目的????

  情况2:List的是按时间来展示的http://www.gdyzy.edu.cn/DocLib2/Forms/AllPages.aspx?Paged=TRUE&p__x65e5__x671f_=20140302%2016%3a00%3a00&p_ID=1615&View=%7b3C7F240C-0A23-4972-9796-B26C42EF4948%7d&PageFirstRow=101

其中标红的20140302%2016%3a00%3a00解码之后是20140302 16:00:00,这个Url意思是查询在20140302 16:00:00之前发布的前100条记录,这些记录明显是按时间排序的。

情况3:List页面是以倒叙的方式展示的,代表为广外,首页Url【http://new1.gdufs.edu.cn/xxyw.htm】,第二页Ulr【http://new1.gdufs.edu.cn/xxyw/1152.htm】,

第三页Url【http://new1.gdufs.edu.cn/xxyw/1151.htm】,原理为按发布时间排序,最早发布的前20条记录为第一页,所以就会出现跟普通的List页面不一样的情况。

  List页面的使用静态Ur:一般都是使用Post的方式的,并且是使用ajax来加载数据的。例子:http://www.gdrtvu.edu.cn/cms/wwwgdrtvu/xuexiaoxinwen/xuexiaoyaowen/index.xml Post的数据temp=0.664261247497052&&&&&page=5&size=15。

  List页面使用动态Url:例子http://www.gtxy.cn/xyxwnew.asp?cid=24&page=2,这种Url对于我来说是最简单,也是做容易实现捉取的动作的。

时间不早了,学生党需要吃饭勒,必须吐槽一下学校的饭堂,能不能卫生一点啊!!!有空继续。。。

定向爬虫之爬一爬各个学校新闻的认识(【1】对Url的认识)的更多相关文章

  1. python爬虫学习(二):定向爬虫例子-->使用BeautifulSoup爬取"软科中国最好大学排名-生源质量排名2018",并把结果写进txt文件

    在正式爬取之前,先做一个试验,看一下爬取的数据对象的类型是如何转换为列表的: 写一个html文档: x.html<html><head><title>This is ...

  2. Python写爬虫-爬甘农大学校新闻

    Python写网络爬虫(一) 关于Python: 学过C. 学过C++. 最后还是学Java来吃饭. 一直在Java的小世界里混迹. 有句话说: "Life is short, you ne ...

  3. 【图文详解】scrapy爬虫与动态页面——爬取拉勾网职位信息(2)

    上次挖了一个坑,今天终于填上了,还记得之前我们做的拉勾爬虫吗?那时我们实现了一页的爬取,今天让我们再接再厉,实现多页爬取,顺便实现职位和公司的关键词搜索功能. 之前的内容就不再介绍了,不熟悉的请一定要 ...

  4. python 网络爬虫(一)爬取天涯论坛评论

    我是一个大二的学生,也是刚接触python,接触了爬虫感觉爬虫很有趣就爬了爬天涯论坛,中途碰到了很多问题,就想把这些问题分享出来, 都是些简单的问题,希望大佬们以宽容的眼光来看一个小菜鸟

  5. python爬虫Scrapy(一)-我爬了boss数据

    一.概述 学习python有一段时间了,最近了解了下Python的入门爬虫框架Scrapy,参考了文章Python爬虫框架Scrapy入门.本篇文章属于初学经验记录,比较简单,适合刚学习爬虫的小伙伴. ...

  6. Python 爬虫入门实例(爬取小米应用商店的top应用apk)

    一,爬虫是什么? 爬虫就是获取网络上各种资源,数据的一种工具.具体的可以自行百度. 二,如何写简单爬虫 1,获取网页内容 可以通过 Python(3.x) 自带的 urllib,来实现网页内容的下载. ...

  7. Python爬虫实战二之爬取百度贴吧帖子

    大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子.与上一篇不同的是,这次我们需要用到文件的相关操作. 前言 亲爱的们,教程比较旧了,百度贴吧页面可能改版,可能代码不 ...

  8. Python爬虫实战一之爬取糗事百科段子

    大家好,前面入门已经说了那么多基础知识了,下面我们做几个实战项目来挑战一下吧.那么这次为大家带来,Python爬取糗事百科的小段子的例子. 首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把 ...

  9. 转 Python爬虫实战二之爬取百度贴吧帖子

    静觅 » Python爬虫实战二之爬取百度贴吧帖子 大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子.与上一篇不同的是,这次我们需要用到文件的相关操作. 本篇目标 ...

  10. 转 Python爬虫实战一之爬取糗事百科段子

    静觅 » Python爬虫实战一之爬取糗事百科段子 首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 友情提示 糗事百科在前一段时间进行了改版,导致 ...

随机推荐

  1. poj Budget

    Budget 建图好题.不知道为什么提交一直TLE. 然后.该了几次,看了别人的普通网络流都过了. 我觉得可能是卡DINIC的某些部分吧.这题就是一道普通的上下界最小流. 建图麻烦,所以说一下建图吧. ...

  2. poj 2992 Divisors 整数分解

    设m=C(n,k)=n!/((n-k)!*k!) 问题:求m的因数的个数 将m分解质因数得到 p1有a1个 p2有a2个 .... 因为每一个质因数能够取0~ai个(所有取0就是1,所有取ai就是m) ...

  3. lightoj1038(期望dp)

    给定一个数字d,随机选择一个d的约数,然后让d除以这个约数,形成新的d,不断继续这个步骤,知道d=1为止, 要我们求将d变为1的期望次数 设d1,d2...dj是除以约数后,形成的行的d,且dj==d ...

  4. SVN 右下角各种符号

    黄色感叹号(有冲突): --这是有冲突了,冲突就是说你对某个文件进行了修改,别人也对这个文件进行了修改,别人抢在你提交之前先提交了,这时你再提交就会被提示发生冲突,而不 允许你提交,防止你的提交覆盖了 ...

  5. Android开发Thread+Handler演示样本(打地鼠)

    直接在代码 package com.mingrisoft; import java.util.Random; import android.app.Activity; import android.o ...

  6. 深挖BAT内部级别和薪资待遇,你敢看?(转)

    一. 阿里内部级别和薪资待遇 先看个例子,或许你也曾像他一样纠结 BAT 的 offer: 最近刚通过阿里面试,但基本薪酬也是不升反小降. 级别只有 P6+,连 P7 都没有,非常郁闷,打算拒绝算了. ...

  7. [ios仿系列]仿支付宝手势解码

    呀~.这么快就转到ios阵营了???.android还有那么多坑呢???为此我也仅仅能啃着馒头留下屈辱的眼泪了. . 本次因为开发公司产品的android版,继而ios版也负责一部分.当中一部分就是手 ...

  8. 移植 libuv 至 Visual C++ 6.0 并支持 Windows XP 编译系统

    移植版本 libuv:https://github.com/liigo/libuv-vc6 (支持VC6和XP.作者Liigo). 我从一年前(大概2013年6,7月份)開始在业余时间做这项移植工作, ...

  9. T-SQL基础(2) - 单表查询

    开窗函数over select orderid, custid, val, SUM(val) over() as totalvalue, SUM(val) over(partition by cust ...

  10. Linux下关于解决JavaSwing中文乱码的情况(转)

    前两天在linux中运行java 老是出乱码,很苦恼,后来网上找了好多解决办法.有些可行,有些不可行,今天总结一下. redhed 貌似没出现乱码 本身就jdk就支持中文 红旗linux  suse等 ...