HttpWebRequest抓取网页内容与直接输入URL得到的内容不一致！球大神帮忙！！

一、前言

我在做一个百度收录情况查询的软件，就是通过软件来批量查询文章链接是否被百度收录，主要是用来查询某个网址的收录次数还有网站的排行数，思路是借鉴别人的。

二、问题描述

首先需要考虑的是能够支持哪些搜索引擎的查询，首先是百度，然后是必应、搜狗、搜搜、360。本来想支持Google但是一想不对，根本不好访问的，所以暂时不算在内。而我们实际要做的就是根据一个网址能够检索出这个网址的在各个搜索引擎的收录次数以及在不同关键词下的网址排行，这里出入的只有网址还有若干的关键词，而输出则是该网址在不同搜索引擎下的收录次数以及在各个关键词下的排行数。

但是这里有个问题，就是排行数，如果检索的网址在前100还好，如果排名很后面，那么问题就来了，那样会让用户等待很长时间才能看到结果，但是用户可能只想知道排行前100的具体排名，而那些超过的则只要显示100以后就可以了，而这些就需要我们前期考虑好，这样后面的程序才好做。

三、解决思路

相信很多人都能够想到，就是利用WebClient将将需要的页面下载下来，然后用正则从中获取我们感兴趣的部分，然后利用程序去处理。而关键难度就是在这个正则的编写。

四、收录次数

首先是网站的收录次数，我们可以在百度中输入site:www.cnblogs.com/然后我们就可以看到如下的页面：

而我们所需要的收录次数就是 5,280,000 这段数字，我们接着查看页面元素：

接着我们再观察其他的搜索引擎可以发现都是类似的，所以我们的思路这个时候应该就得出了，最后就是如何组织网址，这部分我们看地址栏?wd=site%3Awww.cnblogs.com%2F这段就知道怎么写了。

稍等这个时候我们可能心急一个一个实现，这样后面我们就没法集中的调用，同时也会影响以后的新增，所以我们要规定一个要实现收录数功能的抽象类，这样就能够在不知晓具体实现的情况统一使用，并且还能够在以后轻松的新增新的搜索引擎，而这种方式属于策略模式（Stategry），下面我们来慢慢分析出这个抽象类的具体内容。

首先每个实现这个抽象类的具体类都应该是对应某个搜索引擎，那么就需要有一个基本网址，同时还要留下占位符，比如根据上面百度的这个我们就得出这样一个字符串

http://www.baidu.com/s?wd=site%3A{0}

问题：我在做一个百度收录情况查询的软件，就是通过软件来批量查询文章链接是否被百度收录，问题如题，直接上图：这个是要抓取的网页的地址，直接在浏览器输入结果是：

但是HttpWebRequest获取到的却是：

完全不知道什么情况？

求解。

HttpWebRequest抓取网页内容与直接输入URL得到的内容不一致！球大神帮忙！！的更多相关文章

ASP.NET抓取网页内容的实现方法
这篇文章主要介绍了ASP.NET抓取网页内容的实现方法,涉及使用HttpWebRequest及WebResponse抓取网页内容的技巧,需要的朋友可以参考下一.ASP.NET 使用HttpWebRe ...
ASP.NET抓取网页内容
原文:ASP.NET抓取网页内容一.ASP.NET 使用HttpWebRequest抓取网页内容这种方式抓取某些页面会失败不过,有时候我们会发现,这个程序在抓取某些页面时,是获不到所需的内容的, ...
Asp.Net 之抓取网页内容
一.获取网页内容——html ASP.NET 中抓取网页内容是非常方便的,而其中更是解决了 ASP 中困扰我们的编码问题. 需要三个类:WebRequest.WebResponse.StreamRea ...
C# 抓取网页内容的方法
1.抓取一般内容需要三个类:WebRequest.WebResponse.StreamReader 所需命名空间:System.Net.System.IO 核心代码: view plaincopy ...
ASP.NET 抓取网页内容
(转)ASP.NET 抓取网页内容 ASP.NET 抓取网页内容-文字 ASP.NET 中抓取网页内容是非常方便的,而其中更是解决了 ASP 中困扰我们的编码问题. 需要三个类:WebRequest. ...
paip.抓取网页内容--java php python
paip.抓取网页内容--java php python.txt 作者Attilax 艾龙, EMAIL:1466519819@qq.com 来源:attilax的专栏地址:http://blog ...
使用Jsoup函数包抓取网页内容
之前写过一篇用Java抓取网页内容的文章,当时是用url.openStream()函数创建一个流,然后用BufferedReader把这个inputstream读取进来.抓取的结果是一整个字符串.如果 ...
c#抓取网页内容乱码的解决方案
写过爬虫的同学都知道,这是个很常见的问题了,一般处理思路是: 使用HttpWebRequest发送请求,HttpWebResponse来接收,判断HttpWebResponse中”Content-Ty ...
爬虫学习一系列：urllib2抓取网页内容
爬虫学习一系列:urllib2抓取网页内容所谓网页抓取,就是把URL地址中指定的网络资源从网络中读取出来,保存到本地.我们平时在浏览器中通过网址浏览网页,只不过我们看到的是解析过的页面效果,而通过程 ...

随机推荐

Activity四大启动模式
ctivity的四种启动模式: standard.singleTop.singleTask.singleInstance 为了打印方便,定义一个基础Activity,在其onCreate方法和onNe ...
UTF-8和GBK编码的区别
UTF-8:对英文使用8位(一个字节).中文使用24位(三个字节)编码.对于英文字符比较多的网站一般用utf-8来编码以节省空间:包含全世界所有国家需要用到的字符,其编码的蚊子可以在各国各种支持utf ...
如何去破解所有的window和offices（超级全面）
破解所有的Windows和Offices by方阳版权声明:本文为博主原创文章,转载请指明转载地址 http://www.cnblogs.com/fydeblog/p/7107666.html 摘 ...
Solidity类型转换
类型转换,是一个十分重要,常用的手段. 一.隐式转换隐式转换,就是当一个运算符能支持不同类型,编译器会隐式的尝试将一个操作数的类型,转为另一个操作数的类型,赋值同理. 条件是:值类型间的互相转换只要 ...
老司机的应用级监控——spring actuator（转）
转自:https://www.jianshu.com/p/c043d3c71f47 什么是spring actuator? 这是一个研发老司机与运维同学都会非常喜欢的东西,随着点融集团的扩张,点融网的 ...
CRM项目测试第一天
经过前几天代码的修改,界面的完善.主要的功能都实现了!今天主要是交换各组的项目,互相来测试,找bug. 在互相测试的过程,我听见有一组应该算是讨论的比价激烈的!我们组我们自己找到了bug,但是测试我们 ...
ng-app与ng-app='myApp'的区别
ng-app与ng-app=""是一样的,都是没定义应用名的,例如 <div ng-app="" ng-init="firstName='ech ...
[游记] HEOI2018酱油记
Day -1 在机房颓颓颓颓颓,晚上得知这次考试题本来是要给 ZJOI2018 用的,结果没用上..可想而知考试的难度.. 但愿不爆零 Day 0 坐了一上午火车,顺便找茁神犇拷了个 COD,然后接着 ...
C#图片文字识别
图片识别的技术到几天已经很成熟了,只是相关的资料很少,为了方便在此汇总一下(C#实现),方便需要的朋友查阅,也给自己做个记号. 图片识别的用途:很多人用它去破解网站的验证码,用于达到自动刷票或者是批量 ...
C++ vector 排序
C++ vector 排序 C++中当 vector 中的数据类型为基本类型时我们调用std::sort函数很容易实现 vector中数据成员的升序和降序排序,然而当vector中的数据类型为自定义结 ...

HttpWebRequest抓取网页内容与直接输入URL得到的内容不一致！球大神帮忙！！

HttpWebRequest抓取网页内容与直接输入URL得到的内容不一致！球大神帮忙！！的更多相关文章

随机推荐

热门专题