使用C#爬小说

最近因朋友需要在研究如何从网站上爬小说，说到爬，很多人首先想到的是Python，但是因为没有用过Python，加上时程比较紧，就直接使用C#。

其原理也很简单，就是利用HttpWebRequest对象从网站获取HTML数据包再解析

 HttpWebRequest httpReq = (HttpWebRequest)WebRequest.Create(httpURL);

 httpReq.Method = "GET";

 httpReq.ContentType = "text/html;charset=utf-8";

 HttpWebResponse httpResp = (HttpWebResponse)httpReq.GetResponse(); HttpWebRequest htt

实际操作过程中发现有些问题，特意记录下

1、返回的HTML数据包是乱码，这个问题有两种解法，首先是要确保StreamReader的编码格式与网站URL的一致，如下

respStreamReader = new StreamReader(respStream, Encoding.UTF8);

另外就是要看服务器传回的流是否使用了gzip方法压缩，如果用了gzip方法压缩，则要用解压才行

string header = httpResp.GetResponseHeader("Content-Encoding");

StreamReader respStreamReader;

if (header == "gzip")

{

    respStreamReader = new StreamReader(new GZipStream(respStream, CompressionMode.Decompress), Encoding.UTF8);

}

2、有些网站可能是为了防止别人下载内容，做了一些限制，比如不允许连续的下载，因此可以在下载一章之后暂停1000毫秒再执行。

var t = DateTime.Now.AddMilliseconds(seconds);

while (DateTime.Now < t)

　　Application.DoEvents();

3、HttpWebRequest的GetResponse或GetRequestStream偶尔超时，设置System.Net.ServicePointManager.DefaultConnectionLimit = 50;具体参照链接

4、部分网站故意打乱各章节的顺序，如https://www.aixs.org/xs/69/69337/，你下载下来的html文件各章节完全是乱的，但是在网站上显示却是正常的，原因是网站在运行时执行了特定的js重新更新章节顺序，这一招防下载也挺厉害，不过也不是没有解。

js代码如下

<script type="text/javascript">

var odiv=document.getElementById('listsss')

var aDiv=odiv.getElementsByTagName('div')

//var aDiv = document.getElementsByTagName('p');

var arr = [];

for(var i=0;i<aDiv.length;i++)

{

arr.push(aDiv[i]);

}

arr.sort(function(a,b){return a.getAttribute('data-id') - b.getAttribute('data-id')});

for(var i=0;i<arr.length;i++)

{

odiv.appendChild(arr[i]);

}

var flag = true;

function daoxu() {

	if (flag) {

		document.getElementById("xianshi").innerHTML = '正序显示';

		flag = false;

	} else {

		document.getElementById("xianshi").innerHTML = '倒序显示';

		flag = true;

	}

if(!arrs){

	var arrs = document.querySelectorAll("#chapter");

}

	for (var i = arrs.length - 1; i > -1; i--) {

		document.querySelector("#listsss").appendChild(arrs[i]);

	}

}

</script>

使用C#爬小说的更多相关文章

Python爬虫-爬小说
用途用来爬小说网站的小说默认是这本御天邪神,虽然我并没有看小说,但是丝毫不妨碍我用爬虫来爬小说啊. 如果下载不到txt,那不如自己把txt爬下来好了. 功能将小说取回,去除HTML标签记录已爬过 ...
python爬虫爬小说网站涉及到(js加密,CSS加密)
我是对于xxxx小说网进行爬取只讲思路不展示代码请见谅一.涉及到的反爬 js加密 css加密请求头中的User-Agent以及 cookie 二.思路 1.对于js加密对于有js加密信息,我们一 ...
一个用来爬小说的简单的Node.js爬虫
小说就准备点天下霸唱和南派三叔的系列,本人喜欢看,而且数据也好爬.貌似因为树大招风的原因,这两作者的的书被盗版的很多,乱改的也多.然后作者就直接在网上开放免费阅读了,还提供了官网,猜想作者应该是允许爬 ...
使用beautifulsoup和pyquery爬小说
# -*- coding:UTF-8 -*- from bs4 import BeautifulSoup #BeautifulSoup就是处理字符串的工具 import requests, sys & ...
Java爬虫框架 | 爬小说
Jsoup,Java爬虫解决方案,中文文档:jsoup 不得不说Java的生态真的好,原来我以为爬虫是只能用Pyhton来写的,结果发现Java的爬虫框架不要太多…… 一分钟你就可以写 ...
《学习scrapy框架爬小说》的进一步完善
一.完善目标: 1.为方便使用,把小说拼音或英文名,小说输出中文名,第一章节url地址变量化,修改这些参数即可爬取不同的小说. 2.修改settings.py设置文件,配置为记录debug的log信息 ...
学习scrapy框架爬小说
一.背景:近期学习python爬虫技术,感觉挺有趣.由于手动自制爬虫感觉效率低,了解到爬虫界有先进的工具可用,尝试学学scrapy爬虫框架的使用. 二.环境:centos7,python3.7,scr ...
学习使用re做解析器爬小说
一.背景:近期学习python爬虫中看到,在对网页内容进行解析的技术中,re正则表达式工具也是一个很好的工具,使用re编制爬虫工具正好熟悉re正则表达式的使用. 二.环境及爬取目标 1.linux c ...
学习使用pyquery解析器爬小说
一.背景:个人喜欢在网上看小说,但是,在浏览器中阅读小说不是很方便,喜欢找到小说的txt版下载到手机上阅读,但是有些小说不太好找txt版本,考虑自己从网页上爬一爬,自己搞定小说的txt版本.正好学习一 ...

随机推荐

Bash script set help function
set -o nounset help() { cat <<- EOF Desc: execute f1x for each case in Codeflaws Usage: ./exec ...
maven项目中使用redis集群报错： java.lang.NumberFormatException: For input string: "7001@17001"
解决:由于redis集群的采用的版本是2.7的,在maven的pom.xml中将jedis的版本改成2.9的就可以了
Hystrix入门与分析（一）：初识Hystrix
在以前的文章中,我们介绍过使用Gauva实现限流的功能,现在我们来了解一下如何在服务框架中实现熔断和降级的方法. 简介Hystrix 大型系统架构的演进基本上都是这样一个方向:从单体应用到分布式架构. ...
Tensorflow中神经网络的激活函数
激励函数的目的是为了调节权重和误差. relu max(0,x) relu6 min(max(0,x),6) sigmoid 1/(1+exp(-x)) tanh ((exp(x)-exp(-x))/ ...
Centos 7 更换yum源
Centos 7 更换源 yum clean all wget -O /etc/yum.repos.d/CentOS-Base.repo http://mirrors.aliyun.com/repo/ ...
poj1321_kuagnbin带你飞专题一
棋盘问题 Time Limit: 1000MS Memory Limit: 10000K Total Submissions: 43565 Accepted: 21163 Descriptio ...
perl 递归删除目录和目录中的文件
#!/usr/bin/perl use autodie; use utf8; use Encode qw(decode encode); sub del_dir{ my $path = shift @ ...
V8 javascript 引擎
V8是一个由丹麦Google开发的开源java script引擎,用于Google Chrome中.[2]Lars Bak是这个项目的组长.[3] V8在执行之前将java script编译成了机 ...
DWZ富客户端框架+DWZ简介及其使用+DWZ讨论组
DWZ富客户端框架+DWZ简介及其使用+DWZ讨论组地址: DWZ富客户端框架:http://jui.org/#_blank DWZ简介及其使用:http://blog.sina.com.cn/s/ ...
To be better —msup荣获平安科技“2018年度优秀合作伙伴”称号
2018年12月4日,平安科技在深圳平安金融中心举办了“2018年平安科技优秀培训合作伙伴交流会”,msup收到了邀请参与此次评选,并从80余家合作伙伴中脱颖而出,在交付量.满意度.师资内容.服务水准 ...

使用C#爬小说

使用C#爬小说的更多相关文章

随机推荐

热门专题