[搜片神器]之DHT网络爬虫的C++程序初步开源

回应大家的要求，特地整理了一开始自己整合的代码，这样最简单，最直接的可以分析流程，至于文章里面提供的程序界面更多，需要大家自己开发。

谢谢园子朋友的支持,已经找到个VPS进行测试,国外的服务器: h31bt.com 大家可以给提点意见...

服务器在抓取和处理同时进行，所以访问速度慢是有些的，特别是搜索速度通过SQL的like来查询慢，正在通过分词改进中。。

http://h31bt.com:666/ 采用了hubbledotnet框架分词来加快搜索速度，后面会用此来代替h31bt.com的网站。

DHT抓取程序开源地址：https://github.com/h31h31/H31DHTDEMO

数据处理程序开源地址:https://github.com/h31h31/H31DHTMgr

通过调试程序大家可以初步分析DHT网络是如何加入的，等大家自己分析会了单一线程的方法，后面如何组织多线程应该没有问题。

接着 [搜片神器]之DHT网络爬虫的代码实现方法这篇文章接着说明如何进入DHT网络的原理。

1.DHT必须把自己电脑当服务器,别人才能够知道自己是谁,所以需要通过UDP绑定端口。

2.DHT需要生成一个自己的20位ID号,当然可以通过随机一个数值,然后通过SHA1来生成20位的ID号；

3.初始化他人服务器的IP信息,这样我们就可以从他们那里查询我们要的信息；

4.对服务器进行PING操作,服务器就会回应PONG操作,这样就表明服务器活动正常.大家可以看VS调试窗口的输出信息就可以分析出一些流程方面的工作。

对应的协议说明：http://www.bittorrent.org/beps/bep_0005.html

5.收到信息后，通过回调函数进行相关的保存操作就可以了。

6.DHT网络一般PING操作都会有PONG回应，但发送FINDNODE回应的不会是全部有的。

7.由于自己只是伪装正常的BT步骤，并没有真正的提供种子下载操作，所以我们只会发get_peers操作，不会发送annouce_peer操作，等待别人给我们回应annouce_peer操作。

8.请求发送速度不能过快，这样的话自己的带宽也需要不少，需要考虑每个IP过一会儿再请求操作，以免进对方的黑名单。

在调试了解如何一步步进行DHT网络操作后，annouce_peer过来的HASH就是真正活跃的种子文件，我们对此保存就可以了。

其它不明白的地方，大家需要自行进行调试解决，分析代码是最好的老师，dht.c dht.h文件可能被我注释了一些地方，大家自己进行对比，尽量使用原代码。

至于如何从DHT网络直接下载种子文件，需要分析BT种子协议，但经过测试，发现比直接从HTTP网站下载来得慢，直接HTTP下载快很多。

从DHT网络直接下载种子文件对应的协议说明：

http://www.bittorrent.org/beps/bep_0009.html

http://www.bittorrent.org/beps/bep_0010.html

希望大家多多推荐哦...

分类: C++, DHT

标签: DHT, C++

网络爬虫的C++程序的更多相关文章

[搜片神器]之DHT网络爬虫的C++程序初步开源
回应大家的要求,特地整理了一开始自己整合的代码,这样最简单,最直接的可以分析流程,至于文章里面提供的程序界面更多,需要大家自己开发. 谢谢园子朋友的支持,已经找到个VPS进行测试,国外的服务器: ht ...
Python网络爬虫学习手记（1）——爬虫基础
1.爬虫基本概念网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.--------百度百科简单的说,爬 ...
Day01_WebCrawler(网络爬虫)
学于黑马和传智播客联合做的教学项目感谢黑马官网传智播客官网微信搜索"艺术行者",关注并回复关键词"webcrawler"获取视频和教程资料! b站在线视 ...
什么是网络爬虫(Spider) 程序
Spider又叫WebCrawler或者Robot,是一个沿着链接漫游Web 文档集合的程序.它一般驻留在服务器上,通过给定的一些URL,利用HTTP等标准协议读取相应文档,然后以文档中包括的所有未访 ...
为编写网络爬虫程序安装Python3.5
1. 下载Python3.5.1安装包1.1 进入python官网,点击menu->downloads,网址:https://www.python.org/downloads/ 1.2 根据系统 ...
Android网络爬虫程序（基于Jsoup）
摘要:基于 Jsoup 实现一个 Android 的网络爬虫程序,抓取网页的内容并显示出来.写这个程序的主要目的是抓取海投网的宣讲会信息(公司.时间.地点)并在移动端显示,这样就可以随时随地的浏览在学 ...
黑马程序员——JAVA基础之正则表达式,网络爬虫
------Java培训.Android培训.iOS培训..Net培训.期待与您交流! ------- 正则表达式: 概念:用于操作字符串的符合一定规则的表达式特点:用于一些特定的符号来表示一些代码 ...
使用Python写的第一个网络爬虫程序
今天尝试使用python写一个网络爬虫代码,主要是想訪问某个站点,从中选取感兴趣的信息,并将信息依照一定的格式保存早Excel中. 此代码中主要使用到了python的以下几个功能,因为对python不 ...
Python初学者之网络爬虫(二)
声明:本文内容和涉及到的代码仅限于个人学习,任何人不得作为商业用途.转载请附上此文章地址本篇文章Python初学者之网络爬虫的继续,最新代码已提交到https://github.com/octans ...

随机推荐

Metrics监控应用
使用Metrics监控应用程序的性能在编写应用程序的时候,通常会记录日志以便事后分析,在很多情况下是产生了问题之后,再去查看日志,是一种事后的静态分析.在很多时候,我们可能需要了解整个系统在当前 ...
【百度地图API】如何制作班级地理通讯录？LBS通讯录
原文:[百度地图API]如何制作班级地理通讯录?LBS通讯录摘要:班级通讯录必备的功能,比如人员列表,人员地理位置标注,展示复杂信息窗口,公交和驾车等.一般班级人员都不会超过300个,因为可以高效地 ...
MVC Bootstrap Helpers
ASP.NET MVC Bootstrap Helpers 阅读目录序言内置的HTML Helpers 创建自定义的Helpers 使用静态方法创建Helpers 使用扩展方法创建Helper ...
CSS3+HTML5特效5 - 震动的文字
先看效果(把鼠标移上去看看) abcd 这个效果很简单,就是移动文字的位置模拟出震动的效果. Css <style> @-webkit-keyframes shake { 0%{ -web ...
windows socket 网络编程
样例代码就在我的博客中,包含六个UDP和TCP发送接受的cpp文件,一个基于MFC的局域网聊天小工具project,和此小工具的全部执行时库.资源和执行程序.代码的压缩包位置是http://www.b ...
怎样在Upstart机制下的系统中加入upstart事件型的任务
/********************************************************************* * Author : Samson * Date ...
a:focus{outline: none;} 如何去掉点击链接时周围的虚线框outline属性
1. CSS方式在IE下是使用html属性:hideFoucs,在HTML标签中加上hidefocus=”true”属性即可,但这个属性是IE私有的,Firefox是不认的. 加了hidefocus ...
淘宝code
淘宝code 相信大家都听说过GitHub,也有很多人在用,但是GitHub毕竟在国外,速度不是很给力,而且安装过程也是很漫长.今天来给大家介绍一个国内的免费的开源项目平台,当然也是一个SVN版本控制 ...
基于C# 语言的两个html解析器
基于C# 语言的两个html解析器 1)Html Agility Pack http://nsoup.codeplex.com/ 代码段示例: HtmlDocument doc = new HtmlD ...
【工作笔记二】ASP.NET MVC框架下使用MVVM模式
ASP.NET MVC框架下使用MVVM模式原文:http://www.cnblogs.com/n-pei/archive/2011/07/21/2113022.html 对于asp.net mvc ...

网络爬虫的C++程序

[搜片神器]之DHT网络爬虫的C++程序初步开源

网络爬虫的C++程序的更多相关文章

随机推荐

热门专题