[搜片神器]之DHT网络爬虫的C++程序初步开源

回应大家的要求，特地整理了一开始自己整合的代码，这样最简单，最直接的可以分析流程，至于文章里面提供的程序界面更多，需要大家自己开发。

谢谢园子朋友的支持,已经找到个VPS进行测试,国外的服务器: http://www.sosobta.com 大家可以给提点意见...

服务器在抓取和处理同时进行，所以访问速度慢是有些的，特别是搜索速度通过SQL的like来查询慢，正在通过分词改进中。。

DHT抓取程序开源地址：https://github.com/h31h31/H31DHTDEMO

数据处理程序开源地址:https://github.com/h31h31/H31DHTMgr

通过调试程序大家可以初步分析DHT网络是如何加入的，等大家自己分析会了单一线程的方法，后面如何组织多线程应该没有问题。

接着 [搜片神器]之DHT网络爬虫的代码实现方法这篇文章接着说明如何进入DHT网络的原理。

1.DHT必须把自己电脑当服务器,别人才能够知道自己是谁,所以需要通过UDP绑定端口。

2.DHT需要生成一个自己的20位ID号,当然可以通过随机一个数值,然后通过SHA1来生成20位的ID号；

3.初始化他人服务器的IP信息,这样我们就可以从他们那里查询我们要的信息；

4.对服务器进行PING操作,服务器就会回应PONG操作,这样就表明服务器活动正常.大家可以看VS调试窗口的输出信息就可以分析出一些流程方面的工作。

对应的协议说明：http://www.bittorrent.org/beps/bep_0005.html

5.收到信息后，通过回调函数进行相关的保存操作就可以了。

6.DHT网络一般PING操作都会有PONG回应，但发送FINDNODE回应的不会是全部有的。

7.由于自己只是伪装正常的BT步骤，并没有真正的提供种子下载操作，所以我们只会发get_peers操作，不会发送annouce_peer操作，等待别人给我们回应annouce_peer操作。

8.请求发送速度不能过快，这样的话自己的带宽也需要不少，需要考虑每个IP过一会儿再请求操作，以免进对方的黑名单。

在调试了解如何一步步进行DHT网络操作后，annouce_peer过来的HASH就是真正活跃的种子文件，我们对此保存就可以了。

其它不明白的地方，大家需要自行进行调试解决，分析代码是最好的老师，dht.c dht.h文件可能被我注释了一些地方，大家自己进行对比，尽量使用原代码。

至于如何从DHT网络直接下载种子文件，需要分析BT种子协议，但经过测试，发现比直接从HTTP网站下载来得慢，直接HTTP下载快很多。

从DHT网络直接下载种子文件对应的协议说明：

http://www.bittorrent.org/beps/bep_0009.html

http://www.bittorrent.org/beps/bep_0010.html

希望大家多多推荐哦...

[搜片神器]之DHT网络爬虫的C++程序初步开源的更多相关文章

[搜片神器]之DHT网络爬虫的代码实现方法
继续接着第一篇写:使用C#实现DHT磁力搜索的BT种子后端管理程序+数据库设计(开源)[搜片神器] 谢谢园子朋友的支持,已经找到个VPS进行测试,国外的服务器: http://www.sosobta. ...
网络爬虫的C++程序
[搜片神器]之DHT网络爬虫的C++程序初步开源回应大家的要求,特地整理了一开始自己整合的代码,这样最简单,最直接的可以分析流程,至于文章里面提供的程序界面更多,需要大家自己开发. 谢谢园子朋友的支 ...
[C#搜片神器] 之P2P中DHT网络爬虫原理
继续接着上一篇写:使用C#实现DHT磁力搜索的BT种子后端管理程序+数据库设计(开源)[搜片神器] 昨天由于开源的时候没有注意运行环境,直接没有考虑下载BT种子文件时生成子文件夹,可能导致有的朋友运行 ...
[搜片神器]直接从DHT网络下载BT种子的方法
DHT抓取程序开源地址:https://github.com/h31h31/H31DHTDEMO 数据处理程序开源地址:https://github.com/h31h31/H31DHTMgr DHT系 ...
[搜片神器]使用C#实现DHT磁力搜索的BT种子后端管理程序+数据库设计（开源）
谢谢园子朋友的支持,已经找到个VPS进行测试,国外的服务器:http://www.sosobta.com 大家可以给提点意见... 出售商业网站代码,万元起,非诚勿扰,谢谢. 联系h31h31 a ...
Heritrix工具实现网络爬虫
上次用的java相关知识实现了一个简单的网络爬虫,现在存在许多开源免费的爬虫工具,相对来说,可以很简单的获取网页数据,并写入到本地. 下面我就阐述一下我用Heritrix爬虫工具实现网页数据爬取. - ...
Python网络爬虫学习手记（1）——爬虫基础
1.爬虫基本概念网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.--------百度百科简单的说,爬 ...
Day01_WebCrawler(网络爬虫)
学于黑马和传智播客联合做的教学项目感谢黑马官网传智播客官网微信搜索"艺术行者",关注并回复关键词"webcrawler"获取视频和教程资料! b站在线视 ...
Httpclient: 多层翻页网络爬虫实战(以搜房网为例)
参考:http://blog.csdn.net/qy20115549/article/details/52912532 一.创建数据表 #创建表:用来存储url地址信息 create table so ...

随机推荐

《jQuery风暴》第2章必须知道的JavaScript知识
第2章必须知道的JavaScript知识 JavaScript是jQuery应用的基础,掌握JavaScript这门语言是使用jQuery的基础条件.本章不会全面细致的讲解JavaScript的全部 ...
QTableWidget使用简单，因为不再存在父节点的关系
虽然使用比较简单,但亲自过一遍还是有必要的,权当一个学习笔记吧,记录在此. #include "tablewidgetxxx.h" #include <QtGui/QAppl ...
jQuery-瀑布流-绝对定位布局（二）(延迟AJAX加载图片)
jQuery-瀑布流-绝对定位布局(二)(延迟AJAX加载图片) 瀑布流-绝对定位布局,与浮动布局的区别在于 1.布局不一样: 绝对定位:一个UL里面放置所有的绝对定位的LI: 浮动布局:多个(一 ...
如何在oracle中导入dmp数据库文件
Oracle数据导入导出imp/exp就相当于oracle数据还原与备份.exp命令可以把数据从远程数据库服务器导出到本地的dmp文件,imp命令可以把dmp文件从本地导入到远处的数据库服务器中. 利 ...
storage size of ‘oldact’ isn’t known
#include <signal.h> int main(){struct sigaction act, oldact;return 0;} dies with the message t ...
Grunt ：任务自动管理工具
来自<JavaScript 标准参考教程(alpha)>,by 阮一峰在Javascript的开发过程中,经常会遇到一些重复性的任务,比如合并文件.压缩代码.检查语法错误.将Sass代码 ...
php多维数组化一维数组
一.使用foreach <?php function arr_foreach ($arr) { static $tmp=array(); if (!is_array ($arr)) { retu ...
POJ 1904 HDU 4685
这两道题差不多,POJ这道我很久以前就做过,但是比赛的时候居然没想起来.. POJ 这道题的题意是,N个王子每个人都有喜欢的公主,当他们选定一个公主结婚时,必须是的剩下的人也能找到他喜欢的公主结婚. ...
hdu - 1010 Tempter of the Bone (dfs+奇偶性剪枝) && hdu-1015 Safecracker(简单搜索)
http://acm.hdu.edu.cn/showproblem.php?pid=1010 这题就是问能不能在t时刻走到门口,不能用bfs的原因大概是可能不一定是最短路路径吧. 但是这题要过除了细心 ...
ERP调研之对话
开卷语: 2009年8月6号,A公司ERP项目顺利启动,按照项目进度的安排,项目组成员立即投入到紧张而又忙碌的的业务调研之中.这次为期3周的业务调研面向企业所有业务部门,包括产品部门.采购部门.计划部 ...

[搜片神器]之DHT网络爬虫的C++程序初步开源

[搜片神器]之DHT网络爬虫的C++程序初步开源的更多相关文章

随机推荐

热门专题