C++ 网络爬虫实现

最近有个概念吵得很火，网络爬虫，但是基本都是用什么python或者JAVA写，貌似很少看到用c++写的，我在网上找了一个，看到其实还是很简单的算法

算法讲解：1.遍历资源网站

　　　　　2.获取html信息

　　　　 3.然后解析网址和图片url下载。

　　　　 4.递归调用搜索网址

BFS是最重要的处理：

先是获取网页响应，保存到文本里面，然后找到其中的图片链接HTMLParse，

下载所有图片DownLoadImg。

//广度遍历

void BFS( const string & url ){

	char * response;

	int bytes;

	// 获取网页的相应，放入response中。

	if( !GetHttpResponse( url, response, bytes ) ){

		cout << "The url is wrong! ignore." << endl;

		return;

	}

	string httpResponse=response;

	free( response );

	string filename = ToFileName( url );

	ofstream ofile( "./html/"+filename );

	if( ofile.is_open() ){

		// 保存该网页的文本内容

		ofile << httpResponse << endl;

		ofile.close();

	}

	vector<string> imgurls;

	//解析该网页的所有图片链接，放入imgurls里面

	HTMLParse( httpResponse,  imgurls, url );  

	//下载所有的图片资源

	DownLoadImg( imgurls, url );

}

然后附上代码：

#include "stdafx.h"

//#include <Windows.h>

#include <string>

#include <iostream>

#include <fstream>

#include <vector>

#include "winsock2.h"

#include <time.h>

#include <queue>

#include <hash_set>  

#pragma comment(lib, "ws2_32.lib")

using namespace std;  

#define DEFAULT_PAGE_BUF_SIZE 1048576  

queue<string> hrefUrl;

hash_set<string> visitedUrl;

hash_set<string> visitedImg;

int depth=0;

int g_ImgCnt=1;  

//解析URL，解析出主机名，资源名

bool ParseURL( const string & url, string & host, string & resource){

	if ( strlen(url.c_str()) > 2000 ) {

		return false;

	}  

	const char * pos = strstr( url.c_str(), "http://" );

	if( pos==NULL ) pos = url.c_str();

	else pos += strlen("http://");

	if( strstr( pos, "/")==0 )

		return false;

	char pHost[100];

	char pResource[2000];

	sscanf( pos, "%[^/]%s", pHost, pResource );

	host = pHost;

	resource = pResource;

	return true;

}  

//使用Get请求，得到响应

bool GetHttpResponse( const string & url, char * &response, int &bytesRead ){

	string host, resource;

	if(!ParseURL( url, host, resource )){

		cout << "Can not parse the url"<<endl;

		return false;

	}  

	//建立socket

	struct hostent * hp= gethostbyname( host.c_str() );

	if( hp==NULL ){

		cout<< "Can not find host address"<<endl;

		return false;

	}  

	SOCKET sock = socket( AF_INET, SOCK_STREAM, IPPROTO_TCP);

	if( sock == -1 || sock == -2 ){

		cout << "Can not create sock."<<endl;

		return false;

	}  

	//建立服务器地址

	SOCKADDR_IN sa;

	sa.sin_family = AF_INET;

	sa.sin_port = htons( 80 );

	//char addr[5];

	//memcpy( addr, hp->h_addr, 4 );

	//sa.sin_addr.s_addr = inet_addr(hp->h_addr);

	memcpy( &sa.sin_addr, hp->h_addr, 4 );  

	//建立连接

	if( 0!= connect( sock, (SOCKADDR*)&sa, sizeof(sa) ) ){

		cout << "Can not connect: "<< url <<endl;

		closesocket(sock);

		return false;

	};  

	//准备发送数据

	string request = "GET " + resource + " HTTP/1.1\r\nHost:" + host + "\r\nConnection:Close\r\n\r\n";  

	//发送数据

	if( SOCKET_ERROR ==send( sock, request.c_str(), request.size(), 0 ) ){

		cout << "send error" <<endl;

		closesocket( sock );

		return false;

	}  

	//接收数据

	int m_nContentLength = DEFAULT_PAGE_BUF_SIZE;

	char *pageBuf = (char *)malloc(m_nContentLength);

	memset(pageBuf, 0, m_nContentLength);  

	bytesRead = 0;

	int ret = 1;

	cout <<"Read: ";

	while(ret > 0){

		ret = recv(sock, pageBuf + bytesRead, m_nContentLength - bytesRead, 0);  

		if(ret > 0)

		{

			bytesRead += ret;

		}  

		if( m_nContentLength - bytesRead<100){

			cout << "\nRealloc memorry"<<endl;

			m_nContentLength *=2;

			pageBuf = (char*)realloc( pageBuf, m_nContentLength);       //重新分配内存

		}

		cout << ret <<" ";

	}

	cout <<endl;  

	pageBuf[bytesRead] = '\0';

	response = pageBuf;

	closesocket( sock );

	return true;

	//cout<< response <<endl;

}  

//提取所有的URL以及图片URL

void HTMLParse ( string & htmlResponse, vector<string> & imgurls, const string & host ){

	//找所有连接，加入queue中

	const char *p= htmlResponse.c_str();

	char *tag="href=\"";

	const char *pos = strstr( p, tag );

	ofstream ofile("url.txt", ios::app);

	while( pos ){

		pos +=strlen(tag);

		const char * nextQ = strstr( pos, "\"" );

		if( nextQ ){

			char * url = new char[ nextQ-pos+1 ];

			//char url[100]; //固定大小的会发生缓冲区溢出的危险

			sscanf( pos, "%[^\"]", url);

			string surl = url;  // 转换成string类型，可以自动释放内存

			if( visitedUrl.find( surl ) == visitedUrl.end() ){

				visitedUrl.insert( surl );

				ofile << surl<<endl;

				hrefUrl.push( surl );

			}

			pos = strstr(pos, tag );

			delete [] url;  // 释放掉申请的内存

		}

	}

	ofile << endl << endl;

	ofile.close();  

	tag ="<img ";

	const char* att1= "src=\"";

	const char* att2="lazy-src=\"";

	const char *pos0 = strstr( p, tag );

	while( pos0 ){

		pos0 += strlen( tag );

		const char* pos2 = strstr( pos0, att2 );

		if( !pos2 || pos2 > strstr( pos0, ">") ) {

			pos = strstr( pos0, att1);

			if(!pos) {

				pos0 = strstr(att1, tag );

				continue;

			} else {

				pos = pos + strlen(att1);

			}

		}

		else {

			pos = pos2 + strlen(att2);

		}  

		const char * nextQ = strstr( pos, "\"");

		if( nextQ ){

			char * url = new char[nextQ-pos+1];

			sscanf( pos, "%[^\"]", url);

			cout << url<<endl;

			string imgUrl = url;

			if( visitedImg.find( imgUrl ) == visitedImg.end() ){

				visitedImg.insert( imgUrl );

				imgurls.push_back( imgUrl );

			}

			pos0 = strstr(pos0, tag );

			delete [] url;

		}

	}

	cout << "end of Parse this html"<<endl;

}  

//把URL转化为文件名

string ToFileName( const string &url ){

	string fileName;

	fileName.resize( url.size());

	int k=0;

	for( int i=0; i<(int)url.size(); i++){

		char ch = url[i];

		if( ch!='\\'&&ch!='/'&&ch!=':'&&ch!='*'&&ch!='?'&&ch!='"'&&ch!='<'&&ch!='>'&&ch!='|')

			fileName[k++]=ch;

	}

	return fileName.substr(0,k) + ".txt";

}  

//下载图片到img文件夹

void DownLoadImg( vector<string> & imgurls, const string &url ){  

	//生成保存该url下图片的文件夹

	string foldname = ToFileName( url );

	foldname = "./img/"+foldname;

	if(!CreateDirectory( foldname.c_str(),NULL ))

		cout << "Can not create directory:"<< foldname<<endl;

	char *image;

	int byteRead;

	for( int i=0; i<imgurls.size(); i++){

		//判断是否为图片，bmp，jgp，jpeg，gif

		string str = imgurls[i];

		int pos = str.find_last_of(".");

		if( pos == string::npos )

			continue;

		else{

			string ext = str.substr( pos+1, str.size()-pos-1 );

			if( ext!="bmp"&& ext!="jpg" && ext!="jpeg"&& ext!="gif"&&ext!="png")

				continue;

		}

		//下载其中的内容

		if( GetHttpResponse(imgurls[i], image, byteRead)){

			if ( strlen(image) ==0 ) {

				continue;

			}

			const char *p=image;

			const char * pos = strstr(p,"\r\n\r\n")+strlen("\r\n\r\n");

			int index = imgurls[i].find_last_of("/");

			if( index!=string::npos ){

				string imgname = imgurls[i].substr( index , imgurls[i].size() );

				ofstream ofile( foldname+imgname, ios::binary );

				if( !ofile.is_open() )

					continue;

				cout <<g_ImgCnt++<< foldname+imgname<<endl;

				ofile.write( pos, byteRead- (pos-p) );

				ofile.close();

			}

			free(image);

		}

	}

}  

//广度遍历

void BFS( const string & url ){

	char * response;

	int bytes;

	// 获取网页的相应，放入response中。

	if( !GetHttpResponse( url, response, bytes ) ){

		cout << "The url is wrong! ignore." << endl;

		return;

	}

	string httpResponse=response;

	free( response );

	string filename = ToFileName( url );

	ofstream ofile( "./html/"+filename );

	if( ofile.is_open() ){

		// 保存该网页的文本内容

		ofile << httpResponse << endl;

		ofile.close();

	}

	vector<string> imgurls;

	//解析该网页的所有图片链接，放入imgurls里面

	HTMLParse( httpResponse,  imgurls, url );  

	//下载所有的图片资源

	DownLoadImg( imgurls, url );

}  

void main()

{

	//初始化socket，用于tcp网络连接

	WSADATA wsaData;

	if( WSAStartup(MAKEWORD(2,2), &wsaData) != 0 ){

		return;

	}  

	// 创建文件夹，保存图片和网页文本文件

	CreateDirectory( "./img",0);

	CreateDirectory("./html",0);

	//string urlStart = "http://hao.360.cn/meinvdaohang.html";  

	// 遍历的起始地址

	 string urlStart = "http://desk.zol.com.cn/bizhi/7018_87137_2.html";

	//string urlStart = "http://item.taobao.com/item.htm?spm=a230r.1.14.19.sBBNbz&id=36366887850&ns=1#detail";  

	// 使用广度遍历

	// 提取网页中的超链接放入hrefUrl中，提取图片链接，下载图片。

	BFS( urlStart );  

	// 访问过的网址保存起来

	visitedUrl.insert( urlStart );  

	while( hrefUrl.size()!=0 ){

		string url = hrefUrl.front();  // 从队列的最开始取出一个网址

		cout << url << endl;

		BFS( url );                   // 遍历提取出来的那个网页，找它里面的超链接网页放入hrefUrl，下载它里面的文本，图片

		hrefUrl.pop();                 // 遍历完之后，删除这个网址

	}

	WSACleanup();

	return;

}

C++ 网络爬虫实现的更多相关文章

Python初学者之网络爬虫(二)
声明:本文内容和涉及到的代码仅限于个人学习,任何人不得作为商业用途.转载请附上此文章地址本篇文章Python初学者之网络爬虫的继续,最新代码已提交到https://github.com/octans ...
网络爬虫：使用Scrapy框架编写一个抓取书籍信息的爬虫服务
上周学习了BeautifulSoup的基础知识并用它完成了一个网络爬虫( 使用Beautiful Soup编写一个爬虫系列随笔汇总 ), BeautifulSoup是一个非常流行的Python网 ...
网络爬虫: 从allitebooks.com抓取书籍信息并从amazon.com抓取价格(3): 抓取amazon.com价格
通过上一篇随笔的处理,我们已经拿到了书的书名和ISBN码.(网络爬虫: 从allitebooks.com抓取书籍信息并从amazon.com抓取价格(2): 抓取allitebooks.com书籍信息 ...
网络爬虫: 从allitebooks.com抓取书籍信息并从amazon.com抓取价格(2): 抓取allitebooks.com书籍信息及ISBN码
这一篇首先从allitebooks.com里抓取书籍列表的书籍信息和每本书对应的ISBN码. 一.分析需求和网站结构 allitebooks.com这个网站的结构很简单,分页+书籍列表+书籍详情页. ...
网络爬虫: 从allitebooks.com抓取书籍信息并从amazon.com抓取价格(1): 基础知识Beautiful Soup
开始学习网络数据挖掘方面的知识,首先从Beautiful Soup入手(Beautiful Soup是一个Python库,功能是从HTML和XML中解析数据),打算以三篇博文纪录学习Beautiful ...
Atitit.数据检索与网络爬虫与数据采集的原理概论
Atitit.数据检索与网络爬虫与数据采集的原理概论 1. 信息检索1 1.1. <信息检索导论>((美)曼宁...)[简介_书评_在线阅读] - dangdang.html1 1.2. ...
Java 网络爬虫获取页面源代码
原博文:http://www.cnblogs.com/xudong-bupt/archive/2013/03/20/2971893.html 1.网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网 ...
[Search Engine] 搜索引擎技术之网络爬虫
随着互联网的大力发展,互联网称为信息的主要载体,而如何在互联网中搜集信息是互联网领域面临的一大挑战.网络爬虫技术是什么?其实网络爬虫技术就是指的网络数据的抓取,因为在网络中抓取数据是具有关联性的抓取, ...
[Python] 网络爬虫和正则表达式学习总结
以前在学校做科研都是直接利用网上共享的一些数据,就像我们经常说的dataset.beachmark等等.但是,对于实际的工业需求来说,爬取网络的数据是必须的并且是首要的.最近在国内一家互联网公司实习, ...
【Python网络爬虫一】爬虫原理和URL基本构成
1.爬虫定义网络爬虫,即Web Spider,是一个很形象的名字.把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛.网络蜘蛛是通过网页的链接地址来寻找网页的.从网站某一个页面(通常 ...

随机推荐

【闲聊PHP】编程界的萝莉小美女--PHP
本文地址 01 前言--上了贼船不知道何时就上了PHP的贼船了,开始了web的开发,记得差不多两年前我还是做传统电子行业的人,就是嵌入式的方向,那时在天津或摆弄手机,或下煤窑摆弄电话,抑或就是在医疗 ...
如何写好 Git commit messages
导语:任何软件项目都是一个协作项目,它至少需要2个开发人员参与,当原始的开发人员将项目开发几个星期或者几个月之后,项目步入正规.不过他们或者后续的开发人员仍然需要经常提交一些代码去修复bug或者实现新 ...
测试工作中ADB命令实战
作者:TT,<测试架构师>微信公众号作者大家能点击进来,说明还是对ADB有所了解或听说过的,可能也会比较熟练的掌握了这些命令,下面描述如有不对的地方,欢迎指正和交流学习,请多指教! 一. ...
Nginx http 500错误分析及解决方法
出现场景: 在用nginx做负载均衡服务器对系统做并发测试,并发量比较大时Nginx会报出Http 500错误报错原因: 访问量大的时候,由于系统资源限制,而不能打开过多的文件 ...
php 租房子（练习题）
一.题目要求 1.功能描述出租房屋数据管理及搜索页面 2.具体要求 (1) 创建数据库HouseDB,创建表House,要求如下: 二.题目做法 1.建立数据库 2.封装类文件 <?php ...
JS高级程序设计学习笔记——继承
我们知道,在OO语言中,继承可分为接口继承和实现继承.而ECMAScript的函数没有签名,不能实现“接口继承”,只能通过原型链实现“实现继承”. 在学习了各种继承模式之后,简单总结一下各种继承模式的 ...
Kindle电子阅读器收不到个人文档推送解决方案
最近我的 kindle 固件版本更新到 5.8.7.0.1 ,发现增加了生字注音功能,瞬间变成小学生阅读神器有木有,不过,这个功能可以隐藏.显示,看着碍眼隐藏即可,还可以减少和增加生字注音.感觉对于经 ...
应用控制台应用程序开发批量导入EXEL程序。
一.最近一直在调整去年以及维护去年开发的项目,好久没有在进行个人的博客了.每天抽了一定的时间在研究一些开源的框架,Drapper 以及NHibernate以及当前比较流行的SqlSuper框架并进行 ...
Prerender.io - 预渲染架构，提高AngularJS SEO
近些年来,越来越多的JavaScript框架(即AngularJS,BackboneJS,ReactJS)变得越来越流行.许多公司和开发人员使用这些JavaScript框架开发应用程序.这些框架有很多 ...
初探LVS NAT与DR
1. LB.LVS介绍LB集群是load balance 集群的简写,翻译成中文就是负载均衡集群 LVS是一个实现负载均衡集群的开源软件项目 LVS架构从逻辑上可分为调度层(Director).ser ...

C++ 网络爬虫实现

C++ 网络爬虫实现的更多相关文章

随机推荐

热门专题