C++ 提取网页内容系列之一

标题: C++ 提取网页内容系列
作者: itdef
链接: http://www.cnblogs.com/itdef/p/4171179.html

欢迎转帖请保持文本完整并注明出处

首先分析网页就要下载网页内容这里给出了两种方案

一种是使用MFC自带函数

代码如下:

int GetHttpFileData(CString strUrl,char* szDownloadHtmFileName)

{

	CInternetSession Session("Internet Explorer", 0);

	CHttpFile *pHttpFile = NULL;

	CString strData;

	CString strClip;

	int iRet = -1;

	if(szDownloadHtmFileName == NULL)

	{

		cerr << "DownloadHtmFileName is NULL" << endl;

		Session.Close();

		return iRet;

	}

	ofstream of(szDownloadHtmFileName);

	if (of.bad())

	{

		cerr << "of create file error" << endl;

		Session.Close();

		return iRet;

	}

	try

	{

		pHttpFile = (CHttpFile*)Session.OpenURL(strUrl);

		while ( pHttpFile->ReadString(strClip) )

		{

			of << strClip;

		}

	}catch(CInternetException* pEx)

	{

		TCHAR pszError[64];

		pEx->GetErrorMessage(pszError, 64);

		cerr << __FUNCTION__ << pszError << endl;

		goto GetHttpFileData_EXIT;

	}

	iRet = 0;

GetHttpFileData_EXIT:

	Session.Close();

	of.close();

	return iRet;

}

这里我将下载内容写入了一个文件存入硬盘。另外还需要注意的是网页文件下载的格式可能是宽字节使用UTF8格式，这里需要将其转换为GBK多字节。

int UTF8Str2GBK(const string& strUTF8,string& strGBK)

{

	int i = MultiByteToWideChar(CP_UTF8, 0, strUTF8.c_str(), -1, NULL, 0);

	WCHAR *wsz = NULL;

	TCHAR *tsz = NULL;

	int iRet = -1;

	wsz = new WCHAR[i+1];

	if( NULL == wsz)

	{

		goto UTF8Str2GBK_EXIT;

	}

	MultiByteToWideChar(CP_UTF8, 0, strUTF8.c_str(), -1, wsz, i);

	i = WideCharToMultiByte(CP_ACP, 0, wsz, -1, NULL, 0, NULL, NULL);

	tsz = new TCHAR[i+1];

	if( NULL == tsz)

	{

		goto UTF8Str2GBK_EXIT;

	}

	WideCharToMultiByte(CP_ACP, 0, wsz, -1, tsz, i, NULL, NULL);

	strGBK = string(tsz);

	iRet = 0;

UTF8Str2GBK_EXIT:

	delete []wsz;

	delete []tsz;

	return iRet;

}

全部代码见 http://www.oschina.net/code/snippet_614253_43732

效果图见 http://www.cnblogs.com/itdef/p/4081963.html

C++ 提取网页内容系列之一的更多相关文章

C++ 提取网页内容系列之四正则
标题: C++ 提取网页内容系列之四作者: itdef链接: http://www.cnblogs.com/itdef/p/4173833.html 欢迎转帖请保持文本完整并注明出处将网页内 ...
C++ 提取网页内容系列之三
标题: C++ 提取网页内容系列作者: itdef链接: http://www.cnblogs.com/itdef/p/4171659.html 欢迎转帖请保持文本完整并注明出处这次继续下载 ...
C++ 提取网页内容系列之二
标题: C++ 提取网页内容系列作者: itdef链接: http://www.cnblogs.com/itdef/p/4171203.html 欢迎转帖请保持文本完整并注明出处另外一种下载 ...
C++ 提取网页内容系列之五整合爬取豆瓣读书
工作太忙没有时间细化了就说说主要内容吧下载和分析漫画是分开的下载豆瓣漫画页面是使用之前的文章的代码见http://www.cnblogs.com/itdef/p/4171179.html ...
在.NET中使用JQuery 选择器精确提取网页内容
1. 前言相信很多人做开发时都有过这样的需求:从网页中准确提取所需的内容.思前想后,方法无非是以下几种:(本人经验尚浅,有更好的方法还请大家指点) 1. 使用正则表达式匹配所需元素.(缺点:同类型的 ...
Python爬虫十六式 - 第四式: 使用Xpath提取网页内容
Xpath:简单易用的网页内容提取工具学习一时爽,一直学习一直爽 ! Hello,大家好,我是Connor,一个从无到有的技术小白.上一次我们说到了 requests 的使用方法.到上节课为止, ...
Httpclient 和jsoup结和提取网页内容(某客学院视频链接）
最近在极客学院获得体验会员3个月,然后就去上面看了看,感觉课程讲的还不错.整好最近学习Android,然后去上面找点视频看看.发现只有使用RMB买的会员才能在上面下载视频.抱着试一试的态度,去看他的网 ...
Python使用xslt提取网页数据
1,引言在Python网络爬虫内容提取器一文我们详细讲解了核心部件:可插拔的内容提取器类gsExtractor.本文记录了确定gsExtractor的技术路线过程中所做的编程实验.这是第一部分,实验 ...
Python即时网络爬虫项目: 内容提取器的定义(Python2.7版本)
1. 项目背景在Python即时网络爬虫项目启动说明中我们讨论一个数字:程序员浪费在调测内容提取规则上的时间太多了(见上图),从而我们发起了这个项目,把程序员从繁琐的调测规则中解放出来,投入到更高端 ...

随机推荐

TSP-UK49687
Copied From:http://www.math.uwaterloo.ca/tsp/uk/index.html Shortest possible tour to nearly every pu ...
NTP搭建
NTP(Network Time Protocol,网络时间协议),用于同步它所有客户端时钟的服务.NTP服务器将本地系统的时钟与一个公共的NTP服务器同步然后作为时间主机提供服务,使本地网络的所有客 ...
读书笔记——《redis入门指南（第2版）》第四章进阶——4.1-5
.1事务 redis中事务是一组命令的集合. 事务同命令一样都是redis的最小执行单位,Redis保证一个事务中的命令要么都执行,要么都不执行.如果redisClient在发送EXEC命令前掉线,则 ...
非常优秀的swiper插件————幻灯片播放、图片轮播
http://www.idangero.us/ http://www.swiper.com.cn/ Swiper中文网 2015-10-15 SuperSlide2: (这是个PC用的滚屏插件,看着不 ...
LVM逻辑卷疑问？
创建完逻辑卷后,删除以/dev/vdb1和/dev/vdb2为基础的分区后,逻辑卷依然生效???
BBS(第二天) Django之Admin 自动化管理数据页面与创建一个用户注册的验证码
1.admin的概念 # Admin是Django自带的一个功能强大的自动化数据管理界面 # 被授权的用户可以直接在Admin中操作数据库 # Django提供了许多针对Admin的定制功能 2. 配 ...
Delphi RTTI的应用（一）
1.获取DbgrdiEH 某一个选项的属性.加载到ComBox procedure TForm1.FormCreate(Sender: TObject); var PropInfo: PPropInf ...
网站加入QQ在线客服
 <div class="QQFloat" > <div class="qq"> <div ...
rpm包安装的nginx热升级
文章目录一.本地环境基本介绍二.yum升级命令说明三.升级好nginx后如何不中断业务切换3.1.nginx相关的信号说明3.2.在线热升级nginx可执行文件程序一.本地环境基本介绍本次测试环境,是 ...
在IDEA中停止和关闭SonarLint自动检查，手动运行SonarLint检查代码
关闭SonarLint自动检查代码有时敲一行代码SonarLint插件就会自动检查,让人感觉很不舒服,还会使电脑卡顿: 依次点击:File -> Settings 或直接Ctrl+Alt+S ...

C++ 提取网页内容系列之一

C++ 提取网页内容系列之一的更多相关文章

随机推荐

热门专题