C++ 提取网页内容系列之四正则
标 题: C++ 提取网页内容系列之四
作 者: itdef
链 接: http://www.cnblogs.com/itdef/p/4173833.html
欢迎转帖 请保持文本完整并注明出处
将网页内容下载后存入字符串string 或者本地文件后 我们开始进行搜索和查询 获取信息
这里使用正则式 使用vs2008 其自带的tr1库(预备标准库) 有正则式库供使用
带头文件/*******************************************************************************
* @file
* @author def< qq group: 324164944 >
* @blog http://www.cnblogs.com/itdef/
* @brief
/*******************************************************************************/
#include <regex>
using namespace std::tr1;
using namespace std;
这里推荐正则式教程
正则表达式30分钟入门教程
http://www.cnblogs.com/deerchao/ ... zhongjiaocheng.html
C++:Regex正则表达式
http://blog.sina.com.cn/s/blog_ac9fdc0b0101oow9.html
首先来个简单例子
#include <string>
#include <iostream>
#include <regex> using namespace std::tr1;
using namespace std; string strContent = " onclick=\"VeryCD.TrackEvent('base', '首页大推', '神雕侠侣');"; void Test1()
{
string strText = strContent;
string strRegex = "首页大推";
regex regExpress(strRegex); smatch ms; cout << "*****************************" << endl;
cout << "Test 1" << endl << endl; while(regex_search(strText, ms, regExpress))
{
for(string::size_type i = ;i < ms.size();++i)
{
cout << ms.str(i).c_str() << endl;
}
strText = ms.suffix().str();
} cout << "*****************************" << endl << endl;
} void Test2()
{
string strText = strContent;
string strRegex = "首页大推.*'(.*)'";
regex regExpress(strRegex); smatch ms; cout << "*****************************" << endl;
cout << "Test 2" << endl << endl;
while(regex_search(strText, ms, regExpress))
{
for(string::size_type i = ;i < ms.size();++i)
{
cout << ms.str(i).c_str() << endl;
}
strText = ms.suffix().str();
}
cout << "*****************************" << endl << endl;
} int _tmain(int argc, _TCHAR* argv[])
{
Test1();
Test2(); return ;
}
Test1中 我们等于是直接搜索字符串 然后 打印出找到的位置Test2中 我们使用 首页大推.*'(.*)'
.号等于是任意非空白换行字符 *则代表重复任意多次(0-无穷次)
而括号表示一个字符集 也就是我们需要查找的内容
请注意这个括号是在 ' ' 之间的 也就是查找 首页大推 任意字符之后 两个 ' '号之间的内容
效果如下:
而且我们也发现 ms的显示规律 他首先显示符合条件的字符串 然后现实符合( )里面条件的子字符串

下面来个深入点得 分析这个字符串
string strContent0 = "alt=\"火影忍者\" /><div class=\"play_ico_middle\"></div><div class=\"cv-title\" style=\"width:85px;\">更新至612集</div>";
我们使用的正则式规则为 string strRegex = "alt=\"([^\"]*)\".*width:85px;\">(.*)</div>";
注意里面有两个括号 一个是在alt= 之后 在两个" " 之间的内容 一个是在width:85px;\"> 和 </div> 之间的内容
注意 "的显示 由于C++语言的特性 必须写成 \"
现在分析两个括号内容 ([^\"]*) (.*)
(.*)无须多说 就是任意非空白字符 而且是在width:85px;\"> 和 </div> 之间的内容
([^\"]*) 就是说 非"的内容任意重复多次 而且这个括号是在alt= 之后 在两个" " 之间的内容
运行结果如下:(为了不显示过多内容 符合条件的内容没有全部显示 只显示了符合括号需求的子字符串)
/*******************************************************************************
* @file
* @author def< qq group: 324164944 >
* @blog http://www.cnblogs.com/itdef/
* @brief
/*******************************************************************************/ #include <string>
#include <iostream>
#include <regex> using namespace std::tr1;
using namespace std; string strContent = " onclick=\"VeryCD.TrackEvent('base', '首页大推', '神雕侠侣');"; string strContent0 = "alt=\"火影忍者\" /><div class=\"play_ico_middle\"></div><div class=\"cv-title\" style=\"width:85px;\">更新至612集</div>"; void Test1()
{
string strText = strContent;
string strRegex = "首页大推";
regex regExpress(strRegex); smatch ms; cout << "*****************************" << endl;
cout << "Test 1" << endl << endl; while(regex_search(strText, ms, regExpress))
{
for(string::size_type i = ;i < ms.size();++i)
{
cout << ms.str(i).c_str() << endl;
}
strText = ms.suffix().str();
} cout << "*****************************" << endl << endl;
} void Test2()
{
string strText = strContent;
string strRegex = "首页大推.*'(.*)'";
regex regExpress(strRegex); smatch ms; cout << "*****************************" << endl;
cout << "Test 2" << endl << endl;
while(regex_search(strText, ms, regExpress))
{
for(string::size_type i = ;i < ms.size();++i)
{
cout << ms.str(i).c_str() << endl;
}
strText = ms.suffix().str();
}
cout << "*****************************" << endl << endl;
} void Test3()
{
string strText = strContent0;
string strRegex = "alt=\"([^\"]*)\".*width:85px;\">(.*)</div>";
regex regExpress(strRegex); smatch ms; cout << "*****************************" << endl;
cout << "Test 3" << endl << endl; while(regex_search(strText, ms, regExpress))
{
for(string::size_type i = ;i < ms.size();++i)
{
if(i > )
cout << ms.str(i).c_str() << endl;
}
strText = ms.suffix().str();
}
cout << "*****************************" << endl << endl; } int _tmain(int argc, _TCHAR* argv[])
{
Test1();
Test2();
Test3(); return ;
}

C++ 提取网页内容系列之四正则的更多相关文章
- C++ 提取网页内容系列之三
标 题: C++ 提取网页内容系列作 者: itdef链 接: http://www.cnblogs.com/itdef/p/4171659.html 欢迎转帖 请保持文本完整并注明出处 这次继续下载 ...
- C++ 提取网页内容系列之二
标 题: C++ 提取网页内容系列作 者: itdef链 接: http://www.cnblogs.com/itdef/p/4171203.html 欢迎转帖 请保持文本完整并注明出处 另外一种下载 ...
- C++ 提取网页内容系列之一
标 题: C++ 提取网页内容系列作 者: itdef链 接: http://www.cnblogs.com/itdef/p/4171179.html 欢迎转帖 请保持文本完整并注明出处 首先分析网页 ...
- C++ 提取网页内容系列之五 整合爬取豆瓣读书
工作太忙 没有时间细化了 就说说 主要内容吧 下载和分析漫画是分开的 下载豆瓣漫画页面是使用之前的文章的代码 见http://www.cnblogs.com/itdef/p/4171179.html ...
- 在.NET中使用JQuery 选择器精确提取网页内容
1. 前言 相信很多人做开发时都有过这样的需求:从网页中准确提取所需的内容.思前想后,方法无非是以下几种:(本人经验尚浅,有更好的方法还请大家指点) 1. 使用正则表达式匹配所需元素.(缺点:同类型的 ...
- Sql Server来龙去脉系列之四 数据库和文件
在讨论数据库之前我们先要明白一个问题:什么是数据库? 数据库是若干对象的集合,这些对象用来控制和维护数据.一个经典的数据库实例仅仅包含少量的数据库,但用户一般也不会在一个实例上创建太多 ...
- Red Gate系列之四 SQL Data Compare 10.2.0.885 Edition 数据比较同步工具 完全破解+使用教程
原文:Red Gate系列之四 SQL Data Compare 10.2.0.885 Edition 数据比较同步工具 完全破解+使用教程 Red Gate系列之四 SQL Data Compare ...
- .NET 4 并行(多核)编程系列之四 Task的休眠
原文:.NET 4 并行(多核)编程系列之四 Task的休眠 .NET 4 并行(多核)编程系列之四 Task的休眠 前言:之前的几篇文章断断续续的介绍了Task的一些功能:创建,取消.本篇介绍Tas ...
- .Neter玩转Linux系列之四:Linux下shell介绍以及TCP、IP基础
基础篇 .Neter玩转Linux系列之一:初识Linux .Neter玩转Linux系列之二:Linux下的文件目录及文件目录的权限 .Neter玩转Linux系列之三:Linux下的分区讲解 .N ...
随机推荐
- Excel函数之rank应用
该函数的功能就是对现有数据指标进行排名 示例:对产品进行销售总额的排名 首先要知道排名需要用到rank函数 number参数就是你要进行排名的数据 ref参数就是该指标需要在哪个区域内进行比较定位排名 ...
- 为嵌入式mplayer移植添加ALSA音频驱动(全志V3s荔枝派zero)
首先准备mplayer和alsa_lib,我的是bulidroot添加后编译自动下载的,版本分别是alsa-lib-1.1.4.1和mplayer-1.3.0. 首先编译alsa_lib: ./con ...
- Reachability实时监控网络变化
Reachability是一种实时观察网络发生变化控件,如当你的手机处于WiFi情况下,他就会检测环境,当处于GPS的情况下改变环境,当处于无网络的情况下又是一种环境.下面我们看下关于Reachabi ...
- 杂谈1.py
Python命名规则: 1. 组成:数字/字母/下划线 只能以字母,下划线开头 不能包含空格 避免Python关键字和函数名 简短且具有描述性 描述数据形态及支持操作 Python动态类型 变量无类型 ...
- python-web自动化-元素操作:windows窗口切换 / alert切换 / iframe切换
1. windows窗口切换:切换到要操作的窗口 有多个窗口: 1. 触发新窗口的出现 2. 得知道新窗口是谁 -- 依据窗口的window_handle来识别窗口 3. 得到窗口的window_ha ...
- 浅析负载均衡的6种算法,Ngnix的5种算法。
浅析负载均衡的6种算法,Ngnix的5种算法.浮生偷闲百家号03-21 10:06关注内容导读其实际效果越来越接近于平均分配调用量到后端的每一台服务器,也就是轮询的结果.源地址哈希的思想是根据获取客 ...
- springboot学习目录
1.spring boot 简单示例 一个简单的springboot 例子 https://www.cnblogs.com/shoshana-kong/p/9641696.html 2. sprin ...
- 插件: Hammer.js
官网: http://hammerjs.github.io/ hammer.js 官网 http://hammerjs.github.io/api/ 官网API(官网写的实在太简了!不好用.注意里面 ...
- netbeans 正则替换
单引号替换为双引号: tablename1('xhw_aa') tablename2('xhw_bb') tablename3('xhw_cc') tablename4('xhw_dd') (t ...
- 部署一个基于python语言的web发布环境
---恢复内容开始--- 1) 一门面向对象的语言 2)拥有丰富的库 3)可移植性 4)免费.开源 5)简单易易学 可做软件开发.人工智能.web开发等等 部署流程: Cnetos7.5+Nginx+ ...