【iOS】正則表達式抓取网页数据制作小词典
版权声明:本文为博主原创文章,未经博主同意不得转载。
https://blog.csdn.net/xn4545945/article/details/37684127
应用程序不一定要自己去提供数据。有现成的数据学会去用才好。
网络非常大,各种搜索引擎每天到处爬。本文通过正則表達式抓取站点的数据来做一个小词典。
一、正則表達式的使用
1. 确定匹配方案,即pattern
2. 用pattern实例化NSRegularExpression
3. 用匹配方法開始匹配。
匹配一次:能够使用firstMatch方法
匹配多次:能够用matchs方法
正則表達式对比表:(在网上找到了一个非常不错的表,正則表達式各个语言通用)
http://www.jb51.net/shouce/jquery1.82/regexp.html
以下是測试代码。能匹配出:xn4545945
//測试正則表達式用的
- (void)findAnswerInHTMLTest {
NSString *srcStr = @"http://blog.csdn.net/xn4545945";
NSString *pattern = @"xn[^\\s]*"; //匹配以xn开头的不论什么非空白字符
//实例化正則表達式,须要指定两个选项
//NSRegularExpressionCaseInsensitive 忽略大写和小写
//NSRegularExpressionDotMatchesLineSeparators 让.能够匹配换行
NSRegularExpression *regex = [[NSRegularExpression alloc] initWithPattern:pattern options:NSRegularExpressionCaseInsensitive | NSRegularExpressionDotMatchesLineSeparators error:nil];
//匹配出结果集
NSTextCheckingResult *checkResult = [regex firstMatchInString:srcStr options:NSMatchingReportCompletion range:NSMakeRange(0, srcStr.length)];
// 取出找到的内容.
NSString *result = [srcStr substringWithRange:[checkResult rangeAtIndex:0]];
NSLog(@"数据为----->%@", result);
}
二、抓取网页数据,并制作小词典
用海词作为查询词典抓取数据。
直接在网址后面拼接查询词就可以查询,如查询“hello”,即http://dict.cn/hello
查看网页源码例如以下图: 即抓取出 (打招呼)喂;你好 就可以。
tips:
表示尽量少的匹配.
取代,表示忽略.
@implementation XNSpider
- (void)loadHTMLWithWord:(NSString *)word {
//1.发送HTML请求, 得到返回的网页.(转换为字符串)
NSString *urlString = [NSString stringWithFormat:@"%@%@", kBaseURL, word]; //拼接请求网址
urlString = [urlString stringByAddingPercentEscapesUsingEncoding:NSUTF8StringEncoding]; //中文转义
NSURL *url = [NSURL URLWithString:urlString]; //得到URL
NSURLRequest *request = [NSURLRequest requestWithURL:url cachePolicy:NSURLRequestUseProtocolCachePolicy timeoutInterval:5.0f];
[NSURLConnection sendAsynchronousRequest:request queue:[NSOperationQueue mainQueue] completionHandler: ^(NSURLResponse *response, NSData *data, NSError *connectionError) {
//得到的data数据转换为字符串
NSString *html = [[NSString alloc] initWithData:data encoding:NSUTF8StringEncoding];
// NSLog(@"%@", html);
//2.从返回的字符串中匹配出(正則表達式过滤)想要的. (另写一个方法findAnswerInHTML)
//然后通过代理传递结果给主线程,用于更新UI
NSString *result = [self findAnswerInHTML:html];
NSLog(@"%@", result);
if ([self.delegate respondsToSelector:@selector(finishSpider:)]) {
[self.delegate finishSpider:result]; //将完毕后的结果通过代理传到UI线程中去.
}
}];
}
/**
* 正則表達式匹配字符串的核心方法
*
* @param html 输入的整个网页字符串
*
* @return 返回匹配的结果
*/
- (NSString *)findAnswerInHTML:(NSString *)html {
//将须要取出的用(.*?
)取代. 大空格换行等用.*?取代,表示忽略.
NSString *pattern = @"<ul class=\"dict-basic-ul\">.*?<li><span>(.*?)</span><strong>(.*?)</strong></li>";
//实例化正則表達式,须要指定两个选项
//NSRegularExpressionCaseInsensitive 忽略大写和小写
//NSRegularExpressionDotMatchesLineSeparators 让.能够匹配换行
NSRegularExpression *regex = [[NSRegularExpression alloc] initWithPattern:pattern options:NSRegularExpressionCaseInsensitive | NSRegularExpressionDotMatchesLineSeparators error:nil];
//匹配出结果集
NSTextCheckingResult *checkResult = [regex firstMatchInString:html options:NSMatchingReportCompletion range:NSMakeRange(0, html.length)];
// 取出找到的内容. 数字分别相应第几个带括号(.*?
), 取0时输出匹配到的整句.
NSString *result = [html substringWithRange:[checkResult rangeAtIndex:2]];
NSLog(@"数据为----->%@", result);
return result;
}
匹配结果最后使用代理传到主线程中去更新UI。
转载请注明出处:http://blog.csdn.net/xn4545945
【iOS】正則表達式抓取网页数据制作小词典的更多相关文章
- iOS正則表達式(一)
什么是正則表達式? 正則表達式是对字符串操作的一种逻辑公式. 作用? 在iOS开发中我们通常使用正則表達式来匹配给定的字符串是否符合我们的业务逻辑,比方说用户注冊帐号仅仅能是手机号或者邮箱等.我们还能 ...
- ios 正則表達式替换
1. 不可变字符串 (content 是不可变) NSRegularExpression *regularExpression = [NSRegularExpression regularExpr ...
- iOS_正則表達式
iOS 正則表達式 正則表達式,又称正规表示法.常规表示法(英语:Regular Expression,在代码中常简写为regex.regexp或RE).计算机科学的一个概念. 正則表達式使用单个字符 ...
- python 学习笔记 10 -- 正則表達式
零.引言 在<Dive into Python>(深入python)中,第七章介绍正則表達式,开篇非常好的引出了正則表達式,以下借用一下:我们都知道python中字符串也有比較简单的方法, ...
- Python学习笔记8:标准库之正則表達式
Python拥有强大的标准库.从如今起,開始学习标准库中提供的一些经常使用功能. 首先看正則表達式(regular expression),它的主要功能是从字符串(string)中通过特定的模式(pa ...
- Python——正則表達式(2)
本文译自官方文档:Regular Expression HOWTO 參考文章:Python--正則表達式(1) 全文下载 :Python正則表達式基础 ======================== ...
- PHP第九课 正則表達式在PHP中的使用
今天内容 1.正則表達式 2.数学函数 3.日期函数 4.错误处理 正則表達式: 1.模式修正符 2.五个经常使用函数 另外一个正則表達式的站点:http://www.jb51.net/tools/z ...
- 网页抓取信息(php正則表達式、php操作excel)
1.问题描写叙述 实现对固定网页上自己须要的信息抓取,以表格形式存储. 我是拿wustoj上的一个排行榜来练习的,地址:wustoj 2.思路 网页自己就简单学习了一下php,刚好用它来做点事情吧,我 ...
- 深入浅出理解iOS经常使用的正則表達式—基础篇[Foundation]
參考资料:cocoachina的zys475481075的文章 几个单词 Regular ['regjʊlə]adj. 定期的:有规律的 Expression[ɪk'spreʃ(ə)n; ek-] n ...
随机推荐
- JS框架_(JQuery.js)网页文字评论弹幕
百度云盘 传送门 密码:3azl jQuery网页右下角文字评论弹幕效果 <!DOCTYPE html> <html> <head> <title>jQ ...
- OPTS参数设置
今天再hive on tez 跑任务的时候 OOM异常 然后找了些 JAVA OPTS设置: AVA_OPTS ,顾名思义,是用来设置JVM相关运行参数的变量. JVM:JAVA_OPTS=" ...
- python3笔记十:python数据类型-Tuple元组
一:学习内容 元组概念 元组创建.访问.删除 元组操作 元组方法 二:元组概念 1.本质:是一种有序集合 2.特点:与列表非常相似.一旦初始化就不能修改.使用小括号 三:元组创建 1.创建空元组 tu ...
- 获取<a>标签值</a>的标签值及更改
html代码: <a id="catelogue_div1_h5" onclick="catelogue_div1(event)">隐藏</a ...
- AXIS2 通过 WSDL生成JAVA文件
有时在我们的开发中可能会有这种情况就是你要使用webservice但是对方没有给你提供java文件,可能就只会给你一个wsdl文件,这种文件和xml文件是比较相似.axis2也给我们提供了很好的工具如 ...
- OpenCV学习笔记(9)——形态学转换
不同的形态学操作,例如腐蚀,膨胀,开运算,闭运算等 形态学操作是根据图像形状进行的简单操作.一般情况下对二值化图像进行操作.需要的参数有两个,一个是原始图像,第二个被称为结构化元素或核,它是用来决定操 ...
- [VBA]汇总多个工作簿的指定工作表到同一个工作簿的指定工作表中
sub 汇总多个工作簿() Application.ScreenUpdating = False Dim wb As Workbook, f As String, l As String, n As ...
- ControlTemplate in WPF —— Shared in all file
<ResourceDictionary xmlns="http://schemas.microsoft.com/winfx/2006/xaml/presentation" x ...
- zabbix服务端安装
1.安装zabbix服务(1)先rpm安装lamp环境 yum install -y httpd mysql mysql-libs php php-mysql mysql-server php-bcm ...
- 阶段3 2.Spring_02.程序间耦合_5 编写工厂类和配置文件
先把dao的实现复制一份到别的地方.然后删除项目里面的AccountDaoImpl这个dao的实现类 删除 service层就开始报错了 这个时候运行直接报错 把文件复制回来就不报错了 解决依赖关系 ...