这个java小爬虫, 功能很简单,只有一个,抓取网上的邮箱。用到了javaI/O,正则表达式。

public static void main(String[] args) throws IOException {
// TODO Auto-generated method stub
// List<String> list= getEmail();
List<String> list= getEmailFromWeb();
for (String string : list) {
System.out.println(string);
}
} public static List<String> getEmail() throws IOException{
//1.读取源文件
BufferedReader bufferedReader= new BufferedReader(new FileReader("G:\\index.htm"));
//2.对读取的数据进行规则的匹配
String regex_email= "\\w+@\\w+(\\.[a-zA-Z]{2,3}){1,3}";//xinwenge@vip.qq.com
Pattern pattern= Pattern.compile(regex_email);
String line = null;
List<String> list= new ArrayList<>();
while ((line= bufferedReader.readLine())!=null) {
Matcher matcher= pattern.matcher(line);
while (matcher.find()) {
list.add(matcher.group());
}
}
return list;
} public static List<String> getEmailFromWeb() throws IOException{ //1.读取web源文件
URL url= new URL("http://news.qq.com/zt2015/wxghz/index.htm");
BufferedReader bufferedReader= new BufferedReader(new InputStreamReader(url.openStream()));
//2.对读取的数据进行规则的匹配
String regex_email= "\\w+@\\w+(\\.[a-zA-Z]{2,3}){1,2}";
Pattern pattern= Pattern.compile(regex_email);
String line = null;
List<String> list= new ArrayList<>();
while ((line= bufferedReader.readLine())!=null) {
Matcher matcher= pattern.matcher(line);
while (matcher.find()) {
list.add(matcher.group());
}
}
return list; }

output:
xinwenge@vip.qq.com

哈哈,爬的腾讯新闻里面的一个网页。

java正则表达式之java小爬虫的更多相关文章

  1. Java 常用正则表达式,Java正则表达式,Java身份证校验,最新手机号码正则表达式

    Java 常用正则表达式,Java正则表达式,Java身份证校验,最新手机号码校验正则表达式 ============================== ©Copyright 蕃薯耀 2017年11 ...

  2. Python之小测试:用正则表达式写一个小爬虫用于保存贴吧里的所有图片

    很简单的两步: 1.获取网页源代码 2.利用正则表达式提取出图片地址 3.下载 #!/usr/bin/python #coding=utf8 import re # 正则表达式 import urll ...

  3. Java正则表达式防注入小例子

    /** * 第一行匹配特殊字符: * 第二行匹配开头和结尾都有空格的: * 第三行匹配结尾有空格的 * */ private Boolean DetermineChar(String reqData, ...

  4. 关于使用JAVA正则表达式报java.lang.StackOverflowError错误问题

    最近在使用hadoop做apache日志分析,发现测试数据没问题,但数据一多就出问题,报 java.lang.StackOverflowError错误,最后定位为正则表达式栈溢出,发现某些行的日志数据 ...

  5. JAVA正则表达式:Pattern类与Matcher类详解(转)

    java.util.regex是一个用正则表达式所订制的模式来对字符串进行匹配工作的类库包.它包括两个类:Pattern和Matcher Pattern 一个Pattern是一个正则表达式经编译后的表 ...

  6. JAVA正则表达式:Pattern类与Matcher类详解

    java.util.regex是一个用正则表达式所订制的模式来对字符串进行匹配工作的类库包.它包括两个类:Pattern和Matcher Pattern 一个Pattern是一个正则表达式经编译后的表 ...

  7. Java正则表达式实用教程

    java.util.regex是一个用正则表达式所订制的模式来对字符串进行匹配工作的类库包.java.util.regex包主要包括以下三个类:Pattern.Matcher和PatternSynta ...

  8. Java正则表达式:Pattern类和Matcher类

    一.捕获组的概念 捕获组可以通过从左到右计算其开括号来编号,编号是从1 开始的.例如,在表达式 ((A)(B(C)))中,存在四个这样的组: 1     ((A)(B(C))) 2     (A) 3 ...

  9. [转] JAVA正则表达式:Pattern类与Matcher类详解(转)

    java.util.regex是一个用正则表达式所订制的模式来对字符串进行匹配工作的类库包.它包括两个类:Pattern和 Matcher Pattern 一个Pattern是一个正则表达式经编译后的 ...

随机推荐

  1. mysql 大数据量求平均值

    需求是:对于一个设备,求一天内每个小时的平均值,一个月内每天的平均值,更通用的需求是,从起始时间到结束时间,每隔一段时间,求一个平均值.目前的解决策略是:在存储过程中进行处理,从起始时间到结束时间,切 ...

  2. 高处胜寒 php中奖概率算法,可用于刮刮卡,大转盘等抽奖算法

    <?php /* * 经典的概率算法, * $proArr是一个预先设置的数组, * 假设数组为:array(100,200,300,400), * 开始是从1,1000 这个概率范围内筛选第一 ...

  3. jQuery插件开发全解析,类级别与对象级别开发

    jQuery插件的开发包括两种: 一种是类级别的插件开发,即给jQuery添加新的全局函数,相当于给jQuery类本身添加方法.jQuery的全局函数就是属于jQuery命名空间的函数,另一种是对象级 ...

  4. jQuery的选择器小总结

      这一节详细的总结jQuery选择器. 一.基础选择器 $('#info'); // 选择id为info的元素,id为document中是唯一的,因此可以通过该选择器获取唯一的指定元素 $('.in ...

  5. js 重点 (转载)

  6. Map在内存中的结构

  7. SVM中图像常用的HOG特征描述及实现

    转摘网址:http://www.cnblogs.com/tiandsp/archive/2013/05/24/3097503.html Hog参考网址:http://www.cnblogs.com/t ...

  8. Unity5中叹为观止的实时GI效果

    http://www.manew.com/thread-43970-1-1.html 今天为大家分享unity与Alex Lovett共同使用unity5制作的Shrine Arch-viz Demo ...

  9. DI 之 3.3 更多DI的知识(柒)

    3.3.3  自动装配 3.3.4  依赖检查 3.3.5 方法注入

  10. Android Service与Thread的区别

    Android Service,后台,Android的后台就是指,它的运行是完全不依赖UI的.即使Activity被销毁,或者程序被关闭,只要进程还在,Service就可以继续运行.比如说一些应用程序 ...