基于Java的数据采集(二)
在上一篇文章《基于Java的数据采集(一)》:http://www.cnblogs.com/lichenwei/p/3904715.html
提到了如何如何读取网页源代码,并通过group正则 动态抓取我们所需要的网页数据
现在来写下关于数据的存储,思路很简单,只需要在我们每次读取一个数据的时候,把数据存放在临时变量,然后插入数据库即可。
《基于Java数据采集入库(三)》:http://www.cnblogs.com/lichenwei/p/3907007.html
《基于Java数据采集入库(终结篇)》:http://www.cnblogs.com/lichenwei/p/3910492.html
先来建一个表:
DoMysql.java(数据库连接类,并提供插入数据的方法)
package com.lcw.curl; import java.sql.Connection;
import java.sql.DriverManager;
import java.sql.SQLException;
import java.sql.Statement; public class DoMySql { //定义MySql驱动,数据库地址,数据库用户名 密码, 执行语句和数据库连接
public String driver = "com.mysql.jdbc.Driver";
public String url = "jdbc:mysql://127.0.0.1:3306/football";
public String user = "root";
public String password = "";
public Statement stmt = null;
public Connection conn = null; //创建一个插入数据的方法
public void datatoMySql(String insertSQl) { try {
try {
Class.forName(driver).newInstance();
} catch (Exception e) {
e.printStackTrace();
}
//创建连接
conn = DriverManager.getConnection(url, user, password);
//创建一个 Statement 对象来将 SQL 语句发送到数据库
stmt = conn.createStatement();
} catch (SQLException e) {
e.printStackTrace();
}
try {
//执行SQL 插入语句
stmt.executeUpdate(insertSQl);
} catch (SQLException e) {
e.printStackTrace();
}
try {
stmt.close();
conn.close();
} catch (SQLException e) {
e.printStackTrace();
}
} }
GetData.java(过滤数据类)
package com.lcw.curl; import java.util.regex.Matcher;
import java.util.regex.Pattern; public class GetData { /**
*
* @param regex 正则表达式
* @param content 所要匹配的内容
* @return
*/
public String getData(String regex,String content){
Pattern pattern=Pattern.compile(regex, Pattern.CASE_INSENSITIVE);//设定正则表达式,不区分大小写
Matcher matcher=pattern.matcher(content);
if(matcher.find()){
return matcher.group();
}else{
return "";
}
} }
CurlMain.java主程序类:
package com.lcw.curl; import java.io.BufferedReader;
import java.io.InputStreamReader;
import java.net.URL; public class CurlMain { /**
* @param args
*/
public static void main(String[] args) { try {
String address = "http://www.footballresults.org/league.php?league=EngDiv1";
URL url = new URL(address);
InputStreamReader inputStreamReader = new InputStreamReader(url
.openStream(), "utf-8");// 打开地址,以UTF-8编码的形式返回字节并转为字符
BufferedReader bufferedReader = new BufferedReader(
inputStreamReader);// 从字符输入流中读取文本,缓冲各个字符,从而提供字符、数组和行的高效读取。 GetData data = new GetData();
DoMySql mySql = new DoMySql();
String content = "";// 用来接受每次读取的行字符
int flag = 0;// 标志,队伍信息刚好在日期信息后面,则正则相同,用于分离数据
String dateRegex = "\\d{1,2}\\.\\d{1,2}\\.\\d{4}";// 日期匹配正则表达式
String teamRegex = ">[^<>]*</a>";// 队伍匹配正则表达式
String scoreRegex = ">(\\d{1,2}-\\d{1,2})</TD>";// 比分正则表达式
String tempDate="";
String teama="";
String teamb="";
String score="";
int i = 0;// 记录信息条数
String sql = ""; while ((content = bufferedReader.readLine()) != null) {// 每次读取一行数据
// 获取比赛日期信息
String dateInfo = data.getData(dateRegex, content);
if (!dateInfo.equals("")) {
System.out.println("日期:" + dateInfo);
tempDate=dateInfo;
flag++;
}
// 获取队伍信息,需先读到日期信息让标志符自增
String teamInfo = data.getData(teamRegex, content);
if (!teamInfo.equals("") && flag == 1) {
teama = teamInfo.substring(1, teamInfo
.indexOf("</a>"));
System.out.println("主队:" + teama);
flag++;
} else if (!teamInfo.equals("") && flag == 2) {
teamb = teamInfo.substring(1, teamInfo
.indexOf("</a>"));
System.out.println("客队:" + teamb);
flag = 0;
}
// 获取比分信息
String scoreInfo = data.getData(scoreRegex, content);
if (!scoreInfo.equals("")) {
score = scoreInfo.substring(1, scoreInfo
.indexOf("</TD>"));
System.out.println("比分:" + score);
System.out.println();
i++;
sql = "insert into football(`date`,`teama`,`teamb`,`score`) values('"
+ tempDate
+ "','"
+ teama
+ "','"
+ teamb
+ "','"
+ score + "')";
System.out.println(sql);
mySql.datatoMySql(sql);
} }
bufferedReader.close();
System.out.println("一共收集到了" + i + "条信息");
} catch (Exception e) {
e.printStackTrace();
} } }
看下运行效果图:
下一篇文章:《基于Java的数据采集(三)》:http://www.cnblogs.com/lichenwei/p/3905370.html
基于Java的数据采集(二)的更多相关文章
- 基于Java的数据采集(一)
之前写过2篇关于PHP数据采集入库的文章: 基于PHP数据采集入库(一):http://www.cnblogs.com/lichenwei/p/3872307.html 基于PHP数据采集入库(二): ...
- 基于Java的数据采集(三)
<基于Java的数据采集(一)>:http://www.cnblogs.com/lichenwei/p/3904715.html <基于Java的数据采集(二)>:http:/ ...
- 基于Java的数据采集(终结篇)
关于写过关于JAVA采集入库的三篇文章: 基于Java数据采集入库(一):http://www.cnblogs.com/lichenwei/p/3904715.html 基于Java数据采集入库(二) ...
- 基于Java的简易表达式解析工具(二)
之前简单的介绍了这个基于Java表达式解析工具,现在把代码分享给大家,希望帮助到有需要的人们,这个分享代码中依赖了一些其他的类,这些类大家可以根据自己的情况进行导入,无非就是写字符串处理工具类,日期处 ...
- 移动开发首页业界资讯移动应用平台技术专题 输入您要搜索的内容 基于Java Socket的自定义协议,实现Android与服务器的长连接(二)
在阅读本文前需要对socket以及自定义协议有一个基本的了解,可以先查看上一篇文章<基于Java Socket的自定义协议,实现Android与服务器的长连接(一)>学习相关的基础知识点. ...
- memcached学习——常用命令+基于java客户端的3种简单实现(二)
常用命令: memcached设计的原则就是简单,所以支持的命令也不是特别多~ 1.查看memcached的状态,主要用于分析内存的使用状况.优化内存分配等 stats 查看memcached的运行状 ...
- Spring核心技术(十二)——基于Java的容器配置(二)
使用@Configuration注解 @Configuration注解是一个类级别的注解,表明该对象是用来指定Bean的定义的.@Configuration注解的类通过@Bean注解的方法来声明Bea ...
- Java设计模式(二) 工厂方法模式
本文介绍了工厂方法模式的概念,优缺点,实现方式,UML类图,并介绍了工厂方法(未)遵循的OOP原则 原创文章.同步自作者个人博客 http://www.jasongj.com/design_patte ...
- Java 验证码、二维码
Java 验证码.二维码 资源 需要: jelly-core-1.7.0.GA.jar网站: http://lychie.github.io/products.html将下载下来的 jelly ...
随机推荐
- Linux 操作 oracle 数据库
1.Oracle监听启动命令:lsnrctl start 2. sqlplus 登录数据库 3.OS版本及Oracle版本 select banner from v$version; 4.查询该数 ...
- centos npm 安装后 command not found
ok,
- 440P 测试三星ssd840pro 512g
下面是鲁大师的截屏 安装win8.1 x64颇费周折,计算机->管理模糊,解决方法 现在最大的问题是cpu风扇噪音和温度,看网上确实存在此问题,纯铜风扇+7783硅脂是必须的,下面鲁大师温度截屏 ...
- JFinal提示:java.lang.RuntimeException: dao 只允许调用查询方法
public class UserModel extends Model<UserModel>{ public static final UserModel userDao = new U ...
- What's the difference between ConcurrentHashMap and Collections.synchronizedMap(Map)?
来自:http://stackoverflow.com/questions/510632/whats-the-difference-between-concurrenthashmap-and-coll ...
- 实现一个原子的正整数类:AtomicPositiveInteger
import java.util.concurrent.atomic.AtomicInteger; public class AtomicPositiveInteger extends Number ...
- eclipse plugin development -menu
org.eclipse.ui.menus locationURI MenuContribution locationURI = "[Scheme]:[id]?[argument-list]& ...
- 设计模式C++实现——工厂模式
软件领域中的设计模式为开发人员提供了一种使用专家设计经验的有效途径.设计模式中运用了面向对象编程语言的重要特性:封装.继承.多态,真正领悟设计模式的精髓是可能一个漫长的过程,需要大量实践经验的积累.最 ...
- [Aaronyang] 写给自己的WPF4.5 笔记9[复杂数据处理三步曲,数据展示ListView泪奔2/3]
我的文章一定要做到对读者负责,否则就是失败的文章 --------- www.ayjs.net aaronyang技术分享 作者留言: 小小的推荐,作者的肯定,读者的支持. ...
- 使用dstat命令的插件查看mysql的io状态
使用dstat竟然还可以查看mysql的状态, man dstat之后发现的,原来在/usr/share/dstat目录下藏有很多python脚本作为插件帮助dstat搜集各类信息. 不过通常有可能会 ...