在上一篇文章《基于Java的数据采集(一)》http://www.cnblogs.com/lichenwei/p/3904715.html

提到了如何如何读取网页源代码,并通过group正则 动态抓取我们所需要的网页数据

现在来写下关于数据的存储,思路很简单,只需要在我们每次读取一个数据的时候,把数据存放在临时变量,然后插入数据库即可。

《基于Java数据采集入库(三)》:http://www.cnblogs.com/lichenwei/p/3907007.html

《基于Java数据采集入库(终结篇)》:http://www.cnblogs.com/lichenwei/p/3910492.html

先来建一个表:

DoMysql.java(数据库连接类,并提供插入数据的方法)

 package com.lcw.curl;

 import java.sql.Connection;
import java.sql.DriverManager;
import java.sql.SQLException;
import java.sql.Statement; public class DoMySql { //定义MySql驱动,数据库地址,数据库用户名 密码, 执行语句和数据库连接
public String driver = "com.mysql.jdbc.Driver";
public String url = "jdbc:mysql://127.0.0.1:3306/football";
public String user = "root";
public String password = "";
public Statement stmt = null;
public Connection conn = null; //创建一个插入数据的方法
public void datatoMySql(String insertSQl) { try {
try {
Class.forName(driver).newInstance();
} catch (Exception e) {
e.printStackTrace();
}
//创建连接
conn = DriverManager.getConnection(url, user, password);
//创建一个 Statement 对象来将 SQL 语句发送到数据库
stmt = conn.createStatement();
} catch (SQLException e) {
e.printStackTrace();
}
try {
//执行SQL 插入语句
stmt.executeUpdate(insertSQl);
} catch (SQLException e) {
e.printStackTrace();
}
try {
stmt.close();
conn.close();
} catch (SQLException e) {
e.printStackTrace();
}
} }

GetData.java(过滤数据类)

 package com.lcw.curl;

 import java.util.regex.Matcher;
import java.util.regex.Pattern; public class GetData { /**
*
* @param regex 正则表达式
* @param content 所要匹配的内容
* @return
*/
public String getData(String regex,String content){
Pattern pattern=Pattern.compile(regex, Pattern.CASE_INSENSITIVE);//设定正则表达式,不区分大小写
Matcher matcher=pattern.matcher(content);
if(matcher.find()){
return matcher.group();
}else{
return "";
}
} }

CurlMain.java主程序类:

 package com.lcw.curl;

 import java.io.BufferedReader;
import java.io.InputStreamReader;
import java.net.URL; public class CurlMain { /**
* @param args
*/
public static void main(String[] args) { try {
String address = "http://www.footballresults.org/league.php?league=EngDiv1";
URL url = new URL(address);
InputStreamReader inputStreamReader = new InputStreamReader(url
.openStream(), "utf-8");// 打开地址,以UTF-8编码的形式返回字节并转为字符
BufferedReader bufferedReader = new BufferedReader(
inputStreamReader);// 从字符输入流中读取文本,缓冲各个字符,从而提供字符、数组和行的高效读取。 GetData data = new GetData();
DoMySql mySql = new DoMySql();
String content = "";// 用来接受每次读取的行字符
int flag = 0;// 标志,队伍信息刚好在日期信息后面,则正则相同,用于分离数据
String dateRegex = "\\d{1,2}\\.\\d{1,2}\\.\\d{4}";// 日期匹配正则表达式
String teamRegex = ">[^<>]*</a>";// 队伍匹配正则表达式
String scoreRegex = ">(\\d{1,2}-\\d{1,2})</TD>";// 比分正则表达式
String tempDate="";
String teama="";
String teamb="";
String score="";
int i = 0;// 记录信息条数
String sql = ""; while ((content = bufferedReader.readLine()) != null) {// 每次读取一行数据
// 获取比赛日期信息
String dateInfo = data.getData(dateRegex, content);
if (!dateInfo.equals("")) {
System.out.println("日期:" + dateInfo);
tempDate=dateInfo;
flag++;
}
// 获取队伍信息,需先读到日期信息让标志符自增
String teamInfo = data.getData(teamRegex, content);
if (!teamInfo.equals("") && flag == 1) {
teama = teamInfo.substring(1, teamInfo
.indexOf("</a>"));
System.out.println("主队:" + teama);
flag++;
} else if (!teamInfo.equals("") && flag == 2) {
teamb = teamInfo.substring(1, teamInfo
.indexOf("</a>"));
System.out.println("客队:" + teamb);
flag = 0;
}
// 获取比分信息
String scoreInfo = data.getData(scoreRegex, content);
if (!scoreInfo.equals("")) {
score = scoreInfo.substring(1, scoreInfo
.indexOf("</TD>"));
System.out.println("比分:" + score);
System.out.println();
i++;
sql = "insert into football(`date`,`teama`,`teamb`,`score`) values('"
+ tempDate
+ "','"
+ teama
+ "','"
+ teamb
+ "','"
+ score + "')";
System.out.println(sql);
mySql.datatoMySql(sql);
} }
bufferedReader.close();
System.out.println("一共收集到了" + i + "条信息");
} catch (Exception e) {
e.printStackTrace();
} } }

看下运行效果图:

下一篇文章:《基于Java的数据采集(三)》:http://www.cnblogs.com/lichenwei/p/3905370.html

基于Java的数据采集(二)的更多相关文章

  1. 基于Java的数据采集(一)

    之前写过2篇关于PHP数据采集入库的文章: 基于PHP数据采集入库(一):http://www.cnblogs.com/lichenwei/p/3872307.html 基于PHP数据采集入库(二): ...

  2. 基于Java的数据采集(三)

    <基于Java的数据采集(一)>:http://www.cnblogs.com/lichenwei/p/3904715.html <基于Java的数据采集(二)>:http:/ ...

  3. 基于Java的数据采集(终结篇)

    关于写过关于JAVA采集入库的三篇文章: 基于Java数据采集入库(一):http://www.cnblogs.com/lichenwei/p/3904715.html 基于Java数据采集入库(二) ...

  4. 基于Java的简易表达式解析工具(二)

    之前简单的介绍了这个基于Java表达式解析工具,现在把代码分享给大家,希望帮助到有需要的人们,这个分享代码中依赖了一些其他的类,这些类大家可以根据自己的情况进行导入,无非就是写字符串处理工具类,日期处 ...

  5. 移动开发首页业界资讯移动应用平台技术专题 输入您要搜索的内容 基于Java Socket的自定义协议,实现Android与服务器的长连接(二)

    在阅读本文前需要对socket以及自定义协议有一个基本的了解,可以先查看上一篇文章<基于Java Socket的自定义协议,实现Android与服务器的长连接(一)>学习相关的基础知识点. ...

  6. memcached学习——常用命令+基于java客户端的3种简单实现(二)

    常用命令: memcached设计的原则就是简单,所以支持的命令也不是特别多~ 1.查看memcached的状态,主要用于分析内存的使用状况.优化内存分配等 stats 查看memcached的运行状 ...

  7. Spring核心技术(十二)——基于Java的容器配置(二)

    使用@Configuration注解 @Configuration注解是一个类级别的注解,表明该对象是用来指定Bean的定义的.@Configuration注解的类通过@Bean注解的方法来声明Bea ...

  8. Java设计模式(二) 工厂方法模式

    本文介绍了工厂方法模式的概念,优缺点,实现方式,UML类图,并介绍了工厂方法(未)遵循的OOP原则 原创文章.同步自作者个人博客 http://www.jasongj.com/design_patte ...

  9. Java 验证码、二维码

    Java 验证码.二维码 资源 需要:   jelly-core-1.7.0.GA.jar网站:   http://lychie.github.io/products.html将下载下来的 jelly ...

随机推荐

  1. BZOJ1395 : [Baltic2005]Trip

    建立新图,原图中每条边在新图中是点,新图中每个点的点权为$-e[i].c+e[i].b$,边权为$0$. 若$e[i].d\leq e[j].a$,则连一条$i$到$j$的单向边. 对于原图中每个点, ...

  2. 构造函数,super()

    一.构造函数的作用 创建类的对象,只有对象才能调用一个类中的方法和属性 二.在有继承关系的类中,创建子类对象,初始化的顺序 先父类构造 —>后子类构造 为什么父类构造会被调用?因为有继承关系,子 ...

  3. unity 背景无限循环滚动效果

    背景无限循环滚动效果如下示: 步骤如下: 导入背景图片后,设置图片的格式,如下图: 2.图片格式也可以设置是Texture格式,但是Wrap Mode 一定要是Repeat[重复发生]:然后记得App ...

  4. IntelliJ_2017_安装Grep Console插件(console输出内容加颜色)

      官网下载:https://plugins.jetbrains.com/plugin/7125-grep-console   一.安装Grep Console插件     二.设置不同日志类型的不同 ...

  5. Unity3D MonoBehaviour的生命周期(lifecycle)

    官方的事件函数的执行顺序中有详解(Link:Execution Order of Event Functions) (图片来源:http://whatiseeinit.blogspot.com/201 ...

  6. 如何使用IconFont 图标

    第一步:使用font-face声明字体 @font-face {font-family: 'iconfont'; src: url('iconfont.eot'); /* IE9*/ src: url ...

  7. SoapUI Pro Project Solution Collection-change the JDBC Request behavior

    change the jdbc request : 1.change the driver name,connection string,query string or assert. the obj ...

  8. 解决MySQL8.0报错:Unknown system variable 'validate_password_policy'

    一.问题描述 1.在安装MySQL8.0时,修改临时密码,因密码过于简单(如:123456),不符合MySQL密码规范,会触发一个报错信息: ERROR 1819 (HY000): Your pass ...

  9. python hex() oct() bin() math 内置函数

    示例: print hex(20),hex(-20) #转换成十六进制 print oct(20),oct(-20) #转换成八进制 print bin(20),bin(-20) #转换成二进制 pr ...

  10. java解惑--摘要

    (1)下面是一个试图解决上述问题的程序,它会打印出什么呢?public class Change{public static void main(String args[]){System.out.p ...