玩玩Hibernate(二)hibernate-spider爬虫~~
新建一个hSpider的工程,引入前面已经建立的lib
并为其建立一个hibernate.cfg.xml的映射文件
<?xml version='1.0' encoding='utf-8'?>
<!DOCTYPE hibernate-configuration PUBLIC
"-//Hibernate/Hibernate Configuration DTD 3.0//EN"
"http://hibernate.sourceforge.net/hibernate-configuration-3.0.dtd"> <hibernate-configuration> <session-factory> <!-- Database connection settings 数据库的配置 -->
<property name="connection.driver_class">com.mysql.jdbc.Driver</property>
<property name="connection.url">jdbc:mysql://localhost:3306/hSpider</property>
<property name="connection.username">root</property>
<property name="connection.password"></property> <!-- JDBC connection pool (use the built-in) hibernate自带连接池,暂不使用 -->
<!-- <property name="connection.pool_size">1</property> --> <!-- SQL dialect 数据库方言,这里我们才爱用MySQL-->
<property name="dialect">org.hibernate.dialect.MySQLDialect</property> <!-- Enable Hibernate's automatic session context management 新功能,暂不使用 -->
<!-- <property name="current_session_context_class">thread</property> --> <!-- Disable the second-level cache 二级缓存,放置不管 -->
<property name="cache.provider_class">org.hibernate.cache.NoCacheProvider</property> <!-- Echo all executed SQL to stdout 设置show_sql为true表示让hibernate将生成sql语句在控制台打印出来 -->
<property name="show_sql">true</property> <!-- Drop and re-create the database schema on startup 是否让hibernate自动为我们创建表 -->
<!-- <property name="hbm2ddl.auto">update</property> --> <mapping resource="hibernateSpider/edNews.hbm.xml"/> <!-- 这里是将需要mapping的文件进行再次声明 --> </session-factory> </hibernate-configuration>
新建`hSpider`包依次点击打开HibernateSpider->右键src->New->Package
新建`edNews`类依次点击打开HibernateSpider->src->hSpider->New->Class
public class edNews {
private int id;
private String ednews;
public int getId() {
return id;
}
public void setId(int id) {
this.id = id;
}
public String getNews(){
return ednews;
}
public void setNews(news ednews){
this.ednews = ednews.ednews;
}
}
edNews
并为其新建一个edNews.hbm.xml映射文件(必须跟edNEws在同一个包中)
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE hibernate-mapping PUBLIC
"-//Hibernate/Hibernate Mapping DTD 3.0//EN"
"http://hibernate.sourceforge.net/hibernate-mapping-3.0.dtd"> <hibernate-mapping>
<class name="hibernateSpider.edNews" table="ednews">
<id name="id" type="int">
<column name="id" />
<generator class="increment" />
</id>
<property name="news" type="string">
<column name="news" length="255" />
</property> </class>
</hibernate-mapping>
新建一个news类(用于显示)
public class news {
public String ednews;
// 构造方法初始化数据
public news() {
ednews = "";
}
@Override
public String toString() {
return "公告:" + ednews + "\n";
}
}
News
新建一个Spider类,这个是爬虫代码的实现
package hibernateSpider; import java.io.BufferedReader;
import java.io.InputStreamReader;
import java.net.URL;
import java.net.URLConnection;
import java.util.ArrayList;
import java.util.regex.Matcher;
import java.util.regex.Pattern; public class Spider {
public static String SendGet(String url) {
// 定义一个字符串用来存储网页内容
String result = "";
// 定义一个缓冲字符输入流
BufferedReader in = null; try {
// 将string转成url对象
URL realUrl = new URL(url);
// 初始化一个链接到那个url的连接
URLConnection connection = realUrl.openConnection();
// 开始实际的连接
connection.connect();
// 初始化 BufferedReader输入流来读取URL的响应
in = new BufferedReader(new InputStreamReader(
connection.getInputStream(), "UTF-8"));
// 用来临时存储抓取到的每一行的数据
String line;
while ((line = in.readLine()) != null) {
// 遍历抓取到的每一行并将其存储到result里面
result += line;
}
} catch (Exception e) {
System.out.println("发送GET请求出现异常!" + e);
e.printStackTrace();
}
// 使用finally来关闭输入流
finally {
try {
if (in != null) {
in.close();
}
} catch (Exception e2) {
e2.printStackTrace();
}
}
return result; } public static ArrayList<news> GetNews(String content) {
// 预定义一个ArrayList来存储结果
ArrayList<news> results = new ArrayList<news>();
// 用来匹配标题
Pattern questionPattern = Pattern.compile("ggtz/\\d{4}.shtml.+?>(.+?)<");
Matcher questionMatcher = questionPattern.matcher(content);
// 用来匹配url,也就是问题的链接
Pattern urlPattern = Pattern.compile("ggtz/\\d{4}.shtml.+?>(.+?)<");
Matcher urlMatcher = urlPattern.matcher(content); // 问题和链接要均能匹配到
boolean isFind = questionMatcher.find() && urlMatcher.find(); while (isFind) {
// 定义一个news对象(公告对象)来存储抓取到的信息
news newsTemp = new news();
newsTemp.ednews= questionMatcher.group(1); // 添加成功匹配的结果
results.add(newsTemp);
// 继续查找下一个匹配对象
isFind = questionMatcher.find() && urlMatcher.find();
}
return results;
} }
Spider
最后,测试一下结果
public class MainTest {
public static void main(String[] args) {
// 定义即将访问的链接
String url = "http://jwc.gdut.edu.cn/";
// 访问链接并获取页面内容
String content = Spider.SendGet(url);
// 获取该页面的所有的命题对象
ArrayList<news> myNews = Spider. GetNews(content);
// 打印结果
for(int i = 0; i < myNews.size(); i++){
System.out.println(myNews.get(i));
edNews aNew = new edNews() ;//新建我们需要存储的类对象,并且设置其对象的一些属性
aNew.setId(i);
aNew.setNews(myNews.get(i));
{
//Configuration主要用以读取配置文件
Configuration cfg = new Configuration();
SessionFactory sf = cfg.configure().buildSessionFactory();
//buildSessionFactory();得到一个创建Session的工场
Session ss = sf.openSession();
ss.beginTransaction();//OK,将操作放入事务中
ss.save(aNew);//保存你的对象
ss.getTransaction().commit();//得到事务并提交
ss.close();//Session关闭
sf.close();//工厂关闭
}
}
}
}
MainTest


玩玩Hibernate(二)hibernate-spider爬虫~~的更多相关文章
- Spring整合Hibernate 二 - 声明式的事务管理
Spring大战Hibernate之声明式的事务管理 Spring配置文件: 添加事务管理类的bean: <bean id="txManager" class="o ...
- Hibernate基础学习(二)—Hibernate相关API介绍
一.Hibernate的核心接口 所有的Hibernate应用中都会访问Hibernate的5个核心接口. (1)Configuration接口: 配置Hibernate,启动Hi ...
- Hibernate二次学习一----------Hibernate简单搭建
因为博客园自带的markdown不太好用,因此所有markdown笔记都使用cmd_markdown发布 Hibernate二次学习一----------Hibernate简单搭建: https:// ...
- 一起学习Hibernate: Hibernate01 —— Hibernate的概述与入门案例
一 Hibernate的介绍 1 让我们从JDBC与替代它的框架Hibernate进行一下对比. 1.1 JDBC的缺点 1) 代码结构繁琐.每次书写sql语句操作数据库都得需要很多步; 2) 是面向 ...
- spider 爬虫文件基本参数(3)
一 代码 # -*- coding: utf-8 -*- import scrapy class ZhihuSpider(scrapy.Spider): # 爬虫名字,名字唯一,允许自定义 name ...
- Hibernate之Hibernate环境搭建
Hibernate之Hibernate环境搭建 一.Hibernate环境搭建的步骤 1.添加Hibernate && SQLServer 的Jar antlr-2.7.7.jar d ...
- 问题Initial SessionFactory creation failed.org.hibernate.HibernateException: /hibernate.cfg.xml not found解决方法
问题Initial SessionFactory creation failed.org.hibernate.HibernateException: /hibernate.cfg.xml not fo ...
- Hibernate笔记——Hibernate介绍和初次环境配置
Hibernate简介 Hibernate是一个开放源代码的对象关系映射框架,它对JDBC进行了非常轻量级的对象封装,使得Java程序员可以随心所欲的使用对象编程思维来操纵数据库. Hibernate ...
- org.hibernate.HibernateException: /hibernate.cfg.xml not found等三个问题
初次配置hibernate在myeclipse上: 出现三个问题,怎么都不好使,比对代码,没有问题,查看路径还是没有问题: 1.org.hibernate.HibernateException: /h ...
- 【hibernate】Hibernate中save, saveOrUpdate, persist, merge, update 区别
Hibernate Save hibernate save()方法能够保存实体到数据库,正如方法名称save这个单词所表明的意思.我们能够在事务之外调用这个方法,这也是我不喜欢使用这个方法保存数据的原 ...
随机推荐
- C# 利用TextBox的Text属性实现换行加字符 "\r\n"
要让一个TextBox显示多行文本就得把它的Multiline属性设置为true,可是如果你是要把TextBox的Text属性设置多行文本时,换行符由两个字符组成:"\r\n". ...
- javascript 事件对象
1.事件对象 用来记录一些事件发生时的相关信息的对象 A.只有当事件发生的时候才产生,只能在处理函数内部访问 B.处理函数运行结束后自动销毁2.如何获取事件对象 IE: window.even ...
- aspx页面中, <%= % > 与 <%# % > 的区别
关于这个问题,在多数的 ASP.NET 的教材中,都提到了一些. <%= % >与 <%# % >的区别在于:绑定时机不同, <%# % >是在控件调用DataBi ...
- 【python】【转】if else 和 elif
else和elif语句也可以叫做子句,因为它们不能独立使用,两者都是出现在if.for.while语句内部的.else子句可以增加一种选择:而elif子句则是需要检查更多条件时会被使用,与if和els ...
- S3C2440触摸屏控制总结
触摸屏控制原理,其实与ADC读取一个滑动变阻器中间触点电压的原理一样.只不过,读取触摸屏的X.Y方向上的电压需要两次,而且需要设置其工作模式以实现一个ADC读取两个通道的电压. S3C2440的ADC ...
- linq 动态排序
/// <summary> /// 排序 /// </summary> /// <typeparam name="T"></typepar ...
- Uva 1354 Mobile Computing
题目链接 题意: 在一个宽为r 的房间里, 有s个砝码, 每个天平的一端要么挂砝码, 要么挂另一个天平, 并且每个天平要保持平衡. 求使得所有砝码都放在天平上, 且总宽度不超过房间宽度的最大值. 思路 ...
- HTML DOM select() 方法
定义和用法 select() 方法用于选择该元素中的文本. 语法 textareaObject.select() 实例 下面的例子可选择文本框中的文本: <html> <head&g ...
- 【产品体验】喵街&飞凡
最近O2O很火啊,我也来找几个O2O产品体验下~~~ 阿里今年5月30号上线了一款线下逛街App——喵街,号称消费者的逛街神器.阿里去年已经与银泰合作一年,探索互联网和传统实体零售合作之路,这次则免费 ...
- 基于Visual C++6.0的DLL编程实现
整理自基于Visual C++6.0的DLL编程实现 本文通过通俗易懂的方式,全面介绍了动态链接库的概念.动态链接库的创建和动态链接库的链接,并给出个简单明了的例子,相信读者看了本文后,能够创建自己的 ...