千呼万唤始出来,Iveely Search Engine 0.4.0 的发布

 

  经过无数个夜晚的奋战,以及无数个夜晚的失眠,Iveely Search Engine 0.4.0 终于熬出来了,这其中的心酸只有自己知道!虽然Iveely Search Engine 在开发阶段已经经历了第四个版本,但是其中的不足依然数不胜数,功能也不尽完善,但是也希望大家能够理解,一是毕竟还在1.0版本之内,二是人手有限,如果你想为此做出点点努力,可以发送邮件或者微博私信。

  介   绍:

  好了,言归正传,开始介绍下Iveely Search Engine 0.4.0,本次版本主题是事件抽取。我们会从事件抽取慢慢过渡到知识提取。希望大家不要为没有达到知识提取而感到遗憾。

  首先截图:

  首页:

  

  结果页:

  

  这个版本的调试重点,就在结果的第一条记录,那就是不断从数据中心分析出事件,当然准确率和性能是有待考验的,但是这是我们迈出知识提取的第一步,后期这依然是我们改进的重点。0.4.0版本的具体更改内容如下(由时间顺序):

  1.  改进分词算法,完全的去除了词库分词。

  2.  统一了隐马尔科夫模型,HMM同时为分词和词性分析所用。

  3.  添加了词性分析,词性分析语料库来自人民日报。

  4.  添加了事件抽取,分析与索引,并完整显示在结果中。(命中N条,但只显示权值最高的一条)

  5.  改进Internet信息服务,性能有一定的改善。

  6.  添加首页和结果页界面,放弃以前的浏览器Http请求。

  7.  其它细节调整。

  部署与安装及使用:

  第一步:首先,从开源主页下载发布的文件。

  第二步:解压文件,修改配置文件Iveely.config根据实际情况,调整配置信息。下面这个配置信息,是您一定要调整的。

      <add key="Crawler" value="http://yourwebsite.com/" />

  第三步:双击运行IveelySE.Run.Task.exe。

  第四步:打开浏览器,输入Http://localhost:8080,您就可以看到Iveely搜索首页,即前面两幅截图。

  此刻,您的部署和安装即实现,但是您可能会遇到如下的问题:

  第一:最开始搜索任何关键字都没有结果,是什么情况?

        最开始是从一个没有任何数据的搜索引擎开始,所以大概在运行20分钟后,在您的搜索框内才能数出结果。

第二:您可能会一直搜索不到事件信息,是什么情况?

      事件信息分析与索引默认情况下,是关闭的。我之所以默认关闭它,是因为它会影响我们的性能,如果您需要这项,可以修改配置文件

      <add key="EnableEvent" value="1"/>

     其中,1表示启用,0表示不启用,建议您设置为0,因为性能和效果都在继续调整阶段,如果您对此没有特殊需求关闭最佳。后期我们算法调整到最佳          状态后,我们会将此默认打开。

  问题疑惑:

  很多网友给我发邮件,提了很多问题,我虽然一一回复了,但是我还是在这里总结一下:

  1. 为什么没有分页?如果自己做分页如何做?

        分页在后台做是非常麻烦而且是非常不必要的,分页在前端做比较好,实现全端和后端的完整分析。如果需要做分页,你可以修改Iveely.config配置文件中的ResultCount,默认是10,即返回10条结果(最多11条,包括事件相关搜索结果)。当你修改为100条的时候,系统会为前端返回100条结果,你可以在前端为这100条结果实现分页。

    <add key="ResultCount" value="10"/>

  2. 界面好丑,我们怎么去改进界面?

       上一个版本的确是没有界面的,这一个版本是存在界面的,这个版本的界面只做了1个多小时,这是告诉大家,只要知道后端返回的数据格式后,完全可以自己控制界面的显示。你们可以参考这个版本的界面调用方法,去实现自己的界面,当然把我们的logo换为您自己的也是没问题的。

  3.   Iveely Search Engine 支持对多个网站进行抓取分析吗?

       答案是可以的,修改配置文件Iveely.config中节点如下即可:

    <add key="Crawler" value="http://news.cnblogs.com/,http://www.iveely.com,http://www.google.com" />

  4.  我想利用IveelySE进行大规模站点的应用可以吗?

    不想欺骗你们,这是不可以的。Iveely Search Engine 目前在很多方面是非常不足的。首先,IveelySE的数据存储目前是存在本地的;其次大规模的数据索引对本地计算机或服务器的要求也很高,这样直接导致IveelySE性能不佳;最后,IveelySE还处于实验室阶段,无法保证很多性能与效果的问题。

  5.  有相关开发文档参考吗?

    这个版本中,我也一直在写文档,以前也有,但是都是零零散散,我争取早点把文档全部整理完毕,为我们共同学习和进步提供帮助。    

  总结与下一步:

  接下来,我们依然会将主要的精力集中在知识提取上,一方面是性能,另一方面是准确率上。性能主要集中在伪分布式处理上,准确率依然是在算法上的调整。

  真诚的感谢一直以来对IveelySE不断支持和厚爱的朋友,正是您们的支持,IveeluSE才走的更远,真诚的谢谢!

Iveely Search Engine 0.4.0 的发布的更多相关文章

  1. 开源搜索 Iveely Search Engine 0.6.0 发布 -- 黎明前的娇嫩

    快两年了,Iveely Search Engine已经走过了5个版本的岁月,虽出生“贫寒”,没有任何开源基金会的支持,没有优秀的“干爹.干妈”,它凭着它的爱好者的支持,0.6.0终于破壳而出,7年前, ...

  2. 开源搜索引擎Iveely 0.8.0发布,终见天日

    这是一篇博客,不是,这是一篇开源人的心酸和喜悦,没有人可以理解我们的心情,一路的辛酸一路的艰辛,不过还好,在大家的支持下,总算是终见天日,谢谢那些给予我们无私帮助的朋友.您的支持,依然是我们无限的动力 ...

  3. 开源搜索引擎Iveely 0.7.0发布,不一样,那就让他不一样!

    2012年08月05日,Iveely Search Engine 0.1.0发布,今天,怀着对于未来的追求,终于,0.7.0如期和大家见面了,7个版本,历时2年4个月,感谢大家的支持,感谢我不离不弃的 ...

  4. 开源搜索引擎Iveely 0.8.0

    开源搜索引擎Iveely 0.8.0 这是一篇博客,不是,这是一篇开源人的心酸和喜悦,没有人可以理解我们的心情,一路的辛酸一路的艰辛,不过还好,在大家的支持下,总算是终见天日,谢谢那些给予我们无私帮助 ...

  5. 开源分布式计算引擎 & 开源搜索引擎 Iveely 0.5.0 为大数据而生

    Iveely Computing 产生背景 08年的时候,我开始接触搜索引擎,当时遇到的第一个难题就是大数据实时并发处理,当时实验室的机器我们可以随便用,至少二三十台机器,可以,却没有程序可以将这些机 ...

  6. [0.0]Analysis of Baidu search engine

    Rencently, my two teammates and I is doing a project, a simplified Chinese search engine for childre ...

  7. VisualSVN5.0.1补丁原创发布

    VisualSVN5.0.1补丁原创发布

  8. VisualSVN 4.0.12补丁原创发布

    VisualSVN 4.0.12补丁原创发布

  9. VisualSVN 4.0.11补丁原创发布

    VisualSVN 4.0.11补丁原创发布 目前是官方最新版本.

随机推荐

  1. 用css2属性clip实现网页进度条

    前言 看了网上一些关于网页进度条样式的资料,有很多方式实现,针对其展现形式,有用图片的,有用css2属性clip,有用flash的,本人就学会了一种,下面就简单来介绍一下. css2的属性clip 如 ...

  2. 百度地图API显示多个标注点,解决提示信息问题以及给标注增加地图旁的文字连接提示的另一种解决办法

    原文:百度地图API显示多个标注点,解决提示信息问题以及给标注增加地图旁的文字连接提示的另一种解决办法 公司的网站改版要求在一个页面显示百度地图.上面要同时显示很多标注点,标注点当然要有提示信息嘛,提 ...

  3. 栈 & 堆 |--> 内存管理

    内存管理: 栈区 [stack]:由编译器自动分配并释放,一般存放函数的参数值,局部变量等 堆区 [heap]:由程序员分配和释放,如果程序员不释放,程序结束时,可能会由操作系统回收 全局区(静态区) ...

  4. dedeCMS中单独调用子栏目模板和子栏目的文章时修改源代码给channel和chanenartllist加上limit

    在网站文件中找到include-taglib-chanel.lib.php,和chaneartllist.lib.php 下载用php的IDE打开, chanel.php加入limit属性修改如下 & ...

  5. UVa 11121 - Base -2

    题目:计算以-2为基数的数的表示. 分析:数论.写出不同位数能表示的数字区间就能够找到规律. 长度为1:[1,1]: 长度为2:[-2,-1]: 长度为3:[2,5]: 观察发现,区间长度增长为1,2 ...

  6. 小结php中几种网页跳转

    1.使用网页中<a href=.....></a>实现跳转: 2.<form action="php_request2.php" method=&qu ...

  7. 2014Esri国际用户大会ArcGIS Online

    1.基于什么是新的ArcGISOnline? ArcGISOnline不断更新.大约每四个月就会把新的增强的功能公布到各部分中.有新的空间分析的应用程序,如 Explorer forArcGIS,ap ...

  8. Oracle查字符集查版本号

    原文:Oracle查字符集查版本号 ---查字符集 select * from nls_database_parameters ---查版本 查看oracle的版本信息 (1)用客户端连接到数据库,执 ...

  9. 腾讯QQ音乐网页版 音频初始化模块解压混淆js源码

    define("js/view/playerBar.js",function(t,e,o){ var i = t("js/lib/zepto.js"), a = ...

  10. 快速构建Windows 8风格应用30-应用生命周期管理

    原文:快速构建Windows 8风格应用30-应用生命周期管理 引言 Windows 8 中可以启动多个应用并在其中切换,我们没有必要担心降低系统速度或消耗电池电量. 因为系统会自动挂起(有时会终止) ...