ITTC数据挖掘平台介绍（七）强化的数据库，虚拟化，脚本编辑器

一. 前言

好久没有更新博客了，最近一直在忙着找工作，目前差不多尘埃落定。特别期待而且准备的都很少能成功，反而是没怎么在意的最终反而能拿到，真是神一样的人生。

言归正传，一直以来，数据挖掘系统的数据类型是我很头疼的问题，不可能为了每一种场景都定义一种新的数据类型，但通用类型又没法满足所有需求，而且性能上有影响。思来想去，最终决定结合两种特点制定一种方案：以通用类型为主，一些特定场合和要求再制定自定义类型，比如微博。通用数据类型的名字叫FreeDocument，它的内部核心是Dictionary<string,Object>，实现了一组接口，提供了默认转换和读写等功能。

以通用类型为核心，一切问题变得简单了，一切都因为这个伟大的接口：IDictionarySerializable。所有可存取的数据都实现了该接口。具体介绍请看博文：推荐一个简单好用的接口——字典序列化。

本节将介绍几个特性：数据库连接的改进，虚拟化技术与强化的脚本系统。

我的插件式桌面软件框架类库（一）XFrmWork简介

ITTC数据挖掘平台介绍（综述）——平台简介

ITTC数据挖掘平台介绍(二) 微博数据挖掘和分析

ITTC数据挖掘平台介绍(三) 微博社团和传播分析

ITTC数据挖掘平台介绍(四) 框架改进和新功能

ITTC数据挖掘平台介绍（五）数据导入导出向导和报告生成

ITTC数据挖掘系统（六）批量任务，数据查看器和自由文档

ITTC数据挖掘平台介绍（七）强化的数据库，虚拟化，脚本编辑器

二. 数据库系统

做软件的人大致都有我这样的想法：支持所有的数据库。可是，真正情况并非如此，关系型数据库有它们各自的数据库方言，非关系型数据库则更是千差万别，数据模型都不一样了。ORM框架早已无法满足这类需求，因此，我决定自己做数据库接口层。

字典序列化接口定义了每种数据与字典（键值对）互相转换的逻辑。因此，它天生就适应于文档数据库（如MongoDB）和其他各类键值数据库，对于关系型数据库的脑残的Object[]数组，可以让字典的键按照String的排序器排序，就可在Object[]数组与实例对象之间相互转换了。

我定义了如下的数据库接口：

/// <summary>

    /// 基本数据库管理接口

    /// </summary>

    [Interface("IDataBaseConnector", "数据库连接器接口", SearchStrategy.FolderSearch)]

    public interface IDataBaseConnector

    {

        /// <summary>

        /// 保存数据到数据库

        /// </summary>

        /// <param name="source">要保存的数据</param>

        /// <param name="dbTableName">表名称</param>

        void BatchInsert(IEnumerable<IDictionarySerializable> source, string dbTableName);

        /// <summary>

        /// 获取当前目录下的表名

        /// </summary>

        /// <returns></returns>

        List<string> GetTableNames();

          string Name { get; set; }

        string ConnectionString { get; set; }

        //数据库名

        string DBName { get; set; }

        bool ConnectDB();

        bool CloseDB();

        /// <summary>

        /// 获取对应表名的数据

        /// </summary>

        /// <param name="tableName"></param>

        /// <param name="skip">跳过 </param>

        /// <param name="mount"> 数量</param>

        /// <returns></returns>

        List<IDictionarySerializable> GetEntitys(string tableName, Type type, int mount, int skip = );

        List<T> GetEntitys<T>(string tableName, int mount, int skip = ) where T : IDictionarySerializable, new();

        /// <summary>

        /// 创建表

        /// </summary>

        /// <param name="dataType">数据类型</param>

        /// <param name="createStr">创建字符串</param>

        void CreateTable(Type dataType, string createStr);

        /// <summary>

        /// 是否可用

        /// <remarks>数据库服务可能处于离线模式</remarks>

        /// </summary>

        bool IsUseable { get; }

        /// <summary>

        /// 更新到数据库

        /// </summary>

        /// <param name="tableName"></param>

        /// <param name="updateItem"></param>

        void SaveOrUpdateEntity(IDictionarySerializable updateItem, string tableName, string keyName, object keyvalue);

        /// <summary>

        /// 删除表数据

        /// </summary>

        /// <param name="tableName"></param>

        void DropTable(string tableName);

    }

接口层中，包括了连接/断开数据库，存储和读取的泛型和非泛型版本，只可惜没有查询。查询的问题等之后再做详细的讨论。

于是，以这个接口为基准，实现了MongoDB连接器和SQL Server连接器。请看实现的效果：

你可以通过配置XML文件，来定义多个连接器。该配置文件位于根目录插件的MainConfig.xml，你可以指定每个连接的数据库类型，库名称和连接字符串等。

读取过程：点击每个连接器，可以获取所有表名，选取不同的表名，可以按照已经选定的数据类型进行转换（默认使用自由文档，而使用专用数据类型可获得更好的性能）。点击“添加到数据管理器”，即可将数据添加到数据管理器，供不同算法模块进行处理。

写入过程：可将数据管理器的不同数据写入到数据库中。将数据管理器的数据拖放到DataGrid视图中，填写”新表表名“，即可将数据保存到数据库中。

若数据库无法连接，则该库的所有操作都无法进行，此时需要点击刷新连接，强制重连。

如此设计之后，系统即可支持各类数据库，并具备灵活配置的特点。

三. 虚拟化技术

由于数据挖掘系统可能会处理数据量非常巨大，以至于无法读取到内存中的数据，因此必须启用虚拟化。所谓虚拟化就是真实的数据并非处于内存，而是在需要的情况才读入内存，当若干个周期之后没有访问，则该数据又会被清理。与缓存的模式非常类似，因此，需要将算法设计为缓存友好：尽可能在同一时间段内读取连续索引号的数据。

数据管理器如下图：

当你将一个文档拖入到数据管理器中时，系统会自动检测文件大小和文件类型，选用不同的处理策略。文件小时直接读入内存，文件体积超过100M时，将数据虚拟化。此时，即使是1GB的csv数据表，都可瞬间被导入。在此基础上，DataCollection集合类处理了虚拟化的所有细节，提供了统一的访问器：算法模块依旧可通过InputData[n] ,n是索引的方式查询数据，也可以实现枚举器。底层将实现缓存架构，合理的读取和清理内存。

一个简单的例子便是，2000万的开房数据，瞬间被读入，对其使用LINQ做查询统计，缓存器流式读取数据，并进行流式统计，最终输出结果，整个过程中内存占用量都很低。

诚然，这种虚拟化的性能肯定不如全部加载到内存当中的速度，但这确实不失为一种可能性。具体的设计方案和设计请参考我的博文：

四.脚本系统

什么东西最灵活？不是任何酷炫的UI,而是平凡到不能再平凡的语言，当然前提是你必须懂怎么用它。所以程序员最喜欢cmd,而普通人则更喜欢UI.

做数据挖掘工具，如果完全脱离脚本，必然是不可行的，否则，你如何定义一条数据有多重要？升级到这一版本，无论如何都需要使用脚本了。当然，我要使得脚本更简洁易用。它应当包含自动提示和保存功能，应当富有足够的表现力。

可是，脚本系统同样面临一大堆挑战。假设一个数据类型Student,它拥有Height,MathScore,EnglishScore等属性。那么，你怎么定义它的权重，关系，分类，以及其他各类莫名其妙的需求？

比如你可以这样写，以权重计算为例：

Score=@(Height)*2+ @(MathScore)*3- @(EnglishScore)+100

@关键字表名了它是一个变量，可以通过IDictionarySerializable接口序列化生成的字典索引器Item[Key]来读取对应的值。当然你可以扩展更复杂的表达式。

因此，”脚本“有这么几个要素：数据类型（决定哪些是可识别的变量），脚本类型（决定返回值的意义），脚本内容（应当是正确无误的），描述（可选）。脚本同样可以保存在XML中，它保存在插件的文件夹中的ScriptLibaray.XML里。

因此，我借鉴了国外著名大神的脚本解析器系统，开发了一套提供变量提示的脚本编辑和使用系统。

你可以点击数据管理器下的脚本编辑器：

当你希望能自定义”科研项目数据“的权重计算逻辑时，可以在数据源上选取”科研项目“，由于目前系统中还没有存储任何已有的满足科研项目的权重脚本，所以”脚本库“的下拉菜单中是空的。

在”脚本编辑“栏中，即可输入脚本。我们希望权重=项目资金*3+ （结束时间-启动时间）*5

则在变量中，选取：Money:

在操作符中，选取DateDIFF(它是计算日期之差的函数)。

最终得到的脚本如下：

当你希望保存这条脚本时：

填写脚本名称和脚本描述，点击”新建脚本“，即可将脚本保存在文件中。当然，不保存也不影响这次使用。

将一个“计算方法A”的测试模块拖放到算法管理器中：

本模块对脚本的使用非常简单，只是单纯的输出每条数据计算的结果：

foreach (var item in SysDataManager.ScriptExecutor.Execute(this.Script1.SelectItem, CurrentCollection.MyComputeData))

            {

                XLogSys.Print.Info(item.ToString()); ;

            }

即可在对应的“脚本选择”对话框中，得到刚才输入的脚本。如果这条脚本有错：

在脚本管理器上重新修改之后，即可输出结果：

哈哈，完成。不知道各位看官对这样的脚本编辑器是否满意。脚本其实是潘多拉的魔盒，她功能强大，但稍微不小心就会出错，或者不满足要求。因此对她的限制必不可少。计算模块必须给出对脚本类型和数据类型要求，才能检索出满足条件的脚本供用户选择。我作为设计者，还是觉得它实现起来稍微复杂了，用户体验并不友好。可是到底怎样的脚本工具才是好用的呢？我毕竟不能做一个编译器进去，这样的事情确实够头疼。

五.总结

除了以上这些升级之外，系统还增加了多款分类器和机器学习模块。这些升级我们下次专门开一节讨论算法。

最近的一段时间要升级软件的鲁棒性和稳定性，我也要系统的学习统计和SPSS的知识，加油！