最近由于工作的需要, 要分析大量C#代码, 在数万个cs文件中搜索特定关键词. 这是一项非常耗时的工作, 用Notepad++要运行接近半个小时. 于是我利用WEBUS2.0 SDK创建了一个代码搜索器程序, 非常方便的完成了这项工作.

Code Search程序首先会在选定的目录中搜索所有cs文件:

    private void btnOpen_Click(object sender, EventArgs e)
{
try
{
if (folderBrowserDialog1.ShowDialog() == System.Windows.Forms.DialogResult.OK)
{
Task.Factory.StartNew(IndexProc);
//...
}

然后创建IIndexer, 并在一个线程中为所有找到的文件编制索引:

        void IndexProc()
{
var files = Directory.GetFiles(folderBrowserDialog1.SelectedPath, "*.cs", SearchOption.AllDirectories);
if (files != null && files.Length > )
{
//...this.ResetIndex();
foreach (var file in files)
{
Document doc = new Document();
doc.Fields.Add(new Field("FileName", file, FieldAttributes.None));
doc.Fields.Add(new Field("Code", StringHelper.LoadString(file), FieldAttributes.AnalyseIndex));
m_Index.Add(doc);
//...

}
}
//...
} void ResetIndex()
{
if (m_Index != null)
{
m_Index.Close();
}
m_Index = new IndexManager(new CodeAnalyzer());
m_Index.DumpDocs = 3000;
m_Index.DumpSize = 10;
m_Index.MinIndexSize = int.MaxValue;
m_Index.MaxIndexSize = int.MaxValue;
m_Index.MergeFactor = int
.MaxValue;
m_Index.New(AppDomain.CurrentDomain.BaseDirectory + @"\Index");
m_Searcher = new IndexSearcher(m_Index);
}

通过调节DumpDocs和DumpSize, 可以优化程序的内存占用;

通过调节Min/MaxIndexSize和MergeFactor, 可以优化程序的IO性能, 目前我设置的MinIndexSize最大意味着自始至终只会生成一个索引片段; MergeFactor最大意味着从不合并索引片段.

在创建索引的时候, 我们使用的是专门为代码分析设计的IAnalyzer:

    class CodeAnalyzer : IAnalyzer
{
//...public ITokenStream GetTokenStream(Webus.Documents.Field field)
{
if (field.Name == "Code")
{
return this.GetTokenStream(field.Value.ToString());
}
else
{
return null;
}
}
} class CodeTokenStream : ITokenStream
{
HashSet<string> stops = new HashSet<string>(new string[] {
"abstract",
"event",
"new",
//...
"enum",
"namespace",
"string"

});

Queue<Token> m_Buffer = new Queue<Token>();
public CodeTokenStream(string text)
{
MatchCollection mc = Regex.Matches(text, @"\w+");
foreach (Match m in mc)
{
var key = m.Value.ToLower();
if (stops.Contains(key) == false)
{
m_Buffer.Enqueue(
new Token(key, m.Index, m.Length));
}

}
}
//...
}

这个分析器中包含了所有C#的关键词, 由于他们是绝对高频词并且没有搜索的意义, 因此在分析的时候会跳过这些词汇而不做任何处理.

在编制索引的时候通过事件将状态更新到UI上面:

        private void frmCodeSearch_Load(object sender, EventArgs e)
{
try
{
this.StatusChanged += new StatusChangeEventHandler(frmCodeSearch_StatusChanged);
//...
} delegate void UpdateUI();
void frmCodeSearch_StatusChanged(object sender, string status)
{
this.Invoke(new UpdateUI(() => { this.txtStatus.Text = status; }));
}

这里是跨线程更新UI, 因此需要使用this.Invoke来封送相应操作.

索引编制过程中就可以开始搜索了:

对应代码如下:

        private void txtKeyword_TextChanged(object sender, EventArgs e)
{
try
{
TermQuery query = new TermQuery(new Term("Code", txtKeyword.Text.ToLower()));
var hits = m_Searcher.Search(query);
List<SearchResult> result = new List<SearchResult>();
foreach (HitDoc hit in hits)
{
StandardHighlighter hl = new StandardHighlighter(hit);
result.Add(new SearchResult(hit));
}
dgvResult.DataSource =
result;
}
catch (Exception ex)
{
MessageBox.Show(ExceptionHelper.ToString(ex));
}
}

创建一个TermQuery对象, 对Code字段进行搜索, 构建List<SearchResult>类型的结果集, 并且绑定到DataGridView上面, 大功告成! enjoy~!

下载源代码

阅读更多WEBUS2.0 SDK文章

2013-7-21补充: 

增强了搜索功能, 支持WEBUS2.0 SDK的查询表达式, 能够完成各种复杂的搜索任务. 具体语法将在后面的文章中介绍.

2013-8-20补充: 

Build - 选择一个文件夹开始编制索引, 编好的索引自动保存在当前目录的CodeSearch.Index子目录下面. 比如我们选择C:\SourceCode来编制索引, 这索引数据会保存在C:\SourceCode\CodeSearch.Index中.

Open - 打开已经存在的索引, 即上面所说的CodeSearch.Index文件夹.

关闭程序时会自动关闭当前索引. 索引关闭后全部数据都保存到磁盘上, 下次可以直接打开来继续使用.

WEBUS2.0 In Action - [源代码] - C#代码搜索器的更多相关文章

  1. [源代码] - C#代码搜索器 - 续

    在前文 [源代码] - C#代码搜索器 中我开发了一个代码搜索器. 我对其做的最后改动是将索引保存到磁盘中, 以备今后使用. 如今, 我在工作中又接到一项新任务: 有一个大项目, 其中10个负责数据访 ...

  2. C#代码搜索器

    WEBUS2.0 In Action - [源代码] - C#代码搜索器 最近由于工作的需要, 要分析大量C#代码, 在数万个cs文件中搜索特定关键词. 这是一项非常耗时的工作, 用Notepad++ ...

  3. WEBUS2.0 In Action - 搜索操作指南 - (1)

    上一篇:WEBUS2.0 In Action - 索引操作指南(2) | 下一篇:WEBUS2.0 In Action - 搜索操作指南(2) 1. IQueriable中内置的搜索功能 在Webus ...

  4. WEBUS2.0 In Action - 搜索操作指南 - (2)

    上一篇:WEBUS2.0 In Action - 搜索操作指南(1) | 下一篇:WEBUS2.0 In Action - 搜索操作指南(3) 2. 使用Query Query是所有查询的基类, 它一 ...

  5. WEBUS2.0 In Action - 搜索操作指南 - (3)

    上一篇:WEBUS2.0 In Action - 搜索操作指南(2) | 下一篇:WEBUS2.0 In Action - 搜索操作指南(4) 3. 评分机制 (Webus.Search.IHitSc ...

  6. WEBUS2.0 In Action - 搜索操作指南 - (4)

    上一篇:WEBUS2.0 In Action - 搜索操作指南(3) 6. 搜索多个索引 为了提升性能, 我们可以从多个索引同时进行搜索, Webus.Search.MultiSearcher提供了相 ...

  7. WEBUS2.0 In Action - 索引操作指南(2)

    上一篇:WEBUS2.0 In Action - 索引操作指南(1) | 下一篇:WEBUS2.0 In Action - 搜索操作指南(1) 3. 添加.删除.撤销删除和修改文档 在WEBUS中要将 ...

  8. 开源代码搜索器searchcode

    项目主页:https://searchcode.com/ 查看API:https://searchcode.com/api/ 关于:https://searchcode.com/about/ Sear ...

  9. 从源代码分析modelDriven拦截器和params拦截器和拦截器prepare 和paramsPrepareParamsStack拦截器栈(让你的Struts2代码更简洁——如何培养框架设计能力

    源代码文件:Web App Libraries/struts2-core-2.3.15.3.jar/struts-default.xml 拦截器modelDriven: <interceptor ...

随机推荐

  1. 7 天玩转 ASP.NET MVC — 第 7 天

    目录 第 1 天 第 2 天 第 3 天 第 4 天 第 5 天 第 6 天 第 7 天 0. 前言 今天是开心的一天.因为我们终于来到了系列学习的最后一节.我相信你喜欢之前的课程,并从中学到了许多. ...

  2. 如何用 Parse 和 Swift 搭建一个像 Instagram 那样的应用?

    [编者按]本篇文章作者是Reinder de Vries,既是一名企业家,也是优秀的程序员,发表多篇应用程序的博客.本篇文章中,作者主要介绍了如何基于Parse特点,打造一款类似Instagram的应 ...

  3. Ruby Profiler 详解之 ruby-prof(I)

    项目地址: ruby-prof 在上一篇 Ruby 中的 Profiling 工具中,我们列举了几种最常用的 Profiler,不过只是简单介绍,这一次详细介绍一下 ruby-prof 的使用方法. ...

  4. 开源搜索引擎Solr的快速搭建及集成到企业门户最佳实施方案--转载

    笔者经过研究查阅solr官方相关资料经过两周的研究实现了毫秒级百万数据的搜索引擎的搭建并引入到企业门户.现将实施心得和步骤分享一下. 1.      jdk1.6 安装jdk1.6到系统默认目录下X: ...

  5. 在Delphi中实现动画窗口

    Windows下有一个函数AnimateWindow,在Delphi自带的Win32 API Help中是找不到的.你可以在Delphi的编辑器中输入windows.等待代码向导出来,继续输入Anim ...

  6. POJ 1961 2406 (KMP,最小循环节,循环周期)

    关于KMP的最短循环节.循环周期,请戳: http://www.cnblogs.com/chenxiwenruo/p/3546457.html (KMP模板,最小循环节) POJ 2406  Powe ...

  7. android真机自动化测试

    appium执行用例时报错问题: 问题解析: 一般该种情况都是因为来连接了多个设备,验证办法:cmd->执行adb devices  看结果是否是多个devices ,如果是这个问题,停掉多余设 ...

  8. lintcode:验证二叉查找树

    题目 给定一个二叉树,判断它是否是合法的二叉查找树(BST) 一棵BST定义为: 节点的左子树中的值要严格小于该节点的值. 节点的右子树中的值要严格大于该节点的值. 左右子树也必须是二叉查找树. 一个 ...

  9. mq_close

    NAME mq_close - 关闭一个消息队列 (REALTIME) SYNOPSIS #include <mqueue.h>int mq_close(mqd_t mqdes) DESC ...

  10. linux shell 命令学习(2) paste - merge lines of files

    paste - merge lines of files 命令格式: paste [OPTION] ... [FILE] ... 说明: 输出每个文件的对应行组合而成的行,中间用tab分开,如果没有F ...