django internal search

最近改进了项目中的站内搜索的功能，增加了全文索引，提升了搜索速度。因为项目框架是django，所以采用django+haystack+pyelasticsearch+elasticsearch的方式实现。

django作为Web framework，采用MVC设计模式，非常易于开发数据库驱动的网站。

haystack是django的搜索插件，提供一套统一的API，用于驱动搜素引擎创建索引，进行搜素。可适用的搜素引擎包括whoosh,ES,Solr等。

pyelasticsearch主要提供python语言调用elasticsearch的Client类。

elasticsearch是一款开源的分布式搜素引擎，具备高可靠性，支持非常多的企业级搜索用例

本项目采用：

django-1.5.0

haystack-2.0.0

pyelasticsearch-0.5

elasticsearch-1.5.0

笔者在实践过程中发现haystack与pyelasticsearch不同版本下协同工作并不一定能成功，有可能报错：

org.elasticsearch.indics.InvalidTypeNameException:mapping type name [_mapping] can't start with '_'

这是haystack创建索引过程中，传入了pyelasticsearch无法解析的dict，通过搜索和尝试，基本确定了上面的版本在Windows7操作系统下能够正常工作。

环境的安装去配置不再累述，用pip命令进行安装非常简单，网上也有很多例子。

进行搜索之前，必须针对数据库视图创建索引，要支持全文搜索，必须对除主键外的字段，特别是类似summary, comment, destription之类的字段创建索引。

haystack创建索引有其固有的格式：

首先，为欲搜索的model创建索引类，这个索引类用于haystack创建索引文件，也用于搜索过程中haystack API进行搜索。

class IncidentIndex(indexes.SearchIndex, indexes.Indexable):

    text                = indexes.CharField(document=True,use_template=True)

    incident_number     = indexes.CharField(model_attr='incident_number')

    incident_summary    = indexes.CharField(model_attr='summary',null=True)

    notes               = indexes.NgramField(model_attr='notes',null=True)

    reported_date       = indexes.DateTimeField(model_attr='reported_date')

    def get_model(self):

        return Incident

    def index_queryset(self, using=None):

        """Used when the entire index for model is updated."""

        return self.get_model().objects.all()

实例代码是项目中为Incidnet model创建索引类的实现：

索引类要继承 indexes.SearchIndex, indexes.Indexable 类，这样索引类就能够像Django的Model类一样提交到后端。

每一个索引类必须至少包含一个document=True的字段以支持基于文件的查找，而这个字段也是search engine主要查找的字段。

Search Field有很多种，常用的CharField，BooleanFeild, DateFeild,IntergeFeild, NgramField,EdgeNgramField在Haystack官网上都有详细的介绍。重点强调一点，如果想输入的词组作为固定的短语进行查询,则字段用CharFeild，如果想输入的词组分词为每个独立的单词进行查询，则字段用NgramField。

null=True用于在创建索引的过程中忽略记录为空的情况。

index_queryset方法用于返回实际的类对象。

创建好索引类之后，要在templates/search/indexs/{AppName}/路径下创建对应索引类的{classname}_text.txt文件，对应索引类中text字段的查询内容。

例如，incident_text.txt：

{{ object.incident_number }}

{{ object.incident_summary }}

用于基于文件的快速检索。

在创建好索引类和相应的基于文件检索的txt文件之后，可以通过manage.py调用haystack的命令创建索引，此时保证elasticsearch是打开的，并且处于默认的进程号9200。

打开ES：click elasticsearch\bin\elasticsearch.bat

创建索引：python manage.py rebuild_index

如果model类更新了，则需要更新索引，可采用命令：python manage.py update_index

需要指出，haystack提供了一种实时自动更新索引的方法，即在索引类定义时，用indexes.RealTimeSearchIndex类代替indexes.SearchIndex，但是更新索引是比较耗时的，并不建议涉及大量用户的网站使用该方法。

创建索引成功之后，就可以在项目中通过调用haystack提供的方法实现search了。

haystack提供了强大的API，用于实现查询，而且API的使用与django API非常相似。主要包括SearchQuerySet API, SearchResult API, SearchQuery API, Input Types, SearchBackend API和上文提到的SearchField API与SearchIndex API。具体使用参见haystack，本文仅列举某些常用API。

SearchQuerySet API提供一个类似于django's ORM QuerySet的查询类，同样具有all,filter,exclude等查询方法用于查询索引。

e.g.

results = SearchQuerySet().filter(incident_number=Exact(query)).highlight()

SearchQuery API 提供一个SQ对象，类似于django的Q，用于组合查询条件。

e.g.

 results = SearchQuerySet().filter(SQ(incident_summary=Exact(query)) | SQ(change_summary=Exact(query)) | SQ(wo_summary=Exact(query)) | SQ(task_summary=Exact(query)) ).highlight()

Input Types允许developer指定一个advance的查询条件，比如：

Exact：确保输入的短语Exactly matched。

Clean: 确保特殊字符的输入能够得到正确的解释，比如url中:和/的escape

-------------------------------- 分割线 ----------------------------------------

今天在QA环境上部署了一把，QA环境是VM，OS是centos-6.3 , django-1.6.5 .

当使用haystack-2.0.0的时候报错：

'SearchNode' object has no attribute 'start_subtree'

通过把haystack替换成2.1.0版本，解决了这个问题。

在进行查询的时候，又报了错：

Failed to query Elasticsearch using '( OR change_summary:("telephony"))': Non-OK response returned (400): u'SearchPhaseExecutionException[Failed to execute phase [query], all shards failed;

不知道什么情况，索性把setting配置改为：

HAYSTACK_DEFAULT_OPERATOR = 'AND'

嘿嘿，解决了这个问题。

reference：

http://django-haystack.readthedocs.org/en/latest/

django internal search的更多相关文章

Django中search fields报错：related Field has invalid lookup: icontains
models.py 文件 # coding:utf8from django.db import models class Book(models.Model): name = model ...
Total Commander 8.52 Beta 1
Total Commander 8.52 Beta 1http://www.ghisler.com/852_b1.php 10.08.15 Release Total Commander 8.52 b ...
Java多线程系列--“JUC集合”05之 ConcurrentSkipListMap
概要本章对Java.util.concurrent包中的ConcurrentSkipListMap类进行详细的介绍.内容包括:ConcurrentSkipListMap介绍ConcurrentSki ...
(13)odoo翻译
-------------------更新时间:15:52 2016-09-28 星期三增加模型名翻译17:26 2016-05-20 星期五17:58 2016-05-17 星期二12:14 20 ...
List<T>对元素的查找。
要在List<T>中查找特定的元素,可以使用Contains() .IndexOf().LastIndexOf()和BinarySearch()方法.除了 LastIndexOf()是从最 ...
Django admin模块使用search时报错：django.core.exceptions.FieldError: Related Field got invalid lookup: contains
日志如下: <class 'django.core.handlers.wsgi.WSGIRequest'> ------------registered_admins: {'spaceCl ...
django的前后的结合，search搜索功能案例
利用django的Q()功能可以很好的展开搜索功能假设我要做个这样的搜索功能
django restframeowrk filter,search,order
django-filters非常成熟,并且支持drf,在url中以Get参数的形式体现 filter 通用过滤 1. 基本配置 $ pip install django-filters setting ...
elastic search internal
Realtime Search with Lucene http://2010.berlinbuzzwords.de/sites/2010.berlinbuzzwords.de/files/busch ...

随机推荐

asp.net中导出Excel的方法
一.asp.net中导出Excel的方法: 本文转载在asp.net中导出Excel有两种方法,一种是将导出的文件存放在服务器某个文件夹下面,然后将文件地址输出在浏览器上:一种是将文件直接将文件输出 ...
【BZOJ】3850: ZCC Loves Codefires（300T就这样献给了水题TAT）
http://www.lydsy.com/JudgeOnline/problem.php?id=3850 题意:类似国王游戏....无意义.. #include <cstdio> #inc ...
Dijkstra堆优化与SPFA模板
Dijkstra+优先队列 #include<cstdio> #include<cctype> #include<queue> #include<cstrin ...
css样式表：样式分类，选择器。样式属性，格式与布局
样式表分类: 1.内联样式表, 和html联合显示,例:<p style="font-size:14px;">内联样式表</p> 2.内嵌样式表作为一个独 ...
MySQL 5.7在线设置复制过滤
很久没有更新博客了,主要是公司事情比较多,最近终于闲下来了.然而5.7也GA了,有许多新的特性,其中现在可以进行在线设置复制过滤了.但是还是得停复制,不过不用重启实例了.方便了DBA们进行临时性的调整 ...
5. Configure the Image Service
Controller Node: 1. sudo apt-get install glance python-glanceclient 2. sudo vi /etc/glance/glance- ...
前端编码规范（2）—— HTML 规范
HTML 规范文档类型推荐使用 HTML5 的文档类型申明: <!DOCTYPE html>. (建议使用 text/html 格式的 HTML.避免使用 XHTML.XHTML 以及 ...
discuz全局数组变量后台各项设置完整版
$_G 保存了 Discuz! 中所有的预处理数据缓存能够很好的提高程序的性能,一些配置数据没必要每次都查询数据库,只要在修改了的时候更新下缓存即可. Discuz! 中所有的缓存保存在 $_G[c ...
IP_TOS选项
voip IP_tos 选项在IP头中,有一Type-of-Service字段,该字段描述了IP包的优先级和QoS选项,使用IP_TOS可以来设定该字段的值,以区分不同服务的优先级,Linux 中可 ...
SVN svnserve.conf: Option expected 的解决方法以及 Authorization failed 的解决方法
① 在 CentOS 6.5 上安装配置了 SVN,在本地 Checkout 的时候报错: 显示:/www/svnroot/webfile/conf/svnserve.conf:12: Option ...

django internal search

django internal search的更多相关文章

随机推荐

热门专题