django internal search
最近改进了项目中的站内搜索的功能,增加了全文索引,提升了搜索速度。因为项目框架是django,所以采用django+haystack+pyelasticsearch+elasticsearch的方式实现。
django作为Web framework,采用MVC设计模式,非常易于开发数据库驱动的网站。
haystack是django的搜索插件,提供一套统一的API,用于驱动搜素引擎创建索引,进行搜素。可适用的搜素引擎包括whoosh,ES,Solr等。
pyelasticsearch主要提供python语言调用elasticsearch的Client类。
elasticsearch是一款开源的分布式搜素引擎,具备高可靠性,支持非常多的企业级搜索用例
本项目采用:
django-1.5.0
haystack-2.0.0
pyelasticsearch-0.5
elasticsearch-1.5.0
笔者在实践过程中发现haystack与pyelasticsearch不同版本下协同工作并不一定能成功,有可能报错:
org.elasticsearch.indics.InvalidTypeNameException:mapping type name [_mapping] can't start with '_'
这是haystack创建索引过程中,传入了pyelasticsearch无法解析的dict,通过搜索和尝试,基本确定了上面的版本在Windows7操作系统下能够正常工作。
环境的安装去配置不再累述,用pip命令进行安装非常简单,网上也有很多例子。
进行搜索之前,必须针对数据库视图创建索引,要支持全文搜索,必须对除主键外的字段,特别是类似summary, comment, destription之类的字段创建索引。
haystack创建索引有其固有的格式:
首先,为欲搜索的model创建索引类,这个索引类用于haystack创建索引文件,也用于搜索过程中haystack API进行搜索。
class IncidentIndex(indexes.SearchIndex, indexes.Indexable):
text = indexes.CharField(document=True,use_template=True)
incident_number = indexes.CharField(model_attr='incident_number')
incident_summary = indexes.CharField(model_attr='summary',null=True)
notes = indexes.NgramField(model_attr='notes',null=True)
reported_date = indexes.DateTimeField(model_attr='reported_date') def get_model(self):
return Incident def index_queryset(self, using=None):
"""Used when the entire index for model is updated."""
return self.get_model().objects.all()
实例代码是项目中为Incidnet model创建索引类的实现:
索引类要继承 indexes.SearchIndex, indexes.Indexable 类,这样索引类就能够像Django的Model类一样提交到后端。
每一个索引类必须至少包含一个document=True的字段以支持基于文件的查找,而这个字段也是search engine主要查找的字段。
Search Field有很多种,常用的CharField,BooleanFeild, DateFeild,IntergeFeild, NgramField,EdgeNgramField在Haystack官网上都有详细的介绍。重点强调一点,如果想输入的词组作为固定的短语进行查询,则字段用CharFeild,如果想输入的词组分词为每个独立的单词进行查询,则字段用NgramField。
null=True用于在创建索引的过程中忽略记录为空的情况。
index_queryset方法用于返回实际的类对象。
创建好索引类之后,要在templates/search/indexs/{AppName}/路径下创建对应索引类的{classname}_text.txt文件,对应索引类中text字段的查询内容。
例如,incident_text.txt:
{{ object.incident_number }}
{{ object.incident_summary }}
用于基于文件的快速检索。
在创建好索引类和相应的基于文件检索的txt文件之后,可以通过manage.py调用haystack的命令创建索引,此时保证elasticsearch是打开的,并且处于默认的进程号9200。
打开ES:click elasticsearch\bin\elasticsearch.bat
创建索引:python manage.py rebuild_index
如果model类更新了,则需要更新索引,可采用命令:python manage.py update_index
需要指出,haystack提供了一种实时自动更新索引的方法,即在索引类定义时,用indexes.RealTimeSearchIndex类代替indexes.SearchIndex,但是更新索引是比较耗时的,并不建议涉及大量用户的网站使用该方法。
创建索引成功之后,就可以在项目中通过调用haystack提供的方法实现search了。
haystack提供了强大的API,用于实现查询,而且API的使用与django API非常相似。主要包括SearchQuerySet API, SearchResult API, SearchQuery API, Input Types, SearchBackend API和上文提到的SearchField API与SearchIndex API。具体使用参见haystack,本文仅列举某些常用API。
SearchQuerySet API提供一个类似于django's ORM QuerySet的查询类,同样具有all,filter,exclude等查询方法用于查询索引。
e.g.
results = SearchQuerySet().filter(incident_number=Exact(query)).highlight()
SearchQuery API 提供一个SQ对象,类似于django的Q,用于组合查询条件。
e.g.
results = SearchQuerySet().filter(SQ(incident_summary=Exact(query)) | SQ(change_summary=Exact(query)) | SQ(wo_summary=Exact(query)) | SQ(task_summary=Exact(query)) ).highlight()
Input Types允许developer指定一个advance的查询条件,比如:
Exact:确保输入的短语Exactly matched。
Clean: 确保特殊字符的输入能够得到正确的解释,比如url中:和/的escape
-------------------------------- 分割线 ----------------------------------------
今天在QA环境上部署了一把,QA环境是VM,OS是centos-6.3 , django-1.6.5 .
当使用haystack-2.0.0的时候报错:
'SearchNode' object has no attribute 'start_subtree'
通过把haystack替换成2.1.0版本,解决了这个问题。
在进行查询的时候,又报了错:
不知道什么情况,索性把setting配置改为:
HAYSTACK_DEFAULT_OPERATOR = 'AND'
嘿嘿,解决了这个问题。
reference:
http://django-haystack.readthedocs.org/en/latest/
django internal search的更多相关文章
- Django中search fields报错:related Field has invalid lookup: icontains
models.py 文件 # coding:utf8from django.db import models class Book(models.Model): name = model ...
- Total Commander 8.52 Beta 1
Total Commander 8.52 Beta 1http://www.ghisler.com/852_b1.php 10.08.15 Release Total Commander 8.52 b ...
- Java多线程系列--“JUC集合”05之 ConcurrentSkipListMap
概要 本章对Java.util.concurrent包中的ConcurrentSkipListMap类进行详细的介绍.内容包括:ConcurrentSkipListMap介绍ConcurrentSki ...
- (13)odoo翻译
-------------------更新时间:15:52 2016-09-28 星期三 增加模型名翻译17:26 2016-05-20 星期五17:58 2016-05-17 星期二12:14 20 ...
- List<T>对元素的查找。
要在List<T>中查找特定的元素,可以使用Contains() .IndexOf().LastIndexOf()和BinarySearch()方法.除了 LastIndexOf()是从最 ...
- Django admin模块使用search时报错:django.core.exceptions.FieldError: Related Field got invalid lookup: contains
日志如下: <class 'django.core.handlers.wsgi.WSGIRequest'> ------------registered_admins: {'spaceCl ...
- django的前后的结合,search搜索功能案例
利用django的Q()功能可以很好的展开搜索功能 假设我要做个这样的搜索功能
- django restframeowrk filter,search,order
django-filters非常成熟,并且支持drf,在url中以Get参数的形式体现 filter 通用过滤 1. 基本配置 $ pip install django-filters setting ...
- elastic search internal
Realtime Search with Lucene http://2010.berlinbuzzwords.de/sites/2010.berlinbuzzwords.de/files/busch ...
随机推荐
- List.Sort以及快速排序ZZ
经常看到有人因为使用.net中的集合类处理海量数据时性能不够理想,就武断的得出.net不行,c#也不行这样的结论.对于.net framework这样的类库来说,除了性能以外,通用性和安全性同样重要, ...
- C++做client Java做客户端传送数据
因为要用到,但发现Java怎么都收不到C发来的数据,除非C端自动挂掉,java会一口气全收回来. 后来才发现是因为C发过来的Java用readline是读不到回车的,所以会一直等待. 所以不要用rea ...
- jws操作
SQLite 并发写入的问题有人解决了吗? 我记得servicestack4的ormlite挺快的 但不开源了 那时候写10w条,200多m数据一下子就写完了,3的话就慢得不行 大家好,关于jws操作 ...
- 【BZOJ】1189: [HNOI2007]紧急疏散evacuate(二分+bfs+网络流)
http://www.lydsy.com/JudgeOnline/problem.php?id=1189 表示完全不会QAQ.... 于是膜拜题解orz 二分时间........... 于是转换成判定 ...
- 【TYVJ】1982 武器分配(费用流)
http://tyvj.cn/Problem_Show.aspx?id=1982 一眼题.. 源向每个人连容量为1,费用为0的边. 每个人向一个中转节点na连容量1,费用0的边(你也可以不连,直接连后 ...
- 基于SpringMVC框架项目Demo
Git地址:https://github.com/JavaWeb1024/SpringMVC 1. 框架简介: 为打造一套集群高可用的框架,集成的技术目前比较成熟,稳定.相关的知识点在网络上也 ...
- Range of int, long, 和 long long 的数值范围
unsigned int 0-4294967295 int -2147483648-2147483647 unsigned long 0-4294967295 long -2147 ...
- [转] - QPixmap全局变量载入多张图片失效问题
我想qt 中QPixmap这个类大家都很熟悉,它可以很简单的在标签上贴图:例如: QPixmap p; p.load("1.png"): label->setPixmap(p ...
- php的具体配置学习笔记
1.将php配置为apache的一个模块,使用loadmodule指令完成. 2.写下面的语句,此外需强调的是,每次配置都需要重新启动apache 3.php文件,要指定将其php模块来处理 4.PH ...
- Pointcut is not well-formed: expecting 'identifier' at character position 0
异常如下: org.springframework.beans.factory.BeanCreationException: Error creating bean with name 'userDa ...