django-全文检索

全文检索不同于特定字段的模糊查询，使用全文检索的效率更高，并且能够对于中文进行分词处理

需要的第三方库：

haystack：django的一个包，可以方便地对model里面的内容进行索引、搜索，设计为支持whoosh,solr,Xapian,Elasticsearc四种全文检索引擎后端，属于一种全文检索的框架
whoosh：纯Python编写的全文搜索引擎，虽然性能比不上sphinx、xapian、Elasticsearc等，但是无二进制包，程序不会莫名其妙的崩溃，对于小型的站点，whoosh已经足够使用
jieba：一款免费的中文分词包

操作

首先pip安装包

pip install django-haystack

pip install whoosh

pip install jieba

设置settings

添加应用：

INSTALLED_APPS = (

    ...

    'haystack',

)

添加搜索引擎：

HAYSTACK_CONNECTIONS = {

    'default': {

        'ENGINE': 'haystack.backends.whoosh_cn_backend.WhooshEngine',

        'PATH': os.path.join(BASE_DIR, 'whoosh_index'),

    }

}

#自动生成索引

HAYSTACK_SIGNAL_PROCESSOR = 'haystack.signals.RealtimeSignalProcessor'

#每一页显示多少数据

HAYSTACK_SEARCH_RESULTS_PER_PAGE = 18

添加url：

urlpatterns = [

    ...

    url(r'^search/', include('haystack.urls')),

]

在应用目录下建立search_indexes.py

# coding=utf-8

from haystack import indexes

from models import GoodsInfo

class GoodsInfoIndex(indexes.SearchIndex, indexes.Indexable):

    text = indexes.CharField(document=True, use_template=True)

    def get_model(self):

        return GoodsInfo

    def index_queryset(self, using=None):

        return self.get_model().objects.all()

在目录“templates/search/indexes/应用名称/”下创建“模型类名称_text.txt”文件

#goodsinfo_text.txt，这里列出了要对哪些列的内容进行检索,模型类中的某些字段

{{ object.gName }}

{{ object.gSubName }}

{{ object.gDes }}

在目录“templates/search/”下建立search.html

<!DOCTYPE html>

<html>

<head>

    <title></title>

</head>

<body>

{% if query %}

    <h3>搜索结果如下：</h3>

    {% for result in page.object_list %}

        <a href="/{{ result.object.id }}/">{{ result.object.gName }}</a><br/>

    {% empty %}

        <p>没找到</p>

    {% endfor %}

    {% if page.has_previous or page.has_next %}

        <div>

            {% if page.has_previous %}<a href="?q={{ query }}&amp;page={{ page.previous_page_number }}">{% endif %}&laquo; 上一页{% if page.has_previous %}</a>{% endif %}

        |

            {% if page.has_next %}<a href="?q={{ query }}&amp;page={{ page.next_page_number }}">{% endif %}下一页 &raquo;{% if page.has_next %}</a>{% endif %}

        </div>

    {% endif %}

{% endif %}

</body>

</html>

建立ChineseAnalyzer.py文件

保存在haystack的安装文件夹下，路径如“/home/python/.virtualenvs/django_py2/lib/python2.7/site-packages/haystack/backends”

import jieba

from whoosh.analysis import Tokenizer, Token

class ChineseTokenizer(Tokenizer):

    def __call__(self, value, positions=False, chars=False,

                 keeporiginal=False, removestops=True,

                 start_pos=0, start_char=0, mode='', **kwargs):

        t = Token(positions, chars, removestops=removestops, mode=mode,

                  **kwargs)

        seglist = jieba.cut(value, cut_all=True)

        for w in seglist:

            t.original = t.text = w

            t.boost = 1.0

            if positions:

                t.pos = start_pos + value.find(w)

            if chars:

                t.startchar = start_char + value.find(w)

                t.endchar = start_char + value.find(w) + len(w)

            yield t

def ChineseAnalyzer():

    return ChineseTokenizer()

复制whoosh_backend.py文件，改名为whoosh_cn_backend.py

from .ChineseAnalyzer import ChineseAnalyzer

查找

analyzer=StemmingAnalyzer()

改为

analyzer=ChineseAnalyzer()

生成索引

初始化索引：

python manage.py rebuild_index

在模板中创建搜索栏

<form method='get' action="/search/" target="_blank">

    <input type="text" name="q">

    <input type="submit" value="查询">

</form>

关于全文索引使用的固定参数一些说明：

我们打开haystack第三方包中的urls文件

haystack

    ----urls.py        

# encoding: utf-8

from __future__ import absolute_import, division, print_function, unicode_literals

from django.conf.urls import url

from haystack.views import SearchView

urlpatterns = [

    url(r'^$', SearchView(), name='haystack_search'),

]

然后进入haystack.views 文件

#这里将搜索显示的数据默认为20个
RESULTS_PER_PAGE = getattr(settings, 'HAYSTACK_SEARCH_RESULTS_PER_PAGE', 20)


#在search文件下的search

template = 'search/search.html'

extra_context = {}

query = ''

results = EmptySearchQuerySet()

request = None

form = None

results_per_page = RESULTS_PER_PAGE

更多详情请看

haystack.views.py

# encoding: utf-8

from __future__ import absolute_import, division, print_function, unicode_literals

from django.conf import settings

from django.core.paginator import InvalidPage, Paginator

from django.http import Http404

from django.shortcuts import render

from haystack.forms import FacetedSearchForm, ModelSearchForm

from haystack.query import EmptySearchQuerySet

RESULTS_PER_PAGE = getattr(settings, 'HAYSTACK_SEARCH_RESULTS_PER_PAGE', 20)

class SearchView(object):

    template = 'search/search.html'

    extra_context = {}

    query = ''

    results = EmptySearchQuerySet()

    request = None

    form = None

    results_per_page = RESULTS_PER_PAGE

    def __init__(self, template=None, load_all=True, form_class=None, searchqueryset=None, results_per_page=None):

        self.load_all = load_all

        self.form_class = form_class

        self.searchqueryset = searchqueryset

        if form_class is None:

            self.form_class = ModelSearchForm

        if not results_per_page is None:

            self.results_per_page = results_per_page

        if template:

            self.template = template

    def __call__(self, request):

        """

        Generates the actual response to the search.

        Relies on internal, overridable methods to construct the response.

        """

        self.request = request

        self.form = self.build_form()

        self.query = self.get_query()

        self.results = self.get_results()

        return self.create_response()

    def build_form(self, form_kwargs=None):

        """

        Instantiates the form the class should use to process the search query.

        """

        data = None

        kwargs = {

            'load_all': self.load_all,

        }

        if form_kwargs:

            kwargs.update(form_kwargs)

        if len(self.request.GET):

            data = self.request.GET

        if self.searchqueryset is not None:

            kwargs['searchqueryset'] = self.searchqueryset

        return self.form_class(data, **kwargs)

    def get_query(self):

        """

        Returns the query provided by the user.

        Returns an empty string if the query is invalid.

        """

        if self.form.is_valid():

            return self.form.cleaned_data['q']

        return ''

    def get_results(self):

        """

        Fetches the results via the form.

        Returns an empty list if there's no query to search with.

        """

        return self.form.search()

    def build_page(self):

        """

        Paginates the results appropriately.

        In case someone does not want to use Django's built-in pagination, it

        should be a simple matter to override this method to do what they would

        like.

        """

        try:

            page_no = int(self.request.GET.get('page', 1))

        except (TypeError, ValueError):

            raise Http404("Not a valid number for page.")

        if page_no < 1:

            raise Http404("Pages should be 1 or greater.")

        start_offset = (page_no - 1) * self.results_per_page

        self.results[start_offset:start_offset + self.results_per_page]

        paginator = Paginator(self.results, self.results_per_page)

        try:

            page = paginator.page(page_no)

        except InvalidPage:

            raise Http404("No such page!")

        return (paginator, page)

    def extra_context(self):

        """

        Allows the addition of more context variables as needed.

        Must return a dictionary.

        """

        return {}

    def get_context(self):

        (paginator, page) = self.build_page()

        context = {

            'query': self.query,

            'form': self.form,

            'page': page,

            'paginator': paginator,

            'suggestion': None,

        }

        if hasattr(self.results, 'query') and self.results.query.backend.include_spelling:

            context['suggestion'] = self.form.get_suggestion()

        context.update(self.extra_context())

        return context

    def create_response(self):

        """

        Generates the actual HttpResponse to send back to the user.

        """

        context = self.get_context()

        return render(self.request, self.template, context)

def search_view_factory(view_class=SearchView, *args, **kwargs):

    def search_view(request):

        return view_class(*args, **kwargs)(request)

    return search_view

class FacetedSearchView(SearchView):

    def __init__(self, *args, **kwargs):

        # Needed to switch out the default form class.

        if kwargs.get('form_class') is None:

            kwargs['form_class'] = FacetedSearchForm

        super(FacetedSearchView, self).__init__(*args, **kwargs)

    def build_form(self, form_kwargs=None):

        if form_kwargs is None:

            form_kwargs = {}

        # This way the form can always receive a list containing zero or more

        # facet expressions:

        form_kwargs['selected_facets'] = self.request.GET.getlist("selected_facets")

        return super(FacetedSearchView, self).build_form(form_kwargs)

    def extra_context(self):

        extra = super(FacetedSearchView, self).extra_context()

        extra['request'] = self.request

        extra['facets'] = self.results.facet_counts()

        return extra

def basic_search(request, template='search/search.html', load_all=True, form_class=ModelSearchForm, searchqueryset=None, extra_context=None, results_per_page=None):

    """

    A more traditional view that also demonstrate an alternative

    way to use Haystack.

    Useful as an example of for basing heavily custom views off of.

    Also has the benefit of thread-safety, which the ``SearchView`` class may

    not be.

    Template:: ``search/search.html``

    Context::

        * form

          An instance of the ``form_class``. (default: ``ModelSearchForm``)

        * page

          The current page of search results.

        * paginator

          A paginator instance for the results.

        * query

          The query received by the form.

    """

    query = ''

    results = EmptySearchQuerySet()

    if request.GET.get('q'):

        form = form_class(request.GET, searchqueryset=searchqueryset, load_all=load_all)

        if form.is_valid():

            query = form.cleaned_data['q']

            results = form.search()

    else:

        form = form_class(searchqueryset=searchqueryset, load_all=load_all)

    paginator = Paginator(results, results_per_page or RESULTS_PER_PAGE)

    try:

        page = paginator.page(int(request.GET.get('page', 1)))

    except InvalidPage:

        raise Http404("No such page of results!")

    context = {

        'form': form,

        'page': page,

        'paginator': paginator,

        'query': query,

        'suggestion': None,

    }

    if results.query.backend.include_spelling:

        context['suggestion'] = form.get_suggestion()

    if extra_context:

        context.update(extra_context)

    return render(request, template, context)

django-全文检索的更多相关文章

django全文检索
-------------------linux下配置操作1.在虚拟环境中依次安装包 1.pip install django-haystack haystack:django的一个包,可以方便地对m ...
Django全文检索（django-haystack+whoosh+jieba）
前言: 全文检索就是针对所有内容进行动态匹配搜索的概念,针对特定的关键词建立索引并精确匹配达到性能优化的目的 class Whoose_seach(object): analyzer = Chines ...
使用haystack实现django全文检索搜索引擎功能
前言 django是python语言的一个web框架,功能强大.配合一些插件可为web网站很方便地添加搜索功能. 搜索引擎使用whoosh,是一个纯python实现的全文搜索引擎,小巧简单. 中文搜索 ...
Django:全文检索功能可参考博客
https://blog.csdn.net/AC_hell/article/details/52875927 https://www.zmrenwu.com/courses/django-blog-t ...
Django实现组合搜索的方法示例
目录一.实现方法二.基本原理三.代码样例方法1:纯模板语言实现方法二:使用simpletag实现四.其他变化 1.model定义 2.处理函数变化 3.simpletag相应改变一. ...
Django--全文检索功能
经过两个月的时间,毕设终于算是把所有主要功能都完成了,最近这一周为了实现全文检索的功能,也算是查阅了不少资料,今天就在这里记录一下,以免以后再用到时抓瞎了~ 首先介绍一下我使用的Django全文检索逻 ...
Django Haystack 全文检索与关键词高亮
Django Haystack 简介 django-haystack 是一个专门提供搜索功能的 django 第三方应用,它支持 Solr.Elasticsearch.Whoosh.Xapian 等多 ...
django框架中的全文检索Haystack
1.什么是Haystack Haystack是django的开源全文搜索框架(全文检索不同于特定字段的模糊查询,使用全文检索的效率更高 ),该框架支持Solr,Elasticsearch,Whoosh ...
Django：haystack全文检索详细教程
参考:https://blog.csdn.net/AC_hell/article/details/52875927 一.安装第三方库及配置 1.1 安装插件 pip install whoosh dj ...
django之全文检索
全文检索全文检索不同于特定字段的模糊查询,使用全文检索的效率更高,并且能够对于中文进行分词处理 haystack:django的一个包,可以方便地对model里面的内容进行索引.搜索,设计为支持wh ...

随机推荐

lua breakpoint
http://blog.codingnow.com/2016/11/lua_debugger.html It aims to separate debug code from host code. A ...
JS关闭窗口或JS关闭页面的几种代码！
第一种:JS定时自动关闭窗口 <script language="javascript"> <!-- function closewin(){ self.open ...
转---单页面应用下的JS内存管理
正文从这开始- 内存问题对于后端童鞋而言可能是家常便饭,特别是C++童鞋.我在实习时做过半年的c++游戏客户端开发(也是前端开发哦),也见识了各式各样的内存问题,就说说我的第一个坑,当时做个需求,就是 ...
修改tomcat默认端口号
修改tomcat端口号端口修改tomcat tomcat服务器的默认端口号是8080 1 只启动一个tomcat的情况当我们不想使用8080端口,需要修改为其他端口时,我们可以: 1, 打开tom ...
设计模式《JAVA与模式》之备忘录模式
在阎宏博士的<JAVA与模式>一书中开头是这样描述备忘录(Memento)模式的: 备忘录模式又叫做快照模式(Snapshot Pattern)或Token模式,是对象的行为模式. 备忘录 ...
iOS开发之Todo List for Swift项目
一直从事Windows Phone开发,但对iOS开发一直有所好奇,于是在MBP到手之际,顺手安装了Xcode.移动互联网开发的相似性,使得我能快速地了解和认识了iOS的开发框架体系,在看完了Appl ...
【disruptor】2、disruptor中生产者线程与消费者之间的协调
由于ringbuffer是一个环形的队列,那么生产者和消费者在遍历这个队列的时候,如何制衡呢? 1.生产快,消费慢,数据丢失? 生产者速度过快,导致一个对象还没消费完,就循环生产了一个新的对象要加入r ...
利用净现值（NPV）分析对比方案的可行性
最近在学经济管理方面课程,发现一个挺有意思的例题,mark一下. 题目描述某投资项目有A.B两个方案,有关数据如下表,基准折现率为10%,请问那个方案较优? 项目 A方案 B方案投资 15 3 年 ...
odoo开发基础--模型之基本字段类型
定义模型的时候,和python的其他框架类似,可以对比Django,同样是一个模型即:一个class对应生成数据库中的一张表, 只是odoo的继承机制比较复杂一点,在日常的开发中,定义模型的时候, 基 ...
Oracle的卸载过程步骤
用Oracle自带的卸载程序不能从根本上卸载Oracle,从而为下次的安装留下隐患,那么怎么才能完全卸载Oracle呢?那就是直接注册表清除,步骤如下: 1. 开始->设置->控制面板-& ...