python 操作solr索引数据

　　测试代码1：

    def test(self):

        data = {"add": {"doc": {"id": "", "*字段名*": u"我是一个大好人"}}}

        params = {"boost": 1.0, "overwrite": "true", "commitWithin": 1000}

        url = 'http://127.0.0.1:8983/solr/mycore/update?wt=json'

        headers = {"Content-Type": "application/json"}

        r = requests.post(url, json=data, params=params, headers=headers)

        print r.text

    def Index_data(self):

        solr = pysolr.Solr('http://127.0.0.1:8983/solr/mycore/', timeout=10)

        # How you'd index data.

        result = solr.add([

            {

                "id": "doc_1",

                "title": "A test document",

            },

            {

                "id": "doc_2",

                "title": "The Banana: Tasty or Dangerous?",

            },

        ])

        print result

测试代码2

实际数据：

  def Index_Data_FromCSV(self, csvfile):

        '''

            从CSV文件中读取数据，并索引到solr中

            :param csvfile: csv文件，包括完整路径

            :return:

            '''

        list = CSVOP.ReadCSV(csvfile)

        index = 0

        doc = {}

        params = {"boost": 1.0, "overwrite": "true", "commitWithin": 1000}

        url = 'http://127.0.0.1:8983/solr/mycore/update?wt=json'

        headers = {"Content-Type": "application/json"}

        for item in list:

            if index > 0:  # 第一行是标题

                try:

                    doc['title'] = item[0].decode('GB2312')

                    doc['link'] = item[1]

                    # doc['date'] = item[2]

                    doc['source'] = item[3].decode('GB2312')

                    doc['keyword'] = item[4].decode('GB2312')

                    data = {"add": {"doc": doc}}

                    r = requests.post(url, json=data, params=params, headers=headers)

                    print r.text

                except Exception,e:

                    print e.message

            print index

            index += 1

#pysolr客户端代码

    def pysolr_Index_Data_FromCSV(self, csvfile,url='http://127.0.0.1:8983/solr/mycore/'):

        '''

            从CSV文件中读取数据，并索引到solr中

            :param csvfile: csv文件，包括完整路径

            :return:

            '''

        list = CSVOP.ReadCSV(csvfile)

        index = 0

        listdocs = []

        for item in list:

            if index > 0:  # 第一行是标题

                doc = {}

                try:

                    doc['title'] = item[0].decode('GB2312')

                    doc['link'] = item[1]

                    # doc['date'] = item[2]

                    doc['source'] = item[3].decode('GB2312')

                    doc['keyword'] = item[4].decode('GB2312')

                    listdocs.append(doc)

                except Exception,e:

                    print e.message

            index += 1

        solr = pysolr.Solr(url, timeout=10)

        result = solr.add(listdocs)

        print result

查询代码：

     def search_data(self,message='视频'):

        url = 'http://127.0.0.1:8983/solr/mycore/select?q=title:"\%s"&wt=json&indent=true' % message

        r = requests.get(url, verify=False)

        print r.text

        r = r.json()['response']['numFound']

        print message + ":" + str(r)

     #pysolr客户端

     def search_data(self,where='视频',url='http://127.0.0.1:8983/solr/mycore/'):

        solr = pysolr.Solr(url, timeout=10)

        dict = {'start':10,'rows': 30,'fl':'title,keyword,source,link'}

        result = solr.search('title:视频',**dict)

        # result = solr.search('title:视频')

        # print result.raw_response['response']['numFound']

        for item in result:

            print 'keyword: %s'% item['keyword']

            print 'title: %s'% item['title']

            print 'source: %s'% item['source']

            print 'link: %s'% item['link']

            print '             '

输出结果：

{

  "responseHeader":{

    "status":0,

    "QTime":0,

    "params":{

      "q":"title:\"\\视频\"",

      "indent":"true",

      "wt":"json"}},

  "response":{"numFound":123,"start":0,"docs":[

      {

        "source":"中彩网",

        "link":"http://www.zhcw.com/video/kaijiangshipin-3D/11981126.shtml",

        "keyword":"视频",

        "title":"福彩3D开奖 视频 -中彩 视频",

        "id":"2f0a9d21-3771-4efa-a0cc-e0484cc97993",

        "_version_":1584214368617234432},

      {

        "source":"新浪视频",

        "link":"http://video.sina.com.cn/news/spj/topvideoes20170707/?opsubject_id=top1",

        "keyword":"视频",

        "title":"今日热门 视频 汇总20170707",

        "id":"c8aae0af-01e9-491f-b999-24b97004a4ba",

        "_version_":1584214367507841024},

      {

        "source":"网易新闻",

        "link":"http://news.163.com/17/0707/13/COOCNUIE00018AOR.html",

        "keyword":"视频",

        "title":"网传＂兰桂坊附近不雅 视频 ＂ 警方：传播 视频 将追责",

        "id":"353de48d-ede7-481b-89d3-bc20ab4b3884",

        "_version_":1584214367821365248},

      {

        "source":"凤凰视频",

        "link":"http://v.ifeng.com/video_7480871.shtml",

        "keyword":"视频",

        "title":"创想动画片：花粉过敏症的痛谁懂-凤凰 视频 -最具媒体品质的综合 视频 ...",

        "id":"dc5f19c4-180f-4004-a0db-4499d875a60f",

        "_version_":1584214366819975168},

      {

        "source":"凤凰视频",

        "link":"http://v.ifeng.com/video_7805858.shtml",

        "keyword":"视频",

        "title":"节气说：小暑时节就该这样养生-凤凰 视频 -最具媒体品质的综合 视频 门...",

        "id":"5e9eb7a7-48b8-4e41-9514-7712ae619d9a",

        "_version_":1584214367516229632},

      {

        "source":"凤凰视频",

        "link":"http://v.ifeng.com/video_7483506.shtml",

        "keyword":"视频",

        "title":"听导演讲《神奇女侠》的故事 -凤凰 视频 -最具媒体品质的综合 视频 门户-...",

        "id":"6b1482f1-c0c9-479f-bef7-7de324fb9372",

        "_version_":1584214367647301632},

      {

        "source":"汽车杂志",

        "link":"http://www.jiemian.com/article/1445267.html",

        "keyword":"视频",

        "title":"【视频】欧宝最近找了一堆穿睡衣的辣妈拍了一段超牛的视频",

        "id":"1d327555-a6f3-4513-9a21-43d59418ab82",

        "_version_":1584214368157958144},

      {

        "source":"味觉大师",

        "link":"http://www.jiemian.com/article/1453545.html",

        "keyword":"视频",

        "title":"【视频】大董没有肉的肉味烧茄子",

        "id":"7d777870-93cb-4c18-a32b-734af8f133f1",

        "_version_":1584213891451191296},

      {

        "source":"新浪汽车",

        "link":"http://auto.sina.com.cn/video/zz/2017-07-07/detail-ifyhwehx5311889.shtml",

        "keyword":"视频",

        "title":"视频 ：两大神车pk！高尔夫思域怎么选？",

        "id":"3a50b303-6b54-4da3-aee1-a61c678c752d",

        "_version_":1584213892090822656},

      {

        "source":"味觉大师",

        "link":"http://www.jiemian.com/article/1453545.html",

        "keyword":"视频",

        "title":"【视频】大董没有肉的肉味烧茄子",

        "id":"01da8e11-77bc-4c31-ba3a-ba668e846d9d",

        "_version_":1584214366191878144}]

  }}

完整代码：

#-*- coding: UTF-8 -*-

import csv

import os

import codecs

def ReadCSV(filename):

    if os.path.exists(filename):

        with open(filename, 'r') as f:

            reader = csv.reader(f)

            list = []

            for item in reader:

                list.append(item)

            return list

#################################################

#coding=utf-8

import json

import requests

import os

import time

from os import walk

import CSVOP

from datetime import datetime

import pysolr

import math

class SolrClientObj:

    def test(self):

        data = {"add": {"doc": {"id": "", "*字段名*": u"我是一个大好人"}}}

        params = {"boost": 1.0, "overwrite": "true", "commitWithin": 1000}

        url = 'http://127.0.0.1:8983/solr/mycore/update?wt=json'

        headers = {"Content-Type": "application/json"}

        r = requests.post(url, json=data, params=params, headers=headers)

        print r.text

    def pysolr_Index_Data_FromCSV(self, csvfile,url='http://127.0.0.1:8983/solr/mycore/'):

        '''

            从CSV文件中读取数据，并索引到solr中

            :param csvfile: csv文件，包括完整路径

            :return:

            '''

        list = CSVOP.ReadCSV(csvfile)

        index = 0

        listdocs = []

        for item in list:

            if index > 0:  # 第一行是标题

                doc = {}

                try:

                    doc['title'] = item[0].decode('GB2312')

                    doc['link'] = item[1]

                    # doc['date'] = item[2]

                    doc['source'] = item[3].decode('GB2312')

                    doc['keyword'] = item[4].decode('GB2312')

                    listdocs.append(doc)

                except Exception,e:

                    print e.message

            index += 1

        solr = pysolr.Solr(url, timeout=10)

        result = solr.add(listdocs)

        print result

    def Index_Data_FromCSV(self, csvfile):

        '''

            从CSV文件中读取数据，并索引到solr中

            :param csvfile: csv文件，包括完整路径

            :return:

            '''

        list = CSVOP.ReadCSV(csvfile)

        index = 0

        doc = {}

        params = {"boost": 1.0, "overwrite": "true", "commitWithin": 1000}

        url = 'http://127.0.0.1:8983/solr/mycore/update?wt=json'

        headers = {"Content-Type": "application/json"}

        for item in list:

            if index > 0:  # 第一行是标题

                try:

                    doc['title'] = item[0].decode('GB2312')

                    doc['link'] = item[1]

                    # doc['date'] = item[2]

                    doc['source'] = item[3].decode('GB2312')

                    doc['keyword'] = item[4].decode('GB2312')

                    data = {"add": {"doc": doc}}

                    r = requests.post(url, json=data, params=params, headers=headers)

                    print r.text

                except Exception,e:

                    print e.message

            print index

            index += 1

    def Index_data(self):

        solr = pysolr.Solr('http://127.0.0.1:8983/solr/mycore/', timeout=10)

        # How you'd index data.

        result = solr.add([

            {

                "id": "doc_1",

                "title": "A test document",

            },

            {

                "id": "doc_2",

                "title": "The Banana: Tasty or Dangerous?",

            },

        ])

        print result

    def search_data(self,where='视频',url='http://127.0.0.1:8983/solr/mycore/'):

        solr = pysolr.Solr(url, timeout=10)

        dict = {'start':10,'rows': 30,'fl':'title,keyword,source,link'}

        result = solr.search('title:视频',**dict)

        # result = solr.search('title:视频')

        # print result.raw_response['response']['numFound']

        for item in result:

            print 'keyword: %s'% item['keyword']

            print 'title: %s'% item['title']

            print 'source: %s'% item['source']

            print 'link: %s'% item['link']

            print '             '

    def delete_index_data(self,where,url='http://127.0.0.1:8983/solr/mycore/'):

        '''

        删除索引

        :param where: 删除的条件

        :param url: url

        :return:

        '''

        solr = pysolr.Solr(url, timeout=10)

        # solr.delete(id=where) #id='id1':删除id为“id1”的索引

        result = solr.delete(q=where) #q='*:*'删除所有索引

        print result

obj = SolrClientObj()

# obj.delete_index_data('*:*') #删除所有索引

# obj.Index_data()

# obj.search_data()

# obj.delete_index_data('doc_1')

obj.search_data('视频')

# csvfile = 'D:/work/Solr/other/exportExcels/2017-07-07_info.csv'

# obj.pysolr_Index_Data_FromCSV(csvfile)

python 操作solr索引数据的更多相关文章

使用solrj操作solr索引库
(solrj)初次使用solr的开发人员总是很郁闷,不知道如何去操作solr索引库,以为只能用<五分钟solr4.5教程(搭建.运行)>中讲到的用xml文件的形式提交数据到索引库,其实没有 ...
使用solrj操作solr索引库,solr是lucene服务器
客户端开发 Solrj 客户端开发 Solrj Solr是搭建好的lucene服务器当然不可能完全满足一般的业务需求可能要针对各种的架构和业务调整这里就需要用到Solrj了 Solrj是Sol ...
[solr] - 索引数据删除
删除solr索引数据,使用XML有两种写法: 1) <delete><id>1</id></delete> <commit/> 2) < ...
Solr(六)Solr索引数据存放到HDFS下
Solr索引数据存放到HDFS下一新建solr core hdfs 方法:http://www.cnblogs.com/Matchman/p/7287385.html 二修改solrconfig ...
[转][solr] - 索引数据删除
删除solr索引数据,使用XML有两种写法: 1) <delete><id>1</id></delete> <commit/> 2) < ...
Solr索引数据
一般来说,索引是系统地排列文档或(其他实体).索引使用户能够在文档中快速地查找信息. 索引集合,解析和存储文档. 索引是为了在查找所需文档时提高搜索查询的速度和性能. 在Apache Solr中的索引 ...
(二) solr 索引数据导入：xml格式
xml 是最常用的数据索引格式,不仅可以索引数据,还可以对文档与字段进行增强,从而改变它们的重要程度. 下面就是具体的实现方式: schema.xml的字段配置部分如下: <field name ...
Java solr 索引数据增删改查
具体代码如下: import java.io.IOException; import java.util.*; import org.apache.solr.client.solrj.SolrClie ...
企业级搜索引擎Solr 第三章索引数据（Indexing Data）[1]
转载:http://quweiprotoss.wap.blog.163.com/ Push data to Solr or have Solr pull it 尽管一个应用通过HTTP方式与Solr通 ...

随机推荐

Opencv 中透视变换函数对IplImage图像变换时出现的问题？
最近一直在做视频稳像的项目,为了简化部分实现,使用了部分Opencv的函数,其中包括Opencv中对IplImage进行同时变换的函数cvWarpPerspective(src, dst,...) 发 ...
time,random，os,sys,序列化模块
一.time模块表示时间的三种方式在Python中,通常有这三种方式来表示时间:时间戳.元组(struct_time).格式化的时间字符串: (1)时间戳(timestamp) :通常来说,时间戳 ...
tmux下make menuconfig背景色不正常问题
参考https://blog.tankywoo.com/2015/10/24/tmux-mutt-not-redraw-problem.html 是由于~/.bashrc或~/.zshrc设置,覆盖了 ...
预处理ifndef
#ifdef 详解这几个宏是为了进行条件编译.一般情况下,源程序中所有的行都参加编译.但是有时希望对其中一部分内容只在满足一定条件才进行编译,也就是对一部分内容指定编译的条件,这就是“条件编译”.有 ...
mybatis generator 生成javabean自定义类型转换
因为默认mybatis generator自动生成的,带小数的都转成了bigdecimal了,而且长度不同的整数转成了不同的类型. 但是我想要带小数的转成double,整数转成integer. 所有自 ...
1.tornado实现高并发爬虫
from pyquery import PyQuery as pq from tornado import ioloop, gen, httpclient, queues from urllib.pa ...
hihocoder-第六十一周 Combination Lock
题目1 : Combination Lock 时间限制:10000ms 单点时限:1000ms 内存限制:256MB 描述 Finally, you come to the interview roo ...
java javac 的区别
cmd中,执行java命令与javac命令的区别: javac:是编译命令,将java源文件编译成.class字节码文件. 例如:javac hello.java 将生成hello.class文件 j ...
C# DataGridView分页显示
//导入命名空间部分省略 DBClass.DBExecute dbexecute = new DBExecute(); string connectionString = @"Data So ...
php（间接）调用nmap命令时的选项特殊点
使用php调用pythn-nmap时,发现无法正常执行扫描动作将nmap命令直接写入php,由后者调用,发现仍然无法执行,提示需要添加“-Pn”选项原来是: 正常情况下:nmap -n host ...

python 操作solr索引数据

python 操作solr索引数据的更多相关文章

随机推荐

热门专题