python问答模块

 """

 该模块功能：获取用户的输入文本，通过输入文本和数据库中的关键主题文本相比较，

 获取最佳的回答内容

 """

 import xlrd

 import jieba

 import nltk

 # 读取excel表格内的数据

 def read_excel(filepath):

     # 定义一个字典,动态建立一个字典

     map_dict = {}

     data = xlrd.open_workbook(filepath)

     table = data.sheets()[0]

     # 获取表格行数和列数

     nrows = table.nrows

     ncols = table.ncols

     # 获取表格第1列的内容,内容是一个list

     s = table.col_values(1)[1:]

     # 获取长度

     length = len(s)

     # 迭代每一个元素进行处理

     for each in range(length):

         each_string = s[each]

         # 分离出title和对应的解释

         word_key, word_value = each_string.split(':')

         # 把数据放入一个字典中,以键值对的形式存在

         map_dict[word_key] = word_value

     print(map_dict)

     return map_dict

     # 已经将数据放入到字典里，接下来是使用数据了

     # 通过语音输入一个关键字，这个关键字对应字典的键，采用什么样的模型实现这两个的映射，找到对应的键值就可以找到需要的答案，这就是思路

     # 假设已经获得了一个输入字符

     # input_string = "货币型基金"

     # 获取字典的键

     # title_key = list(map_dict.keys())

     # print(title_key)

     # 中间环节，实现input_string和title_key 的映射，相似度匹配

     # 最后，根据键获取值

     # content_value = map_dict.get(input_string)

     # print(content_value)

 # 统计key中各个词频

 def solve_word(word_key):

     seg_list = []

     for each in word_key:

         temp_string = list(jieba.cut(each))

         seg_list.extend(temp_string)

     print(len(seg_list))

     # 得到结果列表

     seg_list = set(seg_list)

     print(seg_list)

 # 计算两句话的相似程度模板

 # 　　句子A：我喜欢看电视，不喜欢看电影。

 # 　　句子B：我不喜欢看电视，也不喜欢看电影。

 def calc_sentence_similarity(sentence_A, sentence_B):

     # sentence_A = "我喜欢看电视，不喜欢看电影"

     # sentence_B = "我不喜欢看电视，计算两句话的相似程度模板"

     # 第一步，分词

     segment_A = list(jieba.cut(sentence_A))

     segment_B = list(jieba.cut(sentence_B))

     # print(segment_A)

     # print(segment_B)

     # 第二步，列出所有的词

     all_words = set(segment_A + segment_B)

     # print(all_words)

     # 第三步，统计词频。放到字典里面，遍历all_words,看句子A和句子B都是各有多少

 # 　　句子A：我 1，喜欢 2，看 2，电视 1，电影 1，不 1，也 0。

 # 　　句子B：我 1，喜欢 2，看 2，电视 1，电影 1，不 2，也 1。

     frequency_dict_A = {}

     frequency_dict_B = {}

     if all_words is not None:

         for t in all_words:

             frequency_dict_A[t] = segment_A.count(t)

             frequency_dict_B[t] = segment_B.count(t)

     # print(frequency_dict_A)

     # print(frequency_dict_B)

     # 第四步，写出词频向量

     word_frequency_vector_A = list(frequency_dict_A.values())

     word_frequency_vector_B = list(frequency_dict_B.values())

     # print(word_frequency_vector_A)

     # print(word_frequency_vector_B)

     # 第五步，计算两个向量的相似度，夹角的余弦

     return cos_vector(word_frequency_vector_A, word_frequency_vector_B)

 def cos_vector(x, y):

     if(len(x) != len(y)):

         print('输入错误，两个向量不在一个向量空间')

         return

     result1 = 0.0

     result2 = 0.0

     result3 = 0.0

     for i in range(len(x)):

         result1 += x[i]*y[i]   #sum(X*Y)

         result2 += x[i]**2     #sum(X*X)

         result3 += y[i]**2     #sum(Y*Y)

     # print("两个向量的夹角的余弦值："+str(result1/((result2*result3)**0.5))) #结果显示

     return result1/((result2*result3)**0.5)

 # 问句匹配，找出问题的结果

 def find_result(input_string, word_dict):

     # 获取用户的输入，将其和数据库中的每一个数据进行对比，计算相似度

     # input_string = "票汇汇款"

     temp_dict = {}

     for temp_string in word_dict.keys():

         # 计算相似度,key:要查找的字符串；value:相似度的值。max(d.items(),key=lambda x:x[1])[0]

         temp_dict[temp_string] = calc_sentence_similarity(input_string, temp_string)

     max_value_key = max(temp_dict, key=temp_dict.get)

     # 得到对应的文本

     text_result = word_dict.get(max_value_key)

     print(max_value_key)

     print(text_result)

 #   调用主程序

 def read_get_answer(file_path, input_string):

     # 数据源,    file_path = "./data/word_instruction.xls"

     # 获取用户文本,    input_string = "我想知道什么是止付卡"

     # 读入数据,返回字典

     word_dict = read_excel(file_path)

     # 计算相似度

     find_result(input_string, word_dict)

 if __name__ == '__main__':

     # 数据源

     file_path = "./data/word_instruction.xls"

     # 获取用户文本

     input_string = "我想知道什么是止付卡"

     # 读入数据,返回字典

     word_dict = read_excel(file_path)

     # 计算相似度

     find_result(input_string, word_dict)

"""
该模块功能：获取用户的输入文本，通过输入文本和数据库中的关键主题文本相比较，
获取最佳的回答内容
"""
import xlrd
import jieba
import nltk

# 读取excel表格内的数据
def read_excel(filepath):
    # 定义一个字典,动态建立一个字典
map_dict = {}
    data = xlrd.open_workbook(filepath)
    table = data.sheets()[]
    # 获取表格行数和列数
    nrows = table.nrows
    ncols = table.ncols
    # 获取表格第1列的内容,内容是一个list
s = table.col_values()[:]
    # 获取长度
length = len(s)
    # 迭代每一个元素进行处理
for each in range(length):
        each_string = s[each]
        # 分离出title和对应的解释
word_key, word_value = each_string.split(':')
        # 把数据放入一个字典中,以键值对的形式存在
map_dict[word_key] = word_value

    print(map_dict)
    return map_dict
    # 已经将数据放入到字典里，接下来是使用数据了
    # 通过语音输入一个关键字，这个关键字对应字典的键，采用什么样的模型实现这两个的映射，找到对应的键值就可以找到需要的答案，这就是思路

    # 假设已经获得了一个输入字符
    # input_string = "货币型基金"
    # 获取字典的键
    # title_key = list(map_dict.keys())
    # print(title_key)

    # 中间环节，实现input_string和title_key 的映射，相似度匹配

    # 最后，根据键获取值
    # content_value = map_dict.get(input_string)
    # print(content_value)

# 统计key中各个词频
def solve_word(word_key):
    seg_list = []

    for each in word_key:
        temp_string = list(jieba.cut(each))
        seg_list.extend(temp_string)
    print(len(seg_list))
    # 得到结果列表
seg_list = set(seg_list)
    print(seg_list)

# 计算两句话的相似程度模板
# 　　句子A：我喜欢看电视，不喜欢看电影。
# 　　句子B：我不喜欢看电视，也不喜欢看电影。
def calc_sentence_similarity(sentence_A, sentence_B):
    # sentence_A = "我喜欢看电视，不喜欢看电影"
    # sentence_B = "我不喜欢看电视，计算两句话的相似程度模板"

    # 第一步，分词
segment_A = list(jieba.cut(sentence_A))
    segment_B = list(jieba.cut(sentence_B))
    # print(segment_A)
    # print(segment_B)

    # 第二步，列出所有的词
all_words = set(segment_A + segment_B)
    # print(all_words)

    # 第三步，统计词频。放到字典里面，遍历all_words,看句子A和句子B都是各有多少
# 　　句子A：我 1，喜欢 2，看 2，电视 1，电影 1，不 1，也 0。
# 　　句子B：我 1，喜欢 2，看 2，电视 1，电影 1，不 2，也 1。
frequency_dict_A = {}
    frequency_dict_B = {}
    if all_words is not None:
        for t in all_words:
            frequency_dict_A[t] = segment_A.count(t)
            frequency_dict_B[t] = segment_B.count(t)
    # print(frequency_dict_A)
    # print(frequency_dict_B)

    # 第四步，写出词频向量
word_frequency_vector_A = list(frequency_dict_A.values())
    word_frequency_vector_B = list(frequency_dict_B.values())
    # print(word_frequency_vector_A)
    # print(word_frequency_vector_B)

    # 第五步，计算两个向量的相似度，夹角的余弦
return cos_vector(word_frequency_vector_A, word_frequency_vector_B)

def cos_vector(x, y):
    if(len(x) != len(y)):
        print('输入错误，两个向量不在一个向量空间')
        return
result1 = 0.0
result2 = 0.0
result3 = 0.0
for i in range(len(x)):
        result1 += x[i]*y[i]   #sum(X*Y)
result2 += x[i]**2     #sum(X*X)
result3 += y[i]**2     #sum(Y*Y)
    # print("两个向量的夹角的余弦值："+str(result1/((result2*result3)**0.5))) #结果显示
return result1/((result2*result3)**0.5)

# 问句匹配，找出问题的结果
def find_result(input_string, word_dict):
    # 获取用户的输入，将其和数据库中的每一个数据进行对比，计算相似度
    # input_string = "票汇汇款"
temp_dict = {}
    for temp_string in word_dict.keys():
        # 计算相似度,key:要查找的字符串；value:相似度的值。max(d.items(),key=lambda x:x[1])[0]
temp_dict[temp_string] = calc_sentence_similarity(input_string, temp_string)

    max_value_key = max(temp_dict, key=temp_dict.get)
    # 得到对应的文本
text_result = word_dict.get(max_value_key)
    print(max_value_key)
    print(text_result)

#   调用主程序
def read_get_answer(file_path, input_string):
    # 数据源,    file_path = "./data/word_instruction.xls"
    # 获取用户文本,    input_string = "我想知道什么是止付卡"
    # 读入数据,返回字典
word_dict = read_excel(file_path)
    # 计算相似度
find_result(input_string, word_dict)

if __name__ == '__main__':
    # 数据源
file_path = "./data/word_instruction.xls"
# 获取用户文本
input_string = "我想知道什么是止付卡"
# 读入数据,返回字典
word_dict = read_excel(file_path)
    # 计算相似度
find_result(input_string, word_dict)

python问答模块的更多相关文章

Python MySQLdb模块连接操作mysql数据库实例_python
mysql是一个优秀的开源数据库,它现在的应用非常的广泛,因此很有必要简单的介绍一下用python操作mysql数据库的方法.python操作数据库需要安装一个第三方的模块,在http://mysql ...
Python标准模块--threading
1 模块简介 threading模块在Python1.5.2中首次引入,是低级thread模块的一个增强版.threading模块让线程使用起来更加容易,允许程序同一时间运行多个操作. 不过请注意,P ...
Python的模块引用和查找路径
模块间相互独立相互引用是任何一种编程语言的基础能力.对于“模块”这个词在各种编程语言中或许是不同的,但我们可以简单认为一个程序文件是一个模块,文件里包含了类或者方法的定义.对于编译型的语言,比如C#中 ...
Python Logging模块的简单使用
前言日志是非常重要的,最近有接触到这个,所以系统的看一下Python这个模块的用法.本文即为Logging模块的用法简介,主要参考文章为Python官方文档,链接见参考列表. 另外,Python的H ...
Python标准模块--logging
1 logging模块简介 logging模块是Python内置的标准模块,主要用于输出运行日志,可以设置输出日志的等级.日志保存路径.日志文件回滚等:相比print,具备如下优点: 可以通过设置不同 ...
python基础-模块
一.模块介绍 ...
python 安装模块
python安装模块的方法很多,在此仅介绍一种,不需要安装其他附带的pip等,python安装完之后,配置环境变量,我由于中英文分号原因,环境变量始终没能配置成功汗. 1:下载模块的压缩文件解压到任意 ...
python Queue模块
先看一个很简单的例子 #coding:utf8 import Queue #queue是队列的意思 q=Queue.Queue(maxsize=10) #创建一个queue对象 for i in ra ...
python logging模块可能会令人困惑的地方
python logging模块主要是python提供的通用日志系统,使用的方法其实挺简单的,这块就不多介绍.下面主要会讲到在使用python logging模块的时候,涉及到多个python文件的调 ...

随机推荐

LabVIEW中数组的自动索引
我们在LabVIEW里面使用While或者是For循环结构的时候,就会发现每一个循环中在它们的循环结构的边界都可以自动完成一个数组元素的索引或累积.LabVIEW中循环结构的这种能力就叫做自动索引(A ...
Docker 集群管理
docker systemd unit file [Unit] Description=Docker Application Container Engine Documentation=http:/ ...
双十二“MathType”限时6折特惠
MathType是由美国Design Science公司开发功能强大的公式编辑器,专门用来对数学公式的编辑,与常见的文字处理软件和演示程序配合使用,能够在各种文档中加入复杂的数学公式和符号.双十二期间 ...
什么是集群(Cluster)技术
什么是集群(Cluster)技术Cluster集群技术可如下定义:一组相互独立的服务器在网络中表现为单一的系统,并以单一系统的模式加以管理.此单一系统为客户工作站提供高可*性的服务.大多数模式下,集群 ...
07python之字符串的常用方法
字符串作为python中常用的数据类型,掌握字符串的常用方法十分必要. 常用知识点: 1.字符串的3种格式化方法 2.字符串的strip()方法 3.字符串的join()方法 4.字符串可以切片 1. ...
python2.0_s12_day9_mysql操作
mysql的基本语法: 1.数据库操作 show databases; create database 数据库名;如果想允许数据库可以写中文create database 数据库名 charset u ...
redis的初认识
Redis是一个开源,先进的key-value存储,并用于构建高性能,可扩展的Web应用程序的完美解决方案. Redis从它的许多竞争继承来的三个主要特点: Redis数据库完全在内存中,使用磁盘仅用 ...
len()
len() 用于统计序列的长度,字符串 .元组 .列表都属于序列 In [1]: str = "hello world" In [2]: len(str) Out[2]: 11
《转》python学习（3）
转自http://www.cnblogs.com/BeginMan/archive/2013/06/03/3114974.html 1.print语句调用str()函数显示,交互式解释器调用repr( ...
MQTT的学习研究（十)【转】mosquitto——一个开源的mqtt代理
MQTT(MQ Telemetry Transport),消息队列遥测传输协议,轻量级的发布/订阅协议,适用于一些条件比较苛刻的环境,进行低带宽.不可靠或间歇性的通信.值得一提的是mqtt提供三种不同 ...

python问答模块

python问答模块的更多相关文章

随机推荐

热门专题