在线问诊 Python、FastAPI、Neo4j

构建字典数据
构建 Trie 字典树
按实体组装字典
问题分析

将问题进行分析，和系统已有的分类进行关联

构建字典数据

将构建的知识图片字典化，用于后面对问题的解析，下图为症状的字典，其它字典同理

构建 Trie 字典树

将建字典数据，组装集合

cur_dir = '/'.join(os.path.abspath(__file__).split('/')[:-1])

# 　特征词路径

self.disease_path = os.path.join(cur_dir, '../dict/disease.txt')

self.check_path = os.path.join(cur_dir, '../dict/examine.txt')

self.drug_path = os.path.join(cur_dir, '../dict/drug.txt')

self.food_path = os.path.join(cur_dir, '../dict/food.txt')

self.symptom_path = os.path.join(cur_dir, '../dict/symptom.txt')

self.deny_path = os.path.join(cur_dir, '../dict/deny.txt')

# 加载数据

self.disease_wds = [i.strip() for i in open(self.disease_path, encoding="utf-8") if i.strip()]   # ['干眼', '右膝髌上囊及关节腔少量积液']

self.check_wds = [i.strip() for i in open(self.check_path, encoding="utf-8") if i.strip()]  # ['膝关节核磁', '视力', '砂眼', '辨色力', '角膜', '眼底']

self.drug_wds = [i.strip() for i in open(self.drug_path, encoding="utf-8") if i.strip()]

self.food_wds = [i.strip() for i in open(self.food_path, encoding="utf-8") if i.strip()]

self.symptom_wds = [i.strip() for i in open(self.symptom_path, encoding="utf-8") if i.strip()] # ['畏光','干涩','看东西有时候清楚有时候不清楚']

# 读出所有 dict 里面的字典数据，并拼接成一个大而全的 集合

# ['干眼', '右膝髌上囊及关节腔少量积液','膝关节核磁', '视力', '砂眼', '辨色力', '角膜', '眼底','畏光','干涩','看东西有时候清楚有时候不清楚']

self.region_words = set(self.disease_wds + self.check_wds + self.drug_wds + self.food_wds + self.symptom_wds)

构建 Trie 字典树

Trie字典树：https://www.cnblogs.com/vipsoft/p/17722820.html

Aho-Corasick 算法 AC自动机实现：https://www.cnblogs.com/vipsoft/p/17722761.html

# 目的是为了将来对用户提的问题，进行关键词快速提取

def build_actree(self, word_list):

    """

    构造actree，加速过滤

    :param word_list:

    :return:

    """

    actree = ahocorasick.Automaton()

    for index, word in enumerate(word_list):

        actree.add_word(word, (index, word))  # 向trie树中添加单词

    actree.make_automaton()

    return actree

按实体组装字典

# 将 ['干眼', '右膝髌上囊及关节腔少量积液','膝关节核磁', '视力', '砂眼', '辨色力', '角膜', '眼底']，进行分类，组装成不同类型的字典

def build_wdtype_dict(self):

    """

    构造词对应的类型

    :return:

    """

    wd_dict = dict()

    for wd in self.region_words:

        wd_dict[wd] = []

        if wd in self.disease_wds:

            wd_dict[wd].append('disease')

        if wd in self.check_wds:

            wd_dict[wd].append('check')

        if wd in self.drug_wds:

            wd_dict[wd].append('drug')

        if wd in self.food_wds:

            wd_dict[wd].append('food')

        if wd in self.symptom_wds:

            wd_dict[wd].append('symptom')

    return wd_dict

问题分析

通过AC算法，过滤关键词

# "请问最近看东西有时候清楚有时候不清楚是怎么回事"

def check_medical(self, question):

    """

    问句过滤

    :param question:

    :return:

    """

    region_wds = []

    for i in self.region_tree.iter(question):  # 从问题中，找出关键词

        wd = i[1][1]  # 看东西有时候清楚有时候不清楚

        region_wds.append(wd)

    stop_wds = []

    for wd1 in region_wds:

        for wd2 in region_wds:

            if wd1 in wd2 and wd1 != wd2:

                stop_wds.append(wd1)

    final_wds = [i for i in region_wds if i not in stop_wds]  # '看东西有时候清楚有时候不清楚'

    medical_dict = {i: self.wdtype_dict.get(i) for i in final_wds}  # {'看东西有时候清楚有时候不清楚': ['symptom']}

    return medical_dict

解析出问题的类型

data['args'] = medical_dict

# 若没有查到相关的外部查询信息，那么则将该疾病的描述信息返回

if question_types == [] and 'symptom' in types:

   question_types = ['symptom_disease']

# 将多个分类结果进行合并处理，组装成一个字典

data['question_types'] = question_types

输出字典

question = "请问最近看东西有时候清楚有时候不清楚是怎么回事"

# 最终输出

data = {'args': {'看东西有时候清楚有时候不清楚': ['symptom']}, 'question_types': ['symptom_disease']}

question = "干眼常用药有哪些"

# 最终输出

data = {'args': {'干眼': ['disease']}, 'question_types': ['disease_drug']}

question = "干眼哪些不能吃"

data = {'args': {'干眼': ['disease']}, 'question_types': ['disease_not_food']}

后面根据 question_types 生成 CQL语句

源代码地址：https://gitee.com/VipSoft/VipQA

在线问诊 Python、FastAPI、Neo4j — 构建问题分类器的更多相关文章

入门系列之Scikit-learn在Python中构建机器学习分类器
欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~ 本文由信姜缘发表于云+社区专栏介绍机器学习是计算机科学.人工智能和统计学的研究领域.机器学习的重点是训练算法以学习模式并根据数据进行预 ...
Python来袭，教你用Neo4j构建“复联4”人物关系图谱！
来源商业新知网,原标题:Python来袭,教你用Neo4j构建“复联4”人物关系图谱!没有剧透! 复仇者联盟之绝对不剧透漫威英雄们为了不让自己剧透也是使出了浑身解数.在洛杉矶全球首映礼上记者费尽心 ...
Python 和 Elasticsearch 构建简易搜索
Python 和 Elasticsearch 构建简易搜索作者:白宁超 2019年5月24日17:22:41 导读:件开发最大的麻烦事之一就是环境配置,操作系统设置,各种库和组件的安装.只有它们都正 ...
笔记13：Python 和 Elasticsearch 构建简易搜索
Python 和 Elasticsearch 构建简易搜索 1 ES基本介绍概念介绍 Elasticsearch是一个基于Lucene库的搜索引擎.它提供了一个分布式.支持多租户的全文搜索引擎,它可 ...
设置 Nuget 本地源、在线私有源、自动构建打包
设置 Nuget 本地源.在线私有源.自动构建打包本文演示如果在项目中生成 Nuget 包,并添加 Nuget 本地源,不用发布到 Nuget 服务器.再附带使用在线私有源的简单方法,以及提交代码自 ...
python查询neo4j的数据以字典的方式返回数据
在使用python操作neo4j的时候,如果查询的数据比较多,结构比较复杂的时候,返回的数据量会比较大,而且信息比较多,并且不唯一.所以写了该方法,用于查询比较复杂的数据. def query_gra ...
分析Python中解析构建数据知识
分析Python中解析构建数据知识 Python 可以通过各种库去解析我们常见的数据.其中 csv 文件以纯文本形式存储表格数据,以某字符作为分隔值,通常为逗号:xml 可拓展标记语言,很像超文本标记 ...
《机器学习实战》基于朴素贝叶斯分类算法构建文本分类器的Python实现
============================================================================================ <机器学 ...
python 3.5构建WINDOWS推送服务
import ConfigParser import os import sys cf = ConfigParser.ConfigParser() #绝对路径获取 ABSPATH=os.path.ab ...
基于 Python 官方 GitHub 构建 Python 文档
最近在学 Python,所以总是在看 Python 的官方文档, https://docs.python.org/2/ 因为祖传基因的影响,我总是喜欢把这些文档保存到本地,不过 Python 的文档实 ...

随机推荐

C++容器（vector、deque、list、map）
(1) vector:将元素置于一个动态数组中,可以随机存储元素(也就是用索引直接存取). 数组尾部添加或删除元素非常迅速.但在中部或头部就比较费时. *代码演示:* 取: at在下标越界时会抛出异常 ...
ProtocolBuffers的国际化和本地化支持
目录 1. 引言 2. 技术原理及概念 3. 实现步骤与流程 4. 应用示例与代码实现讲解 5. 优化与改进 34.< Protocol Buffers 的国际化和本地化支持> 本文将介绍 ...
LeetCode 双周赛 107（2023/06/24）滑动窗口与离散化
本文已收录到 AndroidFamily,技术和职场问题,请关注公众号 [彭旭锐] 和 [BaguTree Pro] 知识星球提问. 往期回顾:LeetCode 单周赛第 348 场 · 数位 DP ...
《Effective C++ 改善程序与设计的55个具体做法》读书笔记
1 .让自己习惯C++ 条款01 视C++为一个语言联邦 C Object-Oriented C++ Template C++ STL C++高效编程守则视情况而变化,取决于你使用C++的哪一部分. ...
多线程知识：三个线程如何交替打印ABC循环100次
本文博主给大家讲解一道网上非常经典的多线程面试题目.关于三个线程如何交替打印ABC循环100次的问题. 下文实现代码都基于Java代码在单个JVM内实现. 问题描述给定三个线程,分别命名为A.B.C ...
.NET表达式树
IQueryable/IQueryable 和表达式树 IQueryable有两个组件 Expression:当前查询的组件的与语言和数据源无关的表示形式,以表达式树的形式表示. Provider:L ...
linux内核编译中常用的目标（二）
文章目录一. 目标 all 或者空二. 目标 vmlinux 三. 目标 modules 四. 目标 Image/zImage/uImage 1.Image和zImage的区别 2.uImage ...
关于vue的一些使用总结
了解响应式原理后对代码的一点小重构在操作一个响应式变量的时候,可能会多次去取这个响应式变量的值,这就意味着会多次执行依赖收集中的get,可以用一个局部变量缓存下来,这样只需要一次get操作. // ...
Django: request.GET.get()
释义 query = request.GET.get('name', '') 寻找名为name的GET参数,而且如果参数没有提交,返回一个空的字符串. 对比request.GET() 如果使用requ ...
操作系统复习 MITS6.1810 lab util 记录
lab util sleep 介绍:主要用来熟悉下环境以及代码结构. See kernel/sysproc.c for the xv6 kernel code that implements the ...

在线问诊 Python、FastAPI、Neo4j — 构建问题分类器

构建字典数据

构建 Trie 字典树

按实体组装字典

问题分析

在线问诊 Python、FastAPI、Neo4j — 构建问题分类器的更多相关文章

随机推荐

热门专题