`

import jieba

from sklearn.feature_extraction.text import TfidfVectorizer

from sklearn.metrics.pairwise import cosine_similarity

templates = [

"分析一下攻击队QAX的攻击行为",

"分析一下防守单位QAX的防守情况",

"分析一下目标资产1.1.1.1相关的攻击行为",

"攻击队QAX在防守单位QAX1上得了多少分",

"防守单位QAX1在x类威胁上累计扣分多少分",

"靶标系统有哪些",

"1.1.1.1是否是靶标系统",

"攻击IP1.1.1.1属于哪个攻击队",

]

结巴分词切割句子得到关键字列表

def tokenize(text):

return list(jieba.cut(text))

question = args.get("question", "")

logging.info(f"==输入的问题=: {question}")

# 使用TF-IDF向量化文本

vectorizer = TfidfVectorizer(tokenizer=tokenize)

vectors = vectorizer.fit_transform([question] + templates)

# 计算相似度

similarities = cosine_similarity(vectors[0], vectors[1:]).flatten()

  # 找到最相似的句子

  most_similar_index = similarities.argmax()

  key = templates[most_similar_index]

  return key

通过结巴分词 sklearn判断语句和例句集合最相近的句子的更多相关文章

结巴分词和自然语言处理HanLP处理手记
手记实用系列文章: 1 结巴分词和自然语言处理HanLP处理手记 2 Python中文语料批量预处理手记 3 自然语言处理手记 4 Python中调用自然语言处理工具HanLP手记 5 Python中 ...
Simple: SQLite3 中文结巴分词插件
一年前开发 simple 分词器,实现了微信在两篇文章中描述的,基于 SQLite 支持中文和拼音的搜索方案.具体背景参见这篇文章.项目发布后受到了一些朋友的关注,后续也发布了一些改进,提升了项目易用 ...
Python3.7+jieba(结巴分词)配合Wordcloud2.js来构造网站标签云(关键词集合)
原文转载自「刘悦的技术博客」https://v3u.cn/a_id_138 其实很早以前就想搞一套完备的标签云架构了,迫于没有时间(其实就是懒),一直就没有弄出来完整的代码,说到底标签对于网站来说还是 ...
结巴分词3--基于汉字成词能力的HMM模型识别未登录词
作者:zhbzz2007 出处:http://www.cnblogs.com/zhbzz2007 欢迎转载,也请保留这段声明.谢谢! 1 算法简介在结巴分词2--基于前缀词典及动态规划实现分词博 ...
中文分词之结巴分词~~~附使用场景+demo（net）
常用技能(更新ing):http://www.cnblogs.com/dunitian/p/4822808.html#skill 技能总纲(更新ing):http://www.cnblogs.com/ ...
python中文分词：结巴分词
中文分词是中文文本处理的一个基础性工作,结巴分词利用进行中文分词.其基本实现原理有三点: 基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG) 采用了动态规 ...
SQLite的时候判断语句是否纯在：出现RuntimeException
写SQLite的时候判断语句是否纯在: public boolean exist(long id) { String filter = FRIEND_KEY_ID + "=" + ...
第二周：If判断语句程序当中的作用简介
1.If语句的作用: 在我们编写程序时经常会遇到内容判断的问题,比如判断内容的真假或者值的大小分别输出内容的问题这时就会用到我们的If判断语句了,顾名思义,if在英文单词中意思为如果,在Java中他 ...
关于JavaScript的判断语句（1）
if语句: if( 判断条件 ){ 判断结果为true执行语句: } if...else语句: if(判断条件){ 判断结果为true时执行的语句: }else{ 判断结果为false时执行语句: } ...
SQL判断语句用法和多表查询
1.格式化时间sql语句本例中本人随便做了两张表,和实际不是很相符,只是想说明sql语句的写法. 例1表格式如下: 需求:查询出本表,但需要使time字段的时间格式为yyyy-MM-dd,比如:20 ...

随机推荐

[转帖]Linux fsync和fdatasync系统调用实现分析（Ext4文件系统）
转自:https://blog.csdn.net/luckyapple1028/article/details/61413724 在Linux系统中,对文件系统上文件的读写一般是通过页缓存(pag ...
[转帖]clickhouse安装部署以及版本选取
https://www.cnblogs.com/MrYang-11-GetKnow/p/15818768.html 1. 系统要求 ClickHouse 可以在任何具有 x86_64.AArch64 ...
[转帖]time_zone 是怎么打爆你的MySQL的
https://plantegg.github.io/2023/10/03/time_zone%E6%98%AF%E6%80%8E%E4%B9%88%E6%89%93%E7%88%86%E4%BD%A ...
[转帖]如何在KingbaseES数据库查看数据库和表的大小
关键字 kingbaseES,数据库大小,表大小 1.查看单个数据库的大小使用ksql连接到数据库,使用sys_database_size函数 kapp=# select sys_database_ ...
[转帖]nginx配置默认首页（index.html index.htm）全流程（包含遇到问题的解决）
https://www.cnblogs.com/tujietg/p/10753041.html#:~:text=%E8%A7%A3%E5%86%B3%E6%96%B9%E6%A1%88%EF%BC%9 ...
【转帖】You can now run a GPT-3-level AI model on your laptop, phone, and Raspberry Pi
https://arstechnica.com/information-technology/2023/03/you-can-now-run-a-gpt-3-level-ai-model-on-you ...
[转贴]细说：Unicode, UTF-8, UTF-16, UTF-32, UCS-2, UCS-4
细说:Unicode, UTF-8, UTF-16, UTF-32, UCS-2, UCS-4 https://www.cnblogs.com/malecrab/p/5300503.html 1. U ...
Linux查找当前目录下包含部分内容的文件,并且copy到指定路径的简单方法
1 获取文件列表 find . -name "*.data" |xargs grep -i 'yearvariable' | uniq | awk '{print $1}' |cu ...
【JS 逆向百例】医保局 SM2+SM4 国产加密算法实战
关注微信公众号:K哥爬虫,QQ交流群:808574309,持续分享爬虫进阶.JS/安卓逆向等技术干货! 声明本文章中所有内容仅供学习交流,抓包内容.敏感网址.数据接口均已做脱敏处理,严禁用于商业用途 ...
slices in Go 1.21
Go 1.21中新增的 slices包中提供了很多与切片相关的函数,适用于任意类型的切片. 本文内容来自官方文档 BinarySearch 函数签名如下: func BinarySearch[S ~[ ...

通过结巴分词 sklearn判断语句和例句集合最相近的句子

结巴分词切割句子得到关键字列表

通过结巴分词 sklearn判断语句和例句集合最相近的句子的更多相关文章

随机推荐

热门专题