错误现象: 最近在做一个小项目,在Python中使用了jieba分词,感觉非常简洁方便.在Python端进行调试的时候没有任何问题,使用PyInstaller打包成exe文件后,就会报错: 错误原因分析: 参考文献1中的说明,WindowsError:[Error 3]是系统找不到指定文件. 参考文献2中@fxsjy同学的解释,应该是PyInstaller在打包的时候没有将词典文件一起打包导致结巴分词找不到指定的词典文件. 解决方案如下: 1.在python中查询结巴分词的词典文件: 1 2 3…
在“开源图像标注工具labelme的安装使用及汉化”这篇博客中,使用pyinstaller将labelme项目的入口python文件main.py打包,生成了main.exe文件,可以在Windows操作系统中直接运行,得到labelme图像标注工具软件界面,生成exe的过程中,碰到了一些问题,有的解决了,有的还没有解决,希望对从事这方面工作的朋友有帮助,也希望熟悉这类问题的大神们帮着解决下还没有解决的问题. 1 exe文件闪退问题 将labelme在pycharm中运行,直接运行main.py…
问题 之前在使用ionic2时使用建立android平台命令或者编译时,总是会在获取gradle时卡住,等很久进度也不变化,导致命令超时失败.于是经过查阅资料和自己实践测试,总结出以下办法. 方法 其实主要原因是用命令下载时用的是指定的下载途径(可能不该这样形容,欢迎大家评论批评指正),国内通过这样下载十分慢,甚至时断时续,从而导致出现上面的问题. 所以我们自己去下载gradle,存放在本地,然后更改配置文件,使其不去网上下载而是从我们指定的本地位置获取. 首先我们打开下面这个js: 你的项目名…
Vue打包后出现一些map文件的解决办法: 问题: 可能很多人在做vue项目打包,打包之后js中,会自动生成一些map文件,那我们怎么把它去掉不要呢? 1.运行  cnpm run build  开始打包 2.会在项目目录下自动创建dist目录,打包好的文件都在其中 解决办法:去src/config/index.js中改一个参数: productionSourceMap:false 把这个改为false.不然在最终打包的文件中会出现一些map文件,map文件的作用在于:项目打包后,代码都是经过压…
cli2版本: 将 config/index.js 里的 assetsPublicPath 的值改为 './' . build: { ... assetsPublicPath: './', ... } cli3版本: 在根目录下新建 vue.config.js 文件,然后加上以下内容:(如果已经有此文件就直接修改) module.exports = { publicPath: '', // 相对于 HTML 页面(目录相同) } 参考链接: 1. vue打包静态资源路径不正确的解决办法 2. V…
打包apk的SHA1,与key的SHA1(这是多人开发的通病不同电脑共同开发一个app的常见错误之一)不一致.解决方法: 今天虽然离职了,但是今天遇到的是,当我在用高德地图开发的时候,在AndroidStudio中直接运行时,可以定位,但是当给app打包成apk文件安装到手机上时却不能定位, 这个问题原因就是申请高德key的时候填写的SHA1也就是指纹证书有问题.我们开发的时候应该都是按照高德开放平台上介绍的流程去申请的,这当然是没问题的,但是当直接打包安装apk的时候就有问题了,因为按照高德的…
问题 一早上折腾了1个小时,小程序始终提示查找不到'app.json'文件.mpvue重新打包,光生成内容文件无配置文件. 解决办法 出错原因:版本问题 只需要把packpage.json里的mpvue-loade后面的'^'去掉,重新安装依赖即可. "mpvue-loader": "^1.0.13", => "mpvue-loader": "1.0.13", 指定版本号 '1.0.13' 表示安装指定的版本号,也就是安…
运行mvn install时跳过Test方法一:<project> [...] <build> <plugins> <plugin> <groupId>org.apache.maven.plugins</groupId> <artifactId>maven-surefire-plugin</artifactId> <version>2.18.1</version> <configu…
1.手机升级到iOS 10之后,运行真机出现了Development cannot be enabled while your device is locked. 原因分析: 这里是你对这台电脑设置了不信任: 解决方法是:打开手机设置->通用->还原->还原位置与隐私:还原 然后会有弹窗提示你是否信任此电脑,点击信任,重启Xcode之后,运行项目到手机上 2.Xcode 出现 Could not locate device support files,This iPhone 6s is…
Python打包成exe,文件太大问题解决办法 原因 解决办法 具体步骤 情况一:初次打包 情况二:再次打包 原因 由于使用pyinstaller打包.py文件时,会把很多已安装的无关库同时打包进去,导致打包生成的.exe文件体积过大. 解决办法 使用pipenv创建虚拟python环境,在虚拟环境中安装.py文件所用到的库(即py文件中import的第三方库),然后在pipenv所创建的虚拟环境中使用pip安装打包所用到的pyinstaller.注意:本机安装过pyinstaller的也要重新…
对于进行nuget打包时,有时我们需要添加一个配置文件,就是一些文本文件,而这些文件我们在网站发布时需要同时复制到输出目录,否则会出现文件丢失的问题,我们在打包时通过添加powershell脚本来解决它. 一般添加powershell包之后,包的格式如下 添加-〉工具-〉install.ps1脚本 param($installPath, $toolsPath, $package, $project) $configItem = $project.ProjectItems.Item("log4.c…
springboot项目,打包时携带所有依赖 本文主要解决springboot打包时,如何设置才能把当前项目的所有依赖都打进去. Springboot 的自带spring-boot-maven-plugin插件打包是不携带它所有的依赖的,但有时候会有需求需要把依赖一起打进去,比如需要打成可执行jar包. 如果打包需要加入依赖,可以使用下面这个插件,该插件最后打出来的jar包有两个,分别是不带jar-with-dependencies后缀的,和带jar-with-dependencies后缀的,后…
svn打包时,出现错误如下: 解决办法: 在SVN目录结构中,增加tag这个目录.…
在切词的时候使用到jieba分词器,安装如下: 切入到结巴包,执行 python setup.py install 安装后,可以直接在代码中引用: import jieba…
前言:目前自己在做使用Lucene.net和PanGu分词实现全文检索的工作,不过自己是把别人做好的项目进行迁移.因为项目整体要迁移到ASP.NET Core 2.0版本,而Lucene使用的版本是3.6.0 ,PanGu分词也是对应Lucene3.6.0版本的.不过好在Lucene.net 已经有了Core 2.0版本(4.8.0 bate版),而PanGu分词,目前有人正在做,貌似已经做完,只是还没有测试~,Lucene升级的改变我都会加粗表示. Lucene.net 4.8.0 https…
我的python环境是Anaconda3安装的,由于项目需要用到分词,使用jieba分词库,在此总结一下安装方法. 安装说明======= 代码对 Python 2/3 均兼容 * 全自动安装:`easy_install jieba` 或者 `pip install jieba` / `pip3 install jieba`* 半自动安装:先下载 http://pypi.python.org/pypi/jieba/ ,解压后运行 `python setup.py install`* 手动安装:将…
python结巴(jieba)分词 一.特点 1.支持三种分词模式: (1)精确模式:试图将句子最精确的切开,适合文本分析. (2)全模式:把句子中所有可以成词的词语都扫描出来,速度非常快,但是不能解决歧义. (3)搜索引擎模式:在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词.2.支持繁体分词3.支持自定义词典 二.实现 结巴分词的实现原理主要有一下三点:(1)基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG).(2)采用了动态…
一 . pypinyin from pypinyin import lazy_pinyin, TONE, TONE2, TONE3 word = '孙悟空' print(lazy_pinyin(word, style=TONE)) # ['sūn', 'wù', 'kōng'] print(lazy_pinyin(word, style=TONE2)) # ['su1n', 'wu4', 'ko1ng'] print(''.join(lazy_pinyin(word, style=TONE2))…
在使用jieba分词时,发现分词准确度不高.特别是一些专业词汇,比如堡垒机,只能分出堡垒,并不能分出堡垒机.这样导致的问题是很多时候检索并不准确. 经过对比测试,发现nlpir进行分词效果更好.但是nlpir的效率和各种支持又没有jieba那么好,因此采用了一种折中的方案. 就是先用nlpir生成字典,然后使用jieba利用字典进行分词. 首先安装pynlpir.pynlpir的相关说明可以参考https://pynlpir.readthedocs.io/en/latest/index.html…
在处理英文文本时,由于英文文本天生自带分词效果,可以直接通过词之间的空格来分词(但是有些人名.地名等需要考虑作为一个整体,比如New York).而对于中文还有其他类似形式的语言,我们需要根据来特殊处理分词.而在中文分词中最好用的方法可以说是jieba分词.接下来我们来介绍下jieba分词的特点.原理与及简单的应用 1.特点 1)支持三种分词模式 精确模式:试图将句子最精确的切开,适合文本分析 全模式:把句子中所有的可以成词的词语都扫描出来,速度非常快,但是不能解决歧义 搜索引擎模式:在精确模式…
Pyinstaller打包附带DLL.图标和压缩EXE方法     转载: https://blog.csdn.net/xinyingzai/article/details/80282856   目的: 用Pyinstaller工具将python脚本打包成一个exe文件 原理: 利用spec配置文件实现 步骤: 1.提前用命令安装打包工具: pip install pyinstaller (已安装的略过): 2.先生成spec文件.用命令  pyinstaller -F test.py  生成t…
jieba分词中Tokenize的使用,Tokenize主要是用来返回词语在原文的弃之位置,下面贴上代码: #-*- coding:utf-8 -*- from __future__ import unicode_literals import jieba print('-'*40) print(' 默认模式') print('-'*40) result = jieba.tokenize('永和服装饰品有限公司') for tk in result: print "word %s\t\t sta…
结巴分词系统中实现了两种关键词抽取法,一种是TF-IDF关键词抽取算法另一种是TextRank关键词抽取算法,它们都是无监督的算法. 以下是两种算法的使用: #-*- coding:utf-8 -*- from __future__ import unicode_literals import jieba.analyse import jieba s='gStore 是一个基于图的 RDF 数据管理系统(也称为“三元组存储”),维持\ 了原始RDF 数据的图结构.它的数据模型是有标签的有向多边图…
近几天在做自然语言处理,看了一篇论文:面向知识库的中文自然语言问句的语义理解,里面提到了中文的分词,大家都知道对于英文的分词,NLTK有很好的支持,但是NLTK对于中文的分词并不是很好(其实也没有怎么尝试,哈哈哈!) 然后发现了jieba(结巴)分词,发现还是很强大的,还有一个THULAC(http://thulac.thunlp.org/#%E7%BC%96%E8%AF%91%E5%92%8C%E5%AE%89%E8%A3%85),THULAC我还没有试过,这次先来展示一下jieba分词的一些…
具体项目在githut里面: 应用jieba库分词 1)利用jieba分词来统计词频: 对应文本为我们队伍的介绍:jianjie.txt: 项目名称:碎片 项目描述:制作一个网站,拾起日常碎片,记录生活点滴! 项目成员:孔潭活.何德新.吴淑瑶.苏咏梅 成员风采: 孔潭活:2015034643032 何德新: 学号:2015034643017 风格:咸鱼王 擅长技术:设计 编程兴趣:机器学习.人工智能.希望的软工角色:项目经理. 一句话宣言:持而盈之,不如其已.揣而锐之,不可常保.道可道非常道:名…
jieba(结巴)是一个强大的分词库,完美支持中文分词,本文对其基本用法做一个简要总结. 安装jieba pip install jieba 简单用法 结巴分词分为三种模式:精确模式(默认).全模式和搜索引擎模式,下面对这三种模式分别举例介绍: 精确模式 import jieba s = u'我想和女朋友一起去北京故宫博物院参观和闲逛.' cut = jieba.cut(s) print '[Output]' print cut print ','.join(cut) [Output] <gen…
jieba分词最重要的就是字典,我们一般用jieba的话是用的它通用的字典,这样在特定的环境中无法分成我们想要的效果,我们需要根据我们自己的生产环境自己添加我们的字典,然后下载jieba源码进行更改,里面分词用了TFIDF和Textrank算法来求关键词,如果求关键词时,在idf.txt文件中没有这个词的权重,那么就取我们求的所有关键词权重的平均. 更改字典表代码如下: areajieba.initialize(dictjieba.area_dict) # 定义jieba默认的字典,这里我们定义…
昨天,做的那个数据分析报告用到了jieba分词.但是只是借用了别人的部分代码.具体函数代表什么还不太明白.今天去官网研究了下..... jieba官网简介 "结巴"中文分词:做最好的 Python 中文分词组件 "Jieba" (Chinese for "to stutter") Chinese text segmentation: built to be the best Python Chinese word segmentation mod…
(转https://blog.csdn.net/gzmfxy/article/details/78994396) 中文分词是中文文本处理的一个基础步骤,也是中文人机自然语言交互的基础模块,在进行中文自然语言处理时,通常需要先进行分词.本文详细介绍现在非常流行的且开源的分词器结巴jieba分词器,并使用python实战介绍. jieba分词算法使用了基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能生成词情况所构成的有向无环图(DAG), 再采用了动态规划查找最大概率路径,找出基于词频的最大切…
中文分词一般使用jieba分词 1.安装 pip install jieba 2.大致了解jieba分词 包括jieba分词的3种模式 全模式 import jieba seg_list = jieba.cut("我来到北京清华大学", cut_all=True, HMM=False) print("Full Mode: " + "/ ".join(seg_list)) # 全模式 精准模式 import jieba seg_list = jie…