使用 NLTK 对文本进行清洗,索引工具 EN_WHITELIST = '0123456789abcdefghijklmnopqrstuvwxyz ' # space is included in whitelist EN_BLACKLIST = '!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~\'' FILENAME = 'data/chat.txt' limit = { 'maxq' : 20, 'minq' : 0, 'maxa' : 20, 'm…
Python NLTK 获取文本语料和词汇资源 作者:白宁超 2016年11月7日13:15:24 摘要:NLTK是由宾夕法尼亚大学计算机和信息科学使用python语言实现的一种自然语言工具包,其收集的大量公开数据集.模型上提供了全面.易用的接口,涵盖了分词.词性标注(Part-Of-Speech tag, POS-tag).命名实体识别(Named Entity Recognition, NER).句法分析(Syntactic Parse)等各项 NLP 领域的功能.本文主要介绍NLTK(Na…
文本查看及处理工具:     wc [OPTION] FILE...         -c: 字节数         -l:行数         -w: 单词数             who | wc -l:查看当前用户数         cut [OPTION] FILE...         -d CHAR: 指定字段分隔符             如果不加此选项的话,默认以空格分割         -f #|#-#|#,#:指定要显示的字段                 cut -d…
js实现去文本换行符小工具 一.总结 一句话总结: 1.vertical属性使用的时候注意看清定义,也注意父元素的基准线问题.vertical-align:top; 2.获取textareaElement的value属性行,而innerHTML属性不行,赋值的时候可以直接赋值给innerHTML.var textSourse=textarea_source.value; 3.js中的replace函数等字符串方法是str对象的方法. textSourse=textSourse.replace(/…
美国语言协会对美国人日常使用的英语单词做了一份详细的统计,按照日常使用的频率做成了一张表,称为COCA词频表.排名越低的单词使用频率越高,该表可以用来统计词汇量. 如果你的词汇量约为6000,那么这张表频率6000以下的单词你应该基本都认识.(不过国内教育平时学的单词未必就是他们常用的,只能说大部分重合) 我一直有个想法,要是能用COCA词频表统计一本小说中所有的词汇都是什么等级的,然后根据自己的词汇量,就能大致确定这本小说是什么难度,自己能不能读了. 学习了C++的容器和标准库算法后,我发现这…
在MySQL中是允许在同一个列上创建多个索引的,示例如下: mysql --socket=/tmp/mysql5173.sock -uroot -p mysql> SELECT VERSION(); +-----------+ | VERSION() | +-----------+ | 5.1.73 | +-----------+ 1 row in set (0.00 sec) # 创建测试表 mysql> DROP TABLE temp; ERROR 1051 (42S02): Unknow…
导读 本文将介绍Linux下使用Shell处理文本时最常用的工具:find.grep.xargs.sort.uniq.tr.cut.paste.wc.sed.awk:提供的例子和参数都是最常用和最为实用的,我对shell脚本使用的原则是命令单行书写,尽量不要超过2行:如果有更为复杂的任务需求,还是考虑python吧! find文件查找 查找txt和pdf文件 找txt和pdf文件 find . \( -name "*.txt" -o -name "*.pdf" \)…
这里安装的是两个自然语言处理工具,NLTK和Stanford NLP. 声明:笔者操作系统是Windows10,理论上Windows都可以: 版本号:NLTK 3.2 Stanford NLP 3.6.0 JDK 1.8 重要文件在讲述过程中会以网盘链接给出,可随时下载. 注:笔者是通过Anaconda安装的python,所以有关路径都与Anaconda有关. 一. NLTK的安装 1.检查python版本:NLTK是python语言编写的,依托python来安装.当前通行的python版本是p…
URL提供了一种定位互联网上任意资源的手段,由于采用HTTP协议的URL能在互联网上自由传播和使用,所以能大行其道.在软件开发.测试甚至部署的环节,URL几乎可以说无处不再,其中用来定位文本的URL数量应该是最多的,也是最零散的. 也有很多情形时,URL是临时的,URL定位的是一段JSON格式的数据,临时代替正式API输出的模拟数据,这可能和开发中使用的MockServer场景很像. 我也遇到过一些情况,也就是开始编写 [文本转URL http://elef.top]的动力,我在Linux上配置…
nltk(Natural Language Toolkit)是处理文本的利器. 安装 pip install nltk 进入python命令行,键入nltk.download()可以下载nltk需要的语料库等等. 分词 按词语分割(传入句子) sentence='hello,world!' tokens=nltk.word_tokenize(sentence) tokens就是一个分割好的词表,如下: ['hello', ',', 'world', '!'] 按句子分割(传入多个句子组成的文档)…
之前已经了解了使用nltk库,将文本作为参数传入相应函数进行切分的方法,下面看看使用正则表达式如何来进行文本切分. 1. 使用正则表达式切分 1.1 通过RegexpTokenizer 进行切分.先导入 RegexpTokenizer 模块,然后构建一个与文本中的标识符相匹配的正则表达式.将此正则表达式作为参数传入RegexpTokenizer ,同时实例化一个对象,使用此对象对文本进行切分. from nltk.tokenize import RegexpTokenizer # RegexpT…
上周倒腾了下 javafx,本来是做平时成绩系统.跟老师提了一下 javafx,他突然兴起,发了个统计中文和英文单词并以直方图显示的实验......只给两三天的期限,笑着说考验我们的潜力SOS,于是带着组里一共三人花了一天半时间做了下来. 主要界面如下 没选文本时,如果没勾选完就点开始分析会显示提示 分析文本文档 只有一个功能,就是选择本地 .txt 文件,选择文本语言和最低频次,然后显示直方图统计结果. 试了下大的 .txt 文档,超出界面后面的就无法显示,x轴和柱形条对不齐,还没改这个bug…
  JSONObject jsonObj  = JSONObject.fromObject("文本"); 参考:https://www.cnblogs.com/joahyau/p/6736637.html…
记录利用公司内搭建的smtp邮件服务器,使用javax mail发送邮件的程序 package com.test.mailTest; import java.util.Date; import java.util.Properties; import javax.activation.DataHandler; import javax.activation.FileDataSource; import javax.mail.Message; import javax.mail.Messaging…
update: 简单整理了一下代码的组织. 处理的单词封装成类,单词的修正,信息的显示都作为其内的方法. 写得还比较糙,工具本身可以封装,还有对于单词的变形基本没什么处理,以后有时间再改. 项目托管到github上了.https://github.com/MorpheusDong/TextVocabularyAnalyzer TypeDefine.h #ifndef _TYPE_DEFINE_H_ #define _TYPE_DEFINE_H_ #include <iostream> #inc…
Python NLTK 处理原始文本 作者:白宁超 2016年11月8日22:45:44 摘要:NLTK是由宾夕法尼亚大学计算机和信息科学使用python语言实现的一种自然语言工具包,其收集的大量公开数据集.模型上提供了全面.易用的接口,涵盖了分词.词性标注(Part-Of-Speech tag, POS-tag).命名实体识别(Named Entity Recognition, NER).句法分析(Syntactic Parse)等各项 NLP 领域的功能.本文主要介绍:1)怎样编写程序访问本…
干货!详述Python NLTK下如何使用stanford NLP工具包 作者:白宁超 2016年11月6日19:28:43 摘要:NLTK是由宾夕法尼亚大学计算机和信息科学使用python语言实现的一种自然语言工具包,其收集的大量公开数据集.模型上提供了全面.易用的接口,涵盖了分词.词性标注(Part-Of-Speech tag, POS-tag).命名实体识别(Named Entity Recognition, NER).句法分析(Syntactic Parse)等各项 NLP 领域的功能.…
Linux的文本处理工具浅谈 awk   老大 [功能说明] 用于文本处理的语言(取行,过滤),支持正则 NR代表行数,$n取某一列,$NF最后一列 NR==20,NR==30 从20行到30行 FS竖着切,列的分隔符 RS横着切,行的分隔符 [语法格式] awk [–F] [“[分隔符]”] [’{print$1,$NF}’] [目标文件] awk 'BEGIN{FS="[列分隔符]+";RS="[行分隔符]+";print "-GEGIN-"…
[NLP]干货!Python NLTK结合stanford NLP工具包进行文本处理  原贴:   https://www.cnblogs.com/baiboy/p/nltk1.html 阅读目录 目录 1 NLTK和StandfordNLP简介 2 安装配置过程中注意事项 3 StandfordNLP必要工具包下载 4 StandfordNLP相关核心操作 5 参考文献和知识扩展 干货!详述Python NLTK下如何使用stanford NLP工具包 作者:白宁超 2016年11月6日19:…
手工打造文本数据清洗工具 作者 白宁超 2019年4月30日09:43:59 前言:数据清理指删除.更正错误.不完整.格式有误或多余的数据.数据清理不仅仅更正错误,同样加强来自各个单独信息系统不同数据间的一致性.本章首先介绍了新闻语料的基本情况及语料构建的相关原则:然后,回顾对比递归遍历与生成器遍历,打造一款高效的文件读取工具:最后,结合正则数据清洗方法完成新闻语料的批量处理.(本文原创,转载标明出处.限时福利:<福利:33套AI技术视频免费领取>) 1 新闻语料的准备 语料可以理解为语言材料…
众所周知,很多社区都是有内容审核机制的,除了第一次发布,后续的修改也需要审核,最粗暴的方式当然是从头再看一遍,但是编辑肯定想弄死你,显然这样效率比较低,比如就改了一个错别字,再看几遍可能也看不出来,所以如果能知道每次都修改了些什么,就像git的diff一样,那就方便很多了,本文就来简单实现一个. 求最长公共子序列 想要知道两段文本有什么差异,我们可以先求出它们的公共内容,剩下的就是被删除或新增的.在算法中,这是一道经典的题目,力扣上就有这道题1143. 最长公共子序列,题目描述如下: 这种求最值…
文本处理工具:     Linux上文本处理三剑客:        文本过滤工具(模式:pattern)工具:          1.grep:支持基本正则表达式;          2.egrep:支持扩展正则表达式          3.fgrep: 不支持正则表达式      注:    同时这三个命令通过附加选项可以相互之间进行切换如下               grep -E = egrep               geep -F = fgrep               eg…
git: https://github.com/linyi0604/MachineLearning 分别使用词袋法和nltk自然预言处理包提供的文本特征提取 from sklearn.feature_extraction.text import CountVectorizer import nltk # nltk.download("punkt") # nltk.download('averaged_perceptron_tagger') ''' 分别使用词袋法和nltk自然预言处理包…
文本处理工具:    egrep:        支持扩展的正则表达式实现类似于grep文本过滤功能:grep -E        egrep [OPTIONS] PATTERN [FILE...]        egrep [OPTIONS] [-e PATTERN | -f FILE] [FILE...]            选项:                -i,-o,-v,-q,-A,-B,-C                -G:支持基本正则表达式 扩展正则表达式的元字符:  …
概述 了解如何在Python中删除停用词与文本标准化,这些是自然语言处理的基本技术 探索不同的方法来删除停用词,以及讨论文本标准化技术,如词干化(stemming)和词形还原(lemmatization) 在Python中使用NLTK,spaCy和Gensim库进行去除停用词和文本标准化 介绍 多样化的自然语言处理(NLP)是真的很棒,我们以前从未想象过的事情现在只是几行代码就可做到.这真的令人开心. 但使用文本数据会带来一系列挑战.机器在处理原始文本方面有着较大的困难.在使用NLP技术处理文本…
grep命令作为Unix中用于文本搜索的神奇工具,能够接受正则表达式,生成各种格式的输出.除此外,它还有大量有趣的选项. # 搜索包含特定模式的文本行: [root@centos8 ~]#grep pattern filename # 可以从stdin中读取: [root@centos8 ~]#echo -e "this is a word\nnext line" | grep word this is a word # 单个grep命令也可以对多个文件进行搜索: [root@cent…
文本查看及处理工具:wc, cut, sort, uniq, diff, patch wc:word count wc [OPTION]... [FILE]... -l: lines -w:words -c: bytes cut: cut OPTION... [FILE]... OPTION: -d CHAR:以指定的字符为分隔符: -f FIELDS:挑选出的字段: #:指定的单个字段: #-#:连续的多个字段: #,#:离散的多个字段: sort: sort [OPTION]... [FIL…
Python自然语言处理工具小结 作者:白宁超 2016年11月21日21:45:26 目录 [Python NLP]干货!详述Python NLTK下如何使用stanford NLP工具包(1) [Python NLP]Python 自然语言处理工具小结(2) [Python NLP]Python NLTK 走进大秦帝国(3) [Python NLP]Python NLTK获取文本语料和词汇资源(4) [Python NLP]Python NLTK处理原始文本(5) 1 Python 的几个自…
Python NLTK 走进大秦帝国 作者:白宁超 2016年10月17日18:54:10 摘要:NLTK是由宾夕法尼亚大学计算机和信息科学使用python语言实现的一种自然语言工具包,其收集的大量公开数据集.模型上提供了全面.易用的接口,涵盖了分词.词性标注(Part-Of-Speech tag, POS-tag).命名实体识别(Named Entity Recognition, NER).句法分析(Syntactic Parse)等各项 NLP 领域的功能.本文主要介绍NLTK(Natura…
在本期文章中,小生向您介绍了自然语言工具包(Natural Language Toolkit),它是一个将学术语言技术应用于文本数据集的 Python 库.称为“文本处理”的程序设计是其基本功能:更深入的是专门用于研究自然语言的语法以及语义分析的能力. 鄙人并非见多识广, 语言处理(linguistic processing) 是一个相对新奇的领域.如果在对意义非凡的自然语言工具包(NLTK)的说明中出现了错误,请您谅解.NLTK 是使用 Python 教学以及实践计算语言学的极好工具.此外,计…