有没有人自己训练过Stanford Word Segmenter分词器,因为我想做特定领域的分词,但在使用Stanford Word Segmenter分词的时候发现对于我想做的领域的一些词分词效果并不好,比如“青霉属”我希望这是一个词,分之后却变成“青霉”+“属”,就是现在我有这些词,我希望Stanford Word Segmenter能识别我的这些词,我该怎么做?在线等…
1,下载 Stanford Word Segmenter软件包: Download Stanford Word Segmenter version 2014-06-16 2,在eclipse上建立一个Project  StanfordSegmenter.解压Stanford Word Segmenter软件包,将其中的data,arabic,test.sipe.utf8文件夹复制到项目下. 3,添加需要的jar包,seg.jar  ,  stanford-segmenter-3.4-javado…
本来是很想写关于VS的DSL的文章的,有点小忙,就一直在拖延,忽然有看见了"<在Visual Studio 2012中使用VMSDK开发特定领域语言>",又有写的欲望了,这段时间没事,而且处于寂寞无聊的状态,就准备写一个关于自己应用DSL(Domain-Specific Languages)经验的小系列,不讲详细的系统的技术,只讲具体应用中用到的.而且作为编程的新手,就分享一下仅有的一点点经验,不知道能不能坚持下来. 我用过的是VS2010,那这篇文章就针对VS2010的D…
          基于特定领域国土GIS应用框架 设计及应用              何仕国 2012年8月16日   摘要: 本文首先讲述了什么是框架和特定领域框架,以及与国土GIS 这个特定领域行业相结合,而进行的特定领域应用框架的设计及其相关的实践应用实例.刻画了该领域软件系统的公共属性.公共的商业规则.公共的设计决策.在设计这个领域新的软件系统的时候,可以基于应用框架包含的重要信息,设计该软件系统特殊的属性,然后有效的把两者集成为一个完整的应用系统.通过这种软件开发方式,可以大大加快…
一.何为DSSA 特定领域软件架构(Domain Specific Software Architecture,DSSA)是一种有效实现特定领域软件重用的手段.简单地说,DSSA就是在一个特定应用领域为一组应用提供组织结构参考的标准软件体系结构.按照Tracz的说法,DSSA就是一个特定的问题领域中由领域模型.参考需求.参考架构等组成的开发基础架构,其目标就是支持一个特定领域中多个应用的生成.特定领域软件架构可以看作开发产品线的一个方法或理论,它的目标就是支持在一个特定领域中有多个应用的生成.…
package com.xfzx.test.POI.main; import java.io.File; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.FileOutputStream; import java.io.IOException; import java.io.InputStream; import java.util.ArrayList; import jav…
最近看<CLR via C#(第4版)> 读到第五章末尾dynamic基元类型时,看了下作者的一个利用dynamic动态调用string类型的Contains方法(静态方法)的实现,突然发现这个不就是Ruby的method missing么!虽然当时已经夜深,仍忍不住起来试试,写了个利用Dynamic构建Xml的小Demo,非常有趣.于是有了本文. 所以,我当时想处理什么问题呢? Ruby的method missing机制,会ruby,用过ror框架(Ruby on Rails)的肯定见识过.…
自然语言处理(NLP)是人工智能研究中极具挑战的一个分支.随着深度学习等技术的引入,NLP领域正在以前所未有的速度向前发展.但对于初学者来说,这一领域目前有哪些研究和资源是必读的?最近,Kyubyong Park 为我们整理了一份完整列表. GitHub 项目链接:https://github.com/Kyubyong/nlp_tasks 本人从事自然语言处理任务(NLP)的研究已经有很长时间了,有一天我想到,我需要为庞大的 NLP领域做一个概览,我知道自己肯定不是想要一睹 NLP 任务的全貌的…
Python自然语言处理工具小结 作者:白宁超 2016年11月21日21:45:26 目录 [Python NLP]干货!详述Python NLTK下如何使用stanford NLP工具包(1) [Python NLP]Python 自然语言处理工具小结(2) [Python NLP]Python NLTK 走进大秦帝国(3) [Python NLP]Python NLTK获取文本语料和词汇资源(4) [Python NLP]Python NLTK处理原始文本(5) 1 Python 的几个自…
本文汇编了一些机器学习领域的框架.库以及软件(按编程语言排序). 1. C++ 1.1 计算机视觉 CCV —基于C语言/提供缓存/核心的机器视觉库,新颖的机器视觉库 OpenCV—它提供C++, C, Python, Java 以及 MATLAB接口,并支持Windows, Linux, Android and Mac OS操作系统. 1.2 机器学习 MLPack DLib ecogg shark 2. Closure Closure Toolbox—Clojure语言库与工具的分类目录 3…
GitHub NLP项目:自然语言处理项目的相关干货整理 自然语言处理(NLP)是计算机科学,人工智能,语言学关注计算机和人类(自然)语言之间的相互作用的领域.本文作者为自然语言处理NLP初学者整理了一份庞大的自然语言处理项目领域的概览,包括了很多人工智能应用程序.选取的参考文献与资料都侧重于最新的深度学习研究成果.这些自然语言处理项目资源能为想要深入钻研一个自然语言处理NLP任务的人们提供一个良好的开端. 自然语言处理项目的相关干货整理: 指代消解 https://github.com/Kyu…
介绍:ElasticSearch 是一个基于 Lucene 的搜索服务器.它提供了一个分布式多用户能力的全文搜索引擎,基于 RESTful web 接口.Elasticsearch 是用 Java 开发的,并作为Apache许可条款下的开放源码发布,是当前流行的企业级搜索引擎.设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便. Elasticsearch中,内置了很多分词器(analyzers).下面来进行比较下系统默认分词器和常用的中文分词器之间的区别. 系统默认分词器:1.…
新手入门完整教程进阶指南 API中文手册精华文章TF社区 INTRODUCTION 1. 新手入门 1.1. 介绍 1.2. 下载及安装 1.3. 基本用法 2. 完整教程 2.1. 总览 2.2. MNIST 数据下载 2.3. MNIST 入门 2.4. MNIST 进阶 2.5. TENSORFLOW 运作方式入门 2.6. 卷积神经网络 2.7. 字词的向量表示 2.8. 递归神经网络 2.9. 曼德布洛特(MANDELBROT)集合 2.10. 偏微分方程 3. 进阶指南 3.1. 总…
..................................内容纯转发+收藏................................... 学习自然语言这一段时间以来接触和听说了好多开源的自然语言处理工具,在这里做一下汇总方便自己以后学习,其中有自己使用过的也有了解不是很多的,对于不甚了解的工具以后学习熟悉了会做更新的. 1.IKAnalyzer IK Analyzer是一个开源的,基于Java语言开发的轻量级的中文分词工具包.从2006.12推出1.0版本开始,IK Analy…
1. Java自然语言处理 LingPipe LingPipe是一个自然语言处理的Java开源工具包.LingPipe目前已有很丰富的功能,包括主题分类(Top Classification).命名实体识别(Named Entity Recognition).词性标注(Part-of Speech Tagging).句题检测(Sentence Detection).查询拼写检查(Query Spell Checking).兴趣短语检测(Interseting Phrase Detection).…
NLPIR http://www.nlpir.org/ HanLP https://github.com/hankcs Apache OpenNLP   https://opennlp.apache.org/ Apache UIMA http://uima.apache.org/ LingPipe LingPipe 是一个自然语言处理的Java开源工具包.LingPipe目前已有很丰富的功能,包括主题分类(Top Classification).命名实体识别(Named Entity Recog…
Natural Language Processing Tasks and Selected References I've been working on several natural language processing tasks for a long time. One day, I felt like drawing a map of the NLP field where I earn a living. I'm sure I'm not the only person who…
欢迎大家支持晓阳童鞋的词库计划,建立一个庞大的中文词库 地址如下:http://webdict.info/ 什么是WEB-DICT词库计划? WEB-DICT词表计划目标是通过机器学习算法以及人工标注构建一个包含大量网络词汇的.无版权限制的中文词库,从而提高中文网络文本自然语言分析以及开源中文输入法的效果. 现在有很多词库,为什么还要创建新的词库? 虽然目前互联网上可以得到的词库很多,但是包含网络词汇的非常少,而且都是有版权的,反之没有版权或者免费使用的词库大多比较旧. 目前的词库是怎么得到的?…
一些常见的NLP任务的开源/免费工具, *Computational Linguistics ToolboxCLT http://complingone.georgetown.edu/~linguist/compling.htmlGATE http://gate.ac.uk/Natural Language Toolkit(NLTK) http://nltk.orgMALLET http://mallet.cs.umass.edu/index.php/Main_Page *English Ste…
本文为<在Visual Studio 2012中使用VMSDK开发领域特定语言>专题文章的第二部分,在这部分内容中,将以实际应用为例,介绍开发DSL的主要步骤,包括设计.定制.调试.发布以及使用等. 案例:一个单向状态流DSL的设计和开发 假设我们需要设计一个单向状态流DSL,这个单向状态流有着三种不同的状态节点:起始节点.中间节点和结束节点.整个DSL需要满足以下的条件(或具有以下功能): 为了简单起见,状态的转换是无条件的(也就是不存在分支.循环等,转换流是一个状态接一个状态的链表形式,这…
前言 本专题主要介绍在Visual Studio 2012中使用Visualization & Modeling SDK进行领域特定语言(DSL)的开发,包括两个部分的内容.在第一部分中,将对领域特定语言进行简单介绍,并讲解如何使用Visual Studio 2012创建一个领域特定语言的开发解决方案,以及Visual Studio 2012集成开发环境对DSL开发的支持:在第二部分中,将以实际应用为例,介绍开发DSL的主要步骤,包括设计.定制.调试.发布以及使用等.本文为本专题的第一部分. 领…
在这篇文章中,会实现一个BP(backpropagation)算法,并将之应用到手写的阿拉伯数字(0-9)的自动识别上. 训练数据集(training set)如下:一共有5000个训练实例(training instance),每个训练实例是一个400维特征的列向量(20*20 pixel image).用 X 矩阵表示整个训练集,则 X 是一个 5000*400 (5000行 400列)的矩阵 另外,还有一个5000*1的列向量 y ,用来标记训练数据集的结果.比如,第一个训练实例对应的输出…
领域特定语言(Domain Specific Language, DSL)是一种为解决特定领域问题而对某个特定领域操作和概念进行抽象的语言.领域特定语言只是针对某个特定的领域,这点与通用编程语言(General purpose Language)不同,如Java既可以适用于网站开发,也可以适用于手机开发.一旦领域特定语言离开了相关领域,它就会变得不适用.但针对某个特定的领域,领域特定语言能很自然地方便地表述问题,也常常比通用编程语言更快地解决问题. Martin Fowler 在<领域特定语言>…
在Visual Studio 2012中使用VMSDK开发领域特定语言(一)   前言 本专题主要介绍在Visual Studio 2012中使用Visualization & Modeling SDK进行领域特定语言(DSL)的开发,包括两个部分的内容.在第一部分中,将对领域特定语言进行简单介绍,并讲解如何使用Visual Studio 2012创建一个领域特定语言的开发解决方案,以及Visual Studio 2012集成开发环境对DSL开发的支持:在第二部分中,将以实际应用为例,介绍开发D…
https://en.wikipedia.org/wiki/Domain-specific_language A domain-specific language (DSL) is a computer language specialized to a particular application domain. This is in contrast to a general-purpose language (GPL), which is broadly applicable across…
Stanford大学在2015年开设了一门Deep Learning for Natural Language Processing的课程,广受好评.并在2016年春季再次开课.我将开始这门课程的学习,并做好每节课的课程笔记放在博客上.争取做到每周一更吧. 本文是第一篇. NLP简介 NLP,全名Natural Language Processing(自然语言处理),是一门集计算机科学,人工智能,语言学三者于一身的交叉性学科.她的终极研究目标是让计算机能够处理甚至是"理解"人类的自然语…
对抗防御可以从语义消歧这个角度来做,不同的模型,后备模型什么的,我觉得是有道理的,和解决未登录词的方式是类似的,毕竟文本方面的对抗常常是修改为UNK来发生错误的.怎么使用backgroud model这个要实践以下.但是这个主要还是指word-level的,不知道其他的有没有用. 用强大的单词识别能力对抗对抗性拼写错误 摘要 摘要为了克服对抗性拼写错误,我们建议在下游分类器前放置一个单词识别模型.我们的单词识别模型建立在RNN半字符结构的基础上,引入了一些新的后退策略来处理罕见和未见的单词(ba…
Minerva:一个可扩展的高效的深度学习训练平台 zoerywzhou@gmail.com http://www.cnblogs.com/swje/ 作者:Zhouwan  2015-12-1 声明 1)本文是关于Minerva简介的一篇译文.具体引用的资料请看参考文献.具体的版本声明也参考原文献. 2)本文仅供学术交流,非商用.所以每一部分具体的参考资料并没有详细对应.如果某部分不小心侵犯了大家的利益,还望海涵,并联系博主删除. 3)本人刚接触深度学习方向,专业术语了解甚少,斗胆翻译了这篇文…
一.学习NLP背景介绍:      从2019年4月份开始跟着华为云ModelArts实战营同学们一起进行了6期关于图像深度学习的学习,初步了解了关于图像标注.图像分类.物体检测,图像都目标物体检测等,基本了解了卷积神经网络(CNN)原理及相关常用模型,如:VGG16.MaxNet等.之后从9月份开始在华为云AI专家的带领指引下,对AI深度学习的另外一个重要领域:自然语言处理(NLP)的学习,到目前为止学习了:命名实体识别.文本分类.文本相似度分析.问答系统.人脸检测.在这一个多月对NLP的处理…
摘要:本文从<Shallow-Fusion End-to-End Contextual Biasing>入手,探索解决专有领域的端到端ASR. 本文分享自华为云社区<语境偏移如何解决?专有领域端到端ASR之路(一)>,原文作者:xiaoye0829 . 对于产品级的自动语音识别(Automatic Speech Recognition, ASR),能够适应专有领域的语境偏移(contextual bias),是一个很重要的功能.举个例子,对于手机上的ASR,系统要能准确识别出用户说…