中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词. 分词模块jieba,它是python比较好用的分词模块.待分词的字符串可以是 unicode 或 UTF-8 字符串.GBK 字符串.注意:不建议直接输入 GBK 字符串,可能无法预料地错误解码成 UTF-8 支持三种分词模式 1 精确模式,试图将句子最精确地切开,适合文本分析: 2 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义: 3 搜索引擎模式,在精…
本文旨在介绍如何利用HanLP训练分词模型,包括语料格式.语料预处理.训练接口.输出格式等. 目前HanLP内置的训练接口是针对一阶HMM-NGram设计的,另外附带了通用的语料加载工具,可以通过少量代码导出供其他训练工具使用的特定格式(如CRF++). 语料格式 输入语料格式为人民日报分词语料库格式.该格式并没有明确的规范,但总体满足以下几点: 1.单词与词性之间使用“/”分割,如华尔街/nsf,且任何单词都必须有词性,包括标点等. 2.单词与单词之间使用空格分割,如美国/nsf 华尔街/ns…
尊重原创:(口诀)转自http://lasombra.iteye.com/blog/991662 今天看到<java编程思想>中的运算符优先级助记口诀,不过"Ulcer Addicts Really Like C A lot"在中文语境下不好记.我试着写一个口诀: 单目乘除为关系,逻辑三目后赋值. 单目:单目运算符+ –(负数) ++ -- 等 乘除:算数单目运算符* / % + - 为:位移单目运算符<< >> 关系:关系单目运算符> <…
(标题长一点就能让外行人感觉到高大上) 直接切入主题好了,这个比赛还必须一个神经网络才可以 所以我们结合主题,打算写一个神经网络的中文分词 这里主要写一下数据的收集和处理,网络的设计,代码的编写和模型测试 数据问题 这个模型的数据,我们打算分三类来: 用msr, pku, as, cityu的语料作数据 这些是人工分词的数据,作为数据是最合适的 虽然数据量确实不小(共158999行),但我们有几个另外的想法 用已有的多个中文分词工具,对小说.新闻.法律等进行分词,作为数据 很多分词工具的分词结果…
LSTM 是 long-short term memory 的简称, 中文叫做 长短期记忆. 是当下最流行的 RNN 形式之一 RNN 的弊端 RNN没有长久的记忆,比如一个句子太长时开头部分可能会忘记,从而给出错误的答案. 时间远的记忆要进过长途跋涉才能抵达最后一个时间点. 然后我们得到误差, 而且在 反向传递 得到的误差的时候, 他在每一步都会 乘以一个自己的参数 W. 如果这个 W 是一个小于1 的数, 比如0.9. 这个0.9 不断乘以误差, 误差传到初始时间点也会是一个接近于零的数,…
  坚持完成这套学习手册,你就可以去 Google 面试了 系统 指针 value Google 面试 阅读6138    本文为掘金投稿,译文出自:掘金翻译计划 原文地址:Google Interview University 原文作者:John Washam 译者:Aleen,Newton,bobmayuze,Jaeger,sqrthree 友情提醒:文章较长,需耐心阅读. 这是? 这是我为了从 Web 开发者(自学.非计算机科学学位)蜕变至 Google 软件工程师所制定的计划,其内容历时…
作者:Glowin链接:https://zhuanlan.zhihu.com/p/22881223来源:知乎著作权归作者所有.商业转载请联系作者获得授权,非商业转载请注明出处. 原文地址:Google Interview University 原文作者:John Washam 译文出自:掘金翻译计划 (翻译不易,欢迎 Star 支持) 译者:Aleen,Newton,bobmayuze,Jaeger,sqrthree 这是? 这是我为了从 web 开发者(自学.非计算机科学学位)蜕变至 Goog…
我用中文参数去查找数据,没有返回结果,应该是乱码问题 进行如下配置问题消失:jdbc:mysql://localhost:3306/appstore_db?useUnicode=true&characterEncoding=UTF-8…
面试之前先刷几篇面经,或者做几道热门面试题,想必是大家很熟悉的一种复习方式了,就像我们当年经常做五年高考三年模拟一样.但是可不要把面试题和面经当成你的主要复习方式,它只是锦上添花,绝非雪中送炭! 壹面经的意义 面经是别人的面试经验,所谓前车之鉴,后事之师.我们可以通过面筋对自己的不足查缺补漏,却不能把这些面试题等同于我们所要掌握的知识点.原因很简单,两篇面经可能会有很多的重复知识点,100篇面经也无法包含所有知识点,所以在只刷面经的问题就是:重复多.不全面. 其实笔者以前也很喜欢刷面经,在面试前…
URL编码问题 问题描述 使用 Tomcat 开发一个 Java Web 项目的时候,相信大多数人都遇到过url出现中文乱码的情况,绝大多数人为了避免出现这种问题,所以设计 url 一般都会尽量设计成都是英文字符.但总避免一种情况就是当你的系统中拥有搜索功能时,你无法预料到用户输入的是中文还是其他符号,此时还是会存在中文乱码的问题,那么为什么会产生中文乱码问题,下面给大家详细解析. 什么是 URL URL 叫统一资源定位符,也可以说成我们平时在地址栏输入的路径.通过这个url(路径)我们可以发送…