Faster-rnnlm代码分析1 - 词表构建,Nnet成员

Gdb ./rnnlm

r -rnnlm model-good.faster -train thread.title.good.train.txt -valid thread.title.good.valid.txt -hidden 5- -direct-order 3 -direct 200 -bptt 4 -bptt-block 10 -threads 1

[root@cq01-forum-rstree01.cq01.baidu.com faster-rnnlm]# more thread.title.good.train.txt

唉稳凉菜干货批发稳左成个月都

咦丢图跑

毕竟新人

我想去旅行

昨天玩个满深渊人马才踩了 55

这状态还不如温网

新型投资项目

晒早饭就酱

渣土哥真是太放肆了

推荐就是有这样的

白素贞水漫文水城

我知道那些夏天就像你一样回不

渑池至洛阳最早的车几点哪里坐到洛阳几点

宏观方面大的流动性格局虽无明显变化但眼下地方政府债务限

电工行业竞争大锦力电器有优势

兄弟啊影技 1 班 q 群是多少

你们家乡话叫什么

深深的孤独感与挫败感感觉个人

一起去旅游吧

谁知道四会那里有修打火机的

[root@cq01-forum-rstree01.cq01.baidu.com faster-rnnlm]# pwd

/home/users/chenghuige/other/faster-rnnlm.debug/faster-rnnlm

统计词频建立vocabulary

void Vocabulary::BuildFromCorpus(const std::string& fpath, bool show_progress)

首先添加一个 </s>

AddWord(kEOSTag);
只是编号0

然后逐个添加每行

每行处理的时候按照IsSpace切分

inline bool IsSpace(char c) {

return c == ' ' || c == '\r' || c == '\t' || c == '\n';

然后其实就是对每个词
类似 Identifer.h那样顺序编号，没出现的词
叫做oov 编号 -1

除了编号之外
同时统计频次

最后按照频次排序
从大到小
同时更新编号
也就是频次最大的
这里 </s> 编号为0

(gdb) p words_

, word = 0x6ae1c0 "</s>"}, {

freq = 258246, word = 0x6aef20 "\265\304"}, {freq = 126910, word = 0x6aeff0 "\301\313"}, {

freq = 101904, word = 0x6aedc0 "\316\322"}, {freq = 67328, word = 0x6aeee0 "\323\320"}, {

freq = 62290, word = 0x6aec10 "\270\366"}, {freq = 60866, word = 0x6afb20 "\322\273"}, {

[root@cq01-forum-rstree01.cq01.baidu.com faster-rnnlm]# wc -l thread.title.good.train.txt

thread.title.good.train.txt

gdb) p cfg

$2 = {layer_size = 5, layer_count = 1, maxent_hash_size = 199947228, maxent_order = 3, use_nce = false, nce_lnz = 9, reverse_sentence = false, layer_type = "sigmoid"}

构建网格结构

main_nnet = new NNet(vocab, cfg, use_cuda, use_cuda_memory_efficient);

构造函数调用Init 在这里

embeddings.resize(vocab.size(), cfg.layer_size);

//(word_num, hidden_size) 二维数组

rec_layer = CreateLayer(cfg.layer_type, cfg.layer_size, cfg.layer_count);

//隐层
建立一个layer 默认layer_type是sigmoid

maxent_layer.Init(cfg.maxent_hash_size);

//最大熵
@TODO

softmax_layer = HSTree::CreateHuffmanTree(vocab, cfg.layer_size);

//输出层 softmax 采用huffman树

Faster-rnnlm代码分析1 - 词表构建,Nnet成员的更多相关文章

tensorflow faster rcnn 代码分析一 demo.py
os.environ["CUDA_VISIBLE_DEVICES"]=2 # 设置使用的GPU tfconfig=tf.ConfigProto(allow_soft_placeme ...
完整全面的Java资源库（包括构建、操作、代码分析、编译器、数据库、社区等等）
构建这里搜集了用来构建应用程序的工具. Apache Maven:Maven使用声明进行构建并进行依赖管理,偏向于使用约定而不是配置进行构建.Maven优于Apache Ant.后者采用了一种过程化 ...
tensorflow笔记：多层LSTM代码分析
tensorflow笔记:多层LSTM代码分析标签(空格分隔): tensorflow笔记 tensorflow笔记系列: (一) tensorflow笔记:流程,概念和简单代码注释 (二) ten ...
Android代码分析工具lint学习
1 lint简介 1.1 概述 lint是随Android SDK自带的一个静态代码分析工具.它用来对Android工程的源文件进行检查,找出在正确性.安全.性能.可使用性.可访问性及国际化等方面可能 ...
常用 Java 静态代码分析工具的分析与比较
常用 Java 静态代码分析工具的分析与比较简介: 本文首先介绍了静态代码分析的基本概念及主要技术,随后分别介绍了现有 4 种主流 Java 静态代码分析工具 (Checkstyle,FindBu ...
angular代码分析之异常日志设计
angular代码分析之异常日志设计错误异常是面向对象开发中的记录提示程序执行问题的一种重要机制,在程序执行发生问题的条件下,异常会在中断程序执行,同时会沿着代码的执行路径一步一步的向上抛出异常,最 ...
[Asp.net 5] DependencyInjection项目代码分析4-微软的实现（3）
这个系列已经写了5篇,链接地址如下: [Asp.net 5] DependencyInjection项目代码分析 [Asp.net 5] DependencyInjection项目代码分析2-Auto ...
wifi display代码分析
转自:http://blog.csdn.net/lilian0118/article/details/23168531 这一章中我们来看Wifi Display连接过程的建立,包含P2P的部分和RTS ...
Device Tree（三）：代码分析【转】
转自:http://www.wowotech.net/linux_kenrel/dt-code-analysis.html Device Tree(三):代码分析作者:linuxer 发布于:201 ...

随机推荐

CCActionManager
当CCnode执行runAction的时候,runAction会调用动作管理类的addAction方法将它自己执行的动作传递给动作管理类,动作管理类再将动作添加到自己的动作序列中. 动过管理类通过定时 ...
Opencv SkinOtsu皮肤检测
void SkinRGB(IplImage* rgb, IplImage* _dst) { assert(rgb->nChannels == && _dst->nChann ...
SNMP报文抓取与分析(二)
SNMP报文抓取与分析(二) SNMP报文抓取与分析(二) 1.SNMP报文表示简介基本编码规则BER 标识域Tag表示长度域length表示 2.SNMP报文详细分析(以一个get-respon ...
5-python学习——条件语句
5-python学习——条件语句 5-python学习——条件语句条件语句if else形式 if else条件语句说明测试一下编程语言一般都由这么几个部分组成变量条件分支语句循环语句函 ...
java socket client
用tornado做了个socket server.无奈联调的人员对接不上. 于是撸出了以下demo import java.io.*; import java.net.*; public class ...
ndk学习16: unix domain socket
一.UNIX Domain Socket 概念: UNIX Domain Socket是在socket架构上发展起来的用于同一台主机的进程间通讯(IPC) 特点: 1. 它不需要经过网络协议栈,不需要 ...
List转换DataTable
/// <summary> /// 将泛类型集合List类转换成DataTable /// </summary> /// <param name="list&q ...
Extjs PROXY查询params无法传参,改用extraParams
一个静态的HTML页面用jquery ajax登录到sharepoint页面
$.ajax({ type: "get", url: "http://", d ...
【转】关于Class.getResource和ClassLoader.getResource的路径问题
Java中取资源时,经常用到Class.getResource和ClassLoader.getResource,这里来看看他们在取资源文件时候的路径问题. Class.getResource(Stri ...

Faster-rnnlm代码分析1 - 词表构建,Nnet成员

Faster-rnnlm代码分析1 - 词表构建,Nnet成员的更多相关文章

随机推荐

热门专题