http://blog.csdn.net/m0_37306360/article/details/72832606

这里记录使用fastText训练word vector笔记

github地址:https://github.com/facebookresearch/fastText

下载到本机:

$ gitclone https://github.com/facebookresearch/fastText.git

$ cdfastText

$ make

Make报错:

原因GCC版本过低

Gcc –v

升级版本:参考(http://www.linuxidc.com/Linux/2016-11/136840.htm)

1.      添加源

首先添加ppa到库:

sudo add-apt-repository ppa:ubuntu-toolchain-r/test
sudo apt-get update

2.      安装新版gcc/g++(注意gcc和g++都要更新)

接着就可以选择安装gcc-4.9,gcc-5之类的啦!(注意目前gcc-5实际上是5.3.0,没有5.1或5.2可供选择)

sudo apt-get install gcc-4.8 g++-4.8
sudo apt-get install gcc-4.9 g++-4.9
sudo apt-get install gcc-5 g++-5
sudo apt-get install gcc-6 g++-6

具体希望安装哪个版本,大家可以自己选择

3.      刷新db并locate

接着现在可以考虑刷新一下, 否则locate等命令是找不到的, 这个也是可选的(非必须)

sudo updatedb && sudo ldconfig
locate gcc | grep -E "/usr/bin/gcc-[0-9]"

4.      切换版本

通过update-alternatives建立文件关联

sudo update-alternatives --install /usr/bin/gcc gcc /usr/bin/gcc-4.620

sudo update-alternatives --install /usr/bin/gcc gcc/usr/bin/gcc-4.8 30

然后在fastText文件夹下make,成功生成fastText执行文件。

接下来就可以愉快的使用了。

fastText可以可以用于训练 word represent和text classification,这里记录使用fastText训练word embedding过程。

1.      首先打开word-vector-example.sh文件

RESULTDIR=result  //结果保存文件夹

DATADIR=data     //输入数据文件夹

mkdir -p"${RESULTDIR}"

mkdir -p"${DATADIR}"

if [ ! -f"${DATADIR}/fil9" ]  //如果fil9不存在,就下载

then

wget -c http://mattmahoney.net/dc/enwik9.zip-P "${DATADIR}"

unzip "${DATADIR}/enwik9.zip" -d"${DATADIR}"

perl wikifil.pl "${DATADIR}/enwik9"> "${DATADIR}"/fil9

fi

if [ ! -f"${DATADIR}/rw/rw.txt" ]  //如果rw.txt不存在,就下载

then

wget -chttps://nlp.stanford.edu/~lmthang/morphoNLM/rw.zip -P "${DATADIR}"

unzip "${DATADIR}/rw.zip" -d"${DATADIR}"

fi

make

./fasttextskipgram -input "${DATADIR}"/fil9 -output"${RESULTDIR}"/fil9 -lr 0.025 -dim 100 \

-ws 5 -epoch 1 -minCount 5 -neg 5 -loss ns-bucket 2000000 \

-minn 3 -maxn 6 -thread 4 -t 1e-4-lrUpdateRate 100

//这行代码为训练word embedding,输入为DATADIR下的fil9,输出模型保存在RESULTDIR下fil9。

这些参数是强制性设定的:

- minCount 5:单词出现少于5就丢弃  -minn 最小长度的字符  -maxn 最长长度的字符 –t 采样阈值

这些参数是可选的:

-lr 学习率–epoch 迭代次数–neg 负采样–loss  loss function {ns,hs, softmax}   ---dim 词向量维度 –ws 窗口大小

cut -f1,2 "${DATADIR}"/rw/rw.txt | awk '{print tolower($0)}' | tr '\t' '\n'> "${DATADIR}"/queries.txt

cat"${DATADIR}"/queries.txt | ./fasttext print-word-vectors "${RESULTDIR}"/fil9.bin> "${RESULTDIR}"/vectors.txt

python eval.py -m "${RESULTDIR}"/vectors.txt -d"${DATADIR}"/rw/rw.txt

2.      使用自己的语料训练,这里我使用维基百科英文语料,处理过程前面有讲。

./fasttext cbow –input new_enwiki –output new_enwiki_100_30–epoch 30 –neg 5 –loss ns –dim 100 –ws 5

fasttext使用笔记的更多相关文章

  1. fasttext学习笔记

    When to use FastText? The main principle behind fastText is that the morphological structure of a wo ...

  2. NLP︱高级词向量表达(二)——FastText(简述、学习笔记)

    FastText是Facebook开发的一款快速文本分类器,提供简单而高效的文本分类和表征学习的方法,不过这个项目其实是有两部分组成的,一部分是这篇文章介绍的 fastText 文本分类(paper: ...

  3. cips2016+学习笔记︱简述常见的语言表示模型(词嵌入、句表示、篇章表示)

    在cips2016出来之前,笔者也总结过种类繁多,类似词向量的内容,自然语言处理︱简述四大类文本分析中的"词向量"(文本词特征提取)事实证明,笔者当时所写的基本跟CIPS2016一 ...

  4. 人工智能头条(公开课笔记)+AI科技大本营——一拨微信公众号文章

    不错的 Tutorial: 从零到一学习计算机视觉:朋友圈爆款背后的计算机视觉技术与应用 | 公开课笔记 分享人 | 叶聪(腾讯云 AI 和大数据中心高级研发工程师) 整    理 | Leo 出   ...

  5. 官网实例详解-目录和实例简介-keras学习笔记四

    官网实例详解-目录和实例简介-keras学习笔记四 2018-06-11 10:36:18 wyx100 阅读数 4193更多 分类专栏: 人工智能 python 深度学习 keras   版权声明: ...

  6. 学习笔记(25)- NLP的几个概念

    NLP的几个概念 从技术研究的角度,简单介绍自然语言处理的几个概念 1. 对抗学习 主要指对抗生成网络. 2个主要构成:判别器.生成器 判别模型尽可能提取特征正确率增加的模型,生成模型尽可能" ...

  7. 无所不能的Embedding 2. FastText词向量&文本分类

    Fasttext是FaceBook开源的文本分类和词向量训练库.最初看其他教程看的我十分迷惑,咋的一会ngram是字符一会ngram又变成了单词,最后发现其实是两个模型,一个是文本分类模型[Ref2] ...

  8. git-简单流程(学习笔记)

    这是阅读廖雪峰的官方网站的笔记,用于自己以后回看 1.进入项目文件夹 初始化一个Git仓库,使用git init命令. 添加文件到Git仓库,分两步: 第一步,使用命令git add <file ...

  9. js学习笔记:webpack基础入门(一)

    之前听说过webpack,今天想正式的接触一下,先跟着webpack的官方用户指南走: 在这里有: 如何安装webpack 如何使用webpack 如何使用loader 如何使用webpack的开发者 ...

随机推荐

  1. Xtreme9.0 - Light Gremlins 容斥

    Xtreme9.0 - Light Gremlins 题目连接: https://www.hackerrank.com/contests/ieeextreme-challenges/challenge ...

  2. JS在在线人数和访问人数

    var date=new Date();var expiresDays=10;var count=1500+parseInt(date.getTime()/1000)-parseInt(date.ge ...

  3. [Winform]安装在C盘,无操作权限的一个解决办法

    摘要 在对winform打包,进行安装的时候,一般会采用默认的安装路径,默认安装在C:\Program Files\xx或者C:\Program Files(x86)目录下,但windows有一种安全 ...

  4. 标记 {x:Null},d:DesignWidth,d:DesignHeight

    {x:Null}:用于设置某属性值为Null,比如<Rectangle Fill="{x:Null}" />,其实就相当于<Rectangle />,个人感 ...

  5. Java Dictionary 类存储键值

    字典(Dictionary) 字典(Dictionary) 类是一个抽象类,它定义了键映射到值的数据结构. 当你想要通过特定的键而不是整数索引来访问数据的时候,这时候应该使用Dictionary. 当 ...

  6. mormot事务控制

    mormot事务控制 mormot对所有的数据库类型事务都是一样处理方法gProps.SharedTransaction(1, transBegin);try gProps.SharedTransac ...

  7. 【k8s】基础概念 + 工作原理

    工作原理: 原理图 工作原理描述: 1>用户通过kubectl或者API server的REST API接口,提交需要运行的docker容器(创建pod请求): 2>api server将 ...

  8. unity3d 5.6烘焙教程

    unity5.6是今年发布,作为5.x的最后一个版本,有很多烘焙优势,在此总结一些作为5.x系列完结的笔记这个版本在烘焙上的特点就是增加了渐进光照贴图(Progressive Lightmapper) ...

  9. JQuery攻略(四)事件

    jQuery事件处理,鼠标的单击,双击,悬停,键盘按键,文本动画..... 此章节有 1.1被点击的按钮查找 1.2事件的自动触发 1.3点击之后禁用按钮 1.4鼠标事件 1.5焦点事件 1.6CSS ...

  10. 详细解释如何通过Android自带的方式来实现图片的裁剪——原理分析+解决方案

    我们很多时候需要进行图片的裁剪,其实这个功能在android系统中已经有一套解决方案了,虽然界面和效果并不是很优秀但功能毫无疑问是完美实现了.至于,不用自带的方案怎么做自定义,这个就是后话了.本篇主要 ...