1 相关背景 平常大家在上网查询一些基本概念的时候常常会参考维基百科上面的资料,但是由于方校长研制的GFW(长城防火墙系统)强大的屏蔽功能,好多链接打开以后,不出意外会出现著名的“404NOT FOUND”,下载离线版的维基百科就可以轻松解决这个问题喽,而且维基百科中文版和英文版查询时都是十分的方便(下载维基数据库源文件可能稍微费时). 我的计算机环境是windows 7. 2 需要下载的文件和软件 需要下载两个文件:WikiTaxi阅读检索工具和离线wikipedia的数据文件. ① 阅读检索…
JWPL处理维基百科数据用于NLP 处理zhwiki JWPL是一个Wikipedia处理工具,主要功能是将Wikipedia dump的文件经过处理.优化导入mysql数据库,用于NLP过程.以下以zhwiki-20170201为例. JWPLDataMachine用以处理wiki dump数据,最终将数据导入mysql,用于NLP,表结构不同于wkipedia官方的表,这里的表是针对于NLP目的的.处理步骤如下: 数据格式转换.处理zhwiki dump的文件,转换为tsv格式数据,以便用m…
英文维基百科 https://dumps.wikimedia.org/enwiki/ 中文维基百科 https://dumps.wikimedia.org/zhwiki/ 全部语言的列表 https://dumps.wikimedia.org/backup-index.html 提取处理可以使用 wikiextractor提取正文(由于网页数量太多,结构又很纷乱,提取出来的会有少许瑕疵,再处理即可) https://github.com/attardi/wikiextractor 运行命令: …
使用JWPL (Java Wikipedia Library)操作维基百科数据 1. JWPL介绍 JWPL(Java Wikipedia Library)是一个开源的访问wikipeida数据的Java API包,提供了快速访问维基百科中包含的消息,如重定向.类别.文章和链接结构的结构性访问接口.它提供的DataMachine 工具类可快速解析wiki格式文件,生成mysql的数据txt文件,可通过mysqlimport 导入到本地数据库中. JWPL介绍官网:https://dkpro.gi…
为什么使用离线维基百科?一是因为最近英文维基百科被封,无法访问:二是不受网络限制,使用方便,缺点是不能及时更新,可能会有不影响阅读的乱码. 目前,主要有两种工具用来搜索和浏览离线维基百科数据:Kiwix 和 WikiTaxi .这两种都是免费的,但 WikiTaxi 只有 Windows 版本,而 Kiwix 不仅支持 Windows.Linux 和 Mac,而且还支持 Android 和 iOS . Kiwix Kiwix 是免费开源软件.使用 Kiwix Reader 应用浏览维基百科内容,…
在写论文的时候你会想要一些比书本上更好的实例,所以你会在网上寻找资源.当你发现一个你想要的公式时,发现网页公式复制粘贴后太模糊而不适合打印或者投影.这种问题在MathType中如何解决呢? 你可以将网页上的公式复制粘贴到MathType中再进行使用,就像使用MathType其它公式一样.这个处理过程的关键在于使用这个网站将公式图像里的TeX代码看成是"alt text".许多网站和博客都这样做,包括维基百科和Planetmath(一本自由.协作的网络数学百科全书).如果你找到了你想要的…
在我们写论文的时候,经常会需要用一些实际案例以及数据,而这些数据和案例有很大一部分可以直接在网络上找到.但是有时候也会发现我们想要的内容和公式,从网页上复制粘贴后太模糊,不适合打印和投影.就需要我们将网页上的公式进行再编辑. 这个处理过程的关键在于使用这个网站将公式图像里的TeX代码看成是"alt text".许多网站和博客都这样做,包括维基百科和Planetmath(一本自由.协作的网络数学百科全书).如果你找到了你想要的公式,你可以按照下面的方法来做: 1.如果你不确定这个公式是不…
词向量嵌入需要高效率处理大规模文本语料库.word2vec.简单方式,词送入独热编码(one-hot encoding)学习系统,长度为词汇表长度的向量,词语对应位置元素为1,其余元素为0.向量维数很高,无法刻画不同词语的语义关联.共生关系(co-occurrence)表示单词,解决语义关联,遍历大规模文本语料库,统计每个单词一定距离范围内的周围词汇,用附近词汇规范化数量表示每个词语.类似语境中词语语义相似.用PCA或类似方法降维出现向量(occurrence vector),得到更稠密表示.性…
使用开放的 API 做一个自己的小项目,是一个很好的学习方法.但好像开放的 API 选择并不多.这里给大家多一个选择,简单介绍一下维基百科使用的 MediaWiki API. 简介 先简单介绍几个容易混淆的概念. Wiki Wiki 是一种在网络上开放且可供多人协同创作的超文本系统.Wiki 站点可以由多人维护,不同人可以对同一个主题进行拓展和探讨. MediaWiki MediaWiki 是一个免费.开放的 Wiki 引擎,很多著名的 wiki 网站都采用这套系统. Wikipedia 我们常…
[简介] MediaWiki是全球最著名的开源wiki程序,运行于PHP+MySQL环境.MediaWiki从2002年2月25日被作为维基百科全书的系统软件,并有大量其他应用实例.MediaWiki的开发得到维基媒体基金会的支持.MediaWiki是建立wiki网站的首选后台程序,国内的灰狐维客等站点都采用这套系统. [前期文章] [Microsoft Azure 的1024种玩法]一.一分钟快速上手搭建宝塔管理面板 [Microsoft Azure 的1024种玩法]二.基于Azure云平台…