安装使用离线版本的维基百科(Wikipedia)
1 相关背景
平常大家在上网查询一些基本概念的时候常常会参考维基百科上面的资料,但是由于方校长研制的GFW(长城防火墙系统)强大的屏蔽功能,好多链接打开以后,不出意外会出现著名的“404NOT FOUND”,下载离线版的维基百科就可以轻松解决这个问题喽,而且维基百科中文版和英文版查询时都是十分的方便(下载维基数据库源文件可能稍微费时)。
我的计算机环境是windows 7.
2 需要下载的文件和软件
需要下载两个文件:WikiTaxi阅读检索工具和离线wikipedia的数据文件。
① 阅读检索工具wikiTaxi的下载链接:
② 离线版维基数据文件的下载地址:http://zh.wikipedia.org/wiki/Wikipedia:%E6%95%B0%E6%8D%AE%E5%BA%93%E4%B8%8B%E8%BD%BD
如下图所示 :
点击中文版下载处的链接,在一串以日期命名的列表中,选择最近的日期的链接,例如我选择的是20130712,点击进入,点击名称为:zhwiki-20130712-pages-articles.xml.bz2的文件进行下载。如图所示:
3 软件的安装使用
WikiTaxi是一个小巧的绿色免安装版的软件,下载以后解压缩就可以直接使用。
首先把wikiTaxi的压缩包(解压缩以后可以直接使用,无需安装)和离线版维基的数据库文件(此文件不需要解压缩)放到同一个文件加下,便于操作。如下图所示(图中的WikiTaxi已经解压缩):
然后打开WikiTaxi_1.3.0文件夹,如下图所示
这时,我们就可以开始导入离线维基百科数据库的工作了,
先新建一个文本文档“CH_Wiki.txt”(新建文本文档的名字可以随意命名为别的名称),把此文本文档的后缀名称改为“.taxi”(如上图所示,是改好后的效果)。
打开WikiTaxi_Importer.exe文件,①选择离线文件路径;②选择新建好的CH_Wiki.txt文件的路径,如下图所示:
路径选择好以后,直接点击Import Now! 按钮就可以了。
整个导入过程大概要十几分钟左右。
写入完成以后关掉这个小窗口,我们找到WikiTaxi,exe ,双击运行就可以查询。
程序运行效果图一:
效果图二:
注意:
1、英文版的wiki,安装使用方法是类似的,但是数据库文件较大在9G左右,请大家合理分配硬盘空间。
2、下载数据库源文件的时候一定要下载名称为“zhwiki-XXXXXXXX-pages-articles.xml.bz2”(其中XXXXXX为具体的时间),例如我下载的是“zhwiki-20130712-pages-articles.xml.bz2”,如果下载错误的数据库文件,会在用“WikiTaxi_Importer”写入的时候出现错误。
3、参考文章,一并表示感谢
③:WikiTaxi网站(官方网站)
安装使用离线版本的维基百科(Wikipedia)的更多相关文章
- JWPL工具处理维基百科wikipedia数据用于NLP
JWPL处理维基百科数据用于NLP 处理zhwiki JWPL是一个Wikipedia处理工具,主要功能是将Wikipedia dump的文件经过处理.优化导入mysql数据库,用于NLP过程.以下以 ...
- 搜索和浏览离线 Wikipedia 维基百科(中/英)数据工具
为什么使用离线维基百科?一是因为最近英文维基百科被封,无法访问:二是不受网络限制,使用方便,缺点是不能及时更新,可能会有不影响阅读的乱码. 目前,主要有两种工具用来搜索和浏览离线维基百科数据:Kiwi ...
- 使用JWPL (Java Wikipedia Library)操作维基百科数据
使用JWPL (Java Wikipedia Library)操作维基百科数据 1. JWPL介绍 JWPL(Java Wikipedia Library)是一个开源的访问wikipeida数据的Ja ...
- 110G离线维基百科数据免费拿
110G离线维基百科数据免费拿.. 资料获取方式,关注公总号RaoRao1994,查看往期精彩-所有文章,即可获取资源下载链接 更多资源获取,请关注公总号RaoRao1994
- wikipedia 维基百科 语料 获取 与 提取 处理 by python3.5
英文维基百科 https://dumps.wikimedia.org/enwiki/ 中文维基百科 https://dumps.wikimedia.org/zhwiki/ 全部语言的列表 https: ...
- 中英文维基百科语料上的Word2Vec实验
最近试了一下Word2Vec, GloVe 以及对应的python版本 gensim word2vec 和 python-glove,就有心在一个更大规模的语料上测试一下,自然而然维基百科的语料进入了 ...
- 学习笔记TF018:词向量、维基百科语料库训练词向量模型
词向量嵌入需要高效率处理大规模文本语料库.word2vec.简单方式,词送入独热编码(one-hot encoding)学习系统,长度为词汇表长度的向量,词语对应位置元素为1,其余元素为0.向量维数很 ...
- Windows下基于python3使用word2vec训练中文维基百科语料(一)
在进行自然语言处理之前,首先需要一个语料,这里选择维基百科中文语料,由于维基百科是 .xml.bz2文件,所以要将其转换成.txt文件,下面就是相关步骤: 步骤一:下载维基百科中文语料 https:/ ...
- 维基百科 MediaWiki API 解析
使用开放的 API 做一个自己的小项目,是一个很好的学习方法.但好像开放的 API 选择并不多.这里给大家多一个选择,简单介绍一下维基百科使用的 MediaWiki API. 简介 先简单介绍几个容易 ...
随机推荐
- (转)解决windows解决windows 7 部分程序图标显示不正常的问题
刚解决计算机的管理选项打开出现问题,又发现系统里部分程序的快捷图标显示不出了, 曾在xp里也出现过同样的问题,常理推断,如果系统没有被病毒破坏那可能就是系统图标缓存出现问题 因此,双管齐下,一边检查系 ...
- C# SqlBulkCopy 避免插入重复数据(不重复即插入)
之前写过一篇 C# SqlBulkCopy 大量数据导入到数据库 的文章介绍了大量数据导入到数据库的高效方法. 这篇文章与之有些关联,在这之前所想的是做全量插入,每次run这个job就会清空然后插入, ...
- Spark 内存管理
Spark 内存管理 Spark 执行应用程序时, 会启动 Driver 和 Executor 两种 JVM 进程 Driver 负责创建 SparkContext 上下文, 提交任务, task的分 ...
- Elasticsearch Query DSL(查询语言)
章节 Elasticsearch 基本概念 Elasticsearch 安装 Elasticsearch 使用集群 Elasticsearch 健康检查 Elasticsearch 列出索引 Elas ...
- wireshark封包详细信息详解(10.15 第二十一天)
wireshark:网络流量抓取分析神器,需要学习一些常用的数据包过滤规则 IP过滤 ip.addr==192.168.1.1 只要包中的IP有192.168.1.1的,就会提取过来 IP源地址:ip ...
- 51nod 1435:位数阶乘
1435 位数阶乘 题目来源: CodeForces 基准时间限制:1 秒 空间限制:131072 KB 分值: 40 难度:4级算法题 收藏 关注 X是一个n位数的正整数 (x=a0a1...a ...
- tensorflow--保存加载模型
s=mnist.train.next_batch(batch_size)print(xs.shape)print(ys.shape) # #从集合中取全部变量# tf.get_collection() ...
- mybatis配置约束config,mapper
MyBatis 主配置文件 config.xml(这里可以自己起,不过后面带上Config.xml) <?xml version="1.0" encoding="U ...
- 自学Java第五章——《面向对象的基本特征》
面向对象的基本特征: 1.封装 2.继承 3.多态 6.1 封装 1.好处: (1)隐藏实现细节,方便使用者使用 (2)安全,可以控制可见范围 2.如何实现封装? 通过权限修饰符 面试题:请按照可见范 ...
- JS常用的正则表达式包
结构: Code: /* 用途:检查输入的Email信箱格式是否正确 输入:strEmail:字符串 返回:如果通过验证返回true,否则返回false */ function checkEmail( ...