1 相关背景

平常大家在上网查询一些基本概念的时候常常会参考维基百科上面的资料,但是由于方校长研制的GFW(长城防火墙系统)强大的屏蔽功能,好多链接打开以后,不出意外会出现著名的“404NOT FOUND”,下载离线版的维基百科就可以轻松解决这个问题喽,而且维基百科中文版和英文版查询时都是十分的方便(下载维基数据库源文件可能稍微费时)。

我的计算机环境是windows 7.

2 需要下载的文件和软件

需要下载两个文件:WikiTaxi阅读检索工具和离线wikipedia的数据文件。

① 阅读检索工具wikiTaxi的下载链接:

链接地址一http://www.yunqa.de/delphi/lib/exe/fetch.php?hash=a6bffa&media=http%3A%2F%2Fwww.wikitaxi.org%2Fdelphi%2Fdownloads%2FWikiTaxi_1.3.0.zip

或者             地址二http://www.yunqa.de/delphi/lib/exe/fetch.php?hash=8fcac3&media=http%3A%2F%2Fwww.wikitaxi.org%2Fdelphi%2Fdownloads%2FWikiTaxi_1.3.0.7z

② 离线版维基数据文件的下载地址:http://zh.wikipedia.org/wiki/Wikipedia:%E6%95%B0%E6%8D%AE%E5%BA%93%E4%B8%8B%E8%BD%BD

如下图所示 :

点击中文版下载处的链接,在一串以日期命名的列表中,选择最近的日期的链接,例如我选择的是20130712,点击进入,点击名称为:zhwiki-20130712-pages-articles.xml.bz2的文件进行下载。如图所示:

3 软件的安装使用

WikiTaxi是一个小巧的绿色免安装版的软件,下载以后解压缩就可以直接使用。

首先把wikiTaxi的压缩包(解压缩以后可以直接使用,无需安装)和离线版维基的数据库文件(此文件不需要解压缩)放到同一个文件加下,便于操作。如下图所示(图中的WikiTaxi已经解压缩):

然后打开WikiTaxi_1.3.0文件夹,如下图所示

这时,我们就可以开始导入离线维基百科数据库的工作了,

先新建一个文本文档“CH_Wiki.txt”(新建文本文档的名字可以随意命名为别的名称),把此文本文档的后缀名称改为“.taxi”(如上图所示,是改好后的效果)。

打开WikiTaxi_Importer.exe文件,①选择离线文件路径;②选择新建好的CH_Wiki.txt文件的路径,如下图所示:

路径选择好以后,直接点击Import Now! 按钮就可以了。

整个导入过程大概要十几分钟左右。

写入完成以后关掉这个小窗口,我们找到WikiTaxi,exe ,双击运行就可以查询。

程序运行效果图一:

效果图二:

注意:

1、英文版的wiki,安装使用方法是类似的,但是数据库文件较大在9G左右,请大家合理分配硬盘空间。

2、下载数据库源文件的时候一定要下载名称为“zhwiki-XXXXXXXX-pages-articles.xml.bz2”(其中XXXXXX为具体的时间),例如我下载的是“zhwiki-20130712-pages-articles.xml.bz2”,如果下载错误的数据库文件,会在用“WikiTaxi_Importer”写入的时候出现错误。

3、参考文章,一并表示感谢

①:离线使用维基百科:WikiTaxi(单机版的维基百科)

②:教你安装离线版维基百科-哲人王与理想国

③:WikiTaxi网站(官方网站)

安装使用离线版本的维基百科(Wikipedia)的更多相关文章

  1. JWPL工具处理维基百科wikipedia数据用于NLP

    JWPL处理维基百科数据用于NLP 处理zhwiki JWPL是一个Wikipedia处理工具,主要功能是将Wikipedia dump的文件经过处理.优化导入mysql数据库,用于NLP过程.以下以 ...

  2. 搜索和浏览离线 Wikipedia 维基百科(中/英)数据工具

    为什么使用离线维基百科?一是因为最近英文维基百科被封,无法访问:二是不受网络限制,使用方便,缺点是不能及时更新,可能会有不影响阅读的乱码. 目前,主要有两种工具用来搜索和浏览离线维基百科数据:Kiwi ...

  3. 使用JWPL (Java Wikipedia Library)操作维基百科数据

    使用JWPL (Java Wikipedia Library)操作维基百科数据 1. JWPL介绍 JWPL(Java Wikipedia Library)是一个开源的访问wikipeida数据的Ja ...

  4. 110G离线维基百科数据免费拿

    110G离线维基百科数据免费拿.. 资料获取方式,关注公总号RaoRao1994,查看往期精彩-所有文章,即可获取资源下载链接 更多资源获取,请关注公总号RaoRao1994

  5. wikipedia 维基百科 语料 获取 与 提取 处理 by python3.5

    英文维基百科 https://dumps.wikimedia.org/enwiki/ 中文维基百科 https://dumps.wikimedia.org/zhwiki/ 全部语言的列表 https: ...

  6. 中英文维基百科语料上的Word2Vec实验

    最近试了一下Word2Vec, GloVe 以及对应的python版本 gensim word2vec 和 python-glove,就有心在一个更大规模的语料上测试一下,自然而然维基百科的语料进入了 ...

  7. 学习笔记TF018:词向量、维基百科语料库训练词向量模型

    词向量嵌入需要高效率处理大规模文本语料库.word2vec.简单方式,词送入独热编码(one-hot encoding)学习系统,长度为词汇表长度的向量,词语对应位置元素为1,其余元素为0.向量维数很 ...

  8. Windows下基于python3使用word2vec训练中文维基百科语料(一)

    在进行自然语言处理之前,首先需要一个语料,这里选择维基百科中文语料,由于维基百科是 .xml.bz2文件,所以要将其转换成.txt文件,下面就是相关步骤: 步骤一:下载维基百科中文语料 https:/ ...

  9. 维基百科 MediaWiki API 解析

    使用开放的 API 做一个自己的小项目,是一个很好的学习方法.但好像开放的 API 选择并不多.这里给大家多一个选择,简单介绍一下维基百科使用的 MediaWiki API. 简介 先简单介绍几个容易 ...

随机推荐

  1. Oracle 子程序、过程、函数

    一.子程序 子程序是一个数据库对象,存在于数据库中,里面存放的是PL/SQL代码,可以完成一定的共能,能被程序和客户端工具直接调用.子程序类似于java中的方法,可以接接收参数,按照是否有返回值,子程 ...

  2. vuejs+thinkphp5+phpsocketIO+timer数据及时更新

    1.安装thinkphp5.0以上版本包含workerman框架2.composer安装composer require workerman/phpsocket.io3.vue中调用需要加载weapp ...

  3. SPOJ DQUERY D-query 离线+树状数组

    本来是想找个主席树的题目来练一下的,这个题目虽说可以用主席树做,但是用这个方法感觉更加叼炸天 第一次做这种离线方法,所谓离线,就在把所有询问先存贮起来,预处理之后再一个一个操作 像这个题目,每个操作要 ...

  4. Java交换数据为何不起作用原因分析

    一.概述 目前各类语言中向函数传递参数的类型分为三种: 按值传递 按引用传递 按指针传递 其中按值传递表示方法(函数)接收的是调用者提供的变量的拷贝,不改变参数的值:按引用传递表示方法(函数)接收的调 ...

  5. PHP购物网站

    我使用的phpsteam经常用着用着就闪退,所以做起来挺麻烦的.里面的代码有抄袭借鉴网上的代码,就是那个php做购物网站点击量最高的那个. 但是我很多代码也是自己写的不和其相同. PHP是一门选修课, ...

  6. 使用BP爆破有token值的密码(10.17 第二十三天)

    此次爆破使用的网站是DVWA来进行测试 工具:Burp suite 1.进去DVWA网站,选择高级安全等级,再进入到Brute Force(爆破)模块,假设此时已知账号是admin的情况下我们不知道密 ...

  7. 【LeetCode】验证二叉搜索树

    [问题]给定一个二叉树,判断其是否是一个有效的二叉搜索树. 假设一个二叉搜索树具有如下特征:节点的左子树只包含小于当前节点的数.节点的右子树只包含大于当前节点的数.所有左子树和右子树自身必须也是二叉搜 ...

  8. 【LeetCode】最长回文子串-动态规划法

    [问题]给定一个字符串 s,找到 s 中最长的回文子串.你可以假设 s 的最大长度为 1000. 示例 : 输入: "babad" 输出: "bab" 注意: ...

  9. <老古董>1962年的线性支持向量机解法

    我们说“训练”支持向量机模型,其实就是确定"最大间隔超平面". 用数学语言来说就是确定一个最优的W.好比训练一个逻辑回归模型的目的是确定最优的W和b. 输入 X,为一个n维向量 输 ...

  10. SPFA--P3905 道路重建

    题目描述 从前,在一个王国中,在n个城市间有m条道路连接,而且任意两个城市之间至多有一条道路直接相连.在经过一次严重的战争之后,有d条道路被破坏了.国王想要修复国家的道路系统,现在有两个重要城市A和B ...