*最近在搞文本分类,就是把一批文章分成[军事]、[娱乐]、[政治]等等。

但是这个先需要一些样本进行训练,感觉文本分类和"按图索骥"差不多,训练的文章样本就是"图",真正分类的就是“骥”。

去搜狗实验室找到了一些样本进行下载,先下载了一些迷你版的样本数据,看着还不错,就下载吧,压缩包就不到700M,解压後,1G+。

特别是看到文件后缀是.dat,当场是懵逼的。

  **以前用过sqlLite,网上搜了下,答案是sqlLite是可以打开.dat的文件,下载了一个可视化的sqlLite来打开.dat文件,报错...
  ***如果网上说MS SQL可以打开.dat文件,但是MS SQL打开.dat文件报错的话,我可能还较真的继续下去找找别的原因,但是sqlLite报错,

就算了,不继续这条路了,毕竟自己也不怎么用过sqlLite,,,终于又看到了一个解决方案,说可以将.dat文件导入到MySQL数据库中,

  ****但是需要Toad for MySQL软件的帮助,这个软件貌似貌似不太好找,只好去官网下载了,好需要注册账号才能有权限下载,吧啦吧啦,下载好了,

这个软件的图标是个青蛙,寓意是王子嘛,不过还挺可爱的。我还去MySQL中建了一个数据库,又建了一个账号。然后连接。

  *****然后去看下.dat中的数据样式,我下载的样式是:

<doc>
<url>http://gongyi.sohu.com/20120706/n347457739.shtml</url>
<docno>98590b972ad2f0ea-34913306c0bb3300</docno>
<contenttitle>深圳地铁将设立VIP头等车厢 买双倍票可享坐票</contenttitle>
<content>南都讯 记者刘凡 周昌和 任笑一 继推出日票后,深圳今后将设地铁VIP头等车厢,设坐票制。昨日,《南都METRO》创刊仪式暨2012年深港地铁圈高峰论坛上透露,在未来的11号线上将增加特色服务,满足不同消费层次的乘客的不同需求,如特设行李架的车厢和买双倍票可有座位坐的VIP车厢等。论坛上,深圳市政府副秘书长、轨道交通建设办公室主任赵鹏林透露,地铁未来的方向将分等级,满足不同层次的人的需求,提供不同层次的有针对的服务。其中包括一些档次稍微高一些的服务。“我们要让公共交通也能满足档次稍高一些的服务”。比如,尝试有座位的地铁票服务。尤其是一些远道而来的乘客,通过提供坐票服务,让乘坐地铁也能享受到非常舒适的体验。他说,这种坐票的服务有望在地铁3期上实行,将加挂2节车厢以实施花钱可买座位的服务。“我们希望轨道交通和家里开的车一样,分很多种。”赵鹏林说,比如有些地铁是“观光线”,不仅沿途的风光非常好,还能凭一张票无数次上下,如同旅游时提供的“通票服务”。再比如,设立可以放大件行李的车厢,今后通过设专门可放大件行李的座位,避免像现在放行李不太方便的现象。“未来地铁初步不仅在干线上铺设,还会在支线、城际线上去建设。”“觉得如果车费不太贵的话,还是愿意考虑的。”昨日市民黄小姐表示,尤其是从老街到机场这一段,老街站每次上下客都很多人,而如果赶上上下班高峰期,特别拥挤,要一路从老街站站到机场,40、50分钟还是挺吃力的,宁愿多花点钱也能稍微舒适一点。但是白领林先生则表示,自己每天上下班都要坐地铁,出双倍车资买坐票费用有点高。</content>
</doc>
<doc>
<url>http://gongyi.sohu.com/20120724/n348878190.shtml</url>
<docno>5fa7926d2cd2f0ea-34913306c0bb3300</docno>
<contenttitle>爸爸为女儿百万建幼儿园 消防设施3年仍不过关</contenttitle>
<content></content>
</doc>
<doc>
<url>http://gongyi.sohu.com/s2008/sourceoflife/</url>
<docno>f2467af22cd2f0ea-34913306c0bb3300</docno>
<contenttitle>中国西部是地球上主要干旱带之一,妇女是当地劳动力...</contenttitle>
<content>同心县地处宁夏中部干旱带的核心区, 冬寒长,春暖迟,夏热短,秋凉早,干旱少雨,蒸发强烈,风大沙多。主要自然灾害有沙尘暴、干热风、霜冻、冰雹等,其中以干旱危害最为严重。由于生态环境的极度恶劣,导致农村经济发展缓慢,人民群众生产、生活水平低下,靠天吃饭的被动局面依然存在,同心,又是国家级老、少、边、穷县之一…[详细]</content>
</doc>
//还有很多...

看下这些数据,每条数据有用标签<doc></doc>包着,每个doc标签有4个标签,所以我建了有5列的一个表,test

每列都是varchar,长度也尽量给的大一点,别万一导入的时候报错了;

  ******下面需要一个语句来进行插入到MySQL中:

LOAD DATA LOCAL INFILE 'E:\\b.dat'#E:\\b.dat 为.dat文件在你电脑上的位置
INTO TABLE test#表名
FIELDS TERMINATED BY '\n'#(每条数据中)每一列的隔开的标签
LINES TERMINATED BY '</doc>\n<doc>'#每条数据的隔开的标签
(c1, c2, c3,c4,c5); #导入数据的对应列

然后点下图↓中的运行SQL语句的按钮,

只要没有报错,就是对了,再去看看MySQL中test数据库中的test表,

果然有数据,但是中文乱码!!!

在MySQL中执行sql:

SHOW VARIABLES LIKE 'character_set_%';
SHOW VARIABLES LIKE 'collation_%';

我这里显示的这个就是不乱码的,怎么更改这个值?传送走你

如果是MYSQL数据库编码不正确: 可以在MYSQL执行如下命令:
ALTER DATABASE `test` DEFAULT CHARACTER SET gb2312 COLLATE gb2312_chinese_ci
修改MYSQL表的编码:
ALTER TABLE `test` DEFAULT CHARACTER SET gb2312 COLLATE gb2312_chinese_ci
修改字段的编码:
ALTER TABLE `test` CHANGE `c1` VARCHAR(4000) CHARACTER SET gb2312 COLLATE gb2312_chinese_ci

到这里就可以了,当然导入的时候,数据还不太完美,但是这就够我用了。。。GG

二〇一六年十一月二十一日 21:38:21

将.dat文件导入数据库的更多相关文章

  1. oracle数据库备份、还原 (如何将Oracle 11g备份的dat文件导入到10g数据库里面)

    如何将Oracle 11g备份的dat文件导入到10g数据库里面 解决方法:      导出的时候后面加上目标数据库的版本号   导出: 在SQL plus下执行:create or replace  ...

  2. 用SQLSERVER里的bcp命令或者bulkinsert命令也可以把dat文件导入数据表

    用SQLSERVER里的bcp命令或者bulkinsert命令也可以把dat文件导入数据表 下面的内容的实验环境我是在SQLSERVER2005上面做的 之前在园子里看到两篇文章<C# 读取纯真 ...

  3. C# ASP.NET CSV文件导入数据库

    原文:C# ASP.NET CSV文件导入数据库 using System; using System.Collections.Generic; using System.Text; using Sy ...

  4. 【DRP】採用dom4j完毕XML文件导入数据库

    版权声明:本文为博主原创文章,未经博主同意不得转载. https://blog.csdn.net/lantingxv_jing/article/details/37762523     xml文件在如 ...

  5. EXECL文件导入数据库

    Execl数据导入数据库: 注意事项:execl中的列名与列数要与数据库的列名和列数一致.值类型一致,列名不一致的话可在导入的时候,给字段起别名,确定保持一致 v 界面代码: <div> ...

  6. PHP读取CSV大文件导入数据库的示例

    对于数百万条数据量的CSV文件,文件大小可能达到数百M,如果简单读取的话很可能出现超时或者卡死的现象. 为了成功将CSV文件里的数据导入数据库,分批处理是非常必要的. 下面这个函数是读取CSV文件中指 ...

  7. CSV文件导入数据库和导出数据库

    实例一: <?php $filename = 'test'; //导出文件 header("Content-type: application/vnd.ms-excel; charse ...

  8. 记tp5.1使用composer PhpOffice的xlsx表格文件导入数据库

    在项目环境下composer require phpoffice/phpspreadsheet在项目中引用use PhpOffice\PhpSpreadsheet\IOFactory; 下面是 上传x ...

  9. mongodb csv 文件导入数据库,删除特定字段

    1. 导入数据库 mongoimport -h host_ip -p port -d db_name -c collection_name --fields name1,name2,name3,nam ...

随机推荐

  1. CentOS 7安装JDK

    一.卸载系统自带的openjdk 1.查询系统内置的jdk,使用命令如下: rpm -qa | grep java 此时会列出系统中存在的jdk,如果存在就进行卸载,不存在就直接进行安装. 2.进行卸 ...

  2. A book to recommend: The art of readable code

    我最喜欢的一本书 - 教我如何写可读的代码 Two month fan of the book, from August - Oct. 2014; and then, started to pract ...

  3. 发布和运行HOLOLENS程序注意这里要勾上,不然就成普通的UWP程序了!

  4. Winform listview控件、 容器控件

    1.常用的基本属性: (1)FullRowSelect:设置是否行选择模式.(默认为false) 提示:只有在Details视图该属性才有意义. (2) GridLines:设置行和列之间是否显示网格 ...

  5. Maven配置详见

    CSDN 2016博客之星评选结果公布    [系列直播]零基础学习微信小程序!      "我的2016"主题征文活动   博客的神秘功能 maven 配置详解 标签: mave ...

  6. jdbc java数据库连接 3)Statement接口之执行DDL、DML、DQL

    |- Statement接口: 用于执行静态的sql语句 |- int executeUpdate(String sql)  : 执行静态的更新sql语句(DDL,DML) |- ResultSet ...

  7. 跨域的另一种解决方案——CORS(Cross-Origin Resource Sharing)跨域资源共享

    在我们日常的项目开发时使用AJAX,传统的Ajax请求只能获取在同一个域名下面的资源,但是HTML5打破了这个限制,允许Ajax发起跨域的请求.浏览器是可以发起跨域请求的,比如你可以外链一个外域的图片 ...

  8. linux/ubuntu查看内核版本命令

    打开终端,输入: uname -a

  9. CDN的combo技术能把多个资源文件合并引用,减少请求次数

    CDN的combo技术能把多个资源文件合并引用,减少请求次数.比如淘宝的写法: <link rel="stylesheet" href="//g.alicdn.co ...

  10. Bzoj1096 [ZJOI2007]仓库建设

    Time Limit: 10 Sec  Memory Limit: 162 MBSubmit: 4193  Solved: 1845 Description L公司有N个工厂,由高到底分布在一座山上. ...