关于2000W数据

前几天在博客园首页看到这个2000W数据的消息，刚好这个学期正在SQL入门，加上好奇心的驱使，把这个下载下来。

一个是600多M的CSV文件，还有一个是1.7G的SQL Server的备份文件，解压后都接近8G了，试着在sql server2000上导入一下，貌似直接就说太多了……汗

所以，只好先看看这个CSV文件了，这个解压后也接近2G了，一般的文本编辑器似乎都没辙了，excel之类的东西更是别指望了，好吧，我先承认我的电脑很差，80G的硬盘，并口，ATA/133……呃

我用HEX编辑软件查看了一下，居然是UTF8的编码，那就先用Python简单写段查询，看看有没有村里人中枪吧，哈哈

# -*- coding: utf-8 -*-

def cn(s):

    return s.decode("utf8").encode("gbk")

try:

    fp=file("2000w.csv","r")

    while 1:

        fp.seek(0)

        word=raw_input(cn("查询关键词:"))

        fout=file(word+".txt","w")

        #sline=int(raw_input(cn("起始行:")))

        if word=='exit':break

        word=word.decode("gbk").encode("utf8")

        i=0

        print "start..."

        while 1:

            i=i+1

            datl=fp.readline()

            if datl=="":break

            if i%10000==0:print i

            #if i<sline:continue

            if datl.find(word)>0:

                tstr=cn("【Line:%d】%s"%(i,datl))

                print tstr,

                print>>fout,tstr,

                #pmt=raw_input(cn("是否继续(y/n):"))

                #if pmt=='n':break

        print "end"

        fout.close()

finally:

    fp.close()

    fout.close()

顺便把查询记录也保存为一个文件，结果……似乎没发现认识的人，看来他们的保密措施做的不错，哈哈。

终归还是为了练习SQL的，所以还是要将数据导入到sql server先。

在此吐槽一下微软的东西，安装包越做越大，装个软件好几个小时，记得去年装个VS2012Express居然花了整整一上午！！！

所以，对于我这种偏执狂以及标准穷屌丝来说，VC用6.0，sql server用2000的，还是云端版，才几十M，入门学习足够了，哈哈。

回正题，我试着将CSV文件导入到SQL Server里去，发现编码方式只能选择ANSI或者Unicode之类的，选Unicode后英文字符都不正确了，ANSI的话中文肯定乱码，所以还是用Python将编码转成UTF8，插了下资料，UTF8的文本文件有个3字节的文件头，EFBBBF，我直接把它忽略了，哈哈

#MAXLIST=1000

frp=file("2000w_utf8.csv","r")

fwp=file("2000w_ansi.csv","w")

i=1

dat=frp.readline()

fwp.write(dat[3:])

try:

    while 1:

        i=i+1

        if i%10000==0:print i

        dat=frp.readline()

        if dat=="":break

        #if i>MAXLIST:break

        else:

            try:

                dat_w=dat.decode("utf8").encode("gbk")

            except UnicodeEncodeError:

                print "gbk encode error"

                fwp.write(dat)

            fwp.write(dat_w)

except Exception,e:

    print e

finally:

    frp.close()

    fwp.close()

print "ok"

这样，导入SQLServer就正确了。

PS：我的数据似乎只有1200多万，没有2000W啊，不知是不是没有下载到完整版，嘿嘿

关于2000W数据的更多相关文章

某酒店2000W数据
某酒店2000W数据 2000万开房信息 [某酒店2000w数据 ct2000(解压密码:sjisauisa是就数据8很舒适好sjjss).rar] 国内安全漏洞监测平台乌云(WooYun.org)近 ...
2000w数据，redis中只存放20w的数据，如何保证redis中的数据都是热点数据
redis 内存数据集大小上升到一定大小的时候,就会施行数据淘汰策略. redis 提供 6种数据淘汰策略:voltile-lru:从已设置过期时间的数据集(server.db[i].expires) ...
2000w数据，redis中只存20w的数据，如何保证redis中的数据都是热点数据
redis 内存数据集大小上升到一定大小的时候,就会施行数据淘汰策略.redis 提供 6种数据淘汰策略: voltile-lru:从已设置过期时间的数据集(server.db[i].expires) ...
MySQL 里有 2000w 数据，redis 中只存 20w 的数据，如何保证 redis 中的数据都是热点数据？
Redis 内存数据集大小上升到一定大小的时候,就会施行数据淘汰策略. 相关知识:Redis 提供 6 种数据淘汰策略: volatile-lru:从已设置过期时间的数据集(server.db[i]. ...
2000W条数据,加入全文检索的总结
一) 前期准备测试: 旧版的MySQL的全文索引只能用在MyISAM表格的char.varchar和text的字段上. 不过新版的MySQL5.6.24上InnoDB引擎也加入了全文索引,所以具体信息 ...
【数据库】_由2000W多条开房数据引发的思考、实践----给在校生的一个真实【练耙场】，同学们，来开始一次伟大的尝试吧。
× 缘起---闲逛博客园前几天的时候,在某一QQ群看到一条消息“XXX酒店开房XXXBTXX迅雷BT下载”,当时是一目十行的心态浏览,目光掠过时, 第一反应我想多了~以为是XX种子(你懂的~ ...
借网上盛传2000w记录介绍多进程处理
2000w的数据在网上搞得沸沸扬扬,作为技术宅的我们也来凑凑热闹.据了解网上有两个版一个是数据库文件另一个是CSV文件的,前者大小有好几个G后者才几百M.对于不是土豪的我们当然下载几百M的.至于在哪下 ...
redis之数据操作详解
redis是一个key-value存储系统.和Memcached类似,它支持存储的value类型相对更多,包括string(字符串).list(链表).set(集合).zset(sorted set ...
Mysql学习总结（35）——Mysql两千万数据优化及迁移
最近有一张2000W条记录的数据表需要优化和迁移.2000W数据对于MySQL来说很尴尬,因为合理的创建索引速度还是挺快的,再怎么优化速度也得不到多大提升.不过这些数据有大量的冗余字段和错误信息,极不 ...

随机推荐

【编程之美】计算1-N中含1的个数
转自:点我 1位数的情况: 在解法二中已经分析过,大于等于1的时候,有1个,小于1就没有. 2位数的情况: N=13,个位数出现的1的次数为2,分别为1和11,十位数出现1的次数为4,分别为10,1 ...
Ruby基础数据类型
#数字分为证书Integer,浮点数Float(对应与其他语言中的double),和复数Complex #整数又分为Fixnum和Bignum,Fixnum和Bignum会互相转换,这些都是ruby自 ...
2014年acm亚洲区域赛·鞍山站
今天北京赛站的比赛也结束了···看了一天的直播之后意识到鞍山站的比赛都过去了一个多月了···这一个月比较萎靡···整天都在睡觉写报告画工图中度过··· 鞍山比哈尔滨还是暖和很多的···就是山上有奇怪的 ...
[视频监控]用状态机图展示Layout切换关系
监控系统通常会提供多种Layout给用户,用于满足不同需求,如:高清显示单路视频或者同时观察多路监控情况. 文中系统只提供了单路.2x2(2行2列共4路).8路(4行4列布局,从左上角算起,有个核心显 ...
The Automated Testing Handbook 自动化测试手册简介
Learn what works, what doesn't and why. The Automated Testing Handbook is a practical blueprint for ...
WCF扩展
WCF 可扩展性 WCF 提供了许多扩展点供开发人员自定义运行时行为. WCF 在 Channel Layer 之上还提供了一个高级运行时,主要是针对应用程序开发人员.在 WCF 文档中,它常被称为服 ...
排序算法：七大排序算法的PHP实现
由于最近在找工作,面试中难免会遇到一些算法题,所以就用PHP把七大排序算法都实现了一遍,也当做是一种复习于沉淀. 冒泡排序 2. 选择排序 3. 插入排序 4. 快速排序 5. 希尔排序 6. 归并排 ...
redo文件一
redo log files and redo log buffer redo log files的作用的是确保数据库崩溃之后能正确的恢复数据库,恢复数据库到一,致性的状态 redo log file ...
Javascript——说说js的调试
最近比较吐槽,大家都知道,现在web前端相对几年前来说已经变得很重了,各种js框架,各种面对对象,而且项目多了,就会提取公共模块. 这些模块的UI展示都一样,不一样的就是后台逻辑,举个例子吧,我们做企 ...
转】Apache解决高并发和高可用
原博主于: http://www.ha97.com/5803.html 感谢! 服务器集群 Apache 和 nginx(web服务器) 1. 多台集群机器联合处理一个任务. 2. 一台机器处 ...

关于2000W数据

关于2000W数据的更多相关文章

随机推荐

热门专题