本周接手了一个Cassandra系统的维护工作,有一项是需要将应用方的数据导入我们维护的Cassandra集群,并且为应用方提供HTTP的方式访问服务。这是我第一次接触KV系统,原来只是走马观花似的看过KV啊,NoSQL啊。但是实际上没有实际的使用经验。经过两天的学习和接手,终于搞明白了在生产环境中的使用方式。在此简要的笔记一下。本文主要包括的内容有:

Cassandra的简介,

Cassandra的相关CLI

Cassandra的Python API,并且给出一个批量导入数据的例子。

1. Cassandra简介

Cassandra的主要特点就是它不是一个数据库,而是由一堆数据库节点共同构成的一个分布式网络服务,对Cassandra 的一个写操作,会被复制到其他节点上去,对Cassandra的读操作,也会被路由到某个节点上面去读取。对于一个Cassandra群集来说,扩展性能 是比较简单的事情,只管在群集里面添加节点就可以了。

Cassandra是一个混合型的非关系的数据库,类似于Google的BigTable。其主要功能比 Dynomite(分布式的Key-Value存 储系统)更丰富,但支持度却不如文档存储MongoDB(介于关系数据库和非关系数据库之间的开源产品,是非关系数据库当中功能最丰富,最像关系数据库 的。支持的数据结构非常松散,是类似json的bjson格式,因此可以存储比较复杂的数据类型。)Cassandra最初由Facebook开发,后转变成了开源项目。它是一个网络社交云计算方面理想的数据库。以Amazon专有的完全分布式的Dynamo为基础,结合了Google BigTable基于列族(Column Family)的数据模型。P2P去中心化的存储。很多方面都可以称之为Dynamo 2.0。

和其他数据库比较,有几个突出特点:

  1. 模式灵活 :使用Cassandra,像文档存储,你不必提前解决记录中的字段。你可以在系统运行时随意的添加或移除字段。这是一个惊人的效率提升,特别是在大型部 署上。
  2. 真正的可扩展性 :Cassandra是纯粹意义上的水平扩展。为给集群添加更多容量,可以指向另一台电脑。你不必重启任何进程,改变应用查询,或手动迁移任何数据。
  3. 多数据中心识别 :你可以调整你的节点布局来避免某一个数据中心起火,一个备用的数据中心将至少有每条记录的完全复制。

一些使Cassandra提高竞争力的其他功能:

  1. 范围查询 :如果你不喜欢全部的键值查询,则可以设置键的范围来查询。
  2. 列表数据结构 :在混合模式可以将超级列添加到5维。对于每个用户的索引,这是非常方便的。
  3. 分布式写操作 :可以在任何地方任何时间集中读或写任何数据。并且不会有任何单点失败。

2. 基础命令

连接

./cassandra-cli-h 10.224.52.73 -port 9160

集群式自动负载的,因此连接任意一个节点即可。

Check schema

show schema;

在创建了schema或者列族后,可以使用时命令确认是否成功

在运行改命令前,需要使用命令use keyspace_name; 否则会遇到以下错误:

Not authorized to a working keyspace

list

list column_family_name;

可以显示列族的前100列。

3. 批量导入

实验数据来自搜狗实验室的中文词语搭配库,http://www.sogou.com/labs/dl/r.html

数据格式如下:

词语1_词语2 \t 两个词共同出现的次数

在这里并不讨论该数据的具体意义,只是以这个数据为起点来说明如何向应用方提供服务。

部分实际数据:

都要_打牌>--4

等候_一次>--26

本刊_重要>--3                                                                                                                                                                  关系_全方位>14                                                                                                                                                                加热_迅速>--107

设计列族名为 test_only, cli 如下:

create column family test_only

with column_type = 'Standard'

andcomparator = 'UTF8Type'

anddefault_validation_class = 'BytesType'

andkey_validation_class = 'UTF8Type'

andread_repair_chance = 0.1

anddclocal_read_repair_chance = 0.0

andgc_grace = 864000

andmin_compaction_threshold = 4

andmax_compaction_threshold = 32

andreplicate_on_write = true

andcompaction_strategy = 'org.apache.cassandra.db.compaction.SizeTieredCompactionStrategy'

andcaching = 'KEYS_ONLY'

and column_metadata = [

{column_name : 'count',

validation_class : UTF8Type}]

andcompression_options = {'sstable_compression' :'org.apache.cassandra.io.compress.SnappyCompressor'};

连接到Cassandra:pycassa.ConnectionPool(‘keyspace_name’, server_list)

具体到我们的例子就是:

con = pycassa.ConnectionPool('History',server_list=["server1:9160", "server2:9160","server3:9160"])

获取列族:

cf = pycassa.ColumnFamily(con, cfName)

插入一条数据:

cf.insert('row_key', {'col_name': 'col_val'})  

批量插入:

cf.batch_insert({'row1': {'name1': 'val1', 'name2': 'val2'},                                           'row2': {'foo': 'bar'}})  

获取一条数据:

cf.get(‘row_key’)

获取某一列的值:

cf.get(‘row_key’)[‘column_name’]

下面是具体的代码实现:

import pycassa
import time
batch_size = 100
def pycassa_connect(): #start = time.time()
return pycassa.ConnectionPool('History', server_list=["192.168.1.20:9160"])
#end = time.time()
#print "Mola init time: ", (end - start) def batch_insert(file_path, cf):
global batch_size
f = open(file_path, "r")
count=0
error_count = 0
kvmap = {}
for line in f:--
list = line.split("\t")
if len(list) != 2 :
print "skip error data"
continue
column = {}
column['count'] = list[1].replace('\n', '')
try:
kvmap[list[0].decode('gb2312').encode('utf-8')] = column-
if len(kvmap) % batch_size == 0:
cf.batch_insert(kvmap)
kvmap.clear()
count = count + 1
except Exception, ex:
print "found execption"
print ex
error_count = error_count + 1
f.close()
if len(kvmap) > 0 :
cf.batch_insert(kvmap)
----
for key in kvmap:
print "key is %s, value is %s"%(key, kvmap[key])-
print "total insert data is %d, error is %d"%(count, error_count)

如何测试数据是正确的?

def test_after_insert(file_path, cf):
f = open(file_path, "r")
error_count=0
print "Test started"
for line in f:--
list = line.split("\t")
if len(list) != 2 :
print "skip error data"
continue
count = list[1].replace('\n', '')
if cf.get(list[0].decode('gb2312').encode('utf-8'))['count'] != count:
print "Key %s doesn't match value %s"%(list[0].decode('gb2312').encode('utf-8'), count)
error_count = error_count + 1
print "Test completed, found %d error(s)."%error_count
f.close()

Cassandra使用pycassa批量导入数据的更多相关文章

  1. csv文件批量导入数据到sqlite。

    csv文件批量导入数据到sqlite. 代码: f = web.input(bs_switch = {})  # bs_switch 为from表单file字段的namedata =[i.split( ...

  2. 使用python向Redis批量导入数据

    1.使用pipeline进行批量导入数据.包含先使用rpush插入数据,然后使用expire改动过期时间 class Redis_Handler(Handler): def connect(self) ...

  3. Redis批量导入数据的方法

    有时候,我们需要给redis库中插入大量的数据,如做性能测试前的准备数据.遇到这种情况时,偶尔可能也会懵逼一下,这里就给大家介绍一个批量导入数据的方法. 先准备一个redis protocol的文件( ...

  4. 项目总结04:SQL批量导入数据:将具有多表关联的Excel数据,通过sql语句脚本的形式,导入到数据库

    将具有多表关联的Excel数据,通过sql语句脚本的形式,导入到数据库 写在前面:本文用的语言是java:数据库是MySql: 需求:在实际项目中,经常会被客户要求,做批量导入数据:一般的简单的单表数 ...

  5. 批量导入数据到mssql数据库的

    概述 批量导入数据到数据库中,我们有好几种方式. 从一个数据表里生成数据脚本,到另一个数据库里执行脚本 从EXCEL里导入数据 上面两种方式,导入的数据都会生成大量的日志.如果批量导入5W条数据到数据 ...

  6. asp.net线程批量导入数据时通过ajax获取执行状态

    最近因为工作中遇到一个需求,需要做了一个批量导入功能,但长时间运行没个反馈状态,很容易让人看了心急,产生各种臆想!为了解决心里障碍,写了这么个功能. 通过线程执行导入,并把正在执行的状态存入sessi ...

  7. ADO.NET 对数据操作 以及如何通过C# 事务批量导入数据

    ADO.NET 对数据操作 以及如何通过C# 事务批量导入数据   1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 ...

  8. asp.net 线程批量导入数据,ajax获取执行状态

    最近做了一个批量导入功能,长时间运行,没个反馈状态,很容易让人看了心急,产生各种臆想!为了解决心里障碍,写了这么个功能. 通过线程执行导入,并把正在执行的状态存入session,既共享执行状态,通过a ...

  9. 随笔编号-09 批量导入数据(Mysql)报MySQL server has gone away 问题的解决方法

    问题场景: 使用*.sql 脚本,批量导入数据到mysql实例中,使用DOS 界面导入的,期间,到最后一步 source D:\aaa.sql  回车后,系统提示 MySQL server has g ...

随机推荐

  1. [bzoj4151][AMPPZ2014]The Cave

    来自FallDream的博客,未经允许,请勿转载,谢谢. 给定一棵有n个节点的树,相邻两点之间的距离为1. 请找到一个点x,使其满足所有m条限制,其中第i条限制为dist(x,a[i])+dist(x ...

  2. Linux命令-关机命令详解

    关机命令:1.halt 立刻关机 2.poweroff 立刻关机 3.shutdown -h now 立刻关机(root用户使用) 4.shutdown -h 10 10分钟后自动关机 如果是通过sh ...

  3. VMware下安装Linux(CentOs6.3)操作系统

    VMware 10.0.2 CentOs 6.3 VMware的安装以及CentOs的下载比较简单,这里不再描述 1.创建新的虚拟机 2.选择典型 3.选择稍后安装操作系统 4.选择如图所示 5.虚拟 ...

  4. Lua和C#调用探秘

    转载请标明出处:http://www.cnblogs.com/zblade/ 在实际的项目中,大部分业务逻辑 程序员只需要负责lua层编写逻辑即可,或者在c#层添加一些静态函数,供lua层调用.那么对 ...

  5. DS4700磁盘阵列的控制器微码升级操作记录(收录百度文库)

    DS4700磁盘阵列的控制器微码升级操作记录   项目介绍: 于10年3月,XX地市区/州XX分公司相继反映生产读取数据速度较之前变得非常慢,表现在:日常报表抽取数据速度明显变慢,客户打开前台页面速度 ...

  6. Cisco 的基本配置实例之四----vlan的规划及配置(核心交换机)

    4.vlan的规划及配置 在本节中我们讲解vlan的规划及具体的配置命令.在此例中我们用的是vtp(VLAN Trunking Protocol)server的模式,在这种模式中我们需要配置核心交换机 ...

  7. UML总结4---UML九种图关系说明

    转自:http://blog.csdn.NET/chenyujing1234/article/details/8173519 UML中包括九种图:用例图.类图.对象图.状态图.时序图.协作图.活动图. ...

  8. MYSQL 表左连接 ON AND 和ON WHERE 的区别

    首先是针对左右连接,这里与inner join区分 在使用left join时,on and 和on where会有区别 1. on的条件是在连接生成临时表时使用的条件,以左表为基准 ,不管on中的条 ...

  9. AWS EC2 CentOS release 6.5 部署zookeeper、kafka、dubbo

    AWS EC2 CentOS release 6.5 部署zookeeper.kafka.dubbo参考:http://blog.csdn.net/yizezhong/article/details/ ...

  10. iOS开源加密相册Agony的实现(七)

    简介 虽然目前市面上有一些不错的加密相册App,但不是内置广告,就是对上传的张数有所限制.本文介绍了一个加密相册的制作过程,该加密相册将包括多密码(输入不同的密码即可访问不同的空间,可掩人耳目).Wi ...