爬虫代码实现四：采用Hbase存储爬虫数据(1)

3.Hbase表设计：

1.窄表：列少行多，表中的每一行尽可能保持唯一。

2.宽表：列多行少，通过时间戳版本来进行区分取值。

窄表：比如说，这个表，rowkey由userid+时间+bbsid假设bbsid为回帖的id。那么，对于同一个用于1001，假设我们需要查询1001用户某一天的数据，使用窄表，我们需要查询1001用户所有天数的rowkey数据，然后再一条条对比，最后找到我们需要查找的天数的数据。那如果是365天，我就是要查找第365天，一条条对比，这样效率很低。

那么，本项目该如何来设计Hbase表呢？

点击优酷的不同电视剧，发现url如下：

因此，我们可以采用网站来源+电视剧id作为rowkey，需要爬取的字段信息存于列簇，那么我们如何获取这些列字段比如一天24小时对应的值呢？

这里我们创建Hbase表，设置多个版本，create 'tvcount',{NAME=>'tvinfo',VERSIONS=>30}，这样对于同一个列，我们是存了多个时间段的相应的值，而不仅仅是一条。

具体操作：

1.首先打开hbase环境：

2.再输入$ clear

3.进入hbase shell命令：

4.查询list看有没有这个表

好像目前没有这个表任何信息

5.因此，这里需要创建一个表来存储优酷的电视剧的信息。创建tvcount表，列簇是tvinfo，记录30天的数据

6.再查list，发现有这个表了

7.查看下这个表

现在，我们这个表已经是创建成功了。

爬虫代码实现四：采用Hbase存储爬虫数据(1)的更多相关文章

爬虫代码实现四：采用Hbase存储爬虫数据(2)
导入hbase的jar包,在maven仓库找:进入http://mavenrepository.com/,输入hbase client,选择apache hbase client, 点击进入,选择点 ...
Sybase：存储过程中采用临时表存储统计数据
Sybase:存储过程中采用临时表存储统计数据作用很有效的提升统计查询速度,对于数据量亿级.千万级多表之间关联查询,非常有效: 使用 --无需定义临时表,直接使用 --自动释放临时表 select ...
python爬虫入门（四）利用多线程爬虫
多线程爬虫先回顾前面学过的一些知识 1.一个cpu一次只能执行一个任务,多个cpu同时可以执行多个任务2.一个cpu一次只能执行一个进程,其它进程处于非运行状态3.进程里包含的执行单元叫线程,一个进 ...
分布式爬虫系统设计、实现与实战：爬取京东、苏宁易购全网手机商品数据+MySQL、HBase存储
http://blog.51cto.com/xpleaf/2093952 1 概述在不用爬虫框架的情况,经过多方学习,尝试实现了一个分布式爬虫系统,并且可以将数据保存到不同地方,类似MySQL.HB ...
爬虫技术（四）-- 简单爬虫抓取示例（附c#代码）
这是我的第一个爬虫代码...算是一份测试版的代码.大牛大神别喷... 通过给定一个初始的地址startPiont然后对网页进行捕捉,然后通过正则表达式对网址进行匹配. List<string&g ...
(转)Python新手写出漂亮的爬虫代码2——从json获取信息
https://blog.csdn.net/weixin_36604953/article/details/78592943 Python新手写出漂亮的爬虫代码2——从json获取信息好久没有写关于爬 ...
第三百五十七节，Python分布式爬虫打造搜索引擎Scrapy精讲—利用开源的scrapy-redis编写分布式爬虫代码
第三百五十七节,Python分布式爬虫打造搜索引擎Scrapy精讲—利用开源的scrapy-redis编写分布式爬虫代码 scrapy-redis是一个可以scrapy结合redis搭建分布式爬虫的开 ...
第三百二十四节，web爬虫，scrapy模块介绍与使用
第三百二十四节,web爬虫,scrapy模块介绍与使用 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 其可以应用在数据挖掘,信息处理或存储历史数据等一系列的程序中.其最初是为了 ...
四十七 Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)用Django实现搜索的自动补全功能
elasticsearch(搜索引擎)提供了自动补全接口官方说明:https://www.elastic.co/guide/en/elasticsearch/reference/current/se ...

随机推荐

CentOs中mysql的安装与配置(转)
在linux中安装数据库首选MySQL,Mysql数据库的第一个版本就是发行在Linux系统上,其他选择还可以有postgreSQL,oracle等在Linux上安装mysql数据库,我们可以去其官 ...
kubernetes集群管理命令(三)
系列目录前面两节我们由浅入深介绍了不少kubernetes管理比较常用的命令.本节我们通过案例讲解一些需要更为复杂的操作才能完成的命令. 选择一个deployment下的所有pod 前面讲到过,ku ...
KMP算法模式匹配
转载请注明出处 http://blog.csdn.net/pony_maggie/article/details/37832707 作者:小马在一个长串中查找一个子串是较经常使用的操作.各种信息检索 ...
PHP获取IP
<?php $iipp = $_SERVER["REMOTE_ADDR"]; echo $iipp ; ?>
crazyflie2.0 RCC时钟知识
因为眼下手里仅仅有16MHZ的2520封装的贴片晶振,8MHZ这样的封装做不到这么小,所以就先用16MHZ,这样我们就须要改动程序相关的RCC时钟: 1,stm32f4xx.h #define HSE ...
开源流媒体云视频平台EasyDarwin中EasyCMS服务是如何进行命令转发和消息路由的
EasyCMS介绍 EasyCMS做为EasyDarwin开源流媒体云平台解决方案的一部分,主要进行的是设备的接入和Session(DeviceSession & ClientSession) ...
清除inline-block元素默认间距
1. font-size:0; 2.letter-spaceing:-0.5em;
yum 工作原理
MySQL :: A Quick Guide to Using the MySQL Yum Repository https://dev.mysql.com/doc/mysql-yum-repo-qu ...
Qt JSON解析生成笔记
对于这样一段json { "name": "布衣食", "gender": "Male", "age" ...
NOIP考前感悟
闭关这么久,后来突然后悔自己前几天和暑假的状态很頽不然进步也还能多一点吧还好提前发现了,最后也还是努力了一把也算不枉费自己的选择吧从初中开始学习OI,到头来也没有什么成果但还好自己高一也还 ...

爬虫代码实现四：采用Hbase存储爬虫数据(1)

爬虫代码实现四：采用Hbase存储爬虫数据(1)的更多相关文章

随机推荐

热门专题