解析数据存储MySQL

为了适应不同项目对不同感兴趣属性的解析存储，数据存储结构采用纵向的属性列表方式，即一个url页面多个属性存储多条记录方式，并且按照text，html，

data，num几大典型类型分别对应存储。

　　创建UTF-8字符集的nutch数据库，并执行表初始化脚本，参考DDL：

　　CREATE TABLE `crawl_data` (

　　`url` varchar(255) NOT NULL,

　　`code` varchar(255) NOT NULL,

　　`name` varchar(255) DEFAULT NULL,

　　`category` varchar(255) DEFAULT NULL,

　　`order_index` int(255) DEFAULT NULL,

　　`fetch_time` datetime NOT NULL,

　　`text_value` text, `html_value` text,

　　`date_value` datetime DEFAULT NULL,

　　`num_value` decimal(18,2) DEFAULT NULL

　　) ENGINE=InnoDB DEFAULT CHARSET=utf8;

　　为了一般在业务系统获取同一个url的多个属性或友好查询显示，参考如下MySQL脚本实现把纵向的属性列表属性转换为横向的多列显示模式。网上有相关

参考脚本大多是基于数字字段sum汇总等模式的纵转横SQL脚本，本项目需求是单一的基于字符串信息转换，经过一段摸索最后找到基于 GROUP_CONCAT可

以实现：

　　SELECT url ,fetch_time,

　　GROUP_CONCAT(CASE WHEN code = 'domain' THEN text_value ELSE null END) AS `domain`,

　　GROUP_CONCAT(CASE WHEN code = 'name' THEN text_value ELSE null END) AS `name`,

　　GROUP_CONCAT(CASE WHEN code = 'brand' THEN text_value ELSE null END) AS `brand`,

　　GROUP_CONCAT(CASE WHEN code = 'category' THEN text_value ELSE null END) AS `category`,

　　GROUP_CONCAT(CASE WHEN code = 'purpose' THEN text_value ELSE null END) AS `purpose`,

　　GROUP_CONCAT(CASE WHEN code = 'price' THEN num_value ELSE null END) AS `price`,

　　GROUP_CONCAT(CASE WHEN code = 'refPrice' THEN num_value ELSE null END) AS `refPrice`,

　　GROUP_CONCAT(CASE WHEN code = 'primaryImage' THEN text_value ELSE null END) AS `primaryImage` FROM crawl_data GROUP BY url,fetch_time

技术分享：www.kaige123.com

解析数据存储MySQL的更多相关文章

zookeeper原理解析-数据存储
Zookeeper内存结构 Zookeeper是怎么存储数据的,什么机制保证集群中数据是一致性,在网络异常,当机以及停电等异常情况下恢复数据的,我们知道数据库给我们提供了这些功能,其实zookeepe ...
Python数据存储 — MySQL数据库操作
本地安装MySQL 调试环境python3.6,调试python操作mysql数据库,首先要在本地或服务器安装mysql数据库. 安装参考:https://mp.csdn.net/postedit/8 ...
1.zookeeper原理解析-数据存储之Zookeeper内存结构
Zookeeper是怎么存储数据的,什么机制保证集群中数据是一致性,在网络异常,当机以及停电等异常情况下恢复数据的,我们知道数据库给我们提供了这些功能,其实zookeeper也实现了类似数据库的功能. ...
scrapy 数据存储mysql
#spider.pyfrom scrapy.linkextractors import LinkExtractor from scrapy.spiders import CrawlSpider, Ru ...
scrapy存储mysql
scrapy 数据存储mysql #spider.pyfrom scrapy.linkextractors import LinkExtractor from scrapy.spiders imp ...
重新学习MySQL数据库3：Mysql存储引擎与数据存储原理
重新学习Mysql数据库3:Mysql存储引擎与数据存储原理数据库的定义很多开发者在最开始时其实都对数据库有一个比较模糊的认识,觉得数据库就是一堆数据的集合,但是实际却比这复杂的多,数据库领域中有 ...
冰河，能不能讲讲如何实现MySQL数据存储的无限扩容？
写在前面随着互联网的高速发展,企业中沉淀的数据也越来越多,这就对数据存储层的扩展性要求越来越高.当今互联网企业中,大部分企业使用的是MySQL来存储关系型数据.如何实现MySQL数据存储层的高度可扩 ...
MySQL数据存储
MySQL体系架构客户端连接器提供与MySQL服务器建立的支持.目前几乎支持所有主流的服务端编程技术,例如常见的 Java.C.Python..NET等,它们通过各自API技术与MySQL建立连接 ...
scrapy架构与目录介绍、scrapy解析数据、配置相关、全站爬取cnblogs数据、存储数据、爬虫中间件、加代理、加header、集成selenium
今日内容概要 scrapy架构和目录介绍 scrapy解析数据 setting中相关配置全站爬取cnblgos文章存储数据爬虫中间件和下载中间件加代理,加header,集成selenium 内 ...

随机推荐

UML状态图和活动图
UML状态图和活动图统一建模语言UML(Unified Modeling Language)是非专利的第三代建模和规约语言.UML是一种开放的方法,用于说明.可视化.构建和编写一个正在开发的.面向对 ...
centos7下安装vsftpd配置
0. 首先安装ftp服务 yum install -y ftp 1. 通过yum install -y vsftp安装vsftp 2. 修改vi /etc/vsftpd/vsftpd.conf, ...
hdu 2191 完全背包
为了挽救灾区同胞的生命,心系灾区同胞的你准备自己采购一些粮食支援灾区,现在假设你一共有资金n元,而市场有m种大米,每种大米都是袋装产品,其价格不等,并且只能整袋购买.请问:你用有限的资金最多能采购多少 ...
Effective C++笔记：设计与声明
条款18:让接口容易被正确使用,不易被误用 1,好的接口很容易被正确使用,不容易被误用.你应该在你的所有接口中努力达成这些性质. 2,“促进正使用”的办法包括接口的一致性,以及与内置类型的行为兼容. ...
Codeforces Round #Pi (Div. 2) A. Lineland Mail 水
A. Lineland MailTime Limit: 2 Sec Memory Limit: 256 MB 题目连接 http://codeforces.com/contest/567/proble ...
msconfig设置调试开启关闭操作注册表项是
经过测试 9dea862c-5cdd-4e70-acc1-f32b644d4795 这个项每个系统都是固定的.这个项里面的 Elements 里面项也是固定的.在 24000001 项里的 E ...
Kinect学习笔记（五）——更专业的深度图
这一节的内容就是把深度图转换为彩色图,然后不再使用硬解码,而是继续采用sdk里面封装好的功能来减少测量的误差,以及避免转换为灰度图时,出现绿巨人时候的掉针的bug. 下面直接 ...
使用 Docker 建立 Mysql 集群
软件环境介绍操作系统:Ubuntu server 64bit 14.04.1Docker 版本 1.6.2数据库:Mariadb 10.10 (Mariadb 是 MySQL 之父在 MySQL 被 ...
c# 数据绑定之 DataFormatString 格式
数据绑定之DataFormatString 设定BoundField的DataFormatString,通常有以下几种 DataFormatString= "{0:C}" 货币,货 ...
C# MarshalByRefObject 和Serializable的区别
这两种方式的类一般都是用于远程传输时使用. marshalbyrefobject是通过引用传递serializable是通过值传递,现在就来分析下什么是引用传递,什么是值传递. 理解这个对Remoti ...

解析数据存储MySQL

解析数据存储MySQL的更多相关文章

随机推荐

热门专题