varint算法——本质上是牺牲最高位作为标识数据结束位，达到变长编码，说白了就是贪心的分割位

varint算法，摘自：http://blog.csdn.net/liaoquesg/article/details/50897327

最近在看《大规模WEB服务开发技术》这本书中。书中提到“可变长字节码算法”的压缩数据的算法，以达到压缩数据，减少磁盘IO。
可变长字节码算法：
任意一个字节的最高位（下标7）均只作为标志位，而且根据字节所在位置需要乘以128的相应幂次；（我觉得这个算法只能用作自然数的压缩）

这是他的伪代码

仔细研究后，我翻译成PHP版的：

    <?php

    function codeNumber($n){

        $bytes = [];

        while (true){

            array_unshift($bytes, bcmod($n, 128));

            if($n < 128){

                break;

            }else{

                $n = intval($n/128);

            }

        }

        $bytes[count($bytes) - 1] += 128;

        return $bytes;

    }

    function encode($numbers){

        $bytestream = [];

        foreach ($numbers as $n){

            $bytestream = array_merge($bytestream, codeNumber($n));

        }

        return $bytestream;

    }

    function decode($bytestream){

        $numbers = [];

        $n = 0;

        for ($i = 0; $i < count($bytestream); $i++){

            if($bytestream[$i] < 128){

                $n = 128 * $n + $bytestream[$i];

            }else{

                $n = 128 * $n + ($bytestream[$i] - 128);

                array_push($numbers, $n);

                $n = 0;

            }

        }

        return $numbers;

    }

    $a = encode([5, 130, 288]);

    var_dump($a);

    var_dump(decode($a));

打印出来的内容是：

array(5) { [0]=> int(133) [1]=> string(1) "1" [2]=> int(130) [3]=> string(1) "2" [4]=> int(160) }

array(3) { [0]=> int(5) [1]=> int(130) [2]=> int(288) }

    //写二进制

    $h = fopen('ejz3.txt', 'wb');

    foreach ($a as $k => $v)

    {

      $str3 =  pack('H*', sprintf("%02x", $v));

      fwrite($h,  $str3);

    }

    fclose($h);

    //读二进制

    $str2 = file_get_contents('ejz3.txt');

    $str2 = unpack("H*", $str2);

    $value = str_split($str2[1], 2);

    foreach ($value as $k => $v)

    {

      $value[$k] = base_convert($v, 16, 10);

    }

varint算法——本质上是牺牲最高位作为标识数据结束位，达到变长编码，说白了就是贪心的分割位的更多相关文章

摘要提取算法——本质上就是pagerank，选择rank最高的句子作为摘要，如果结合word2vec应该有非常好的效果
最近需要做一些文本摘要的东西,选取了TextRank(论文参见<TextRank: Bringing Order into Texts>)作为对比方案,该方案可以很方便的使用Python相 ...
PCA算法详解——本质上就是投影后使得数据尽可能分散（方差最大），PCA可以被定义为数据在低维线性空间上的正交投影，这个线性空间被称为主⼦空间（principal subspace），使得投影数据的⽅差被最⼤化（Hotelling, 1933），即最大方差理论。
PCA PCA(Principal Component Analysis,主成分分析)是一种常用的数据分析方法.PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量 ...
大数据DDos检测——DDos攻击本质上是时间序列数据，t+1时刻的数据特点和t时刻强相关，因此用HMM或者CRF来做检测是必然！和一个句子的分词算法CRF没有区别！
DDos攻击本质上是时间序列数据,t+1时刻的数据特点和t时刻强相关,因此用HMM或者CRF来做检测是必然!——和一个句子的分词算法CRF没有区别!注:传统DDos检测直接基于IP数据发送流量来识别, ...
ARIMA模型——本质上是error和t-?时刻数据差分的线性模型！！！如果数据序列是非平稳的，并存在一定的增长或下降趋势，则需要对数据进行差分处理!ARIMA（p，d，q）称为差分自回归移动平均模型，AR是自回归， p为自回归项； MA为移动平均，q为移动平均项数，d为时间序列成为平稳时所做的差分次数
https://www.cnblogs.com/bradleon/p/6827109.html 文章里写得非常好,需详细看.尤其是arima的举例! 可以看到:ARIMA本质上是error和t-?时刻 ...
parquet文件格式——本质上是将多个rows作为一个chunk，同一个chunk里每一个单独的column使用列存储格式，这样获取某一row数据时候不需要跨机器获取
Parquet是Twitter贡献给开源社区的一个列数据存储格式,采用和Dremel相同的文件存储算法,支持树形结构存储和基于列的访问.Cloudera Impala也将使用Parquet作为底层的存 ...
Jsp与servlet本质上的区别
1.jsp经编译后就变成了Servlet.(JSP的本质就是Servlet,JVM只能识别java的类,不能识别JSP的代码,Web容器将JSP的代码编译成JVM能够识别的java类)2.jsp更擅长 ...
C++ Primer 学习笔记_40_STL实践与分析（14）--概要、先来看看算法【上】
STL实践与分析 --概述.初窥算法[上] 标准库容器定义的操作很少.并没有给容器加入大量的功能函数.而是选择提供一组算法,这些算法大都不依赖特定的容器类型,是"泛型"的. ...
jQuery的$.ajax方法响应数据类型有哪几种？本质上原生ajax响应数据格式有哪几种，分别对应哪个属性？
jQuery的$.ajax方法响应数据类型有:xml.html.script.json.jsonp.text 本质上原生ajax响应数据格式只有2种:xml和text,分别对应xhr.response ...
使用深度学习检测TOR流量——本质上是在利用报文的时序信息、传输速率建模
from:https://www.jiqizhixin.com/articles/2018-08-11-11 可以通过分析流量包来检测TOR流量.这项分析可以在TOR 节点上进行,也可以在客户端和入口 ...

随机推荐

HDU1711 最基础的kmp算法
Problem Description Given two sequences of numbers : a[1], a[2], ...... , a[N], and b[1], b[2], .... ...
获取当前日期的T-SQL语句
CONVERT(nvarchar(10),count_time,121): CONVERT为日期转换函数,一般就是在时间类型 (datetime,smalldatetime)与字符串类型(nchar, ...
[NOIP2002] 提高组洛谷P1034 矩形覆盖
题目描述在平面上有 n 个点(n <= 50),每个点用一对整数坐标表示.例如:当 n＝4 时,4个点的坐标分另为:p1(1,1),p2(2,2),p3(3,6),P4(0,7),见图一. 这 ...
前端的指导方针---css篇
英语是渣渣,想学英语,又不想花钱报培训班.看不懂的文章,还是翻译一下留着自己看吧. 引自 : https://github.com/bendc/frontend-guidelines HTML ...
RedisDesktopManager 踩坑之旅
虚拟机上装了redis, 本地Windows的RedisDesktopManager connect failed. 解决方法: 1.修改 redis.conf 文件 bind 127.0.0.1 ...
洛谷—— P2802 回家
P2802 回家题目描述小H在一个划分成了n*m个方格的长方形封锁线上. 每次他能向上下左右四个方向移动一格(当然小H不可以静止不动), 但不能离开封锁线,否则就被打死了. 刚开始时他有满血6点, ...
CF821E（多次矩阵快速幂）
题意: 冈伦从二维平面上(0,0)走到(k,0),(k<=1e18),每次有三个行动方向:右上一格.右方一格.右下一格,问一共有多少种走的方案限制:每段x都有一个天花板,一共有n段天花板(n& ...
一个Tomcat最多支持多少用户的并发？
,也就是说同时支持另外,在 Java 中每开启一个线程需要耗用 1MB 的 JVM 内存空间用于作为线程栈之用.Tomcat的最大并发数是可以配置的,实际运用中,最大并发数与硬件性能和CPU数量都有 ...
(转)Delphi2009初体验 - 语言篇 - 智能指针(Smart Pointer)的实现
转载:http://www.cnblogs.com/felixYeou/archive/2008/08/27/1277250.html 快速导航一. 回顾历史二. 智能指针简介三. Delphi中 ...
解决安装oracle11g r2时提示pdksh conflicts with ksh-20100621-2.el6.i686问题
http://blog.csdn.net/linghao00/article/details/7943740 http://www.2cto.com/os/201306/218566.html 在Ce ...

varint算法——本质上是牺牲最高位作为标识数据结束位，达到变长编码，说白了就是贪心的分割位

varint算法——本质上是牺牲最高位作为标识数据结束位，达到变长编码，说白了就是贪心的分割位的更多相关文章

随机推荐

热门专题