假设你想做一个像微博短链接那样的短链接服务,短链接服务生成的URL都非常短例如: http://t.cn/E70Piib, 我们应该都能想到链接中的E70Piib对应的就是存储长链接地址的数据记录的ID,可是这个有大小写字母和数字构成的唯一ID是怎么生成的呢,刚学编程的时候我们用的方法都试拼接一个足够唯一的字符串(比如时间戳加用户ID等等)然后再用MD5或者SHA1散列算法算出一个散列值,用这种方法得到的唯一ID有可能比原始的链接的长度还要长,所以如何来优雅的生成足够短的字符串唯一ID呢?

我们先来看一个数学问题,普通的数字ID是用十进制来表示的,在十进制中每位都有10种可能(0-9),所以5位的十进制数能呈现最多 10*10*10*10*10=100,000个ID。

现在如果用32进制来表达一个5位数字需要多少位呢?

<?php
echo base_convert(,,);//答案是 '90g'

32进制是数字和一些小些字母来组成,所以5位32进制可表达的唯一ID有 32*32*32*32*32=33,554,432个,数量已经很大了。使用32进制也能生成比较短的字符串唯一ID,不过还有更好的解决方案,你也看到了上面短链接的唯一ID里还包含大写字母。接下来我们使用62进制转换,将一个十进制数字转化为对应的62进制表示(为什么用62进制?数字加大小写字母一共是62个)。常用的这几个编程语言里没有提供62进制的转换,所以就需要我们自己写一个函数来进行10进制到62进制的转换。

一)

function shorturl($value, $b = )
{
$base = '0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ';
$r = $value % $b;
$result = $base[$r];
$q = floor($value / $b);
while ($q)
{
$r = $q % $b;
$q = floor($q / $b);
$result = $base[$r].$result;
}
return $result;
}

二)

function shorturl($input)
{
$base32 = array (
'a', 'b', 'c', 'd', 'e', 'f', 'g', 'h','i', 'j',
'k', 'l', 'm', 'n', 'o', 'p','q', 'r', 's', 't',
'u', 'v', 'w', 'x','y', 'z', '', '', '', '',
'', '');
$hex = md5('prefix' . $input . 'surfix');
$hexLen = strlen($hex);
$subHexLen = $hexLen / ;
$output = array();
for ($i = ; $i < $subHexLen; $i++)
{
$subHex = substr($hex, $i * , );
$int = 0x3FFFFFFF & ( * ('0x' . $subHex));
$out = '';
for ($j = ; $j < ; $j++)
{
$val = 0x0000001F & $int;
$out .= $base32[$val];
$int = $int >> ;
}
$output = $out;
}
return $output;
}

理解了将十进制正整数转换成62进制的字符串表示形式的原理后,在任何编程语言里都可以很轻松地实现一个转换函数,下面再提供一个Python版本的 Base62.encode

#!/usr/bin/python
# -*- coding=UTF- -*-
from __future__ import print_function, division
BASE62 = "0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ"
def encode(num, alphabet=BASE62):
"""Encode a positive number in Base X
Arguments:
- `num`: The number to encode
- `alphabet`: The alphabet to use for encoding
"""
if num == :
return alphabet[]
arr = []
base = len(alphabet)
while num:
num, rem = divmod(num, base)
arr.append(alphabet[rem])
arr.reverse()
return ''.join(arr)

Python函数注解

  • python的divmod函数用第一个参数num除以第二个参数base,并以元组的形式返回商和余数。

  • 因为divmod返回两个元素构成的元组,在python中元组可以简写省略两边地括号,所以 num,rem=divmod(num,base)是一个元组赋值表达式,并不是divmod函数返回了两个返回值。

一亿用62进制表示出来后的结果是 6LAze , 生成的唯一字符串ID足够短。短链接只是一个应用场景, base62还可以应用到很多需要表示唯一ID的地方,这样一来你就不用再使用那些哈希算法来生成那么冗长的字符串了,虽然只是节省了一些空间但是这在高访问量的URL和海量数据的存储中还是能省下来不少资源的。

思考:

  没有办法保证转化的短链接字符串的长度(数值越大,字符串越长),在高并发的情况下,无法保证快速分发

将生成的连接地址都统一使用6位进行表示

function code62($x){
$show='';
while($x>){
$s=$x % ;
if ($s>){
$s=chr($s+);
}elseif($s>&&$s<=){
$s=chr($s+);
}
$show.=$s;
$x=floor($x/);
}
return $show;
}
function shorturl($url){
$url=crc32($url);
$result=sprintf("%u",$url);
return code62($result);
}

生成短链接的URL的更多相关文章

  1. java,url长链接生成短链接,短链接生成器,自定义字符串,对字符串md5混合KEY加密,根据短链接获得key值,不重复的随机数,不重复的随机字符串

    java,url长链接生成短链接,短链接生成器,自定义字符串,对字符串md5混合KEY加密,根据短链接获得key值,不重复的随机数,不重复的随机字符串 package com.zdz.test; im ...

  2. Java生成短链接

    为什么要生成短链接 微博之所以要是使用短链接,主要是因为微博只允许发140 字,如果链接地址太长的话,那么发送的字数将大大减少. 那么使用短链接的作用有哪些呢?1.字数,2.统计,3.监控,4.过滤 ...

  3. 新浪微博API生成短链接

    通过新浪微博API,生成短链接,支持一次性转多个长链接 什么是短链接 短链接,通俗来说,就是将长的URL网址,通过程序计算等方式,转换为简短的网址字符串. 短链接服务 国内各大微博都推出了自己的短链接 ...

  4. 使用plv8+hashids生成短链接服务

    有写过一个集成npm plv8 以及shortid生成短链接id服务,实际上我们可以集成触发器自动生成url对应的短链接地址,hashids也是一个不错的选择. 以下是一个别人写的一个博客实现可以参考 ...

  5. PHP生成短链接方法

    PHP生成短链接方法方法一:新浪提供了长链接转为短链接的API,可以把长链接转为 t.cn/xxx 这种格式的短链接. API: http://api.t.sina.com.cn/short_url/ ...

  6. openresty && hashids&& redis 生成短链接

    1. 原理     a. 从redis 获取需要表示的短链接的id( redis incr)     b. hashids 编码 id     c. openresty  conteent_by_lu ...

  7. 用PHP和Python生成短链接服务的字符串ID

    假设你想做一个像微博短链接那样的短链接服务,短链接服务生成的URL都非常短例如: http://t.cn/E70Piib, 我们应该都能想到链接中的E70Piib对应的就是存储长链接地址的数据记录的I ...

  8. PHP调用新浪API 生成短链接

    我们经常收到类似于这样的短信(如下图),发现其中的链接并不是常规的网址链接,而是个短小精悍的短链接,产品中经常需要这样的需求,如果在给用户下发的短信中是一个很长的连接,用户体验肯定很差,因此我们需要实 ...

  9. 长链接生成短链接Java源码(调用百度接口)

    public static DefaultHttpClient httpclient; static { httpclient = new DefaultHttpClient(); //httpcli ...

随机推荐

  1. February 21st, 2018 Week 8th Wednesday

    Our life is what our thoughts make it. 我们的思想成就了我们的生活. The mind is everything. What you think, you be ...

  2. Linux的基础命令

    -shutdown –h now(root用户才有效)     立即关机 -shutdown –r now(root用户才有效)     立即重新启动计算机 -reboot               ...

  3. Linux分区的几种方案

    通用方法/boot 引导分区 200M swap 交换分区 内存的1.5倍(内存小于8G) 大于8G 给8G/ 根分区 剩下多少给多少 数据非常重要/bootswap/ 50-200G/data 剩下 ...

  4. UltraISO制作Ubuntu14.04 64bit到U盘文件载入不完整

    版权声明:本文为博主原创文章.未经博主同意不得转载. https://blog.csdn.net/zinss26914/article/details/37728251 前言 今天新买的Thinkpa ...

  5. 定时器 setTimeout()超时调用和 setInterval()间歇调用

    JavaScript是单线程语言,但它允许通过设置定时器,也就是设置超时值和间歇时间来调度代码在特定的时刻执行.前者是在指定的时间过后执行代码,而后者则是每隔指定的时间就执行一次代码. 超时调用需要使 ...

  6. Oracle hint之ORDERED和USE_NL

    Hint:ORDERED和USE_NL ORDERED好理解,就是表示根据 from 后面表的顺序join,从左到右,左边的表做驱动表 use_nl(t1,t2):表示对表t1.t2关联时采用嵌套循环 ...

  7. 【Vuex】mapGetters 辅助函数

    mapGetters 辅助函数仅仅是将 store 中的 getter 映射到局部计算属性: import { mapGetters } from 'vuex' export default { // ...

  8. Python框架学习之Flask中的常用扩展包

    Flask框架是一个扩展性非常强的框架,所以导致它有非常多的扩展包.这些扩展包的功能都很强大.本节主要汇总一些常用的扩展包. 一. Flask-Script pip install flask-scr ...

  9. DNS原理-HTTP原理-TCP原理

    第一章:企业DNS原理 相信大家都知道windows和linux的hosts文件是:IP地址和域名的对应关系,我们一般访问网站的步骤: 打开网页-----输入网址-------查看本地的DNS库是否存 ...

  10. class文件魔数CAFEBABE的由来

    https://blog.csdn.net/ustcyy91/article/details/78462378 https://blog.csdn.net/renfufei/article/detai ...