`

短 URL 系统是怎么设计的?

阅读更多
摘要: 实现一个算法,将长地址转成短地址。实现长和短一一对应。然后再实现它的逆运算,将短地址还能换算回长地址。这个回答看起来挺完美的,然后候选人也会说现在时间比较短,如果给我时间我去找这个算法就解决问题了。但 ...
 
 
实现一个算法,将长地址转成短地址。实现长和短一一对应。然后再实现它的逆运算,将短地址还能换算回长地址。
 
这个回答看起来挺完美的,然后候选人也会说现在时间比较短,如果给我时间我去找这个算法就解决问题了。但是稍微有点计算机或者信息论常识的人就能发现,这个算法就跟永动机一样,是永远不可能找到的。即使我们定义短地址是100位。那么它的变化是62的100次方。62=10数字+26大写字母+26小写字母。无论这个数多么大,他也不可能大过世界上可能存在的长地址。所以实现一一对应,本身就是不可能的。
 
再换一个说法来反驳,如果真有这么一个算法和逆运算,那么基本上现在的压缩软件都可以歇菜了,而世界上所有的信息,都可以压缩到100个字符。这~可能吗。
短 URL 系统是怎么设计的?
短 URL 系统是怎么设计的?
 
另一个很烂的回答
和上面一样,也找一个算法,把长地址转成短地址,但是不存在逆运算。我们需要把短对长的关系存到DB中,在通过短查长时,需要查DB。
 
怎么说呢,没有改变本质,如果真有这么一个算法,那必然是会出现碰撞的,也就是多个长地址转成了同一个短地址。因为我们无法预知会输入什么样的长地址到这个系统中,所以不可能实现这样一个绝对不碰撞的hash函数。
 
比较烂的回答
那我们用一个hash算法,我承认它会碰撞,碰撞后我再在后面加1,2,3不就行了。
 
ok,这样的话,当通过这个hash算法算出来之后,可能我们会需要做btree式的大于小于或者like查找到能知道现在应该在后面加1,2,或3,这个也可能由于输入的长地址集的不确定性。导致生成短地址时间的不确定性。同样烂的回答还有随机生成一个短地址,去查找是否用过,用过就再随机,如此往复,直到随机到一个没用过的短地址。
 
正确的原理
上面是几种典型的错误回答,下面咱们直接说正确的原理。
 
正确的原理就是通过发号策略,给每一个过来的长地址,发一个号即可,小型系统直接用mysql的自增索引就搞定了。如果是大型应用,可以考虑各种分布式key-value系统做发号器。不停的自增就行了。第一个使用这个服务的人得到的短地址是 http://xx.xx/0 第二个是 http://xx.xx/1 第11个是 http://xx.xx/a 第依次往后,相当于实现了一个62进制的自增字段即可。
 
几个子问题
1. 62进制如何用数据库或者KV存储来做?
其实我们并不需要在存储中用62进制,用10进制就好了。比如第10000个长地址,我们给它的短地址对应的编号是9999,我们通过存储自增拿到9999后,再做一个10进制到62进制的转换,转成62进制数即可。这个10~62进制转换,你完全都可以自己实现。
 
2. 如何保证同一个长地址,每次转出来都是一样的短地址
上面的发号原理中,是不判断长地址是否已经转过的。也就是说用拿着百度首页地址来转,我给一个http://xx.xx/abc 过一段时间你再来转,我还会给你一个 http://xx.xx/xyz。这看起来挺不好的,但是不好在哪里呢?不好在不是一一对应,而一长对多短。这与我们完美主义的基因不符合,那么除此以外还有什么不对的地方?
 
有人说它浪费空间,这是对的。同一个长地址,产生多条短地址记录,这明显是浪费空间的。那么我们如何避免空间浪费,有人非常迅速的回答我,建立一个长对短的KV存储即可。嗯,听起来有理,但是。。。这个KV存储本身就是浪费大量空间。所以我们是在用空间换空间,而且貌似是在用大空间换小空间。真的划算吗?这个问题要考虑一下。当然,也不是没有办法解决,我们做不到真正的一一对应,那么打个折扣是不是可以搞定?
 
这个问题的答案太多种,各有各招。这个方案最简单的是建立一个长对短的hashtable,这样相当于用空间来换空间,同时换取一个设计上的优雅(真正的一对一)。实际情况是有很多性价比高的打折方案可以用,这个方案设计因人而异了。那我就说一下我的方案吧。
 
我的方案是:用key-value存储,保存“最近”生成的长对短的一个对应关系。注意是“最近”,也就是说,我并不保存全量的长对短的关系,而只保存最近的。比如采用一小时过期的机制来实现LRU淘汰。
 
这样的话,长转短的流程变成这样:
 
在这个“最近”表中查看一下,看长地址有没有对应的短地址
有就直接返回,并且将这个key-value对的过期时间再延长成一小时
如果没有,就通过发号器生成一个短地址,并且将这个“最近”表中,过期时间为1小时
所以当一个地址被频繁使用,那么它会一直在这个key-value表中,总能返回当初生成那个短地址,不会出现重复的问题。如果它使用并不频繁,那么长对短的key会过期,LRU机制自动就会淘汰掉它。
 
当然,这不能保证100%的同一个长地址一定能转出同一个短地址,比如你拿一个生僻的url,每间隔1小时来转一次,你会得到不同的短地址。但是这真的有关系吗?
 
3. 如何保证发号器的大并发高可用
上面设计看起来有一个单点,那就是发号器。如果做成分布式的,那么多节点要保持同步加1,多点同时写入,这个嘛,以CAP理论看,是不可能真正做到的。其实这个问题的解决非常简单,我们可以退一步考虑,我们是否可以实现两个发号器,一个发单号,一个发双号,这样就变单点为多点了?依次类推,我们可以实现1000个逻辑发号器,分别发尾号为0到999的号。每发一个号,每个发号器加1000,而不是加1。这些发号器独立工作,互不干扰即可。而且在实现上,也可以先是逻辑的,真的压力变大了,再拆分成独立的物理机器单元。1000个节点,估计对人类来说应该够用了。如果你真的还想更多,理论上也是可以的。
 
4. 具体存储如何选择
这个问题就不展开说了,各有各道,主要考察一下对存储的理解。对缓存原理的理解,和对市面上DB、Cache系统可用性,并发能力,一致性等方面的理解。
 
5. 跳转用301还是302
这也是一个有意思的话题。首先当然考察一个候选人对301和302的理解。浏览器缓存机制的理解。然后是考察他的业务经验。301是永久重定向,302是临时重定向。短地址一经生成就不会变化,所以用301是符合http语义的。同时对服务器压力也会有一定减少。
 
但是如果使用了301,我们就无法统计到短地址被点击的次数了。而这个点击次数是一个非常有意思的大数据分析数据源。能够分析出的东西非常非常多。所以选择302虽然会增加服务器压力,但是我想是一个更好的选择。
 
大概就是这样。
 
 
http://bi.dataguru.cn/article-7077-1.html
分享到:
评论

相关推荐

    系统设计与实践实战视频教程 董飞老师带你全程实战学习系统设计与实践 超经典

    实战演练(短URL设计).mp4 │ ├3.系统设计七剑客(上).mp4 │ ├4.系统设计七剑客(下).mp4 │ ├5.案例分析.mp4 │ ├6.搭建大规模可扩展系统(一).mp4 │ ├7.搭建大规模可扩展系统(二).mp4 │ ├8.搭建大...

    short-url 是基于 webman 的短链接服务系统.zip

    php程序设计,web系统源码,源码,数据库MySQL,毕业设计项目,可用于课程设计作业等。

    ShortURL:URL缩短服务短网址系统

    另一个是long url转short url的缓存,减少一个长网址可能对应多个短网址所造成的空间浪费 接口 提供long url转short url的api接口: url: http://u.liuin.cn method: POST param: url: string required # 需要转换...

    基于java+springboot+vue开发的短视频播放系统-毕业设计-课程设计.zip

    大学生、系统设计人员、课程作业 代码结构 server目录是后端代码 web目录是前端代码 部署运行 后端运行步骤 下载JDK 1.8,并配置环境变量 下载本代码后,使用IntelliJ IDEA打开server目录 配置server目录中的...

    url-shortener:分布式 URL 缩短器和链接跟踪器

    该程序使用 Cassandra 作为后端来存储长 url 及其相应的短版本。 长 URL 首先使用 MD5 算法进行散列。 然后提取散列值的 40 个最低有效位并编码到 base 62 系统(26 个小写字母 + 26 个大写字母 + 10 位数字)。 ...

    ShortUrl:短地址项目,探索与部署

    高性能短链系统简介本文将从以下几个方面进行探索与实现:短链有什么好处短链系统的基本原理短链生成的几种方法高性能短链的架构设计短链有什么好处1、链接变短,在对内容长度有限制的平台发文,可编辑的文字就变多...

    java课程设计班级通讯录设计报告.doc

    系统设计 1. 系统总体设计 进入系统后必须先进行登陆。登陆成功后,即可进入通讯簿主界面。在主界面可以进 行联系人的添加和查找。在查看联系人界面中,可以选择修改信息或删除联系人。系统 总体设计图如下: 2. ...

    易贝内容管理系统EBCMS 媒体版 v6.4.7

    Ebcms易贝内容管理系统v5是一个全新的版本,完美支持php7,模块化开发,效率高,操作简单,精确到文章级的字段扩展机制,完全可自定义的优秀路由设计,meta标题 短标题 标签 等等强化seo,优秀的缓存机制,即使千万...

    易点内容管理系统 DianCMS v5.3.0 SQL

    易点内容管理系统(DianCMS)是基于微软.NET Framework 2.0、AJAX1. 0技术,采用Microsoft Access/SQL Server 2000/2005/2008存储...36、完善的会员系统:用户投稿、好友分组、短消息管理、推广奖励、备忘录自动提醒等

    易点内容管理系统 DianCMS v6.2.0 ACC版

    易点内容管理系统(DianCMS)是基于微软.NET Framework 2.0、AJAX1. 0技术,采用Microsoft Access/SQL Server 2000/2005存储过程...36、完善的会员系统:用户投稿、好友分组、短消息管理、推广奖励、备忘录自动提醒等

    基于微信原生组件的仿抖音短视频小程序+基于Spring Boot的小程序后台管理系统.zip

    爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的工作流程包括以下几个关键步骤: URL收集: 爬虫从一个或多个初始URL开始,递归或迭代地发现新的URL,构建一个URL队列。这些URL...

    易点内容管理系统 DianCMS v6.4.0 SQL版.zip

    36、完善的会员系统:用户投稿、好友分组、短消息管理、推广奖励、备忘录自动提醒等 初次使用:http://您的站点/install/default.aspx 按安装向导一步一步操作 后台默认地址:http://您的站点/admin/default.aspx ...

    易点内容管理系统 DianCMS v6.4.0 ACC版.zip

    36、完善的会员系统:用户投稿、好友分组、短消息管理、推广奖励、备忘录自动提醒等 易点内容管理系统 DianCMS前台页面  易点内容管理系统 DianCMS后台管理 后台默认地址:http://您的站点/admin/default.aspx...

    小蜜蜂商务网站门户系统3.0

    9、支持网站首页自定义,允许设置网站首页地址为系统大首页、各模块首页,或自定义URL地址/页面;提供全站Google地图生成。 10、支持网站流量统计。 ---------- 其他30余个应用模块请查看各自模块功能介绍 --------...

    淘宝客多商城返利系统经典版

    空间需开启 allow_url_fopen 若没开启请空间商开启即可 主要功能: *智能跟踪订单会员ID并完成返利。 *基于各大联盟的b2c商城返利系统。 *直接搜索淘宝宝贝网址。 *直接搜索B2C商城。 *优惠促销信息(返利)发布 *...

    tinyurl:设计TinyURL

    这是系统设计的一个附带问题。 TinyURL是URL缩短服务,您可以在其中输入诸如的URL,并返回诸如类的短URL。 也称为友好URL。 消息传递技术可能需要一个友好的URL(统一资源定位符),以限制消息中字符的数量(例如...

    leetcode不会-url-shortening:网址缩短

    高级系统设计 API设计 创建用户 POST /users?apiKey=string { name: string email: string dob: datetime } 它将在以下模式中写入数据 { userId: int name: string email: string dob: datetime createdAt:

    易点内容管理系统 DianCMS v5.2.0 ACC版.rar

    36、完善的会员系统:用户投稿、好友分组、短消息管理、推广奖励、备忘录自动提醒等 DianCMS v5.2.0更新内容_2014-09-18 【增加】完美整合手机网站,自动识别访问终端,呈现适合访问终端页面。 【增加】整站导出...

    short_url::link:短网址应用长生不老药Phoenix

    系统设计 准备工作 安装elixir 安装postgreSQL 首次运行 安装依赖mix deps.get 创建数据库及数据表mix ecto.create && mix ecto.migrate 安装前端依赖cd assets && yarn install 启动服务mix phx.server 访问应用 ...

    微软CMS/Blog系统oXite

    说明这个系统在很短的时间内就确实引起了很多朋友的关注,作为微软的这一次开发,根据目前的反应来看,可以认为是相当成功了。 在准备体验Oxite时, 你需要看一下下面的资料。 一、oXite的开发环境配置 ...

Global site tag (gtag.js) - Google Analytics