一、简介
二、应用场景
系统有很多的静态资源的,并且请求量也是超级大的。例如:移动端APP,有很多的图片,小视频以及流媒体等,对于网站来说,不仅有上面那些资源之外,还有大量的HTML 文件,css文件以及Javascript文件。目前这些静态资源均是放在Nginx服务器上的,请求量很大,并且这些文件对于访问速度要求极高,并且占据很高的带宽。这里就会很有可能出现访问速度变慢,将带宽占满从而影响我们后端动态请求。这个时候我们就需要考虑该怎么去对这些静态资源做加速了。
三、为何不用分布式缓存来加速
图片或者视频文件大小都不小,在几兆到几百兆之间。
我们的用户是遍地全国各地的甚至还有国外用户,需要让用户能很快的得到相应,即就近访问,我们不能全国各地都建机房去部署缓存,不现实。
图片或视频信息文件很大,访问量又极高,这样,如果自建机房带宽肯定是会面临极大的风险 。
因此,我们不能自建机房来加速静态资源,而需要在我们的应用服务器外层加一层静态资源处理的组件,并且还能遍地全国各地让用户能就近访问,还能让这些缓存命中率很高,以至于尽量减少回源到我们自己的业务服务器,这种技术就是我们下面要说的CDN 。
四、CDN核心
CDN 其实就是网络分发的一种技术,它将我们的静态资源分发到各个地理位置不同的机房服务器上,这样就能实现用户就近访问的问题,且加快静态资源的访问速度。
搭建CDN关键点:
如何能让用户请求先映射到CDN服务器上,这应该是最基本的了 。
如何根据用户所处的地理位置,选出离他最近的CDN节点给用户访问 。
五、实现
5.1、如何将请求落到CDN服务器上
【DNS域名解析】
DNS(Domain Name System)就是一个存储域名和 IP 映射的分布式数据库,其中域名解析返回的结果有两种:
1、直接返回域名对应的IP。
2、返回另一个域名,即将当前域名解析到另一个域名,会跳转到另外一个域名解析上,现在我们就是通过该方式解决域名映射问题。
具体操作上,假设我们的一级域名为 a.com ,那么我们就可以将图片服务域名定义为“img.a.com”,然后将这个域名的解析结果配置到CDN提供的域名上。例如,ucoud提供一个这样的域名“78f98.cdn.ucloud.com.cn”,我们的系统图片地址是这个样子”img.a.com/100.jpg”。
用户在请求100.jpg 地址的时候,DNS服务器就会将这个域名解析到78f98.cdn.ucloud.com.cn 域名上,然后再将这个域名解析到CDN的IP地址,这样就得到了CDN上资源数据了。
我们知道其实DNS解析是有个问题的就是,因为域名解析过程是分好几个级别的,每一级有专门的域名服务器承担其解析的职责,所以,域名的解析过程有可能需要跨越公网做多次 DNS 查询,在性能上是比较差的。
经过了向多个 DNS 服务器做查询之后,整个 DNS 的解析的时间有可能会到秒级别,如何处理该问题?
即如果是APP的项目话,我们就在APP启动的时候,对需要的域名进行预解析,然后将解析结果缓存到一个LRU(缓存淘汰算法)缓存中,这样,如果我们使用这个域名的时候,就先从缓存中获得对应的 IP ,如果没有的话,就再走整个DNS 的查询过程。这个时候缓存中解析结果可能会变更,这样就会缓存数据失效,我们可以起一个定时任务,去定期的更新缓存中的数据就行了。这种方案在解析性能上还是提升不少的,基本控制在200ms以内。
通过上面我们已经知道了用户的请求是怎么到达CDN服务器的,并且针对DNS的解析进行了相关的讲解同时对于性能问题也给出了自己开发中的建议,现在我们再来看看它的整体架构图,来整体回顾下:
5.2、如何找到里用户最近的CDN节点
GSLB(Global Server Load Balance)这个组件就是对于部署在不同地理位置的服务器做负载均衡,其下面也可能管理了很多的本地负载均衡组件,主要有两个作用:
是负载均衡器。
保证流量流经的服务器与流量的源头在地理上是很接近的。
GSLB它可以通过多种策略,来保证返回的CDN 服务器与用户尽量保证在同一个地理区域。例如可以通过将用户的 IP 分为n多不同的地理区域,然后将CDN 服务器对应到各个区域里,这样就可以根据用户所在的区域来返回相应的CDN节点。现在再来看看其现在的架构图。
是否能够从 CDN 节点上获取到资源还取决于 CDN 的同步延时,一般在使用CDN时是这样的流程。
1、通过CDN厂商提供的接口将静态资源写到CDN的其中一个节点上。
2、CDN 自己内部会将静态资源同步到各个节点。
只要有同步,肯定是会有延时的,一旦我们无法从选定的 CDN 节点上获取到数据,我们就不得不从源站获取数据,而用户网络到源站的网络可能会跨越多个主干网,这样不仅性能上有损耗,也会消耗源站的带宽,带来更高的研发成本。所以,我们在使用 CDN 的时候需要关注 CDN 的命中率和我们自身服务器的带宽情况。