文学起点网
当前位置: 首页 文学百科

netflix的技术(Netflix使用的异常服务器侦测技术)

时间:2023-07-14 作者: 小编 阅读量: 3 栏目名: 文学百科

Netflix使用的异常服务器侦测技术凌晨,时针指向两点,我们技术保障团队一半的人手还在追查Netflix出错的原因系统看起来运行还算正常,肯定是有哪不对但我们死活也找不着查了一个小时,终于发现原来是数据中心里一台服务器出了问题我们一直在。

凌晨,时针指向两点,我们技术保障团队一半的人手还在追查Netflix出错的原因。系统看起来运行还算正常,肯定是有哪不对但我们死活也找不着。查了一个小时,终于发现原来是数据中心里一台服务器出了问题。我们一直在查找有没有什么特别明显的问题,而且数据中心有好几万台服务器,所以把这个小淘气给忽略掉了。

连续剧《夜魔侠》里面的主角是个瞎子,但其他的感官异常灵敏。这使他可以察觉到某个人行为上的些许异常从而判断出这个人是否在撒谎。我们也开发了一个系统来发现服务器之间细微的差别,差别虽然小,但可能就是这些小的地方出问题。

本文中我们将介绍这一自动异常侦测技术和问题服务器的修复。多亏了它,不然我们恐怕得整天半夜爬起来救火。

现在运行Netflix服务的有好几万台服务器,一般出问题的比例不会超过1%。比如说有一台服务器的网络出了点问题导致用户的连接出现了延迟。虽然运行状态不理想,但在服务器健康检查中是看不出来的。

其实这种有问题的服务器还不如直接挂掉。起码挂掉的话现有的监测系统和工程师能够发现它挂了。现在它虽然没有挂,但影响到了用户的体验,我们的客服还是一样要接电话听用户的抱怨。也不知怎的,几万台服务器里总有几个要出问题。

图中不同颜色的线代表某个服务器的错误率。每条线都有峰值然后掉回到零,但紫色代表的这台服务器错误率一直高于其他服务器。从图中你能看出紫色代表的服务器有异常吗?有没有办法使用这些时序数据来实现异常侦测的自动化呢?

有一种简单的方法是设置一个阈值,错误率高于阈值就报警,但只适用于错误率特别高的服务器而且这种方法有一个问题就是所有数据都会有尖峰所以可能误差会比较大,下面的图中我们就很难找到一个合适的阈值,此外使用的阈值也需要定期进行调整因为服务器集中使用的时间和负载都可能出现变化。我们提高系统可靠性的突破点就是自动侦测那些有问题但用阈值法发现不了的服务器。

为了解决这一问题我们使用了聚类分析算法。聚类分析算法的基本原理是将相似程度高的样本归到一类。这一算法是非监督式的所以我们不需要进行数据标记和提供数据。具体的聚类分析算法有很多种,这里我们使用的是Density-Based Spatial Clustering of Applications with Noise (DBSCAN) 算法。

DBSCAN算法原理

DBSCAN算法是Martin Ester、Hans-Peter Kriegel、Jörg Sander和徐晓伟在1996年提出的,可以说是聚类分析的典型算法。DBSCAN遍历所有的数据点,如果有很多相邻的数据点的话就归为一类。为了在DBSCAN算法中衡量数据点是否相邻我们需要一个判断距离的方法。 这里可视化了DBSCNAN算法运行的过程,如果感兴趣的话可以看下。

使用DBSCAN算法寻找异常服务器

要找出有异常的服务器,我们先要指定一个指标,比如之前我们提到的错误率。接下来就要收集一段时序数据并使用DBSCAN算法来进行处理找出发生异常的服务器。比如下面这幅图中涂成粉红色的就是从Netflix时序数据平台中收集的部分。

除了测量的指标,我们还需要指定将服务器标记为异常的最短持续时间。探测到异常之后就交由我们的报警系统来进行以下处理:

  • 发邮件或者打电话联系负责人
  • 服务器下线但不停止
  • 收集服务器数据以供进一步调查
  • 停止服务器等待扩展系统进行替换

参数的选择

DBSCAN算法中需要设置两个参数:Eps和MinPts。意思分别是判断数据点是否相邻的半径和定义一个集群所需要的数据点的最小个数。这里我们的参数是根据现有的异常服务器数目使用模拟退火算法逆推出来的。这种逆推的方式简化了参数的设置所以现在Netflix有好几个项目组都在用我们这个系统。

为了对这个系统的有效性进行评估,我们已经在生产环境中进行了测试。我们一共收集了一个星期的数据,然后将人工识别出的异常服务器与算法识别出的异常服务器进行了对比。下面是测试的结果

这个结果显示我们这个侦测系统虽然不是100%准确但是效果很不错了。根据我们的自身情况来说也不用完全做到一点都不差,因为就算把一个正常运行的服务器给关掉了也不会对用户体验造成多大影响,因为扩展系统马上就能加一个新的服务器进来。有这个侦测系统总是比没有强吧哈哈。

现在我们的做法是收集一段时间的数据来进行侦测。因为不是实时侦测,所以效果就跟收集数据的时间长短有关:时间太短的话可能有噪音,太长的话侦测的速度又太慢。如果要对这套系统进行改进的话,可以考虑使用实时流式处理框架比如Mantis和Apache Spark Streaming。数据流挖掘和在线机器学习方面的研究也有一些进展所以如果你想建设一个类似的系统可以考虑下。

此外在参数的设置上也可以进行改进。可以进行数据标记来组织训练数据并根据提供的训练数据来对模型进行训练,这种方法比我们现在用的逆推更好而且模型可以根据训练数据的变化来重新训练。

小结

Netflix的基础设施变得越来越庞大,将运营中的某些决定(比如这里的停止服务器)进行自动化可以提高可用性并减轻运维人员的负担。夜魔侠的服装能帮他打架,机器学习也能够提高我们技术保障团队的效率。侦测异常服务器只是自动化的一个例子,其他可以自动化的机会还有很多,就留待大家去发掘吧。

英文原文:Tracking down the Villains: Outlier Detection at Netflix(译者/刘旭坤 审校/朱正贵 责编/仲浩)

【预告】首届中国人工智能大会(CCAI 2015)将于7月26-27日在北京友谊宾馆召开。机器学习与模式识别、大数据的机遇与挑战、人工智能与认知科学、智能机器人四个主题专家云集。人工智能产品库将同步上线,预约咨询:QQ:1192936057。欢迎关注。

    推荐阅读
  • 荷塘月色简笔画彩图(荷塘的场景图简笔画)

    今日份简笔画荷塘月色.感恩日记1.,我来为整理几张简单漂亮的荷塘月色简笔画彩图?以下简笔画图片总有一款是你喜欢的,希望对你有帮助来看看吧!荷塘月色简笔画彩图今日份简笔画荷塘月色.感恩日记1.荷塘月色好看的儿童画图片儿童简笔画大全荷塘月色简笔画儿童画

  • 直硬头发软化前后效果图(头发软化前后效果图)

    可以使头发变软,变柔顺,变贴服,且价格也很便宜,普通的美发沙龙价格为50到80元左右,软化比较自然。头发软化后几天可以洗刚做完软化2至3天不要洗头,刚做完软化不要用力拉头发,会有损发质和效果。软化也是伤头发的,不过比不停地做一次性夹头发而言小很多,如果是短发做软化还是不错的。如果想让头发蓬蓬的,最好不要全头做软化,甚至不建议做软化。具体情况,建议咨询理发师。用药水要用好一点的,对头发伤害才不会很大。

  • 赞美运动员的话(赞美运动员的话有什么)

    年轻的我们自信飞扬,青春的气息如同出生的朝阳,蓬勃的力量如同阳光的挥洒此时此刻,跑道便是我们精彩的舞台,声声加油便是我们最高的奖项论何成功,谈何荣辱,心中的信念只有一个:拼搏,我来为大家科普一下关于赞美运动员的话?赞美运动员的话年轻的我们自信飞扬,青春的气息如同出生的朝阳,蓬勃的力量如同阳光的挥洒。所有的努力都是为了迎接这一刹那,所有的拼搏都是为了这一声令下。

  • 长安uni-k车主反映这款车怎么样(新车长安UNI-K登场)

    据长安汽车最新消息,中大型SUVUNI-K官图曝光,这是长安UNI系列的第二款车型。新车将搭载蓝鲸系列2.0T发动机并匹配8AT变速箱,将于广州车展首发亮相。新车亮点1.采用了全新的“V”型面设计和无边界格栅。新车概况新车前脸依然采用无边界设计并融入了V型面概念,不同于UNI-T,UNI-K的大灯位置设计在了最上方。车尾方面采用了时下流行的贯穿式尾灯设计,与UNI-T的V型后导流造型不同,UNI-K采用了新的航天器式造型,立式尾灯十分显眼。

  • 渡劫经典语录(关于渡劫的语录精选)

    情到深处人孤独,爱至穷时尽沧桑堕落的天使啊,你无知的游走着。我将于茫茫人海中访我唯一灵魂之伴侣;得之,我幸;不得,我命。玲珑骰子安红豆,入骨相思君知否。于千万人之中遇见你所遇见的人,于千万年时间无涯的荒野里,没有早一步,也没有晚一步,刚巧赶上了。生命是一朵千瓣莲花,我拒绝了绽放的同时,我也拒绝了枯萎和零落。就算哭泣也要皱眉优雅,就算失败也要转身潇洒。之后我也学会了阳奉阴违,发生了什么与我再无所谓。

  • 孤城闭什么时候上映(谁是主演)

    以下内容大家不妨参考一二希望能帮到您!孤城闭什么时候上映《孤城闭》将于2020年起在湖南卫视上映播出。该剧主要由王凯、江疏影、任敏、杨玏、边程、叶祖新、喻恩泰、王楚然、刘钧、孙坚等主演。《孤城闭》改编自米兰lady同名小说,以北宋为背景,在风起云涌的朝堂之事与剪不断理还乱的儿女情长之间,还原了一个复杂而真实的宋仁宗。

  • 大众朗逸所有灯图解(认识汽车灯图解)

    大众朗逸所有灯图解作为新手,汽车灯光就是一道难题,下面我们一起通过图解来认识一下汽车各种灯光吧。双闪灯的作用是当车辆发生意外情况后,引起其他车辆警惕,防止发生追尾事故。当踩下制动踏板后,制动灯立即亮起,并发出红色灯光,提醒后方车辆。倒车灯是白色,作用是为了照亮车尾的路面,减少倒车时盲区,另外也是对后方的提醒。

  • 雪里红的腌制方法(做雪里红腌菜的步骤)

    下面更多详细答案一起来看看吧!雪里红的腌制方法雪里红摘干净,根部用刀劈开,正一层反一层放入盆中,取盐均匀地洒在雪里红上,腌制1-2天。烧开水放凉,加盐,搅拌均匀,盐水倒入雪里红中泡制一天。泡好的雪里红捆成一小捆放入密封罐,倒入泡雪里红的盐水,盖好密封罐,即吃即取。

  • 郑州婚纱照推荐哪家好(郑州拍婚纱照团购)

    中国红喜嫁秀爆朋友圈的婚纱照中式婚纱照新中式婚纱照婚纱照风格高级感婚纱照婚纱照秀禾服的中式嫁衣,是完美诠释了东方女性温婉古典美。让人完全移不开目光~每一个女孩子都应该拥有这样华丽的喜嫁风太精致完全属于中式婚纱照的浪漫感~

  • 胎梦最准的位置(从胎梦看看你腹中的孩子给你暗示了吗)

    估计生完孩子和正在孕期的妈妈都会经历过这种事情,就是我们会经常做梦,而且会梦见一些动物植物什么的,这在老人眼里属于“胎梦”。你梦见的什么会预示着即将出生的宝宝是男孩还是女孩。你的胎梦准不准,来看看一下别人的胎梦。哈哈,看来有些胎梦还是挺准的,或许都是巧合吧,总之,宝宝来了就是我们的命中注定。