微型服务器(云计算厂商的神器)

原创:谭婧人在干,天在看,云在算。云计算越发展,云安全越重要。故事得从小小的芯片讲起。一家以色列的芯片公司,名叫Annapurna Labs,以喜马拉雅山脉的最高峰——安娜普尔纳峰命名。两位创始人Billy和Nafea曾想在创业之前攀登此峰,挑战人生极限。结果,造化弄人,没登上此峰,却登上了芯片界的险峰,换了个角度实现人生理想。日后,这家智能网卡起家的公司,被亚马逊云科技公司(AWS)以3.5亿美元高价收购。这场收购,买到了定制化芯片(ASIC)的能力。此时,AWS公司副总裁技术大神AnthonyLiguori(安东尼·利古里)出场。为Nitrosystem打下牢固的基础,此处按下另表。自此,AWS芯片实力大增。云计算走到今天,为了突破创新,不得不向芯片问路。这背后的本质是,系统架构创新。系统架构是什么?芯片以及配套的软硬件。这一次创新,带来的机会是:谁能成为下一代数据中心虚拟化标准架构的“王者”?1处在相同段位的技术领袖,判断总是出奇的相似。2016年,阿里云弹性计算产品线负责人张献涛博士低调地往返于北京和杭州两地多次,他在劝说一位芯片主架构师加入阿里云。起初,人家不来。原因也很清楚,2016年谁会相信互联网公司需要芯片技术。也许是三顾茅庐的诚意,也许是前景,这位生于1979年的主架构师被劝动了。张献涛博士当时的原话是:“你在传统公司很多年了,理解不透互联网公司的决心,这件事情前人绝对没做过,它可以改变云计算里面最核心的技术。”信仰的光,最是感召。随后,多位重量级芯片技术大拿前后加入阿里云。他们眼睛里面的光芒,从何而来?这要从虚拟化技术的过往讲起。2004年,张献涛博士在读,专攻虚拟化技术。当时,全球研究同领域的人不多,可能加起来不到一百人。择业范围太小了,张博士也担心毕业之后能不能找到工作。彼时,著名高校和前沿公司在研究虚拟化,斯坦福大学、剑桥大学,微软公司、英特尔公司。问题是,没有太多的地方用。1997年,斯坦福大学背景的教授创立VMWare公司,成了虚拟化技术的商业鼻祖,但它主要在PC上运行,这和云计算数据中心需要的虚拟化技术,大有不同。或者说,云计算之前的虚拟化技术,可以被称为传统虚拟技术。七八年转瞬而过,2005年,英特尔和AMD也看出来虚拟化技术的重要性了,运功发力推出了VT-x和VT-d,推了一把虚拟化技术的进程。阿里云成立的时候,思路也很清晰,必须抛弃那些不适用于云计算的虚拟化技术,才能做云计算的领头羊。所以,阿里云自研虚拟化就从深度定制化和产品化的开源虚拟化软件Xen和KVM开始。2014年是张献涛博士在英特尔的最后一年。这一年,距离他开始博士研究,已经过去了整整十年。这十年,他全神贯注研究虚拟化。这一年,他加入阿里云。云计算实现了虚拟化技术的跃迁,大家突然意识到虚拟化技术“值钱”了。但是,传统技术的缺陷明显,性能损耗,隔离性差,这些依然在给云安全以重锤。没有云计算厂商不重视安全,安全是随着技术发展动态变化的。所谓魔高一尺,道高一丈。但是,很多人对安全有偏见,观点“看似挺对,其实不对”:“现在才讲安全,你以前的产品是不是都不安全?”实际上,阿里云安全团队,独立于集团的安全部门,是一支几千人的团队,只干一件事,安全。张献涛博士坦言:“只要是个软件,都会有安全相关的bug或者漏洞,所以,没有绝对安全,只有更安全。”解决安全问题,不是“堆”多少人力,而是彻底解决传统技术的“缺陷”,安全的防线才能拔高。用芯片解决缺陷是一个正确的方向,一开始只有AWS和阿里云两大巨头死死盯着这条路。多年后,回头再看AWS的芯片收购案,抄了研发的近道,每年都为AWS省下大笔资金。省的,就是赚的。但是,阿里云的技术团队不会走“重点技术采购于别家”这条路。说得再实际一点,体量越大的厂商,越是黑客眼里的唐僧肉。“体量”逼着阿里云拿出巨大的决心从架构创新做起,一举解决整个一代云计算技术面临的痛点。先烈们说:“劳资,打的就是精锐。”阿里云说:“我们,干的就是自研。”2016年的时候,张献涛博士天天都在思考:如何通过架构创新解决传统虚拟化在云计算场景中的问题?只有把虚拟技术想透彻的人,才能从根本上解决虚拟化的安全问题。谁搞定了云计算架构创新,谁将在云场景中收益巨大。22017年10月,阿里云神龙架构发布。2017年11月,AWS Nitro system发布。全球两家顶级云厂商,不谋而合地打响了云计算芯片创新的全球第一枪。张献涛博士谈道:“神龙芯片,引领了下一代数据中心的虚拟化标准架构。”从安全的角度讲,有了神龙芯片,阿里云的虚拟化安全就引领了一个时代。怎么做到的?第一,用芯片实现隔离。处理器和内存隔离,有两个层面:安全,性能。张献涛博士谈道:“所谓性能的隔离,是一台物理机上有两个虚拟机的时候,互相不干扰,性能隔离做得不好,性能输出会忽高忽低,这样不能服务于企业客户。这也解释了为什么阿里云2017年推出了企业级实例,做到完全隔离。”阿里云2017年的企业级实例产品和神龙前后脚推出,这不是巧合,是一起解决“不得不面对”的问题。在技术早期阶段,安全常常有让步于性能的无奈。“性能”对着“安全”吼:“你能不能让我先实现了,再考虑你。”安全回答道:“行啊,反正谁也离不了我。你不重视我,我就让客户难受。”第二,用芯片解决出入口漏洞。就像防贼要防住门窗一样,IO链路上是最容易出安全漏洞的。传统的虚拟化相关软件在那个时间点上,完完全全过时了。神龙芯片大刀阔斧,把该砍掉的全砍掉,所有IO链路完全用硬件实现。现在,网络和存储的IO都做到了用单独的硬件队列在硬件中去实现。这样,硬件上A和B两个虚拟机的数据链路做到了完全隔离。此时,硬件实现了软件要做的事情,硬件的攻击面小于软件的,所以,更安全了。另外,阿里云把CPU、内存的虚拟化做得极其精简。张献涛博士说:“所谓极其精简,(就是)我们知道软件的安全漏洞和它的代码行数一定是成正比的,所以,会审查每一行代码的安全问题。”近几年,主流公有云厂商将安全能力列为平台基础能力,大举投入。本质是,云计算今非昔比,“性能”履行当年对“安全”的承诺。性能解决了,更多兵力要划拨到安全的战场上去。Gartner发布2021年需深挖的9项重要战略科技趋势,其中之一是加密计算,到2025年将有一半的大型企业使用。阿里云对加密计算的研究,得从神龙芯片的研发时间开始推算。因为神龙芯片一石三鸟,为云安全解决了三个问题:一个是性能隔离,一个是数据链路隔离,一个是建立独立安全屋。简单理解,独立安全屋就是加密计算。加密计算是创造一个隔离环境,谁也进不来,管理员(阿里云)也不行。加密计算靠的是硬件(处理器),把代码和数据放到一个硬件保护起来的安全环境中去计算。前文也提了,云计算走到今天,为突破创新,不得不联手芯片。阿里云都这么努力,英特尔这种老牌芯片公司会吃闲饭吗?加密计算技术有很多种,其中英特尔公司的SGX(Software Guard Extension,指令集扩展)尤为出名。英特尔推出SGX这项技术,可以追溯到2004年。十年后,SGX成为了系统安全领域的重大进展。当下,SGX是较为成熟的加密计算技术,阿里云也是最早支持SGX能力的云厂商之一。SGX能够在计算平台上提供一个可信的隔离空间,保障用户关键代码和数据的机密性和完整性。SGX出货量肯定很大,因为捆在英特尔CPU里面了。SGX的原理是,提供了一系列的扩展指令集,核心就是CPU运行的时候可以切换到Enclave的SGX模式。切到这个模式里之后,当CPU去内存里取指令的时候,是把加密过的指令取到CPU里解密。加密内存中的数据,加密后的“密文”只有在处理器里才会被解密成“明文”。在CPU里完成这个解密,再完成这个指令的执行。处理器和内存都参与了加密,所以,这个运算过程在外部看来永远是一个密文。要么打破内存加密,要么打破芯片处理器加密,黑客攻击难度都很大。加密计算用户可以让数据的计算在保险柜中进行,实现运行数据的“可用不可见”。SGX2.0带来的好消息是,英特尔SGX技术迭代了,到了这一代,Ice Lake(第三代英特尔®至强®可扩展处理器)可在多路服务器上支持SGX。SGX2.0也是一个突破性的技术,从根本上解决了企业对于机器学习、人工智能等GB级以上数据量的高效运算技术需求,为金融互联网等使用场景,提供了更高安全等级数据保护的支持。或者说,目前,SGX2.0是真实场景、大数据、大规模情况下进行隐私计算唯一可实践的技术路径。3有用的数据,从一出生就需要保护。所以,按数据生命周期的阶段来划分加密计算,有三位镖师:镖师一,保护存储中的数据,数据加密;镖师二,保护传输中的数据,加密协议;镖师三,保护使用中的数据,加密计算。其中,镖师三最难,保护使用中的数据,需用两部《兵法》。《兵法一》出自英特尔,SGX2.0+Enclave。《兵法二》出自阿里云自研虚拟化Enclave。Enclave,中文译为“飞地”,简单理解就是大空间里划出来一个小空间。Enclave是一个隔离环境,可以理解为,虚拟机中的虚拟机。把云计算比喻为一座宏伟大厦,从地基往上的每一层楼,每一个房间,都要安全,Enclave就好比房间里面隔离出来的保险柜。(SGX支持虚拟化技术可以再虚拟出一个vSGX,也就是,把物理加密计算能力“给”虚拟机。vSGX通过虚拟化实现了在虚拟机层面基于SGX技术的Enclave。)《兵法一》是“硬件”SGX+Enclave技术。用硬件安全强制保障软件安全,最终达到保障虚拟化的安全的目的。这里的硬件,指的是英特尔的硬件。《兵法二》是用神龙芯片构建了一个安全的微型服务器,通过芯片的隔离技术,构建了一个安全的执行环境。可以这样说,没有第三代神龙架构,就不会有阿里云自研虚拟化Enclave这种加密计算技术。原理是,在虚拟机创建了Enclave隔离环境后,用本地加密通道对隔离环境下达指令和应用,提供全隔离、高可信的计算环境,隔离存储设备、可交互环境和外部网络连接。SGX环境是一个硬件级别的环境,阿里云尽管是在硬件上跑的系统,但是没有权限看到里面的东西,所以整个运行环境对阿里云来说不在一个楼层里,相当于阿里云在三楼,SGX是在地下室操作。所以,永远不用担心数据会被云厂商偷窥。两部《兵法》理念相同,用不同的底层软硬件技术实现。阿里云是业界最早实现加密计算(同时支持基于硬件及虚拟化)与可信计算的云厂商,这些能力内置在阿里云最新发布的第七代ECS云服务器里。此外,第七代ECS云服务不仅支持加密计算,还融合了可信计算,阿里云也是业界最早同时提供这两种原生计算安全的厂商。加密计算涉及硬件、BIOS、操作系统、虚拟化、管控软件、SDK、远程证明服务等组件的开发与改造,技术难点很多,最难点在于虚拟化技术需要与阿里云弹性计算的神龙架构融合。这背后有三支攻坚小组:安全小组、虚拟化小组、神龙软硬一体化小组。其中,安全小组里遍地是高(A)手(+)和高(a)高(li)手(xing)。黑客见状,高声大呼:放弃幻想,趁早改行。可以预见,加密计算作为一种基础技术,将作为运算环境必不可少的一部分,存在于越来越多的计算节点上,配套的加密计算应用也会应运而生,将会给云计算带来新一轮大发展。安危他日终须仗,甘苦来时要共尝,技术发展和安全的关系就是这样。阿里云用芯片一小步,成就云安全一大步。最后,补充一个问题:神龙芯片的本质是什么?正是当今资本追捧,软硬一体,深度协同,使用芯片对数据面加速的三好学生优秀班干部——DPU。(完)更多阅读:搞深度学习框架的那帮人,不是疯子,就是骗子七分之一在线评论都有假,人工智能救一把?超级计算机与人工智能:大国超算,无人领航美国已死,欧洲苟活,消失的人工智能 “法外之地”最后,再介绍一下主编自己吧。我是谭婧,科技和科普题材作者。围追科技大神,堵截科技公司。生命短暂,不走捷径。还想看我的文章,就关注“亲爱的数据”。


本文出自快速备案,转载时请注明出处及相应链接。

本文永久链接: https://www.xiaosb.com/beian/37006/