目录:
- 1、阿里云os是什么系统
- 2、阿里巴巴出的阿里云手机是什么系统
- 3、阿里云的自研InfluxDB集群方案剖析
- 4、阿里云系统跟安卓系统有什么区别?
- 5、华为鸿蒙、阿里云盘古、蚂蚁图计算……14项世界互联网领先科技成果发布
- 6、大繁至简,首度揭秘阿里云飞天洛神系统
阿里云os是什么系统
阿里云OS是融云数据存储、云计算服务和云操作系统为一体的新一代操作系统。系统搭载了阿里云公司自主设计、架构、研发的系统核心虚拟机,增强了云端服务的能力,并提供与Dalvik虚拟机兼容的运行环境。通过海量云空间来同步和管理手机数据,数据可永久保存在云端并联通所有设备。基于云端弹性云计算的托管服务,便于开发者快速开发和部署移动应用,通过云应用平台,成千上万的互联网产品和服务可轻松转化为手机云应用,无需下载、更新和安装即可使用,真正将互联网搬入手机
阿里巴巴出的阿里云手机是什么系统
阿里云OS是由阿里云计算公司开发,运行在数据中心和移动终端上的操作系统,含有阿里云自主开发的地图、邮箱和搜索等在内的互联网基础服务。阿里云系统兼容了大部分的Android系统的APK应用,但是本质上来说它和小米的MIUI、点心OS等系统并不一样,是完全独立于Andoid开发的操作系统。
在应用方面,阿里云OS不仅集成了阿里云自主研发的通讯录、短信、日历农历、输入法、搜索、邮件等基础应用,也携带有阿里巴巴集团自有开发的消费级应用,如淘宝聚划算、淘宝比价、淘女郎等。此外,Android Market的手机应用也能在该平台中使用。未来,阿里云OS还会对第三方开发者提供应用接口。
1:创新的Cloud APP概念,无需安装的云端应用程序。
2:国内首款云概念手机,丰富云应用。
3:阿里巴巴服务一站式体验。
4:兼容Android应用。
阿里云OS基本功能符合中国人使用习惯,让使用起来更加得心应手。
与其它手机操作系统不同的是,阿里云OS采用Cloud App方式,使用户不需要在手机端下载应用,而只在网络环境下,登陆统一的云账号后,只要手机流量足够,即可运行OS平台上的各种应用。
资料显示,采用阿里云OS的智能手机能直接享用100GB云空间和阿里云提供的各种云服务(如地图、电子邮件等),还能使目前互联网上的海量Web服务通过阿里云的云计算数据中心方便接入手机终端,保持与本地应用一样的流畅用户体验,把智能手机直接推动至“云应用”时代。
阿里云的自研InfluxDB集群方案剖析
本文将以阿里云在GIAC的分享《云原生InfluxDB高可用架构设计》为例,剖析阿里云的自研InfluxDB集群方案的当前实现,在分析中会尽量聚焦的相对确定的技术、架构等,考虑到非一线信息,在个别细节上难免存在理解偏差,欢迎私聊讨论:
0x0 初步结论
目前是一个过渡性质的公测方案,具备数据一致性,但接入性能有限,缺乏水平扩展能力。缺乏自定义副本数和水平扩展等能力,通过Raft或Anti-entroy提升了数据的可靠性,但受限于节点和副本的强映射,集群接入性能有限,约等同于单机接入性能,另外,基于时序分片和分布式迭代器等核心功能未提及,可能仍在预研中。
0x1 集群方案剖析
1. 背景补充:InfluxDB是DB-Engines上排名第一的TSDB,针对时序数据多写、少读、成本敏感等特点而设计的TSDB,并做了多轮架构迭代和优化,是一款实时、高性能、水平扩展(InfluxDB Enterprise)、具有成本优势的TSDB。但在2016年,Paul Dix基于商业化和持久运营的考虑,尚未成熟的集群能力在v0.11.1版后,选择闭源,推出了收费版的InfluxDB Enterprise和InfluxDB Cloud。
2. 通过Raft协议实现Meta节点的数据一致性,考虑到Meta节点存放的是Database/Rention Policy/Shard Group/Shard Info等元信息,这些信息敏感,是系统稳定运行的的关键,CP的分布式架构,合适。
3. 通过Raft协议实现Data节点的数据一致性,考虑到Data节点存储的是具体的时序数据,性能和水平扩展性是挑战,对一致性性要求不高(PPT中亦提到这一点),采用CP的分布式架构,节点和副本强映射,不仅对实时性有影响,集群接入性能亦有限,约等同于单机接入性能,不能很好的支持海量数据的实时接入的时序需求。
4. 2节点集群方案,通过Anti-entroy实现Data节点的数据一致性,应该还实现了Hinted-handoff能力,AP的分布式架构,但节点和副本还是强映射,未见提及基于时序分配、自定义副本数、分布式迭代器等能力,暂无法水平扩展。
5. 云盘能保障数据的可靠性,但无法保障接入的可用性,可用性敏感的业务或实时要求高的业务,还是推荐多节点的集群模式。
6. 开源版InfluxDB(单机)性能不错,InfluxDB Enterprise性能不错,但怎么保障补齐集群能力的卓越性能,取决于集群架构、并发架构等,是由集群功能的开发者决定的,这次未见提及性能数据,期待后续的公布。
0x2 附录
阿里云系统跟安卓系统有什么区别?
1、功能不同。阿里云系统可以提供基于云计算的应用,用户将通过可以手机登陆远程主机进行操作。而阿里云系统没有以上功能。
2、应用范围不同。阿里云系统是针对中国市场的中文版本;而安卓系统则是具有面向全球各个**的版本。
3、相关性。阿里云系统是基于Android开发,并集成了多种阿里自主研发的应用软件,包括地图、输入法、浏览器及IM即时通信工具等。
扩展资料
阿里云系统简介
道琼斯援引消息人士消息称,该操作系统将提供基于云计算的应用。不同于以往将应用下载至手机进行操作,用户将通过可以手机登陆远程主机进行操作。
据悉,该操作系统基于Android开发,并集成了多种阿里自主研发的应用软件,包括地图、输入法、浏览器及IM即时通信工具等。
当然根据以往经验,也会内嵌阿里巴巴、淘宝、支付宝等多项应用。消息人士透露,除了这些以外,该操作系统还有一神秘的核心功能应用,和云计算有关。
消息显示,该移动终端系统的首个版本应该是针对中国市场的中文版本,后期才会考虑增加更多语言版本、进军海外市场。
过去一年以来阿里云公司的招聘广告综合显示,从2010年5月份开始,阿里云公司在手机客户端工程师、手机功能测试工程师招聘上的需求有明显增加,并持续至今。
安卓系统平台优势
开放性
在优势方面,Android平台首先就是其开放性,开发的平台允许任何移动终端厂商加入到Android联盟中来。显著的开放性可以使其拥有更多的开发者,随着用户和应用的日益丰富,一个崭新的平台也将很快走向成熟。
开放性对于Android的发展而言,有利于积累人气,这里的人气包括消费者和厂商,而对于消费者来讲,最大的受益正是丰富的软件资源。开放的平台也会带来更大竞争,如此一来,消费者将可以用更低的价位购得心仪的手机。
丰富的硬件
这一点还是与Android平台的开放性相关,由于Android的开放性,众多的厂商会推出千奇百怪,功能特色各具的多种产品。功能上的差异和特色,却不会影响到数据同步、甚至软件的兼容,如同从诺基亚Symbian风格手机一下改用苹果iPhone;
同时还可将Symbian中优秀的软件带到iPhone上使用、联系人等资料更是可以方便地转移。
方便开发
Android平台提供给第三方开发商一个十分宽泛、自由的环境,不会受到各种条条框框的阻扰,可想而知,会有多少新颖别致的软件会诞生。但也有其两面性,血腥、暴力、情色方面的程序和游戏怎么控制正是留给Android难题之一。
Google应用
在互联网的Google已经走过10年度历史,从搜索巨人到全面的互联网渗透,Google服务如地图、邮件、搜索等已经成为连接用户和互联网的重要纽带,而Android平台手机将无缝结合这些优秀的Google服务。
参考资料:百度百科-阿里云移动操作系统
参考资料:百度百科-安卓系统
华为鸿蒙、阿里云盘古、蚂蚁图计算……14项世界互联网领先科技成果发布
日前,由**互联网信息办公室、浙江省人民政府主办的2023年“世界互联网领先 科技 成果发布活动”在乌镇互联网国际会展中心成功举行,这是第六次面向全球举行世界互联网领先 科技 成果发布活动。
发布活动共评选出包括来自中国卫星导航系统管理办公室、清华大学、北京大学、北京邮电大学、中国电信、中国移动、高通、安谋等14项国内外有代表性的领先 科技 成果。
HarmonyOS 鸿蒙操作系统
华为技术有限公司
鸿蒙是一款全新的面向全场景的分布式操作系统,2019年正式面世。简单说,鸿蒙为不同设备的智能化、互联与协同提供统一的语言,让消费者操控多个设备像操作一台设备一样简单。
今年6月2日,华为发布HarmonyOS 2,仅一周升级用户数破千万;历时一个多月,升级用户数突破3000万,进入8月已突破5000万。到9月12日,HarmonyOS 2升级用户数突破1亿,成为全球用户破亿最快的移动操作系统。9月23日,华为又更新数字,HarmonyOS 2升级用户已突破1.2亿。
庞大的用户基数也带来强大的生态示范效应,目前已有400个多应用和服务伙伴、1700多家硬件伙伴、130多万开发者参与到鸿蒙生态的建设当中,共建全球最大的万物互联的全场景智慧生态。
智能计算芯片行业创新:全球首个开源NPU指令集架构
安谋 科技 (中国)有限公司
下一代智能计算的核心关键是海量地、高密度地、实时地感知和处理不同类型的数据流,智能计算的算力也正越来越多地从CPU、GPU转为由NPU提供。为了解决NPU定制过程中生态碎片化、重复投资和应用规模受限等问题,安谋 科技 在今年7月联合了50多家产业龙头公司和机构共同发起成立了“智能计算产业技术创新联合体”(Open NPU Innovation Alliance,简称ONIA),并推出全球首个开源神经网络处理器指令集架构(NPU ISA)。
围绕这一开源NPU ISA,安谋 科技 及ONIA会员不仅提供NPU、CPU、XPU芯片方案,还将以开源、开放的协作方式,对外提供编译器、工具链、驱动程序、操作系统、深度学习框架等基础系统软件,以及基于不同场景的、统一的多域计算软硬件平台方案,进而利用开源指令集实现NPU的全面创新,帮助产业链更迅速地落地智能计算和人工智能应用。
人工智能驱动的重大疾病动态画像新技术和远程高效防治系统
北京邮电大学
以5G和人工智能技术为代表的新一代信息通信技术不断突破,推动医疗技术发展不断由疾病治疗向 健康 创造转变。同时,数字医疗的场景复杂化,需求多样化对信息通信网络的灵活性、智能化提出了更高要求。
人工智能驱动的重大疾病动态画像新技术和远程高效防治系统以“智·简生态系统”为内核指导思想,在通用医学大数据处理、智能学习优化平台等方面取得多项技术进展,实现了快速响应危急重症,高效发现关键诊断决策依据,动态量化疾病风险因素,以及准确追踪病情进展等能力。
5G独立组网(SA)端到端系统方案、国际标准及组网技术
中国移动通信集团有限公司
超高清视频编解码关键技术及系统应用
北京大学
北京大学自主研发了超高清视频编解码关键技术及其系统应用,主导制定了AVS超高清视频编解码**标准,被全球超高清产业联盟采纳为国际标准,联合海思、华为公司在国际上首次发布了8K@120P超高清解码芯片,支撑了中国首个4K和8K超高清频道CCTV—4K/8K的开播,并在全球首次实现8K+5G广电领域直播应用,标志着中国正式迈入超高清时代。
北斗全球卫星导航系统建设和应用
中国卫星导航系统管理办公室
北斗全球卫星导航系统是中国自行研制的全球卫星导航系统,也是继GPS、GLONASS之后的第三个成熟的卫星导航系统。北斗系统是党中央决策实施的**重大 科技 工程,是我国迄今为止规模最大、覆盖范围最广、服务性能最高、与百姓生活关联最紧密的巨型复杂航天系统。2023年,北斗三号全球卫星导航系统正式开通。从最初的试验卫星到如今55卫星成功组网,27年的时间里,数不清的科研人员耗费了大量的心血,建设了中国自己的卫星系统。
目前,北斗系统已在全球超过一半的**和地区得到应用,向亿级以上用户提供服务。基于北斗的土地确权、精准农业、数字施工、车辆船舶监管、智慧港口解决方案在东盟、南亚、东欧、西亚、非洲等得到成功应用。如今,“中国的北斗、世界的北斗、一流的北斗”正为服务人类 社会 发展、构建人类命运共同体作出新的更大的贡献。
“天通一号”卫星移动通信应用系统
中国电信集团有限公司
“天通一号”卫星移动通信应用系统完成了多项技术创新,首次提出“天地融合、通导一体”的系统架构。其实现了卫星通信、卫星导航的集成服务,在用户终端融合了通信、导航功能。创新提出了“星地一体、宽窄互补”的通信体制,实现星地网络全面融合。突破了终端“天地多模、低功耗、小型化”的技术难题。该应用系统已获得授权专利45件,行业标准4项,学术论文100余篇,填补了国内卫星移动通信系统空白,整体技术达到“国际先进”水平。
全球首个支持10Gbps 5G传输速率和首个符合3GPP Release 16规范的5G调制解调器到天线解决方案
高通无线通信技术(中国)有限公司
骁龙X65 5G调制解调器及射频系统于今年2月发布,为行业带来了多项首创性的5G技术革新——通过媲美光纤的无线性能支持目前市场上最快的5G传输速度,并支持最新5G规范。
去年3GPP标准组织推出了5G的新规范,即Release 16,其定义了下一阶段的全球5G发展。值得一提的是,骁龙X65是全球首个符合3GPP Release 16 5G标准的5G调制解调器到天线解决方案。骁龙X65采用了可以支持特性组合升级的架构设计,从而支持快速商用。这意味着通过骁龙X65能够持续增加新的特性,在智能手机之外多个应用细分领域扩展5G。
800G 超高速光收发芯片与引擎技术研发
之江实验室
800G超高速光收发芯片与光引擎技术是之江实验室为下一代数据高速传输提供的核心技术解决方案。之江实验室项目团队连续取得大功率多波长激光器、硅基高密度光发射模块、硅基高速光接收模块等芯片模块研发的突破性进展,并利用晶圆级封装技术将这些芯片模块集成在同一晶圆上,实现“光电共封”,在确保硬件物理尺寸不变的情况下,有效提升数据传输的密度和效率,降低功耗和成本。光收发芯片就像是一位“翻译”或“交警”,为数据中心光子与电子间的信息转换架起桥梁,为数据的高效传输指挥交通。
基于多光谱的智能感知终端
杭州海康威视数字技术股份有限公司
夜间低照度一直以来是全天候视频感知所面临的最大挑战。海康威视的基于多维感知智能融合终端,可实现低照度下无光污染的全彩成像,让黑夜像白天一样精彩。与传统手段相比,在色彩还原度、清晰度方面,都有显著的提升,做到细节清晰,精彩如一。
基于分层API规范的云操作系统生态建设
清华大学
“基于分层API规范的云操作系统生态建设”是由清华大学大学联合华中 科技 大学、上海交通大学、北京航空航天大学、中国科学院计算技术研究所等单位在**重点研发计划的资助下共同完成。
项目抽象制定了云操作系统分层API规范并给出了技术领先的参考实现;相关成果已获实际应用,初步形成了自主云操作系统生态,对于避免生态的碎片化和供应商锁定,推动技术持续迭代和行业整体创新有重要意义。
大规模图计算系统GeaGraph
蚂蚁 科技 集团股份有限公司
高性能图计算被认为是全球尖端 科技 的一个重要前沿,在电信、医疗、制造、能源等领域有着广阔的应用价值和前景。蚂蚁集团联合清华大学共同研发的高性能图计算系统GeaGraph能够在万亿边图上进行实时查询,在国际标准图数据库测试中位列第一,处理规模和性能均达到了国际领先水平。现在,GeaGraph已经成为蚂蚁集团各种业务风控能力的重要支撑,在数字支付、数字服务、数字金融等核心业务中,显著提升了风险行为的实时识别能力和调查分析效率。
阿里云盘古:面向云计算的大规模分布式存储系统
阿里云计算有限公司
阿里云自主研发的分布式存储系统“盘古”是该活动6年来首次有存储技术入选。“盘古”是阿里云自研的分布式存储系统,是阿里云底层的统一存储架构,主要包括“分布式存储软件”“高性能存储网络”“云存储硬件架构”“深度软硬融合的闪存存储架构”“智能运维管控”以及“网络和SSD控制器芯片”核心关键技术。
“盘古”解决了超大规模下数据不丢不错和高可用的难题,让存储更加稳定可靠、拥有更大的容量和更高的性能,以满足数字经济对海量存储和快速存储的需求。
“盘古”团队自2008年开始组建,2009年开始推出第一个版本,2013年完成上线单集群5K台的规模,此后2015年突破了单集群上万台的技术门槛,2017年正式推出“盘古”2.0并成功支撑了此后的天猫“”全球狂欢节。相比1.0版本,“盘古”2.0面向人工智能、科学计算、深度学习等未来存储场景做了优化升级,整体IOPS性能提升50%,同时推出基于“盘古”2.0的ESSD高性能云盘,IOPS从2万提升到了100万。
安全可靠可控的新一代人工智能平台
北京瑞莱智慧 科技 有限公司
第一代人工智能技术存在大规模应用的局限,而第二代人工智能则面临着高度依赖大量高质量数据、不能适应不断变化的条件、算法可解释性非常差等诸多问题。为此需要建立鲁棒与可解释的人工智能理论,发展安全、可信、可靠与可扩展的第三代人工智能。
作为业内首个致力于提升人工智能安全性、可靠性与可信性的创新平台,北京瑞莱智慧 科技 有限公司自主研发的“安全可控可靠的新一代人工智能平台”包含隐私计算、AI攻防、深伪检测三大子平台。凭借独有的创新模式,该平台能够有效降低人工智能时代的新型安全风险,保障人工智能系统的安全、可靠和可控,缓解 科技 进步与安全之间的矛盾,目前已在政务、金融、工业互联网等高价值场景中发挥了重大作用,成为AI纵深赋能的坚实基座。
大繁至简,首度揭秘阿里云飞天洛神系统
摘要: 洛神是阿里云飞天中负责虚拟网络的系统,她为阿里云客户提供了丰富的网络产品,如VPC、SLB等。同时,她也是ECS,RDS,OSS,NAS等100多个云产品的网络基础设施。她还支撑了阿里巴巴集团和蚂蚁金服集团众多业务,如电商、支付、物流等。
“最好的网络就像神一样,无处不在,又感知不到她的存在 …… 大繁至简,这是我们努力的方向。” – 阿里云网络高级技术专家 孙成浩
2018杭州·云栖大会的主会场上,阿里云产品总监何云飞介绍了阿里云自主研发的云操作系统飞天的全面升级版飞天2.0。作为飞天2.0核心组成部分之一,洛神首次向外界揭开了她神秘的面纱。在随后的未来网络技术专场上,阿里云网络高级技术专家孙成浩对飞天洛神进行了更为详细的阐述。本文是首次对飞天洛神的概念、演进、架构、特点等方面进行系统化的解读。
什么是飞天洛神
从物理网络到用户感知到的网络之间存在一个虚拟网络层。在阿里云,我们给这套虚拟网络系统起了个名字,叫做洛神。洛神是阿里云飞天中负责虚拟网络的系统,她为阿里云客户提供了丰富的网络产品,如VPC、SLB等。同时,她也是ECS,RDS,OSS,NAS等100多个云产品的网络基础设施。她还支撑了阿里巴巴集团和蚂蚁金服集团众多业务,如电商、支付、物流等。在全球范围内,洛神服务着百行百业超过百万的用户。在、世界杯、春运等互联网流量的尖峰时刻,为每一个消费者的流畅网络体验而默默保驾护航。
很多人都知道阿里云有一个飞天(Apsara)系统,系统中各组件是用各种神的名字命名的,包括盘古,伏羲,女娲,神农等,其中盘古是分布式文件系统,伏羲是分布式调度系统。为什么叫虚拟网络系统叫洛神呢?在古代,河运是非常重要的交通手段,就好比今天的网络一样。因此,在给虚拟网络系统起名的时候,我们就起了一个河神的名字,叫洛神。
飞天洛神的架构
洛神是阿里云的分布式操作系统飞天的一部分。在飞天的基础架构里面,最上层是各种云产品,包括大家熟悉的云产品RDS,ECS,VPC,SLB等等,支撑这些是飞天的3个基础组件,包括存储系统盘古,资源管理伏羲和网络管理洛神。也就是说,洛神除了支撑了阿里云的网络云产品之外,另外一个重要的角色就是支撑了其他云产品的网络基础设施。
讲到洛神的技术架构,洛神系统由3大模块组成
– 数据平面,控制平面和管理平面。
数据平面负责云网络中数据包的处理,它就如同物理世界中的网线和路由交换设备,把数据包高效率低延迟的从发送端送到目的地。类似的,洛神数据平面也包含各种不同角色的组件,包括支持各种不同类型计算形态的虚拟交换机,用于数据中心互连的DCN网关,用于云网络连接公网的internet网关,用于云上云下互连的混合云网关,提供负载均衡能力的负载均衡网关和提供端接入能力的智能接入网关。为了提高这些组件的转发性能,洛神不仅使用了软转发的技术,而且也对软硬件结合甚至纯硬件的技术进行了广泛应用。
控制平面则控制怎么处理数据包,他是洛神的业务大脑。从技术上看,洛神的控制平面是一个层次性的分布式控制系统,最底层的设备控制器主要负责控制和管理数据平面的各种组件,同时在每个区域存在一个虚拟网络控制器,在全局存在一个全球路由控制器。区域的虚拟网络控制器则负责本区域的云网络的管理与调度, 全局路由控制器则负责协调调度各个区域的资源形成一张全球的云网络。基于虚拟网络控制器和全局路由控制器之上的则是NFV控制器,完成虚拟网络高级功能例如 等产品的编排和抽象。
洛神的管理平面是网络运维和运营的中枢,它管理着海量的网元以及用户,这里的海量指的是千万级虚拟机和百万级网元。为了能做到这一点,洛神的管理平台是基于大数据以及机器学习技术实现的,它对网络运行当中产生的海量数据进行实时/离线计算,数据建模,来驱动网络资源的提前规划,网络系统的日常维护以及网络产品的智能运营。整个管理平面包括了一套高性能,分布式的数据分析系统,由它分析出来的数据提供给智能运维和智能运营系统,完成资源规划,网络建设,系统变更,实时监控,故障逃逸,产品运营等整个网络产品生命周期的工作。最终达到排无人值守的网络变更,先于用户的问题发现,高效简单的故障逃逸以及丰富全面的产品及用户运营的效果。
飞天洛神的技术演进之路
洛神能够成为飞天的四大支柱之一,不是一天炼成的。洛神的演进经历了四个阶段。
首先是经典网络阶段,在这个阶段,网络只有一个概念,就是公网带宽。经典网络阶段的问题是用户无法自定义网络拓扑,这样使得用户无法完成云上云下的混合云联通。为了解决这个问题,洛神进入了VPC阶段,VPC阶段里,洛神在每个地域虚拟了数百万张网络,并且用户可以完全自定义这张网络。随着网络规模越来越大,洛神也从区域网络进入到全球网络的阶段,在这个阶段,洛神主要解决怎么更好的管理超大规模网络的问题,云公司网和云连接网构成了第三代洛神的两个主要特性。
满足了主要的客户的需求之后,我们开始思考怎么进一步提升用户体验。用户对网络的核心诉求是什么?其实,客户的最大诉求是网络足够强健可靠,不要发生问题。就像使用水和电一样,用户是不需要了解发电站和泵站在哪里的。因此,洛神希望网络对用户是无感知的,又是无处不在的。洛神的发展,是一个从0到1,到100,再回到0的演进过程,大繁至简,这是我们在研发下一代洛神中努力的方向,这也是我们首先在业界提出Networkless理念背后的思考。
飞天洛神的特点
洛神的关键特点,包含安全,弹性和可靠,这3个特性也是洛神达到最终Networkless状态的关键特征。
安全是基本盘,因为overlay技术把网络逻辑的隔离掉,用户的网络之前完全不会互通。并且洛神中还包含了各种加密服务可以给到用户,打造更深层次的的安全。弹性有两个数字,一个是秒级的转发性能的弹性,洛神支持从1MB到1TB在一秒内完成弹性,另一个是规模的弹性,洛神的单网络支持10w台计算节点的规模。这样,洛神既可以支持小到虚拟web主机这样的服务,也可以支持打到零点这样的海量峰值流量。谈到可靠性,我们参考年平均故障时间这个参数,洛神引发的单实例故障时间只有50ms,这个故障时间是极其短的。
关键设计
接下来我们详细分析下洛神弹性和可靠性的关键设计。洛神系统的数据面,本身就是一台巨大的交换机。大家都知道,交换机的转发芯片对数据包的处理,都是pipeline的,硬件处理永远不会停下来,那洛神的数据面也是如此。从一个数据包进入洛神系统开始,到出去洛神系统的整个过程,经历了洛神系统里面的各个组件,都是不会被打断的,这样只处理一件事情的数据面,一定是高效的。洛神的数据面包含了软硬件结合的转发技术和架构。此外,洛神系统的网络永远不会因为维护而中断,这意味着,洛神里面的所有组件,都支持热升级。
在可靠性角度上看,多机房容灾是高可用的基础。当阿里云的某一个数据中心云机房开始部署的时候,洛神系统在物理设施部署完成之后会首先进行部署。这个时候,机房里面有计算集群,网关和控制平台。计算集群上面有我们的虚拟交换机组件。对于数据面和控制面的关键结点都是集群部署的,单台服务结点的问题不会对用户产生任何的影响。当vm的宿主机出现宕机等严重问题的时候,可以在机房范围内进行迁移,迁移本身也不会对vm的网络属性和连通性产生任何的影响。每个云机房里面都会部署集群的网关和控制器结点,而且随着机房的增多,会自动在云机房里面形成环形的备份关系。当一个新的机房建设起来,洛神系统部署之后,会自动加入到这个备份链里面。这样,当某一个机房的关键结点由于异常出现问题的时候,都可以自动在秒级切换到备份机房,由备份机房的洛神系统来提供服务。这种多层次容灾机制,保证用户可以在很快的时间内恢复业务。
除了多机房容灾之外,怎么快速发现bug和快速恢复,是可靠性的另一个关键点。为了解决这个问题,洛神首先设计了基于流的染色系统。如果把洛神系统看成一个整体的交换机,那么从特性上来看,洛神系统是一个支持流跟踪的交换机,具有各种丰富的策略。洛神系统的下面是物理网络的设备和交换机,通过洛神系统的流标记的能力和设定的策略,可以同时在物理网络和虚拟网络里面具备流的染色,特定报文的镜像,采样,跟踪等的能力。这些动作产生的日志,都会通过采集后做实时计算,如果流量有异常,会产生报警和日志给到管理员,部分报警可以触发故障的自动处理和恢复。还有一部分数据经过计算处理,会产生数据报表和用户画像,也可以给到用户一张炫酷的大屏。这个本质上就是数据化的能力。
结束语
飞天洛神的使命是让网络更简单。大家都知道AWS提出了Serverless的概念,和Serverless类似,洛神以Networkless的理念作为设计目标,我们希望用户不再去关心网络拓扑,网络带宽,网络地址这些专业技术,让用户感知不到网络的存在。Networkless首先是通过不断的提高弹性和网络的可靠性来达到的,除此之外的关键特性就是NAAS化,让用户只关心网络通,而不需要去关心网络各种组件。