近来,在Apache Hadoop社区主导及邀请下,腾讯开源、腾讯大数据、腾讯云联合承办了Hadoop技能社区在我国的初次Meetup。环绕Hadoop技能实践,来自腾讯、Cloudera、京东、小米、阿里、滴滴、华为、字节跳动的多位嘉宾参加了共享评论。
腾讯开源运营负责人王春雨表明:“我国企业的参加是开源生态建设不可或缺的一部分。腾讯作为国内开源的先行者,将继续投入社区协同协作,以敞开的心态,推进更多开源社区之间的沟通对话,助力技能生态开展。”
Hadoop是由Apache基金会所开发的分布式体系根底架构。自2006年诞生以来,Hadoop改变了企业对数据的存储、处理和剖析的进程,构成了一个极其丰富的技能生态圈,并在阅历了大数据技能高速开展之后,迎来了3.x的年代。
作为Apache Member, Hadoop PMC & Committer, Hadoop社区负责人之一,堵俊平于2011年开端继续重视Hadoop技能的开展,参加社区奉献,并活泼推进 Hadoop技能在全球各地的落地推广。他一起也是腾讯TEG数据渠道部海量存储与核算研制负责人、腾讯开源联盟主席、开源办理委员会委员。据介绍,腾讯是最早选用Hadoop技能的我国公司之一,这两年向社区奉献了很多patch和特性,包含HDFS稳定性增强、YARN增强型资源阻隔方案、Ozone项目的新特性等,并作为国内首家企业率先在社区发布2.8.4与2.8.5 release。
堵俊平展现了大数据Hadoop技能与社区开展的Roadmap。包含存储渠道(HDFS,Ozone)向大规划、云、容器化、机器学习等方向的演进道路以及近期的热门feature,包含RBF(Router based Federation),即根据路由机制的集群联邦方案来应对海量数据存储的增加,HDFS对外部方针存储的办理,OpenTracing机制的支撑,以及Ozone的特性。据悉,Hadoop项目的近期发布方案将包含2.8.6, 3.1.3,3.2.1和3.3.0。
堵俊平表明,此次Meetup将是Hadoop社区沟通的良好开端,腾讯将活泼参加社区沟通,奉献自己的技能实践,推进Hadoop技能生态开展。未来Apache Hadoop社区在我国的Meetup将沿袭之前在硅谷的办法,即:由Hadoop PMC安排建议,自愿参加社区奉献的公司来自愿承办,开源奉献者一起参加并提交议题,活意向开源社区一切用户与奉献者免费敞开。未来,Hadoop社区将在我国构成每季度举行一次中小型的Meetup的常规,乃至开立异的方式,包含举行较大规划的HadoopCon。
腾讯大数据工程师、Apache Hadoop Committer & PMC member陈怡以Ozone为例,介绍了Hadoop原生方针存储服务的处理方案。
Ozone是由Hadoop社区新建议的一个强一致性分布式方针存储服务,旨在处理现在HDFS Namenode的扩展性上限问题。Ozone 具有和HDFS相同的可靠性,一致性和可用性,支撑Hadoop文件体系接口,无缝对接YARN,SPARK 和HIVE。支撑S3接口,供给CNCF CSI驱动。Ozone不只适用于on-premise大数据环境,一起也是大数据上云,云端存储的一个很好的挑选。
陈怡在共享中介绍了Ozone的动机和方针,namespace办理和数据办理别离的构架,支撑的方针存储的语义,方针读写流程,拜访操控,用户可自定义的弹性网络拓扑结构,和Kubernetes集成的支撑等等即将发布的0.5版别的新特性。
腾讯高级工程师、Hadoop YARN和Kubernetes社区活泼奉献者龚军、陈东东则介绍了腾讯大规划YARN集群实践。腾讯的Hadoop YARN集群在2014年就现已支撑单集群8800台上的规划,每日调度上亿的container。龚军共享了优化调度器功能的一些基本思路和办法,包含改善热门代码的算法、下降时刻复杂度、防止重复的查找与核算、削减锁竞赛以及优化锁粒度等。经过这些调度功能优化,使YARN能满意大规划集群的吞吐量。
陈东东则首要介绍了怎么运用cgroup对底层资源进行弹性操控,保证事务的恳求资源能够得到保证,特别是对多资源纬度的办理,包含cpu、内存、网络io、磁盘io等,一起在有闲暇资源的情况下,能够暂时借用更多的资源,以此来进步底层资源利用率。
此外,Cloudera、京东、小米、阿里、滴滴、华为、字节跳动的多位嘉宾也参加了共享,别离环绕Hadoop在各大企业的大规划实践、HDFS的改善优化,YARN与机器学习和云原生结合,以及架构演进等论题进行了评论。