您当前的位置 :首页 > 车界光启 >  >  正文  

 
分布式数据集模型与Bigalow框架的分组操作
发布时间:2020-08-31 13:14:44   来源:北都焦点
 

  

基于底层引擎的高层抽象策略可以降低用户的学习成本和代码的维护成本,高层抽象的设计和实现是关键。百度大流项目提供了一个可嵌套分布式数据集的抽象,它考虑到了模型的直观性和系统的效率。

随着分布式计算的发展,采用以数据为中心的函数式编程模型越来越普遍。在该模型中,用户可以自己考虑计算逻辑语义,而不是执行代码时的过程控制,操作人员跟踪数据的方式也大大降低了数据的迁移成本,使用户的分布式程序更接近用户的直观思维,大大降低了学习和使用的成本,屏蔽了更多的底层细节,并为分布式框架自动优化用户代码提供了空间。

星星之火的RDD是函数式编程模型的杰出代表。它是一个容错的、并行的、只读的分区数据集合,经过转换操作将产生一个新的rdd。只要定义了这些RDD的转换过程,SMARK就可以自动地将数据分割到每个物理节点,并将操作符传递给相应的节点来扩展计算。分组操作是这些转换操作中最重要的。它根据操作符生成的键对数据集进行重组,对应于MapReduce模型中映射阶段末的提取键值操作和整个混叠阶段的数据传输操作,从而保证了火花框架的通用性。

在当前RDD模型的设计中,同一密钥的键值对在分组后成为一个单机列表,所有的列表都形成一个新的RDD。然而,这种设计会导致以下三个问题:

首先,在随后的转换中,每个机器列表中的操作都是分布式框架的黑匣子,系统很难根据这些操作的性质来优化整个程序的执行。例如,SMART提供了一系列接口,例如还原键、聚合键和组合键,用于上游数据的预聚集优化,并提示用户在可能的情况下避免使用简单的groupbykey操作符。这是因为星火框架无法从组键分组之后对每个独立列表执行的操作中提取聚合语义。

其次,这些独立列表也限制了分布式框架根据需要将组内数据分发给多台机器的可能性,因此,用户通常需要手动优化代码,以避免某些节点造成内存问题。在大多数情况下,过多的手工优化代码会使代码变得丑陋和难以理解,从而使代码的维护变得更加困难。

第三,现有的分布式算法在每个包上也很难重用,例如,用户已经为整个RDD实现了逻辑回归算法,但在另一种情况下,用户需要在同一密钥下获得所有密钥值对的逻辑回归结果,此时用户只能用相同的操作逻辑重新实现一套逻辑回归算法的单机版本,这增加了开发成本。

上一篇:敬礼经典意大利设计公司扎加托新型跑车渲染器曝光
下一篇:最后一页
 相关资讯:
· 分布式数据集模型与Bigalow框架...    2018-09-14
· 敬礼经典意大利设计公司扎加托新...    2018-09-14
· 开兰博基尼在高速公路上,中途停...    2018-09-14
· 劳斯莱斯(Rolls-Royce)轮胎的售...    2018-09-14
· 印度利用汽车零售平台Spinny收购...    2018-09-14
· 为科研生产节省足够的精力,青年...    2018-09-14
 
一周资讯排行
一辆纯电动汽车能行驶多少公里?
你们接受电动越野硬汉吗?悍马可...
这辆车是不是应该装满雨眉毛呢?...
当汽车停在路边时,如何处理失控...
火上市场SUV,终身免费保修,...
你们都离开了SUV?.那我也要出去...
热门汽车新闻在一周内就知道了新...
这些SUV车是推荐给女孩的。她们...
维庭改装商用车的价格更简洁、更...
北汽2019年的新能源收入增长了30...
资讯动态
·一汽丰田一泽e建立了一套低功耗...
·三辆跑车,三人一狗,公路探险家...
·外观无懈可击,梅赛德斯-奔驰梅...
·安徽省一季度出口汽车26000辆
·这是一辆民用跑车,2.0t275马力...
·4款性能价格比高的车型是人们心...
·成都市运输局:下落棒的高速回收...
·5G使能,MechaWarrior造型,下一...
·北京火箭是一个很难再创新高的时...
·举着一辆跑车的旗帜,雪佛兰家庭...
Copyright 2009-2011 http://www.beidufocus.com All Rights Reserved
版权所有: 北都焦点 网站 联系方式:2820-8476-56