如题,数据仓库建设中,大仓使用mpp架构,集市使用大数据hadoop架构,集市使用spark sql进行etl数据抽取,spark集群如何做高可用。
spark分布式搭建方式大致分为三种:standalone、yarn、mesos。standalone是官方提供的一种集群方式,企业一般不使用。yarn集群方式在企业中应用是比较广泛的。mesos安装适合于超大型集群。1、在使用spark sql作为etl抽取数据时,可通过程序逻辑将源表划分为多个数据段,对每个数据段分别建立spark sql数据etl任务,减小个别数据错误对整个etl任务的影响2、建立spark sql etl抽取任务重复执行机制,出现错误后可以自动重试。
关于TWT使用指南社区专家合作厂商入驻社区企业招聘投诉建议版权与免责声明联系我们 © 2024talkwithtrend — talk with trend,talk with technologist京ICP备09031017号-30