分类: 天文学 >> 天文学 提交时间: 2019-12-26 合作期刊: 《天文研究与技术》
摘要: SKA 科学数据处理产生的数据超出了所有已存在的分布式处理系统的处理能力,如何实现一个分布式执行框架是当前科学数据处理的一个重要研究内容。Spark 是非常成熟的一个商业框架,在互联网应用中被广泛应用,本文根据SKA项目进展要求,重点研究了如何将算法参考库(ARL)中的部分管线移植到Spark上执行。本文对部分实现过程进行了分析讨论,给出了相应的任务流程实现。最终结果表明,移植后代码生成结果符合预期,Spark能够满足部分数据分布式数据的要求,但迫切需要解决自身存在的一系列问题。