TY -的TI -查询执行优化SQL火花六世- 2020年PY - 2020 DA - 2020/02/07做- 10.1155 / 2020/6364752 UR - https://doi.org/10.1155/2020/6364752 AB -火花SQL是一个大数据处理结构化数据的查询和分析的工具。但是,由于Spark SQL的执行,需要多次向磁盘写入中间数据,降低了Spark SQL的执行效率。针对存在的问题,我们设计并实现了一个介于底层文件系统和上层Spark内核之间的中间数据缓存层,以降低随机磁盘I/O的开销。通过使用查询预分析模块,我们可以针对不同的查询动态调整缓存层的容量。分配模块可以为集群中的每个节点分配适当的内存。针对Spark SQL工作流中中间数据的共享问题,提出了一种基于代价的相关合并算法,有效地降低了冗余数据的读写成本。本文开发了SSO (Spark SQL Optimizer)模块,并将其集成到原有的Spark系统中实现上述功能。本文通过TPC-H工具生成的实验数据,将查询性能与现有的Spark SQL进行了比较。实验结果表明,SSO模块能够有效提高查询效率,降低磁盘I/O开销,充分利用集群内存资源。JF - Scientific Programming SN - 1058-9244 PB - Hindawi SP - 6364752 KW - A2 - Bian, Jianming AU - Ji, Xuechun AU - Zhao, Maoxian AU - Zhai, Mingyu AU - Wu, Qingxi ER -