题目内容
(请给出正确答案)
[填空]
Apache Spark是专为大规模数据处理而设计的快速通用的计算引擎,将Job中间输出结果可以保存在()中,从而不再需要读写HDFS。因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的Map Reduce的算法。
查看答案
A、RDD(ResilientDistributedDataset)叫做弹性分布式数据集,是spark中最基本的数据抽象;
B、Resilient:表示弹性的;
C、Destributed:分布式,可以并行在集群计算;
D、Dataset:就是一个集合,用于存放数据的;
A、大数据块被顺序写入SSD
B、1段大块顺序写充分利用SAS带宽减少垃圾回收
C、多个高散的数据块在控制器内存中被聚合成一个连续的大数据块
D、控制器感知SSD内数据布局