Spark 编程指南 (一) [Spark Programming Guide] | logging.DEBUG
Python Programming Guide - Spark
Spark应用基本概念每一个运行在cluster上的spark应用程序,是由一个运行main函数的driver program和运行多种并行操作的executes组成
其中spark的核心是弹性分布式数据集(Resilient Distributed Dataset—RDD)
Resilient(弹性):易变化、易计算Distributed(分布式):可横跨多台机器,集群分布Dataset(数据集):大批量数据的集合RDD基本概念RDD是逻辑集中的实体,代表一个分区的只读数据集,不可发生改变
【RDD的重要内部属性】
分区列表(partitions)对于一个RDD而言,分区的多少涉及对这个RDD并行计算的粒度,每一个RDD分区的计算都会在一个单独的任务中执行,每一个分区对应一个Task,分区后的数据存放在内存当中
计算每个分区的函数(compute)对于Spark中每个RDD都是以分区进行计算的,并且每个分区的compute函数是在对迭代器进行复合操作,不需要每次计算,直到提交动作触发才会将之前所有的迭代操作...阅读全文
Spark应用基本概念每一个运行在cluster上的spark应用程序,是由一个运行main函数的driver program和运行多种并行操作的executes组成
其中spark的核心是弹性分布式数据集(Resilient Distributed Dataset—RDD)
Resilient(弹性):易变化、易计算Distributed(分布式):可横跨多台机器,集群分布Dataset(数据集):大批量数据的集合RDD基本概念RDD是逻辑集中的实体,代表一个分区的只读数据集,不可发生改变
【RDD的重要内部属性】
分区列表(partitions)对于一个RDD而言,分区的多少涉及对这个RDD并行计算的粒度,每一个RDD分区的计算都会在一个单独的任务中执行,每一个分区对应一个Task,分区后的数据存放在内存当中
计算每个分区的函数(compute)对于Spark中每个RDD都是以分区进行计算的,并且每个分区的compute函数是在对迭代器进行复合操作,不需要每次计算,直到提交动作触发才会将之前所有的迭代操作...阅读全文