RDD

RDD的五大特性

......

特性 RDD更新时间 2024-01-13

RDD定义

RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象，代表一个不可变、可分区、里面的元素可并行计算的集合。 Dataset：一个数据集合，用于存放数据的。 Distributed：RDD中的数据是分布式存储的，可用于分布式计算。 ......

RDD更新时间 2024-01-13

Spark与RDD是什么

大数据框架可不是只有Hadoop哦，还有一个非常厉害的框架，它就是——Spark。一：什么是Spark Apache Spark是一个快速通用的集群计算系统，是一种与Hadoop相似的开源集群计算环境，但是Spark在一些工作负载方面表现得更加优越。它提供了Java、Scala、Python和R的 ......

Spark RDD更新时间 2024-01-02

【大数据】RDD

RDD介绍 Resilient: RDD中的数据可以存储在内存中或者磁盘中。 Dataset:一个数据集合，用于存放数据的。 Distributed: RDD中的数据是分布式存储的，可用于分布式计算 RDD五大特性 # coding:utf8 from pyspark import SparkCon ......

数据 RDD更新时间 2023-10-20

1. Spark RDD

一、Spark RDD 1. RDD是什么 RDD，即弹性分布式数据集(Resilient Distributed Dataset)，是Spark对数据的抽象，本质上是分布在多个节点上的数据集合。弹性是指当内存不够时，数据可以持久化到磁盘，并且RDD具有高效的容错能力。分布式数据集是指一个数据集 ......

Spark RDD更新时间 2023-10-09

DataFrame的代码构建-基于RDD方式

方式一： # coding:utf8 from pyspark.sql import SparkSession if __name__ == '__main__': # 0. 构建执行环境入口对象SparkSession spark = SparkSession.builder.\ appName( ......

DataFrame 代码方式 RDD更新时间 2023-09-30

RDD

RDD（Resilient Distributed Datasets）是Apache Spark中的核心抽象，是分布式数据集的集合。Spark中所有的计算都基于RDD。RDD具有以下特点：分布式：RDD是分布式数据集，可以在集群中多台机器上分布式存储和计算。不可变性：RDD是不可变的，一旦创建，就不 ......

RDD更新时间 2023-09-20

Spark RDD惰性计算的自主优化

原创/朱季谦 RDD（弹性分布式数据集）中的数据就如final定义一般，只可读而无法修改，若要对RDD进行转换或操作，那就需要创建一个新的RDD来保存结果。故而就需要用到转换和行动的算子。 Spark运行是惰性的，在RDD转换阶段，只会记录该转换逻辑而不会执行，只有在遇到行动算子时，才会触发真正的运 ......

惰性 Spark RDD更新时间 2023-08-22

大数据技术Spark之RDD基础编程

# 大数据技术Spark之RDD基础编程 RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是 Spark 中最基本的数据处理模型。代码中是一个抽象类，它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。 ### 一、RDD的两种创建方式 1. ......

基础数据 Spark 技术 RDD更新时间 2023-08-21

Scala迭代器与RDD五大属性

# Scala迭代器与RDD五大属性 > **迭代器就是读数据的工具** ## Scala迭代器的理解迭代器是读数据的工具，例如Scala的List就提供了它自己的迭代器（读数据工具），而我们也可以自己写迭代器去读List里面的数据，而不使用List的迭代器。 ### 自己编写迭代器读List ......

属性 Scala RDD更新时间 2023-07-31

五分钟了解Spark之RDD！！

# Spark之探究RDD > 如何了解一个组件，先看看官方介绍！ ![](https://img2023.cnblogs.com/blog/3161112/202307/3161112-20230727212358040-237097554.png) 进入RDD.scala，引入眼帘的是这么一段描 ......

Spark RDD更新时间 2023-07-27

Spark中RDD的特殊算子和重要概念

# RDD特殊的算子 ## cache、persist 将数据缓存到内存，第一次触发Action，才会将数据放入内存，以后在触发Action，可以复用前面内存中缓存的数据，可以提升技术效率 cache和persist的使用场景：一个application多次触发Action，为了复用前面RDD的数据 ......

算子概念 Spark RDD更新时间 2023-07-04

Spark中RDD的Action算子

# RDD的Action算子 Action算子会触发Job的生成，底层调用的是sparkContext.runJob方法，根据最后一个RDD，从后往前，切分Stage，生成Task ![image](https://img2023.cnblogs.com/blog/1742816/202307/17 ......

算子 Action Spark RDD更新时间 2023-07-03

Spark中RDD的Transformation算子

# RDD的Transformation算子 ## map map算子的功能为做映射，即将原来的RDD中对应的每一个元素，应用外部传入的函数进行运算，返回一个新的RDD ```Scala val rdd1: RDD[Int] = sc.parallelize(List(1,2,3,4,5,6,7,8 ......

算子 Transformation Spark RDD更新时间 2023-07-01

Spark使用Python开发和RDD

# 使用PySpark ## 配置python环境在所有节点上按照python3，版本必须是python3.6及以上版本 ```Shell yum install -y python3 ``` 修改所有节点的环境变量 ```Shell export JAVA_HOME=/usr/local/jdk ......

Python Spark RDD更新时间 2023-06-29

Spark之RDD相关

### 创建RDD RDD是Spark编程的核心，在进行Spark编程时，首要任务是创建一个初始的RDD，这样就相当于设置了Spark应用程序的输入源数据然后在创建了初始的RDD之后，才可以通过Spark 提供的一些高阶函数，对这个RDD进行操作，来获取其它的RDD Spark提供三种创建RDD方 ......

Spark RDD更新时间 2023-06-02

RDD依赖关系

介绍 val fileRDD: RDD[String] = sc.textFile("input/1.txt") println(fileRDD.toDebugString) println(" ") val wordRDD: RDD[String] = fileRDD.flatMap(_.spli ......

RDD更新时间 2023-04-20

Spark源码解析（一）：RDD之Transfrom算子

一、延迟计算 RDD 代表的是分布式数据形态，因此，RDD 到 RDD 之间的转换，本质上是数据形态上的转换（Transformations）在 RDD 的编程模型中，一共有两种算子，Transformations 类算子和 Actions 类算子。开发者需要使用 Transformations ......

算子 Transfrom 源码 Spark RDD更新时间 2023-03-31

共18篇 :1/1页 首页上一页1下一页尾页