아파치 스파크 람다 함수 편집하기 (부분)

==아파치 스파크에서 람다 함수 사용하기==
스파크에서는 RDD 또는 데이터프레임에서 여러 가지 연산을 람다 함수와 함께 사용할 수 있다. 주요 연산 예시는 다음과 같다.
===예시 1: RDD에서 map 연산에 람다 함수 사용===
스파크 RDD에서 map 연산은 각 요소에 대해 주어진 함수를 적용한다. 람다 함수는 이를 간단히 구현하는 데 유용하다.<syntaxhighlight lang="scala">
val sc = new SparkContext("local", "Lambda Function Example")

// RDD 생성
val rdd = sc.parallelize(Seq(1, 2, 3, 4, 5))

// map 연산에 람다 함수 적용
val result = rdd.map(x => x * 2)

result.collect().foreach(println)  // 출력: 2, 4, 6, 8, 10
</syntaxhighlight>위 예제에서는 각 요소를 두 배로 만드는 람다 함수를 사용하여 RDD의 모든 요소에 적용했다.
===예시 2: RDD에서 filter 연산에 람다 함수 사용===
filter 연산은 RDD에서 조건을 만족하는 요소들만 추출하는 데 사용된다. 람다 함수는 필터 조건을 간단히 정의할 수 있게 해준다.<syntaxhighlight lang="scala">
val rdd = sc.parallelize(Seq(1, 2, 3, 4, 5))

// filter 연산에 람다 함수 적용
val result = rdd.filter(x => x % 2 == 0)

result.collect().foreach(println)  // 출력: 2, 4
</syntaxhighlight>위 예제에서는 짝수인 숫자만 필터링하기 위해 람다 함수를 사용했다.
===예시 3: RDD에서 reduceByKey와 람다 함수 사용===
reduceByKey는 키별로 값을 집계하는 연산이다. 람다 함수를 사용하면 간단하게 값을 집계할 수 있다. 예를 들어, reduceByKey(_ + _)와 같은 축약된 표현법을 사용할 수 있다.<syntaxhighlight lang="scala">
val rdd = sc.parallelize(Seq(("a", 1), ("b", 2), ("a", 3), ("b", 4)))

// reduceByKey에 람다 함수 축약 표현 사용
val result = rdd.reduceByKey(_ + _)

result.collect().foreach(println)  // 출력: (a,4), (b,6)
</syntaxhighlight>위 예제에서는 "a"와 "b" 키에 대해 각각 값을 더하는 람다 함수를 reduceByKey에 적용했다.