Spark 계산 평균 값

저자: 신 량 자 출처:http://www.cnblogs.com/cssdongl 전재 출처 를 밝 혀 주 십시오
spark 로 그룹의 평균 값 을 빠르게 계산 하여 쓰기 가 편리 하고 말 이 많 지 않 습 니 다.

object ColumnValueAvg extends App {
  /**
    * ID,Name,ADDRESS,AGE
    * 001,zhangsan,chaoyang,20
    * 002,zhangsa,chaoyang,27
    * 003,zhangjie,chaoyang,35
    * 004,lisi,haidian,24
    * 005,lier,haidian,40
    * 006,wangwu,chaoyang,90
    * 007,wangchao,haidian,80
    */
  val conf = new SparkConf().setAppName("test column value sum and avg").setMaster("local[1]")
  val sc = new SparkContext(conf)

  val textRdd = sc.textFile(args(0))

  //be careful the toInt here is necessary ,if no cast ,then it will be age string append
  val addressAgeMap = textRdd.map(x => (x.split(",")(2), x.split(",")(3).toInt))

  val sumAgeResult = addressAgeMap.reduceByKey(_ + _).collect().foreach(println)

  val avgAgeResult = addressAgeMap.combineByKey(
    (v) => (v, 1),
    (accu: (Int, Int), v) => (accu._1 + v, accu._2 + 1),
    (accu1: (Int, Int), accu2: (Int, Int)) => (accu1._1 + accu2._1, accu1._2 + accu2._2)
  ).mapValues(x => (x._1 / x._2).toDouble).collect().foreach(println)

  println("Sum and Avg calculate successfuly")

  sc.stop()

}

textFile 로 데 이 터 를 읽 은 후 address 로 그룹 을 나 누 어 age 의 평균 값 을 구 합 니 다. 여 기 는 combineByKey 로 계산 합 니 다. 이것 은 추상 적 인 차원 이 높 은 함수 입 니 다. 자신의 이 해 를 조금 정리 하 겠 습 니 다.
소스 코드 를 보면 combineByKey 정의 가 다음 과 같 습 니 다.

def combineByKey[C](createCombiner: V => C, mergeValue: (C, V) => C, mergeCombiners: (C, C) => C)
    : RDD[(K, C)] = {
    combineByKey(createCombiner, mergeValue, mergeCombiners, defaultPartitioner(self))
  }

combineByKey 함 수 는 세 가지 함 수 를 매개 변수 로 전달 해 야 합 니 다. 각각 createCombiner, mergeValue, mergeCombiner 입 니 다. 이 세 가지 함수 의 의 미 를 이해 해 야 합 니 다.
데이터 와 결합 하면 combineByKey 는 기본적으로 key 에 따라 요소 의 combine 을 진행 합 니 다. 이 세 개의 매개 변 수 는 모두 value 에 대한 조작 입 니 다.
1 > 첫 번 째 매개 변 수 는 createCombiner 입 니 다. 예 를 들 어 코드 에서 정 의 된 것 은: (v) = > (v, 1) 입 니 다.
여 기 는 comber 를 만 들 었 습 니 다. rdd 의 파 티 션 을 옮 겨 다 닐 때 처음으로 나타 난 key 값 을 만 났 을 때 (v, 1) 의 comber 를 만 드 는 역할 을 합 니 다. 예 를 들 어 여기 key 는 address 이 고 첫 번 째 키 를 만 났 을 때

이 내용에 흥미가 있습니까?

현재 기사가 여러분의 문제를 해결하지 못하는 경우 AI 엔진은 머신러닝 분석(스마트 모델이 방금 만들어져 부정확한 경우가 있을 수 있음)을 통해 가장 유사한 기사를 추천합니다:

Spark Streaming의 통계 소켓 단어 수

1. socket 단어 수 통계 TCP 소켓의 데이터 서버에서 수신한 텍스트 데이터의 단어 수입니다. 2. maven 설정 3. 프로그래밍 코드 입력 내용 결과 내보내기...

텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.

CC BY-SA 2.5, CC BY-SA 3.0 및 CC BY-SA 4.0에 따라 라이센스가 부여됩니다.

Spark 계산 평균 값

좋은 웹페이지 즐겨찾기