big data updates 2017/1/4

새해 1발째의 Hadoop Weekly를 쭉 읽고 한 가지 메모.
htps : // 어쨌든 p ぇえ kly. 이 m/하오 p-ㅇㅇㅇㅇ-198. HTML

Databricks의 2016 년 블로그 게시물 술집. Spark2가 출시된 적도 있고, DataFrames, Datasets 추악한 이야기가 많다.

Integrating Deep Learning Libraries with Apache Spark :


  • Tensorflow를 사용한 이미지 분석을 Spark에서 분산 실행한다는 이야기. 학습 된 모델을 Executor에 배포하여 모델 병렬 데이터 병렬 추론을 수행하는 Jupyter Notebook의 샘플이 붙어 있습니다.

  • A Tale of Three Apache Spark APIs: RDDs, DataFrames, and Datasets :


  • RDD, DataFrames, Datasets의 복습. 아직 DataFrames와 Datasets의 명확한 구분이나 제대로 쫓겨나지 않았지만, ↓ 같은 것을 할 수 있는 것은 기쁘다.
  • val ds = spark.read.json("/databricks-public-datasets/data/iot/iot_devices.json").as[DeviceIoTData]
    
  • Java적인 형부도 되고 있으므로 공간 효율도 오르면.


  • Introducing GraphFrames


  • 지금까지 별로 접할 기회가 없었던 그래프 처리이지만, DataFrames 베이스로 쿼리 할 수 ​​있으면 부담없이 사용할 수 있을 것 같다.



  • Structured Streaming In Apache Spark


  • Streaming도 이런 느낌에 Structured한 세계가 되어 있습니다.
  • 
    // Read data continuously from an S3 location
    val inputDF = spark.readStream.json("s3://logs")
    
    // Do operations using the standard DataFrame API and write to MySQL
    inputDF.groupBy($"action", window($"time", "1 hour")).count()
           .writeStream.format("jdbc")
           .start("jdbc:mysql//...")
    

    Hortonworks 블로그에서 몇 가지

    10 QUESTIONS ON HORTONWORKS DATA CLOUD FOR AWS


  • Hortonworks Data Cloud. Hortonworks제의 EMR이나 Quoble, 같은 느낌일까. 차이점은 클라우드 컨트롤러라는 배포자도 스스로 EC2에 구축한다는 것입니다.

  • SPARKSQL, RANGER, AND LLAP VIA SPARK THRIFT SERVER FOR BI SCENARIOS TO PROVIDE ROW, COLUMN LEVEL SECURITY, AND MASKING


  • 타이틀이 길고, 게다가 전부 대문자로 읽기 어려워 무슨 말을 하는지 알기 어렵지만, Spark로부터 LLAP를 사용합시다고 하는 이야기. 거기에 Ranger를 넣으면 Spark로부터의 데이터 액세스에 대해 컬럼 레벨의 액세스 제어를 할 수 있다고.
  • 이것은 실제로 때문에 해 보았다. Zeppelin + Spark + Hive LLAP .
  • 좋은 웹페이지 즐겨찾기