회사이미지

Global Vendors Training

Home > Global Vendors Training > 전체교육일정

Cloudera

Developer Training For Spark and Hadoop

교육일정
교육기간
4일
교육금액
2,394,000원(면세)
Cloudera전체일정보기 수강신청

교육개요

본 과정은 Spark, Hive, Flume, Sqoop, Impala 및 Hadoop 에코시스템 툴들과 최신 기술들을 적용하여 아파치 하둡 클러스터 및 프로세스로 데이터를 가져 오는 방법에 대해 핵심 개념들을 학습합니다. 수강자들은 어떤 툴이 해당 상황에 가장 적합한지에 대해 배우고, 이러한 툴들에 대해 직접적인 개발 실무 경험을 쌓게 될 것입니다.
본 과정에서는 다음의 내용들을 자세히 학습합니다.



교육목표

- Hadoop Cluster 안에서 데이터를 분산, 저장, 처리하는 방법
- 데이터를 흡수시키기 위해 Sqoop과 Flume을 사용하는 방법
- Apache Spark으로 분산된 데이터를 처리하는 방법
- Impala와 Hive 안에서 테이블로 구조화 된 데이터를 모델링 하는 방법
- 서로 다른 데이터 사용 패턴 중에서 최적의 데이터 저장 포맷을 선택하는 방법
- 데이터 저장을 위한 모범 사례



수강대상

프로그래밍 경험이 있는 개발자 또는 엔지니어



선수과목

- Scala 또는 Python 프로그램 언어에 대한 기본지식
- 리눅스 명령어 기본지식
- SQL 기본지식



강의내용

Module1. Hadoop과 Hadoop 에코시스템에 대한 개요
전통적인 대규모 시스템에 관한 문제들
하둡 (Hadoop)
Hadoop 에코시스템

Module2. Hadoop 아키텍처 와 HDFS
Cluster 상에서 분산처리
Storage: HDFS Architecture / Storage: HDFS를 사용하기
리소스 관리: YARN Architecture / 리소스 관리: YARN을 사용하기

Module3. Apache Sqoop 를 이용해 관계형 데이터 불러오기
Sqoop 개요 및 기본적인 가져오기와 내보내기
결과 제한 (Limiting Results), Sqoop의 성능 향상 & Sqoop 2

Module4. Impala 와 Hive의 개요
Impala 와 Hive의 소개, Impala 와 Hive를 사용하는 이유
Hive를 전통적인 데이터베이스에 비교
Hive 사용 사례

Module5. Impala 와 Hive를 이용하여 데이터 관리 및 모델링
데이터 저장 개요 및 테이터베이스와 테이블 생성
테이블에 데이터 로딩, HCatalog, Impala Metadata Caching

Module6. 데이터 포맷
파일 포맷 선택하기, Hadoop 툴이 지원하는 파일 포맷
Avro Schemas, Avro를 Hive 와 Sqoop 과 함께 사용하기
Avro 스키마 Evolution, 압축

Module7. 데이터 분할
분할의 개요
Impala 와 Hive에서 데이터 분할

Module8. Apache Flume를 이용한 Data Capturing
Apache Flume이란? Flume 아키텍처 기본
Flume Sources, Flume Sinks, Flume 채널, Flume 설정

Module9. Spark 기초
Apache Spark 정의, Spark Shell 사용
RDDs (Resilient Distributed Datasets), Spark 내에서의 기능적 프로그래밍

Module10. Spark에서의 RDD 활용
RDDs 들에 대한 정밀한 분석, Key-Value Pair RDDs
MapReduce, 기타 Pair RDD 운영

Module11. Spark 어플리케이션 작성 및 배포
Spark Applications과 Spark Shell을 비교
SparkContext 생성
Spark Application 만들기 (Scala and Java)
Spark Application 실행
The Spark Application Web UI
Spark 속성 구성하기
로깅(Logging)

Module12. Spark를 이용한 병렬 프로그래밍
복습: Cluster에서의 Spark
RDD 분할
파일 기반의 RDD 분할
HDFS 와 데이터 지역성
병렬작업의 실행
단계 및 작업

Module13. Spark Caching 과 Persistence
RDD Lineage
Caching 개요
Distributed Persistence

Module14. Spark 데이터 처리에 있어서의 일반적인 패턴
일반적인 Spark 사용 예시
Spark에서의 반복적인 알고리즘들
그래프 처리 및 분석
기계 학습(Machine Learning)
사례: k-means

Module15. 미리보기: Spark SQL
Spark SQL 과 SQL 문맥
DataFrames 생성
DataFrames 에 대한 질의 및 변형
DataFrames 저장
Impala 와 Spark SQL 비교



기타

교육비 면세