회사이미지

Global Vendors Training

Home > Global Vendors Training > 전체교육일정

Cloudera

Data Analyst Training

교육일정
교육기간
4일
교육금액
2,394,000원(면세)
Cloudera전체일정보기 수강신청

교육개요

본 과정은 Apache Pig, Hive, Cloudera Impala에 초점을 맞추어 빅데이터에 기존의 데이터를 분석하고 비즈니스 인텔리전스 기술을 적용하는 방법을 학습합니다. Cloudera 는 데이터 전문가들이 Java 프로그래밍 전문 지식 없이 SQL과 익숙한 스크립트 언어들로 복잡한 데이터 세트를 액세스하고 조작, 변환, 분석하는 데에 필요한 도구들을 제공합니다. 본 과정에서는 다음의 내용들을 자세히 학습합니다.



교육목표

- Pig, Hive, Impala가 데이터 수집, 저장, 분석을 위해 제공하는 기능
- 기본적인 Apache Hadoop과 data ETL(extract, transform, load), ingestion, 그리고 Hadoop 도구 사용 및 처리
- Pig, Hive, Impala가 일반적인 분석작업의 생산성을 개선하는 방법
- 가치 있는 사업 통찰력을 얻기 위해 다양한 데이터세트를 결합
- 데이터세트에 실시간으로 복잡한 쿼리를 수행



수강대상

데이터 분석가, 비즈니스 인텔리전스 스페셜리스트, 개발자, 시스템 아키텍트, 데이터베이스 관리자



선수과목

- SQL에 대한 지식
- Linux 기본
- Bash scripting, Perl, Python, Ruby 등 기초적인 스크립트 언어능력



강의내용

Module1. Hadoop 기본
Hadoop에 대한 동기부여, Hadoop 개요
데이터 저장소: HDFS
분산 데이터 처리: YARN, MapReduce, Spark
데이터 처리 및 분석: Pig, Hive, Impala / 데이터 통합: Sqoop
기타 Hadoop 데이터 도구들 및 실습 시나리오 설명

Module2. Pig 개요
Pig란 무엇인가, Pig의 기능, Pig 실제 사례, Pig와 상호작용

Module3. Pig를 이용한 기본적인 데이터 분석
Pig Latin Syntax, 데이터 로딩, 단순 데이터 유형
필드 정의, 데이터 출력, 스키마 보기, 데이터 분류 및 정렬, 일반적으로 사용되는 기능

Module4. Pig를 이용한 기본적인 데이터 분석
Pig Latin Syntax, 데이터 로딩, 단순 데이터 유형
필드 정의, 데이터 출력, 스키마 보기
데이터 분류 및 정렬, 일반적으로 사용되는 기능

Module5. Pig를 이용해 복잡한 데이터 처리
저장소 포맷, 복합/중첩된 데이터 유형
Grouping, 복잡한 데이터에 대한 내장함수, Iterating Grouped Data

Module6. Pig를 활용한 다중 데이터 집합작업
데이터 세트 결합에 필요한 기술
Pig에서 데이터 세트 결합
작업 설정, 데이터 세트 분할

Module7. Pig 장애해결 및 최적화
Pig 장애해결, Logging, Hadoop의 Web UI 사용
Data Sampling and Debugging, 성능 개요
실행계획의 이해, Pig Job들의 성능 개선을 위한 팁

Module8. Hive 와 Impala 개요
Hive란 무엇인가? Impala란 무엇인가?
Schema 와 데이터 저장소 및 Hive를 전통적인 데이터베이스와 비교하기
Hive 실제 사례

Module9. Hive 와 Impala로 Querying 하기
Databases 및 Tables, 기본적인 Hive 와 Impala Query 언어 구문
데이터 종류, Hive 와 Impala Query 구문 사이의 차이점
Hue 를 사용해서 쿼리 실행, Impala Shell 사용

Module10. 데이터 관리
데이터 저장소, 데이터 베이스와 테이블 생성
데이터 로딩, 데이터베이스 및 테이블 변경
Views를 사용해 Query 단순화, Query 결과 저장

Module11. 데이터 저장 및 성능
파티션 테이블, 정확한 파일 포맷 선택, 메타데이터 관리, 데이터 접근 통제

Module12. Hive 와 Impala를 사용해 관계형 데이터 분석
데이터 세트 결합, 일반적인 내장 함수(functions), Aggregation and Windowing

Module13. Impala 작업
Impala 쿼리 실행 방법
사용자 정의 함수와 Impala 확장
Impala 성능 개선

Module14. Hive로 복잡한 텍스트나 데이터를 분석
Hive에서의 복잡한 값
Hive의 정규 표현식 사용
심리 분석 및 N-Grams
결론

Module15. Hive 최적화
쿼리 성능에 대해 이해
작업 실행계획을 제어
Bucketing
인덱싱 데이터

Module16. Hive 확장
SerDes
사용자 지정 스크립트로 데이터 변형
사용자 정의 함수
매개 변수화 된 쿼리

Module17. 작업을 위한 최적의 도구 선택
MapReduce, Pig, Hive, Impala, 관계형 데이터베이스 비교
어떤 도구(Tool)를 선택해야 할까



기타

교육비 면세