Data Science at Scale using Spark and Hadoop

기술분야 Cloudera 신청하기
교육일정 2017-09-11~2017-09-13 교육 기간 3 일
교육 금액 1,914,000원 쿠폰등록시 0매
접수파일
이벤트&프로모션
List Price : 3,240,000원(USD2,595) -> 특별 판매가 2,270,000원 으로 진행되고 있습니다.
과정 설명
데이터 과학자들은 깊은 통찰력을 제공하고 이전에는 상상할 수 없는 질문에 대답하기 위해 정보 플랫폼을 구축 합니다. Spark and Hadoop은 데이터 과학자들이 큰 규모에서의 상호 작용과 반복적인 데이터 분석이 가능하도록 작업 방법이 변화되고 있습니다.

본 과정은 Spark and Hadoop 을 사용하여 데이터 과학자들이 무엇을 하는지, 어떤 문제들을 해결하는지, 사용하는 도구와 기술들이 무엇인지에 대해 학습합니다. 클래스 시뮬레이션을 통해 다양한 산업 환경에서의 실제 문제에 대한 데이터 과학 방법을 적용하고, 궁극적으로 해당 영역에서 데이터 과학자 로서의 역할을 준비 할 수 있게 될 것입니다.
본 과정에서는 다음의 내용들을 자세히 학습합니다.

- 데이터 과학이 더 효과적인 결과를 제공 할 수 있는 잠재적인 비즈니스 사용사례를 식별 하는 방법
- 분석을 위해 일관적인 그림을 생성하도록 서로 다른 데이터소스를 획득, clean, 결합 하는 방법
- 중요한 통찰력을 제공할 수 있는 데이터 탐색에 활용할 효과적인 통계 방법들이 무엇인지
- 언제 어디서 Hadoop Streaming 을 활용하고 data science pipeline 을 위해 Apache Spark를 활용할 수 있는지
- 특정 데이터 과학 프로젝트에 어떤 기계 학습 기술을 써야 하는지
- Spark의 MLlib를 이용하여 Recommenders를 실행, 관리, 실험, 그리고 실험 데이터를 평가 하는 방법
- 생산, 규모에 새로운 분석 프로젝트를 배포하는데 위험은 무엇인지
수강 대상
- HDFS, MapReduce, Hadoop Streaming, Apache Hive 등 Apache Hadoop의 기본지식이 있는 개발자, 데이터 분석가, 통계학자
과정 소개

Module1. Data Science 개요

데이터 과학이란?

데이터 과학에 대한 커져가는 필요성

데이터 과학자의 역할

Module2. 활용사례

금융업

소매상업

광고업

국방 및 인텔리전스

통신 및 유틸리티

의료 및 제약

Module3. 프로젝트 수명주기

프로젝트 라이프 사이클의 단계

랩 시나리오 설명

Module4. 데이터 수집

데이터 소스 수집 장소

수집 기술

Module5. 입력 데이터 평가

데이터의 형식

데이터의 양

데이터의 질

Module6. 데이터 변형

파일 형식 변환

데이터 세트 합치기

익명화 시키기

Module7. 데이터 분석 및 통계 방법

통계와 확률 사이의 관계

기술 통계

추론적 통계

벡터와 행렬

Module8. 기계 학습의 기본 개념

개요

기계 학습에 있어서의 3가지 C(3C)

데이터와 알고리즘의 중요성

스포트라이트: Naive Bayes Classifiers

Module9. Recommender 개요

Recommender 시스템이란 무엇일까?

Collaborative Filtering 의 종류

Recommender System의 한계

기본적인 개념

Module10. Apache Spark MLlib 개요

Apache Spark ?

MapReduce와의 비교

Apache Spark의 기본 개념

Spark’s MLlib Package

Module11. Recommenders MLlib 구현

Latent Factor Recommenders를 위한 ALS 방식 개요

ALS Recommenders 를 위한 하이퍼파라미터

MLlib Recommender를 구축

하이퍼파라미터 튜닝

Weighting

Module12. 실험 및 평가

효과적인 실험 설계

효과적인 실험 수행

Recommenders에 대한 사용자 인터페이스

Module13. Production Deployment and Beyond

생산을 위해 배포

확장 할 때의 작업 팁이나 기술

결과를 요약 및 시각화

개선을 위한 고려 사항

Recommenders을 위한 다음 단계

선수과정
- 숙련된 Python, Perl, Ruby 스크립트 언어 능력
교육 장소
한국글로벌널리지 교육센터

[찾아오시는 길]
서울특별시 강남구 역삼동 721-13 재송빌딩 3층 (폭스바겐 역삼전시장 3F)

[교육장 약도]