일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
- 애브비
- ADsP
- 빅데이터
- 서교공
- 미국 배당주
- 데이터분석
- 정보처리기사 데이터베이스
- 존슨앤존슨
- DPZ
- 자격증
- 매수
- 전자계산기 구조
- 도미노피자
- 준전문가
- at&t
- 서울교통공사
- ABBV
- 미국주식
- JNJ 주식
- 2019년
- 스플렁크
- 정보처리기사 필기
- 분석
- 분석기획
- 미국 주식
- It
- 매도
- 배당주
- 장기투자
- 알트리아
- Today
- Total
My Log
[ADsP #5] 데이터 분석 기획 1장 - 데이터 분석 기획의 이해 본문
* 시작하기에 앞서 본 게시물에 포함된 내용은 한국데이터산업진흥원에서 발행한 [데이터 분석 전문가 가이드, 2019년 2월 8일 개정]
에 근거한 것임을 밝힙니다.
1. 분석 기획 방향성 도출
1) 분석 기획이란?
- 실제 분석에 앞서 과제를 정의하고 의도했던대로 결과를 도출할 수 있도록 적절하게 관리할 수 있는 방안들을 사전에 계획하는
일련의 작업이다.
- 목표 달성을 위해 어떠한 데이터를 가지고 어떤 방식으로 수행할 지에 대한 일련의 계획을 수립하는 것으로 성공적인 분석에 중
요한 사전 작업이다.
2) 분석 기획의 분류
가. 분석의 대상 및 방법에 따른 분류
ㄱ. 최적화(Optimization)
→ 문제와 분석 방법을 알고 있는 경우
→ 개선을 통한 최적화의 형태로 분석 수행
ㄴ. 솔루션(Solution)
→ 문제는 알지만 방법을 모르는 경우
→ 분석 주제에 대한 솔루션을 찾아내는 방식
ㄷ. 통찰(Insight)
→ 분석의 대상을 명확하게 모르는 경우
→ 기존 분석 방식을 활용하여 새로운 통찰을 도출
ㄹ. 발견(Discovery)
→ 분석의 대상과 방법을 모르는 경우
→ 발견 접근법으로 분석의 대상 자체를 새롭게 도출
나. 목표 시점에 따른 분류
ㄱ. 과제 중심적
→ 당면한 과제를 빠르게 해결
→ 'Speed & Test' , 'Quick-Win' , 'Problem Solving'
ㄴ. 장기 마스터 플랜
→ 지속적 분석문화 내재화
→ 'Accuracy & Deploy' , 'Long Term View' , 'Problem Definition'
3) 분석 기획 시 고려사항
가. 데이터
→ 데이터의 확보 필요
→ 유형에 대한 분석 필요
˙데이터의 유형에 따라 적용 가능한 솔루션 및 분석 방법이 달라지기 때문이다.
나. 적절한 유스케이스
→ 활용 가능한 유스케이스의 탐색 필요
˙잘 구현되어서 활용되고 있는 유사 시나리오를 통해 사용자의 공감대를 얻고 원활한 분석 수행에 도움이 될 수 있다.
다. 장애요소에 대한 사전계획
→ 비용, 단순화, 실행환경, 성능 등 문제가 발생할 수 있는 부분에 대한 고려
2. 분석 방법론
1) KDD 분석 방법론
- Fayyad가 체계적으로 정리한 데이터 마이닝 프로세스
- 데이터의 패턴 탐색 과정(9개의 프로세스, 교재는 5단계로 축약)
가. 데이터셋 선택(Selection)
→ 선택에 앞서 비즈니스 도메인에 대한 이해와 프로젝트 목표를 명확히 설정
→ 목표 데이터를 구성하며, 이후 단계에서 데이터가 추가로 요구되는 경우 이 프로세스를 반복수행
나. 데이터 전처리(Preprocessing)
→ 데이터셋에 포함되어 있는 잡음과 이상값, 결측치를 식별
→ 필요시 데이터를 제거하거나 의미있는 데이터로 처리(정제)
다. 데이터 변환(Transformation)
→ 편성된 데이터셋 중 분석 목적에 맞는 변수를 선택하거나 차원을 축소시켜 변경
라. 데이터 마이닝(Data Mining)
→ 데이터 마이닝 기법 및 알고리즘을 선택하고 마이닝 작업을 시행
→ 필요에 따라 데이터 전처리, 데이터 변환 등의 프로세스를 병행
마. 데이터 마이닝 결과 평가(Interpretation/Evaluation)
→ 결과에 대한 해석과 평가, 분석 목적과의 일치성 확인
→ 업무에 활용하기 위한 방안 탐색
→ 필요에 따라 전체 프로세스 반복 수행
2) CRISP-DM 분석 방법론
- 유럽연합의 프로젝트에서 시작
- (계층적 프로세스 모델, 4개의 레벨로 구성)
가. 단계(Phase)
→ 일반화 태스크를 포함
나. 일반화 태스크(Generic Tasks)
→ 데이터 마이닝의 단일 프로세스를 수행하는 단위
(ex) 데이터 정제
다. 세분화 태스크(Specialized Tasks)
→ 일반화 태스크를 구체적으로 수행하는 레벨
(ex) 범주형 데이터 정제, 연속형 데이터 정제 등
라. 프로세스 실행(Process Instances)
→ 데이터 마이닝을 위한 구체적인 실행 포함
- (6단계의 프로세스로 구성)
가. 업무 이해(Business Understanding)
→ 비즈니스 관점에서 프로젝트의 목적과 요구사항 이해
→ 데이터 마이닝 목표를 설정하고 프로젝트 계획을 수립
나. 데이터 이해(Data Understanding)
→ 데이터를 수집하고 속성을 이해하기 위한 과정
→ 데이터 품질을 확인하고 숨겨진 인사이트를 발견
다. 데이터 준비(Data Preparation)
→ 수집된 데이터에서 분석기법에 적합한 데이터셋 편성
→ 많은 시간이 소요될 수 있음
라. 모델링(Modeling)
→ 모델링 기법과 알고리즘 선택
→ 테스트용 프로세스와 데이터셋으로 모델 평가
마. 평가(Evaluation)
→ 분석 결과에 대해 평가하고 결과를 수용할 것인지 판단
바. 전개(Deployment)
→ 모델링과 평가를 통해 완성된 모델을 실 업무에 적용하기 위한 계획 수립
→ 모니터링, 유지보수 계획 등 상세한 전개 계획 수립
→ 프로젝트 종료보고서 작성, 리뷰 등을 수행한 후 프로젝트 완료
3) 빅데이터 분석 방법론
- (3계층 모델)
가. 단계(Phase)
→ 최상위 계층으로 기준선으로 설정되어 관리되며, 버전관리 등을 통해 통제가 이루어짐
→ 완성된 단계별 산출물이 생성됨
나. 태스크(Task)
→ 단계를 구성하는 단위 활동
→ 물리적ㆍ논리적 단위의 품질검토 항목
다. 스텝(Step)
→ WBS의 워크패키지에 해당
→ 입ㆍ출력 자료, 처리 및 도구로 구성된 단위 프로세스
- (빅데이터 분석 프로세스)
가. 분석 기획(Planning)
ㄱ. 비즈니스 이해 및 범위 설정
˙업무 매뉴얼 및 업무 전문가의 도움으로 비즈니스에 대한 이해와 방향 설정
˙프로젝트 범위를 명확히 설정하고 프로젝트 범위 정의서(SOW) 작성
ㄴ. 프로젝트 정의 및 계획 수립
˙프로젝트 목표 수준을 구체화하여 프로젝트 정의서 작성
˙프로젝트 수행계획 작성
ㄷ. 프로젝트 위험계획 수립
˙발생가능한 위험을 식별하고 영향도, 빈도, 발생가능성에 따른 우선순위 설정
˙식별된 위험에 대한 대응 계획 수립 후 위험관리 계획서 작성
나. 데이터 준비(Preparing)
ㄱ. 필요 데이터 정의
˙분석에 필요한 데이터를 정의(데이터 정의서)
˙데이터를 수집하기 위한 구체적인 방안 수립(데이터 획득 계획서)
ㄴ. 데이터 스토어 설계
˙전사 차원의 데이터 스토어 설계
˙정형ㆍ비정형ㆍ반정형 데이터가 모두 저장될 수 있도록 설계
ㄷ. 데이터 수집 및 정합성 점검
˙크롤링, 시스템간 실시간 처리, 배치(Batch) 처리 등으로 데이터 수집
˙수집된 데이터의 품질을 점검하고 정합성 검증을 실시
다. 데이터 분석(Analyzing)
ㄱ. 분석용 데이터 준비
˙비즈니스에 대한 이해와 프로젝트 범위에 따른 데이터셋 편성
ㄴ. 텍스트 분석
˙비정형ㆍ반정형 텍스트 데이터의 어휘/구문, 감성, 토픽, 오피니언 등의 분석 실시
ㄷ. 탐색적 분석
˙기초 통계량을 산출하여 통계적 특성 이해
˙데이터 시각화를 통한 가독성 향상 및 데이터 분포 파악
ㄹ. 모델링
˙훈련용 데이터와 테스트용 데이터의 분할
˙훈련용 데이터를 활용한 모델링
˙운영시스템에 적용하기 위한 알고리즘 설명서 작성
ㅁ. 모델 평가 및 검증
˙프로젝트 정의서의 평가 기준에 따른 평가
˙분석에 사용되지 않은 별도의 데이터셋으로 모델의 객관성과 실무 적용성 검증
라. 시스템 구현(Developing)
ㄱ. 설계 및 구현
˙시스템을 분석하고 알고리즘 설명서에 근거하여 설계 및 구현
ㄴ. 시스템 테스트 및 운영
˙구축된 시스템의 검증을 위한 테스트 실시
˙시스템의 지속적 활용을 위한 운영계획 및 교육 실시
˙운영자 매뉴얼, 사용자 매뉴얼, 운영계획서 등 작성
마. 평가 및 전개(Deploying)
ㄱ. 모델 발전계획 수립
˙개발된 모델의 계속성을 위한 발전계획 수립
ㄴ. 프로젝트 평가 및 보고
˙프로젝트의 정량적, 정성적 성과 평가
˙진행과정의 산출물을 정리하고 최종 보고서 작성
3. 분석 과제 발굴
- 하향식 접근 방식과 상향식 접근 방식을 반복적으로 수행하며 상호 보완하는 것이 바람직하다.
- 과제 발굴 후 분석과제 정의서의 형태로 산출물을 생성하며, 향후 프로젝트 수행계획의 입력물로 사용한다.
1) 하향식 접근법(Top Down Approach)
- 문제가 주어지고 이에 대한 해법을 찾기 위하여 각 과정이 체계적으로 단계화되어 수행하는 방식
- 최근 복잡하고 다양한 환경에서 발생하는 새로운 문제의 탐색에 한계 존재
- 전통적 분석, 'Why' 강조, 지도학습(분류, 추측, 예측, 최적화)
- (과제 발굴 단계)
가. 문제 탐색(Problem Discovery)
ㄱ. 비즈니스 모델 기반 문제 탐색
→ 사업 모델을 도식화한 비즈니스 모델의 업무, 제품, 고객 단위로 문제 발굴
→ 규제와 감사, 지원 인프라 영역에 대한 기회를 추가로 도출
→ 거시적 관점에서 영향을 미치는 STEEP(사회(S), 기술(T), 경제(E), 환경(E), 정치(P)) 영역의 기회 탐색
ㄴ. 외부 참조 모델 기반 문제 탐색
→ 벤치마킹을 통해 "Quick & Easy" 방식으로 아이디어를 얻고 브레인스토밍을 통해 빠르게 탐색
→ 평상시 지속적인 조사, 정리를 통해 빠르고 의미있는 분석 기회 도출이 가능해짐
ㄷ. 분석 유즈 케이스 정의
→ 해결해야 할 문제에 대한 상세한 설명 및 해결 시 발생하는 효과를 명시
→ 향후 데이터 분석 문제로의 전환 및 적합성 평가에 활용
나. 문제 정의(Problem Definition)
ㄱ. 식별된 비즈니스 문제를 데이터 문제로 변환하여 정의
ㄴ. 필요한 데이터 및 기법을 정의
다. 해결방안 탐색(Solution Search)
ㄱ. 데이터, 시스템, 인력 등에 따라 소요되는 예산 및 활용 가능한 도구가 다르므로 다각도로 고려할 필요가 있음
라. 타당성 검토(Feasibility Study)
ㄱ. 경제적 타당성(비용 대비 편익)
→ 비용 : 데이터, 시스템, 인력, 유지보수 등의 분석비용
→ 편익 : 결과 적용에 따른 실질적 비용 절감, 매출 증대 등의 경제적 가치
ㄴ. 데이터 및 기술적 타당성
→ 데이터 존재 여부, 분석 시스템 환경, 분석 역량에 대한 타당성 고려
2) 상향식 접근법(Bottom Up Approach)
- 문제의 정의 자체가 어려운 경우 데이터를 기반으로 문제의 재정의 및 해결방안을 탐색하고 개선하는 방식
최근 기업 환경에서 상향식 접근 방식의 유용성이 점차 증가하고 있는 추세
경험적인 과거 데이터를 무작정 결합하여 정보 혹은 지식을 얻고자 하는 새로운 분석 패러다임
- 대상의 관점으로의 전환(감정이입), 'What' 강조
비지도학습에 의해 수행(결합, 연관성, 유사성, 장바구니 분석, 군집화, 기술 통계, 프로파일링)
- 시행착오를 통한 문제해결(프로토타이핑 접근 방식)
→ 완전하지 않지만 신속하게 해결책ㆍ모형을 제시, 이를 통해 문제 자체를 더욱 명확히 인식하고 필요한 데이터를
구체화하는 방식
→ 빅데이터 환경에서 프로토타이핑의 필요성
ㄱ. 문제에 대한 인식 수준
˙불명확하거나 새로운 문제의 경우 프로토타입을 통해 문제를 이해할 수 있다.
ㄴ. 필요 데이터 존재 여부의 불확실성
˙문제 해결을 위한 데이터가 존재하지 않을 경우 어떻게 할지 반복적이고 순환적인 협의 과정이 필요하다.
ㄷ. 데이터 사용 목적의 가변성
˙데이터는 정의의 재검토 등으로 사용목적과 범위가 지속적으로 변화할 수 있다.
4. 분석 프로젝트 관리방안
1) 분석 프로젝트의 주요 5가지 관리 영역
가. Data Size - 엄청난 데이터량에 따라 데이터의 양을 고려한 관리 방안 수립 필요
나. Data Complexity - 정형 데이터 뿐 아니라 비정형, 반정형 데이터에 대한 고려 필요
다. Speed - 실시간 사기(Fraud)탐지, 배치(Batch) 등 시나리오 측면의 속도를 고려
라. Analytic Complexity - 정확도와 복잡도의 트레이드오프 관계에서 기준점 정의가 필요
마. Accuracy & Precision
- Accuracy와 Precision의 트레이드오프 관계에 따른 고려가 필요
˙Accuracy : 모델과 실제 값 사이의 차이에 따른 정확도, 분석의 활용적 측면에서 중요
˙Precision : 모델의 지속적 반복에 따른 편차 수준, 안정성 측면에서 중요
2) 분석 프로젝트의 특성
- 분석 프로젝트에서 분석가는 조정자의 역할
→ 데이터 영역과 비즈니스 영역의 중간에서 조율, 조정자로서 분석가의 역할이 중요
- 도출된 결과의 재해석을 통한 지속적인 반복 및 정교화가 수행되는 경우가 대부분
→ 프로토타이핑 방식의 어자일(Agile) 프로젝트 관리방식에 대한 고려가 필요
3) 분석 프로젝트 관리방안
- 프로젝트 관리 지침을 기본 가이드로 활용(ISO 21500)
→ 통합, 이해관계자, 범위, 자원, 시간, 원가, 리스크, 품질, 조달, 의사소통의 10개 주제 그룹으로 구성
→ 각 관리 영역에서 분석 프로젝트의 특성에 따라 추가관리 요소를 파악하여 관리
'자격증 기록 > ADsP(데이터분석 준전문가)' 카테고리의 다른 글
[ADsP #7] 데이터 분석 1장 - R 기초와 데이터마트(1) (0) | 2019.08.11 |
---|---|
[ADsP #6] 데이터 분석 기획 2장 - 분석 마스터 플랜 (0) | 2019.08.05 |
[ADsP #4] 데이터이해 3장 - 가치 창조를 위한 데이터 사이언스와 전략 인사이트 (0) | 2019.08.03 |
[ADsP #3] 데이터이해 2장 - 데이터의 가치와 미래 (0) | 2019.08.03 |
[ADsP #2] 데이터이해 1장 - 데이터의 이해 (1) | 2019.08.02 |