My Log

[ADsP #5] 데이터 분석 기획 1장 - 데이터 분석 기획의 이해 본문

자격증 기록/ADsP(데이터분석 준전문가)

[ADsP #5] 데이터 분석 기획 1장 - 데이터 분석 기획의 이해

My Log 2019. 8. 4. 23:25

* 시작하기에 앞서 본 게시물에 포함된 내용은 한국데이터산업진흥원에서 발행한 [데이터 분석 전문가 가이드, 2019년 2월 8일 개정]

   에 근거한 것임을 밝힙니다.

 

 

1. 분석 기획 방향성 도출

     1) 분석 기획이란?

          - 실제 분석에 앞서 과제를 정의하고 의도했던대로 결과를 도출할 수 있도록 적절하게 관리할 수 있는 방안들을 사전에 계획하는

            일련의 작업이다.

          - 목표 달성을 위해 어떠한 데이터를 가지고 어떤 방식으로 수행할 지에 대한 일련의 계획을 수립하는 것으로 성공적인 분석에 중

            요한 사전 작업이다.

 

 

     2) 분석 기획의 분류

          가. 분석의 대상 및 방법에 따른 분류

               ㄱ. 최적화(Optimization)

                      → 문제와 분석 방법을 알고 있는 경우

                      → 개선을 통한 최적화의 형태로 분석 수행

 

               ㄴ. 솔루션(Solution)

                      → 문제는 알지만 방법을 모르는 경우

                      → 분석 주제에 대한 솔루션을 찾아내는 방식

 

               ㄷ. 통찰(Insight)

                      → 분석의 대상을 명확하게 모르는 경우

                      → 기존 분석 방식을 활용하여 새로운 통찰을 도출

 

               ㄹ. 발견(Discovery)

                      → 분석의 대상과 방법을 모르는 경우

                      → 발견 접근법으로 분석의 대상 자체를 새롭게 도출

 

 

 

          나. 목표 시점에 따른 분류

               ㄱ. 과제 중심적

                      → 당면한 과제를 빠르게 해결

                      → 'Speed & Test' , 'Quick-Win' , 'Problem Solving'

 

               ㄴ. 장기 마스터 플랜

                      → 지속적 분석문화 내재화

                      → 'Accuracy & Deploy' , 'Long Term View' , 'Problem Definition'

 

 

     3) 분석 기획 시 고려사항

          가. 데이터

               → 데이터의 확보 필요

               → 유형에 대한 분석 필요

                    ˙데이터의 유형에 따라 적용 가능한 솔루션 및 분석 방법이 달라지기 때문이다.

 

          나. 적절한 유스케이스

               → 활용 가능한 유스케이스의 탐색 필요

                    ˙잘 구현되어서 활용되고 있는 유사 시나리오를 통해 사용자의 공감대를 얻고 원활한 분석 수행에 도움이 될 수 있다.

 

          다. 장애요소에 대한 사전계획

               → 비용, 단순화, 실행환경, 성능 등 문제가 발생할 수 있는 부분에 대한 고려

 

 

2. 분석 방법론

     1) KDD 분석 방법론

          - Fayyad가 체계적으로 정리한 데이터 마이닝 프로세스

 

          - 데이터의 패턴 탐색 과정(9개의 프로세스, 교재는 5단계로 축약)

               가. 데이터셋 선택(Selection)

                      → 선택에 앞서 비즈니스 도메인에 대한 이해와 프로젝트 목표를 명확히 설정

                      → 목표 데이터를 구성하며, 이후 단계에서 데이터가 추가로 요구되는 경우 이 프로세스를 반복수행

 

               나. 데이터 전처리(Preprocessing)

                      → 데이터셋에 포함되어 있는 잡음과 이상값, 결측치를 식별

                      → 필요시 데이터를 제거하거나 의미있는 데이터로 처리(정제)

 

               다. 데이터 변환(Transformation)

                      → 편성된 데이터셋 중 분석 목적에 맞는 변수를 선택하거나 차원을 축소시켜 변경

 

               라. 데이터 마이닝(Data Mining)

                      → 데이터 마이닝 기법 및 알고리즘을 선택하고 마이닝 작업을 시행

                      → 필요에 따라 데이터 전처리, 데이터 변환 등의 프로세스를 병행

 

               마. 데이터 마이닝 결과 평가(Interpretation/Evaluation)

                      → 결과에 대한 해석과 평가, 분석 목적과의 일치성 확인

                      → 업무에 활용하기 위한 방안 탐색

                      → 필요에 따라 전체 프로세스 반복 수행

 

 

     2) CRISP-DM 분석 방법론

          - 유럽연합의 프로젝트에서 시작

 

          - (계층적 프로세스 모델, 4개의 레벨로 구성)

               가. 단계(Phase)

                      → 일반화 태스크를 포함

 

               나. 일반화 태스크(Generic Tasks)

                      → 데이터 마이닝의 단일 프로세스를 수행하는 단위

                           (ex) 데이터 정제

 

               다. 세분화 태스크(Specialized Tasks)

                      → 일반화 태스크를 구체적으로 수행하는 레벨

                           (ex) 범주형 데이터 정제, 연속형 데이터 정제 등

 

               라. 프로세스 실행(Process Instances)

                      → 데이터 마이닝을 위한 구체적인 실행 포함

 

 

 

          - (6단계의 프로세스로 구성)

               가. 업무 이해(Business Understanding)

                      → 비즈니스 관점에서 프로젝트의 목적과 요구사항 이해

                      → 데이터 마이닝 목표를 설정하고 프로젝트 계획을 수립

 

               나. 데이터 이해(Data Understanding)

                      → 데이터를 수집하고 속성을 이해하기 위한 과정

                      → 데이터 품질을 확인하고 숨겨진 인사이트를 발견

 

               다. 데이터 준비(Data Preparation)

                      → 수집된 데이터에서 분석기법에 적합한 데이터셋 편성

                      → 많은 시간이 소요될 수 있음

 

               라. 모델링(Modeling)

                      → 모델링 기법과 알고리즘 선택

                      → 테스트용 프로세스와 데이터셋으로 모델 평가

 

               마. 평가(Evaluation)

                      → 분석 결과에 대해 평가하고 결과를 수용할 것인지 판단

 

               바. 전개(Deployment)

                      → 모델링과 평가를 통해 완성된 모델을 실 업무에 적용하기 위한 계획 수립

                      → 모니터링, 유지보수 계획 등 상세한 전개 계획 수립

                      → 프로젝트 종료보고서 작성, 리뷰 등을 수행한 후 프로젝트 완료

 

<단계 간 피드백을 통한 완성도 향상>

 

 

     3) 빅데이터 분석 방법론

          - (3계층 모델)

               가. 단계(Phase)

                      → 최상위 계층으로 기준선으로 설정되어 관리되며, 버전관리 등을 통해 통제가 이루어짐

                      → 완성된 단계별 산출물이 생성됨

 

               나. 태스크(Task)

                      → 단계를 구성하는 단위 활동

                      → 물리적ㆍ논리적 단위의 품질검토 항목

 

               다. 스텝(Step)

                      → WBS의 워크패키지에 해당

                      → 입ㆍ출력 자료, 처리 및 도구로 구성된 단위 프로세스

 

 

          - (빅데이터 분석 프로세스)

               가. 분석 기획(Planning)

                      ㄱ. 비즈니스 이해 및 범위 설정

                            ˙업무 매뉴얼 및 업무 전문가의 도움으로 비즈니스에 대한 이해와 방향 설정

                            ˙프로젝트 범위를 명확히 설정하고 프로젝트 범위 정의서(SOW) 작성

 

                      ㄴ. 프로젝트 정의 및 계획 수립

                            ˙프로젝트 목표 수준을 구체화하여 프로젝트 정의서 작성

                            ˙프로젝트 수행계획 작성

 

                      ㄷ. 프로젝트 위험계획 수립

                            ˙발생가능한 위험을 식별하고 영향도, 빈도, 발생가능성에 따른 우선순위 설정

                            ˙식별된 위험에 대한 대응 계획 수립 후 위험관리 계획서 작성

 

               나. 데이터 준비(Preparing)

                      ㄱ. 필요 데이터 정의

                            ˙분석에 필요한 데이터를 정의(데이터 정의서)

                            ˙데이터를 수집하기 위한 구체적인 방안 수립(데이터 획득 계획서)

 

                      ㄴ. 데이터 스토어 설계

                            ˙전사 차원의 데이터 스토어 설계

                            ˙정형ㆍ비정형ㆍ반정형 데이터가 모두 저장될 수 있도록 설계

 

                      ㄷ. 데이터 수집 및 정합성 점검

                            ˙크롤링, 시스템간 실시간 처리, 배치(Batch) 처리 등으로 데이터 수집

                            ˙수집된 데이터의 품질을 점검하고 정합성 검증을 실시 

 

               다. 데이터 분석(Analyzing)

                      ㄱ. 분석용 데이터 준비

                            ˙비즈니스에 대한 이해와 프로젝트 범위에 따른 데이터셋 편성

 

                      ㄴ. 텍스트 분석

                            ˙비정형ㆍ반정형 텍스트 데이터의 어휘/구문, 감성, 토픽, 오피니언 등의 분석 실시

 

                      ㄷ. 탐색적 분석

                            ˙기초 통계량을 산출하여 통계적 특성 이해

                            ˙데이터 시각화를 통한 가독성 향상 및 데이터 분포 파악

 

                      ㄹ. 모델링

                            ˙훈련용 데이터와 테스트용 데이터의 분할

                            ˙훈련용 데이터를 활용한 모델링

                            ˙운영시스템에 적용하기 위한 알고리즘 설명서 작성

 

                      ㅁ. 모델 평가 및 검증

                            ˙프로젝트 정의서의 평가 기준에 따른 평가

                            ˙분석에 사용되지 않은 별도의 데이터셋으로 모델의 객관성과 실무 적용성 검증

 

               라. 시스템 구현(Developing)

                      ㄱ. 설계 및 구현

                            ˙시스템을 분석하고 알고리즘 설명서에 근거하여 설계 및 구현

 

                      ㄴ. 시스템 테스트 및 운영

                            ˙구축된 시스템의 검증을 위한 테스트 실시

                            ˙시스템의 지속적 활용을 위한 운영계획 및 교육 실시

                            ˙운영자 매뉴얼, 사용자 매뉴얼, 운영계획서 등 작성

 

               마. 평가 및 전개(Deploying)

                      ㄱ. 모델 발전계획 수립

                            ˙개발된 모델의 계속성을 위한 발전계획 수립

 

                      ㄴ. 프로젝트 평가 및 보고

                            ˙프로젝트의 정량적, 정성적 성과 평가

                            ˙진행과정의 산출물을 정리하고 최종 보고서 작성

 

 

 

 

3. 분석 과제 발굴

     - 하향식 접근 방식과 상향식 접근 방식을 반복적으로 수행하며 상호 보완하는 것이 바람직하다.

     - 과제 발굴 후 분석과제 정의서의 형태로 산출물을 생성하며, 향후 프로젝트 수행계획의 입력물로 사용한다.

 

 

     1) 하향식 접근법(Top Down Approach)

          - 문제가 주어지고 이에 대한 해법을 찾기 위하여 각 과정이 체계적으로 단계화되어 수행하는 방식

          - 최근 복잡하고 다양한 환경에서 발생하는 새로운 문제의 탐색에 한계 존재

          - 전통적 분석, 'Why' 강조, 지도학습(분류, 추측, 예측, 최적화)

 

          - (과제 발굴 단계)

          가. 문제 탐색(Problem Discovery)

               ㄱ. 비즈니스 모델 기반 문제 탐색

                      → 사업 모델을 도식화한 비즈니스 모델의 업무, 제품, 고객 단위로 문제 발굴

                      → 규제와 감사, 지원 인프라 영역에 대한 기회를 추가로 도출

                      → 거시적 관점에서 영향을 미치는 STEEP(사회(S), 기술(T), 경제(E), 환경(E), 정치(P)) 영역의 기회 탐색

 

               ㄴ. 외부 참조 모델 기반 문제 탐색

                      → 벤치마킹을 통해 "Quick & Easy" 방식으로 아이디어를 얻고 브레인스토밍을 통해 빠르게 탐색

                      → 평상시 지속적인 조사, 정리를 통해 빠르고 의미있는 분석 기회 도출이 가능해짐

 

               ㄷ. 분석 유즈 케이스 정의

                      → 해결해야 할 문제에 대한 상세한 설명 및 해결 시 발생하는 효과를 명시

                      → 향후 데이터 분석 문제로의 전환 및 적합성 평가에 활용

 

          나. 문제 정의(Problem Definition)

               ㄱ. 식별된 비즈니스 문제를 데이터 문제로 변환하여 정의

               ㄴ. 필요한 데이터 및 기법을 정의

 

          다. 해결방안 탐색(Solution Search)

               ㄱ. 데이터, 시스템, 인력 등에 따라 소요되는 예산 및 활용 가능한 도구가 다르므로 다각도로 고려할 필요가 있음

 

 

          라. 타당성 검토(Feasibility Study)

               ㄱ. 경제적 타당성(비용 대비 편익)

                      → 비용 : 데이터, 시스템, 인력, 유지보수 등의 분석비용

                      → 편익 : 결과 적용에 따른 실질적 비용 절감, 매출 증대 등의 경제적 가치

 

               ㄴ. 데이터 및 기술적 타당성

                      → 데이터 존재 여부, 분석 시스템 환경, 분석 역량에 대한 타당성 고려

 

 

     2) 상향식 접근법(Bottom Up Approach)

          - 문제의 정의 자체가 어려운 경우 데이터를 기반으로 문제의 재정의 및 해결방안을 탐색하고 개선하는 방식

            최근 기업 환경에서 상향식 접근 방식의 유용성이 점차 증가하고 있는 추세

            경험적인 과거 데이터를 무작정 결합하여 정보 혹은 지식을 얻고자 하는 새로운 분석 패러다임

 

          - 대상의 관점으로의 전환(감정이입), 'What' 강조

            비지도학습에 의해 수행(결합, 연관성, 유사성, 장바구니 분석, 군집화, 기술 통계, 프로파일링)

 

          - 시행착오를 통한 문제해결(프로토타이핑 접근 방식)

               → 완전하지 않지만 신속하게 해결책ㆍ모형을 제시, 이를 통해 문제 자체를 더욱 명확히 인식하고 필요한 데이터를

                    구체화하는 방식

 

               → 빅데이터 환경에서 프로토타이핑의 필요성

                    ㄱ. 문제에 대한 인식 수준

                         ˙불명확하거나 새로운 문제의 경우 프로토타입을 통해 문제를 이해할 수 있다.

 

                    ㄴ. 필요 데이터 존재 여부의 불확실성

                         ˙문제 해결을 위한 데이터가 존재하지 않을 경우 어떻게 할지 반복적이고 순환적인 협의 과정이 필요하다.

 

                    ㄷ. 데이터 사용 목적의 가변성

                         ˙데이터는 정의의 재검토 등으로 사용목적과 범위가 지속적으로 변화할 수 있다.

 

 

4. 분석 프로젝트 관리방안

     1) 분석 프로젝트의 주요 5가지 관리 영역

          가. Data Size - 엄청난 데이터량에 따라 데이터의 양을 고려한 관리 방안 수립 필요

          나. Data Complexity - 정형 데이터 뿐 아니라 비정형, 반정형 데이터에 대한 고려 필요

          다. Speed - 실시간 사기(Fraud)탐지, 배치(Batch) 등 시나리오 측면의 속도를 고려

          라. Analytic Complexity - 정확도와 복잡도의 트레이드오프 관계에서 기준점 정의가 필요

          마. Accuracy & Precision

               - Accuracy와 Precision의 트레이드오프 관계에 따른 고려가 필요

                 ˙Accuracy : 모델과 실제 값 사이의 차이에 따른 정확도, 분석의 활용적 측면에서 중요

                 ˙Precision : 모델의 지속적 반복에 따른 편차 수준, 안정성 측면에서 중요

 

 

     2) 분석 프로젝트의 특성

          - 분석 프로젝트에서 분석가는 조정자의 역할

               → 데이터 영역과 비즈니스 영역의 중간에서 조율, 조정자로서 분석가의 역할이 중요

 

          - 도출된 결과의 재해석을 통한 지속적인 반복 및 정교화가 수행되는 경우가 대부분

               → 프로토타이핑 방식의 어자일(Agile) 프로젝트 관리방식에 대한 고려가 필요

 

 

     3) 분석 프로젝트 관리방안

          - 프로젝트 관리 지침을 기본 가이드로 활용(ISO 21500)

               → 통합, 이해관계자, 범위, 자원, 시간, 원가, 리스크, 품질, 조달, 의사소통의 10개 주제 그룹으로 구성

               → 각 관리 영역에서 분석 프로젝트의 특성에 따라 추가관리 요소를 파악하여 관리

 

 

 

Comments