My Log

[ADsP #2] 데이터이해 1장 - 데이터의 이해 본문

자격증 기록/ADsP(데이터분석 준전문가)

[ADsP #2] 데이터이해 1장 - 데이터의 이해

My Log 2019. 8. 2. 23:09

* 시작하기에 앞서 본 게시물에 포함된 내용은 한국데이터산업진흥원에서 발행한 [데이터 분석 전문가 가이드, 2019년 2월 8일 개정]

   에 근거한 것임을 밝힙니다.

 

 

1. 데이터의 정의

 

     1) 용어의 역사

          - 1646년 영국 문헌에 처음 등장(라틴어인 dare(주다)의 과거분사형)

          - 1940년대 이후 컴퓨터와 사회과학의 진일보에 따라 관념적ㆍ추상적 개념에서 기술적ㆍ사실적 개념으로 변화

 

     2) 데이터란?

          - 객관적 사실이라는 존재적 특성

          - 추론ㆍ예측전망추정을 위한 근거의 당위적 특성

 

     3) 데이터 유형

구분 형태 분석 용이도
정성적 데이터(qualitative data, 비정형데이터) 언어, 문자 등 용이 주관식 응답, 블로그 글 등
정량적 데이터(quantitative data) 수치, 도형, 기호 등 기술, 비용이 많이 소모 온도, 풍속, 강우량 등

 

     4) 암묵지와 형식지

          가. 암묵지

               → 개인에게 습득되어 있지만 겉으로 드러나지 않는 지식 (ex : 김장김치 담그기, 자전거 타기 등)

               → 시행착오와 오랜 경험을 통해 개인에게 습득된 무형의 지식

 

          나. 형식지

               → 교과서, 매뉴얼과 같이 형상화된 지식

               → 유형의 대상을 통해 지식의 전달과 공유가 용이

 

          - 조직차원에서 조직원 개인의 지식을 공유하고 발전시키는 데에 있어 암묵지와 형식지의 상호작용이 중요하다.

               → 개인에게 '내면화'된 지식을 조직에 '공통화'시키기 위해

               → 언어나 기호, 숫자로 '표출'하고, 다른 개인은 표출된 지식을 자신의 지식과 '연결'하여 내면화하는 과정을 반복한다.

암묵지 형식지
공통화(Socialization) 표출화(Externalization)
내면화(Internalization) 연결화(Combination)

 

 

2. 데이터와 정보의 관계

 

     1) 지식의 피라미드(DIKW 피라미드)

          가. 데이터(Data)

               → 개별 데이터 자체로는 의미가 중요하지 않은 객관적 사실

 

          나. 정보(Information)

               → 데이터의 가공ㆍ처리와 데이터간 연관관계 속에 의미가 도출된 것

               → 유용하지 않은 것도 포함

 

          다. 지식(Knowledge)

               → 다양한 정보를 구조화하여 유의미한 정보 분류

               → 유의미한 정보에 개인적인 경험을 결합시켜 내재화한 것

 

          라. 지혜(Wisdom)

               → 지식의 축적과 아이디어가 결합된 창의적 산물

 

 

3. 데이터베이스 정의

 

     1) 용어의 역사

          - 1950년대 미국 정부의 군비 상황을 관리하기 위해 구현한 것을 '데이터(Data)의 기지(Base)'라는 뜻으로 하여 탄생

          - 1963년 미국의 한 심포지엄에서 데이터베이스라는 용어가 공식 사용

          - 1963년 GE에서 최초의 현대적 의미의 데이터베이스 관리시스템인 IDS를 개발

 

     2) 데이터베이스란?

          - 문자ㆍ기호음성화상영상 등 상호 관련된 다수의 콘텐츠를 정보 처리 및 정보통신 기기에 의하여 체계적으로

            수집ㆍ축적하여 다양한 용도와 방법으로 이용할 수 있도록 정리한 정보의 집합체

          - 법률적으로 데이터베이스는 기술을 기반으로 한 일종의 저작물로 인정됨

 

 

4. 데이터베이스 특징

 

     1) 일반적 특징

          - 통합된 데이터

          - 저장된 데이터

          - 공용 데이터

          - 계속적인 변화

 

     2) 정보의 축적 및 전달 측면의 특성

          - 기계 가독성

          - 검색 가능성

          - 원격조작성

 

     3) 정보 이용 측면의 특성

          - 정보 요구에 따라 신속하게 획득하고, 원하는 정보를 정확하고 경제적으로 찾아내는 특성

 

     4) 정보 관리 측면의 특성

          - 일정한 질서와 구조에 따라 저장ㆍ검색ㆍ관리하여 방대한 양을 체계적으로 축적하고 정보의 추가나 갱신이 용이

 

     5) 정보기술 발전 측면의 특성

          - 정보처리와 관련된 소프트웨어ㆍ하드웨어, 정보전송을 위한 네트워크 기술 등의 발전을 견인

 

     6) 경제ㆍ산업적 측면의 특성

          - 다양한 정보를 신속하게 제공ㆍ이용할 수 있도록 하는 인프라의 특성

          - 경제, 산업, 사회 활동의 효율성 제고 및 국민 편의 증진

 

 

 

 

 

5. 데이터베이스 활용

 

     1) 기업내부 데이터베이스(인하우스 DB)

          - 1990년대

               → 기업 경영 전반에 관한 모든 자료를 연계하여 구축, 운영하는 전사 시스템으로 확대

               → 단순한 정보의 '수집'과 단순 자동화에 치우친 OLTP(Online Transaction Processing) 시스템

 

          - 1990년대 중반이후

               → 데이터 마이닝 등의 기술 등장과 함께 '분석'이 중심이 되는 OLAP(Online Analytical Processing) 시스템으로 변화

 

          - 2000년대

               → CRM(고객 관계 관리), SCM(공급망 관리)로 DB구축의 화두가 옮겨감

                    * CRM(Consumer Relationship Management) : 고객별 구매이력을 분석하여 각종 마케팅 전략을 펼치는 것

                    * SCM(Supply Chain Management) : 공급업체 또는 제휴업체와 정보시스템을 연계하여 시간ㆍ비용을 최적화하는 것

 

          가. 제조

                 - 데이터베이스 기술이 가장 중요한 분야

                 - 부품 테이블이나 재고관리 등의 활용에서 전 공정을 포함하는 범위로 확대

                 - 기업별 고유 시스템에서 솔루션 유형으로 변화

                 - 최근에는 ERP, DW, CRM, BI 등 진보된 기술을 적용한 DB 구축이 주류를 이룸

 

          나. 금융

                 - IMF 이후 업무 프로세스 효율화나 e비즈니스 활성화, 금융권 통합 시스템 구축 등이 크게 확산

                 - 고객 정보의 전략적 활용에 집중하였으며, 인터넷뱅킹 정착과 방카슈랑스 도입에 따라 선도적인 정보화 레퍼런스로 부상

 

          다. 유통

                 - 백화점, 할인점, 홈쇼핑 등으로 유통부문이 다양해지면서 CRMㆍSCM 구축이 이루어짐

                 - 균형성과관리(BSC), 핵심성과지표(KPI), 웹 리포팅 등 다양한 고객 분석 툴을 데이터베이스와 연계

                 - RFID의 등장으로 대용량 데이터베이스를 지원하는 플랫폼이 요구되는 상황

 

 

     2) 사회기반시설 데이터베이스

          - 1990년대

               → 정부부처 중심으로 사회간접자본(SOC) 차원에서 전자문서교환(EDI, Electronic Data Interchange) 활용이 본격화

               → 부가가치통신망(VAN)을 통한 정보망 구축

               → 구축된 데이터베이스는 공공DB로서 활용될 뿐만 아니라 관련 산업의 인프라로서 유용하게 활용

 

          - 1990년대 후반

               → 문서교환 등에 국한되었던 것에서 벗어나 기반 시설인 지리, 교통부문의 데이터베이스 구축이 본격화

 

          - 2000년대

               → 기존 DB의 고도화와 함께 의료ㆍ교육ㆍ행정 등 사회 각 부문으로 데이터베이스 구축 및 이용이 확대

 

          가. 물류

                 - '실시간 차량추적'을 위한 종합물류정보망 구축

                 - CVO 서비스, EDI 서비스, 물류정보 DB 서비스, 부가서비스 등으로 구성

 

          나. 지리

                 - GIS 응용에 활용하는 4S 통합기술, LBS, SIM, 공간 DBMS 및 웹 GIS 실현

                 - 지리정보통합관리소 운영, 지리정보유통망 가시화

 

          다. 교통

                 - 지능형교통시스템(ITS), 교통정보, 교통분야별 기초자료 및 통계, 대민 서비스 확대

 

          라. 의료

                 - 의료정보시스템 구축(처방전달시스템, 전자의무기록, 원격의료, 지식정보화 등으로 구성)

                 - 국제 의료정보 전송 표준 HL7의 국내 표준화 작업

                 - u헬스(ubiquitous-Health) 등장

 

          마. 교육

                 - ICT를 활용한 각종 교육정보의 개발 및 보급

                 - 대학정보화 및 교육행정정보화 위주의 사업 추진

Comments