My Log

[ADsP #3] 데이터이해 2장 - 데이터의 가치와 미래 본문

자격증 기록/ADsP(데이터분석 준전문가)

[ADsP #3] 데이터이해 2장 - 데이터의 가치와 미래

My Log 2019. 8. 3. 09:00

* 시작하기에 앞서 본 게시물에 포함된 내용은 한국데이터산업진흥원에서 발행한 [데이터 분석 전문가 가이드, 2019년 2월 8일 개정]

   에 근거한 것임을 밝힙니다.

 

 

1. 빅데이터의 정의

 

     1) 빅데이터란?

          - 용량과 복잡성의 증가로 기존의 데이터 처리 애플리케이션이나 관리 툴로는 다루기 어려운 데이터세트의 집합

          - 다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고 데이터의 초고속 수집ㆍ발굴ㆍ분석을 지원하도록

            고안된 차세대 기술 및 아키텍처

          - 기존의 작은 데이터 처리 분석으로는 얻을 수 없었던 통찰과 가치를 창출하는 새로운 방식

 

     2) 빅데이터 정의의 범주

          가. 데이터 변화(3V)

               → 규모(Volume)

               → 형태(Variety)

               → 속도(Velocity)

 

          나. 기술 변화

               → 새로운 데이터 처리, 저장, 분석 기술 및 아키텍처

               → 클라우드 컴퓨팅 활용

 

          다. 인재, 조직 변화

               → Data Scientist 같은 새로운 인재 필요

               → 데이터 중심 조직으로의 변화

 

 

2. 빅데이터의 출현 배경

 

     1) 산업계의 환경 변화

          - 양질 전환 법칙

               → 기업들이 보유한 데이터가 '거대한 가치 창출이 가능할 만큼 충분한 규모'에 도달

 

     2) 학계의 환경 변화

          - 빅데이터를 다루는 학문 분야의 증가

               → 빅데이터 분야에 필요한 기술 아키텍처 및 통계 도구들의 지속적 발전

 

     3) 관련 기술의 발전

          - 디지털화의 급진전, 저장 기술의 발전과 가격 하락

               → 무어의 법칙보다 빠르게 반감하고 있는 데이터 저장비용

          - 클라우드 컴퓨팅 보편화 등

               → 클라우드 분산 병렬처리 컴퓨팅은 대용량 데이터 처리 비용을 맵리듀스(MapReduce)와 같은 혁신적 방식을 통해

                    획기적으로 줄임

 

 

3. 빅데이터의 기능

 

     1) 산업혁명의 석탄, 철

          - 석탄과 철이 산업혁명에서 했던 역할을 차세대 산업혁명에서 해낼 것으로 기대

          - 제조업뿐 아니라 서비스 분야의 생산성을 획기적으로 끌어올려 생활 전반에 혁명적 변화를 가져올 것으로 기대

 

     2) 21세기의 원유

          - 에너지원으로서 내연기관의 원료로서 각종 동력을 제공하는 원유처럼 빅데이터도 경제 성장에 필요한 '정보'를

            제공함으로써 생산성을 향상시키고, 새로운 범주의 산업을 만들어낼 것으로 전망

 

     3) 렌즈

          - 현미경이 생물학 발전에 영향을 미치며 인류에 크게 공헌한 것처럼 산업 전반에 영향을 미칠 것으로 기대

          - 구글의 'Ngram Viewer' 사례

               → 미국을 의미하는 'The United States'가 남북전쟁 전까지 주의 연합이라는 복수형태에서, 남북전쟁 이후

                    하나의 나라라는 연방국가 개념 강화에 의해 단수형태가 되는 문법적 변화 과정을 보여주었다.

 

     4) 플랫폼

          - OS외에도 페이스북과 같이 다양한 사업자들이 공동으로 사용하는 플랫폼을 빅데이터 형태로 제공할 것으로 예상

          - 각종 사용자 데이터와 센서 데이터를 수집하고 API를 공개하면 서드파티 사업자들이 활용하는 플랫폼 역할을 기대

 

 

4. 빅데이터에 의한 변화

 

     1) 사전 처리에서 사후 처리 시대로

          - 사전 처리 방식은 산업혁명 시대에 정보 관리 시스템의 능력을 넘어서는 정보량을 다루기 위해 발전해 온 방식

          - 필요한 정보만 수집하고 필요하지 않는 정보를 버림으로써 당시 시스템으로 달성할 수 있는 효율성을 만들어 냄

               → ex) 표준화한 문서 포맷 : 사전에 정한 포맷에 의해 원하는 정보만 수집, 특수한 상황에 따른 세세한 정보수집을 포기

 

          - 빅데이터 시대에는 이미 가치가 있을 것이라고 정해진 특정한 정보만 모아서 처리하는 것이 아니라, 가능한 한 많은 데이터를

            모으고 그 데이터를 다양한 방식으로 조합해 숨은 정보를 찾아낸다. (사후 처리 방식)

 

     2) 표본조사에서 전수조사로

          - 기존에는 데이터 수집 비용, 대용량 데이터 처리 도구, 비용 등이 모두 걸림돌로 작용하여 표본조사에 의존

          - 표본조사는 기본적으로 분석하고자 하는 바를 정하고, 그에 필요한 정보를 수집하는 것으로 질문이 바뀌면 그에 맞는 데이터를

            다시 수집해야 한다. 따라서 데이터 활용성 측면에서 융통성이 매우 떨어진다.

 

          - 빅데이터 시대에는 폭발적인 데이터 수와 클라우드 컴퓨팅의 발전에 따른 비용감소 등에 의해 전수조사의 걸림돌이 제거됨

          - 전수조사는 모든 데이터를 모아 두면 질문이 바뀌더라도 다양한 방식으로 데이터를 재가공할 수 있어 융통성을 유지할 수 있다.

          - 또한, 표본조사(샘플링)가 주지 못하는 패턴이나 정보를 제공해 주는 장점이 있다.

 

     3) 질보다 양으로

          - 데이터가 지속적으로 추가될 때, 양질의 정보가 오류 정보보다 많기에 전체적으로 좋은 결과 산출에 긍정적인 영향을 미친다는

            추론에 바탕하여 빅데이터의 가치를 기대한다.

          - 데이터 수가 증가함에 따라 사소한 몇 개의 오류데이터가 '대세에 영향을 주지 못하는' 경향이 늘어난다.

 

     4) 인과관계에서 상관관계로

          - 이론에 기초한 인과관계로 특정 현상이 일어나는 이유와 과정을 설명하는 기존의 방식과 달리 구글의 '특정 단어의 검색 빈도

            증감을 통한 독감 확산 경로 예측'이나 아비바의 'TV시청 습관에 의한 고혈압 발병 예측'처럼 이유를 몰라도 상관관계 분석만

            으로 충분한 경우가 많다.

 

          - 변인들간의 인과관계를 많이 알수록 현상에 대한 이해의 폭과 깊이가 깊어지기 때문에 인과관계가 완전히 불필요한 것은 아니

            지만, 신속한 의사결정이 필요한 비즈니스에서는 상관관계 분석에서 도출된 인사이트를 바탕으로 수익을 창출할 수 있는 기회

            가 늘어나고 있다.

 

 

5. 빅데이터의 가치

 

     - 빅데이터 시대에서는 특정 데이터의 가치를 측정하는 것이 쉽지 않다. 그 이유는 아래와 같다.

 

     1) 데이터 활용 방식

          - 재사용, 재조합, 다목적용 데이터 개발 등이 일반화되며 특정 데이터를 언제ㆍ어디서ㆍ누가 활용할지 알 수 없다.

          - 데이터의 창의적 조합은 기존에 풀 수 없는 문제를 해결하는데 도움을 준다.

          - 다용도 목적으로 생산되는 데이터로 인해 가치 측정이 어렵다.

               → ex) CCTV : 절도범을 구별해낼 뿐만 아니라, 고객의 구매 정보도 동시에 얻을 수 있는 장소에 설치

 

     2) 새로운 가치 창출

          - 데이터가 '기존에 없던 가치'를 창출함에 따라 그 가치를 측정하기 어렵다.

          - 새로운 유형의 데이터가 어떠한 영향을 미칠지 예측하고 평가하기 힘들다.

 

     3) 분석 기술 발전

          - 인터넷 댓글 등 예전에는 분석 비용이 높아 분석할 수 없던 데이터를 저렴한 비용에 분석하면서 점점 그 활용도가 증가한다.

          - 지금은 가치 없는 데이터도 새로운 분석 기법의 등장으로 거대한 가치를 만들어내는 재료가 될 가능성이 있다.

 

     4) 진입 장벽의 역할

          - 데이터는 기존 사업자에게 경쟁 우위를 제공한다.

          - 데이터의 양에 의해 잠재적 경쟁자에게 진입장벽과 같은 역할을 하며 이러한 가치는 측정되기 힘들다.

 

 

6. 빅데이터의 영향

 

     1) 기업

          - 혁신 : 소비자의 행동 분석, 시장 예측 등을 통해 비즈니스 모델을 혁신하고 신산업 발굴

          - 경쟁력 제고 : 원가절감, 제품 차별화, 투명성 제고 등에 활용하여 강한 경쟁력 확보

           -생산성 향상 : 기업의 운용 효율성 향상으로 산업 및 국가 전체의 생산성 향상

 

     2) 정부

          - 환경 탐색 : 기상, 인구이동, 통계 등을 수집해 사회 변화를 추정하고 재해 정보를 추출

          - 상황 분석 : 수집된 데이터를 분석하여 의제 도출

          - 미래 대응 : 도출된 의제에 대한 법제도, 미래 성장 전략, 국가 안보 등의 대응 방안 획득

 

     3) 개인

          - 아직까지 대부분 빅데이터 활용 대상의 위치

          - 경제적 여력이 있는 일부 정치인이나 대중 가수 등의 빅데이터 활용 사례 증가

 

 

 

 

7. 빅데이터 활용 사례

 

     1) 기업

          - 구글

               → 사용자의 로그 데이터를 활용하여 기존의 페이지랭크(PageRank) 알고리즘 혁신

          - 월마트

               → 고객의 구매 패턴을 분석하여 상품 진열에 활용(허리케인 발생 시 구매패턴을 보고 손전등과 비상음식을 함께 진열)

          - 병원

               → 질병의 예후 진단 및 처방에 빅데이터를 이용, IBM의 왓슨과 같은 인공지능도 활용하기 시작

 

     2) 정부

          - 환경 탐색

               → 실시간 교통정보 수집, 기후 정보, 각종 지질 활동, 소방 서비스를 위한 모니터링 등

          - 상황 분석

               → 소셜 미디어, CCTV, 통화기록, 문자 통화 내역 등의 모니터링과 분석 결과를 국가안전 확보 활동에 활용

          - 미래 대응

               → 의료와 교육 개선을 위한 빅데이터 활용

 

     3) 개인

          - 정치인

               → 사회관계망 분석을 통해 유세 지역 선정, 유권자에게 영향을 줄 수 있는 선거 홍보 내용 선정

          - 가수

               → 팬들의 음악 청취 기록을 분석하여 공연의 노래 선곡

 

 

8. 빅데이터 활용 기본 테크닉

 

     1) 연관 규칙 학습

          - 어떤 변인들 간에 주목할 만한 상관관계가 있는지 찾아내는 방법

          - '커피를 구매하는 사람이 탄산음료를 더 많이 사는가?'

 

     2) 유형 분석

          - 기존 자료를 바탕으로 조직을 분류하고 새로운 사건이 속하게 될 범주를 찾아내는 것

          - '이 사용자는 어떤 특성을 가진 집단에 속하는가?'

 

     3) 유전 알고리즘

          - 최적화가 필요한 문제의 해결책을 자연선택, 돌연변이 등과 같은 메커니즘을 통해 점진적으로 진화시켜 나가는 방법 

          - '최대의 시청률을 얻으려면 어떤 프로그램을 어떤 시간대에 방송해야 하는가?'

          - '응급실에서 의사를 어떻게 배치하는 것이 가장 효율적인가?'

          - '연료 효율적인 차를 개발하기 위해 어떻게 원자재와 엔지니어링을 결합해야 하는가?'

 

     4) 기계 학습

          - 데이터를 통해 학습할 수 있는 소프트웨어를 포함하며, 학습한 특성을 활용해 '예측'하는 일에 초점을 맞춘다.

          - '기존의 시청 기록을 바탕으로 시청자가 현재 보유한 영화 중 어떤 것을 가장 보고 싶어할까?'

 

     5) 회귀 분석

          - 독립변수를 조작하여 종속변수가 어떻게 변하는지를 보고 변인의 관계를 파악한다.

          - '구매자의 나이가 구매 차량의 타입에 어떤 영향을 미치는가?'

          - '사용자의 만족도가 충성도에 어떤 영향을 미치는가?'

          - '이웃들과 그 규모가 집값에 어떤 영향을 미치는가?'

 

     6) 감정 분석

          - 특정 주제에 대해 말하거나 글을 쓴 사람의 감정을 분석한다.

          - 의견을 바탕으로 고객이 원하는 것을 찾아낼 때 이 기법이 활용된다.

          - '새로운 환불 정책에 대한 고객의 평가는 어떤가?'

 

     7) 소셜 네트워크 분석

          - 오피니언 리더, 즉 영향력 있는 사람을 찾아낼 수 있으며, 고객들 간 소셜 관계를 파악할 수 있다.

          - '특정인과 다른 사람이 몇 촌 정도의 관계인가?'

 

 

9. 빅데이터 시대의 위기 요인과 통제 방안

 

     1) 위기 요인

          가. 사생활 침해

               → 혁신 기술이 출현할 때마다 논란이 됐던 사항이었으나, 빅데이터 시대에는 어느 때보다 우려가 부각되고 있다.

               → 구글이 2010년에 이용자가 1시간 뒤에 어떤 일을 할지 87% 정확도로 예측한 것처럼 빅브라더가 사람들의 일상생활

                    전반을 감시할 수 있는 기술적 기반이 구축될 가능성이 있다.

               → 이러한 우려에 익명화 기술이 발전하고 있으나 아직 충분하지 않다.

               → 공개된 익명화 데이터에서 뉴욕타임즈는 특정 ID를 가진 사람과 거주지를 알아내었고, 넷플릭스는 영화 평과 결과로

                    익명화된 사람을 밝히기도 하였다.

 

          나. 책임 원칙 훼손

               → 빅데이터에 의한 예측 기술이 발전하면서 분석 대상이 되는 사람들은 예측 알고리즘의 희생양이 될 수 있다.

               → 지금까지는 행동한 결과에 대해 책임을 묻는 '결과 기반의 책임 원칙'이었으나, 잠재적 위협에 의해 책임을 묻게 될 가능성

                    이 있다.

               → 특정인이 빅데이터의 분석 결과에 따라 특정한 행위를 할 가능성이 높다는 이유만으로 처벌되거나, 회사의 직원 해고,

                    의사의 환자 수술 거절과 같은 상황이 발생한다면 행위 결과 기반 책임추궁 원칙이 훼손될 수 있다.

 

          다. 데이터 오용

               → 주어진 데이터에서 잘못된 인사이트를 얻어 비즈니스에 적용할 경우 직접적인 손실을 불러올 수 있다.

               → 데이터를 과신하고 의존하는 것은 적지 않은 정확도를 가질 수 있지만 항상 맞을 수는 없다.

 

 

     2) 통제 방안

          가. 동의에서 책임으로

               → 사용자 정보는 수집된 후 한 번 사용하고 폐기되는 것이 아니라 2차ㆍ3차적 목적으로 가공ㆍ유통ㆍ활용된다.

               → 따라서 개인정보 활용에 매번 동의하는 것은 비효율적이며, 가능하지 않은 상황이 발생할 수밖에 없다.

               → 사생활침해 문제를 '개인정보 제공자의 동의'를 통해 해결하기보다 '개인정보 사용자의 책임'으로 해결하고자 하는 것

 

          나. 결과 기반 책임 원칙 고수

               → 기존의 책임 원칙을 좀 더 보강하고 강화

               → 특정인을 '성향'에 따라 처벌하는 것이 아니라 '행동 결과'를 보고 처벌

 

          다. 알고리즘 접근 허용

               → 피해자들의 알고리즘 공개 요구를 위해 알고리즘 접근권 보장의 목소리가 높아지는 추세

               → 접근권뿐 아니라 객관적 인증방안을 도입하자는 의견도 제시

 

 

10. 미래의 빅데이터

 

     1) 데이터

          - 사물인터넷, 웨어러블 단말, CCTV, 자동차 등 모든 것의 데이터화

               → GSMA 보고서

                    M2M 디바이스 수 : 20억 개(2011) -> 120억 개(2020)

                    관련 매출 : 1,450억 달러(2011) -> 9,500억 달러(2020)

          - 데이터에 의해 많은 기업들이 핵심 비즈니스 모델을 제조업에서 서비스업으로 전환

 

     2) 기술

          - 빅데이터 분석 알고리즘의 빠른 진화 속도

               → 데이터 양의 증가에 따라 알고리즘 정확도가 증가하는 일반적 경향

          - 인공지능의 발달

               → 기존의 데이터 분석법으로 처리가 불가능할 만큼 거대한 규모의 빅데이터 처리에 필수 불가결한 기술로 부상

 

     3) 인력

          - 데이터 사이언티스트와 알고리즈미스트의 역할이 중요할 것으로 전망

               → 데이터 사이언티스트 : 빅데이터에 대한 지식과 분석 기술을 바탕으로 인사이트를 도출하고, 조직의 전략 방향 제시에

                                                             활용할 줄 아는 기획자

               → 알고리즈미스트 : 비즈니스 전반에 대한 이해와 알고리즘 해석 능력을 통해 알고리즘에 의해 부당하게 피해를 입은 사람

                                                    들을 구제하는 전문직 종사자

Comments