일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- It
- ABBV
- DPZ
- 스플렁크
- 전자계산기 구조
- at&t
- 매도
- ADsP
- 데이터분석
- 미국주식
- 장기투자
- 분석
- 정보처리기사 필기
- 서교공
- 준전문가
- 미국 주식
- 매수
- 자격증
- 애브비
- JNJ 주식
- 존슨앤존슨
- 빅데이터
- 정보처리기사 데이터베이스
- 알트리아
- 서울교통공사
- 2019년
- 배당주
- 도미노피자
- 미국 배당주
- 분석기획
- Today
- Total
목록데이터분석 (11)
My Log
* 시작하기에 앞서 본 게시물에 포함된 내용은 한국데이터산업진흥원에서 발행한 [데이터 분석 전문가 가이드, 2019년 2월 8일 개정] 에 근거한 것임을 밝힙니다. 1. 군집 분석 - 군집 분석은 관측값들을 유사한 성격을 가지는 몇 개의 군집으로 집단화하고, 군집의 특성을 파악하여 군집사이의 관계를 분석하는 다변량분석 기법이다. 1) 계층적 군집 - 가장 유사한 개체를 묶어 나가는 과정을 반복하여 원하는 개수의 군집을 형성하는 방법 - 군집을 형성하는 매 단계에서 지역적 최적화를 수행해 나가는 방법(전역적인 최적해라고 볼 수 없음) - 계층적 군집의 결과는 덴드로그램의 형태로 표현 (* 덴드로그램을 통해 항목간의 거리, 군집간의 거리를 알 수 있고, 항목간 유사정도를 파악하여 견고성을 해석할 수 있다.)..
* 시작하기에 앞서 본 게시물에 포함된 내용은 한국데이터산업진흥원에서 발행한 [데이터 분석 전문가 가이드, 2019년 2월 8일 개정] 에 근거한 것임을 밝힙니다. 1. 다변량 분석 가. 상관분석 - 두 변수 간의 관계를 알아보기 위한 것 - 상관계수(r)를 이용 * 0 ≤ r ≤ 1 : x가 증가할 때 y도 증가 * -1 ≤ r ≤ 0 : x가 증가할 때 y는 감소 * r = 0 : x가 변화해도 y의 변화가 없음 - plot(x, y) 함수 : 두 변수의 산점도 확인, 대략적인 상관관계 파악 cor(x, y) 함수 : 두 변수의 상관계수를 구함 1) 피어슨의 상관계수 - 등간척도 측정 - 두 변수 간 선형관계의 크기를 측정 - rcorr( as.matrix(data), type="pearson" ) ..
* 시작하기에 앞서 본 게시물에 포함된 내용은 한국데이터산업진흥원에서 발행한 [데이터 분석 전문가 가이드, 2019년 2월 8일 개정]에 근거한 것임을 밝힙니다. 1. 통계학 개론 가. 통계학이란? - 자료로부터 유용한 정보를 이끌어 내는 학문 (자료의 수집, 정리, 해석하는 방법 등을 포함) - 일기예보, 경제통계, 사회조사 분석통계, 실험결과 분석통계 등 다양한 형태 나. 통계 분석이란? - 특정한 집단이나 불확실한 현상을 대상으로 자료를 수집 → 대상 집단에 대한 정보를 구함 → 적절한 통계 분석 방법을 이용한 의사결정(통계적 추론) 과정을 말함 - 통계적 추론에는 대상 집단의 특정값을 추측하는 추정 / 가설 설정 후 채택여부를 결정하는 가설검정 / 미래에 대한 예측이 있다. 다. 모집단 - 알고자..
* 시작하기에 앞서 본 게시물에 포함된 내용은 한국데이터산업진흥원에서 발행한 [데이터 분석 전문가 가이드, 2019년 2월 8일 개정] 에 근거한 것임을 밝힙니다. 1. 데이터 마트 가. 데이터 마트란? - 데이터의 한 부분으로서 특정 사용자가 관심을 갖는 데이터들을 담은 비교적 작은 규모의 데이터 웨어하우스 - 데이터 웨어하우스의 일부 데이터를 가지며 특정 사용자를 대상으로 한다. (사용자의 기능 및 제공 범위가 다름) 나. reshape - 기존 데이터 구조를 column-wise하게 전환 - 크게 melt와 cast단계로 구분 1) melt : id 값을 기준으로 하여 나머지 변수에 대한 데이터를 생성 > aqm = melt ( airquality , id = c ( "month" , "day" )..
* 시작하기에 앞서 본 게시물에 포함된 내용은 한국데이터산업진흥원에서 발행한 [데이터 분석 전문가 가이드, 2019년 2월 8일 개정] 에 근거한 것임을 밝힙니다. 1. 분석 환경의 이해 가. 통계 패키지 R - 통계 분석 과정에서 수행되는 복잡한 계산이나 시각화 기법을 쉽게 사용할 수 있도록 설계된 무료 소프트웨어 - 기본으로 제공되는 기능 외에도 사용자들이 직접 제작한 패키지를 이용하여 무수히 많은 기능들을 사용할 수 있도록 확장 가능 - 상용 소프트웨어나 출력물에 견주어 뒤쳐지지 않는 강력한 시각화 요소 - R의 선택 기준 SAS SPSS R 프로그램 비용 유료, 고가 유료, 고가 오픈소스 설치 용량 대용량 대용량 적음 다양한 모듈지원 및 비용 별도 구매 별도 구매 오픈소스 최근 알고리즘 및 기술 ..
* 시작하기에 앞서 본 게시물에 포함된 내용은 한국데이터산업진흥원에서 발행한 [데이터 분석 전문가 가이드, 2019년 2월 8일 개정] 에 근거한 것임을 밝힙니다. 1. 분석 기획 방향성 도출 1) 분석 기획이란? - 실제 분석에 앞서 과제를 정의하고 의도했던대로 결과를 도출할 수 있도록 적절하게 관리할 수 있는 방안들을 사전에 계획하는 일련의 작업이다. - 목표 달성을 위해 어떠한 데이터를 가지고 어떤 방식으로 수행할 지에 대한 일련의 계획을 수립하는 것으로 성공적인 분석에 중 요한 사전 작업이다. 2) 분석 기획의 분류 가. 분석의 대상 및 방법에 따른 분류 ㄱ. 최적화(Optimization) → 문제와 분석 방법을 알고 있는 경우 → 개선을 통한 최적화의 형태로 분석 수행 ㄴ. 솔루션(Soluti..
* 시작하기에 앞서 본 게시물에 포함된 내용은 한국데이터산업진흥원에서 발행한 [데이터 분석 전문가 가이드, 2019년 2월 8일 개정] 에 근거한 것임을 밝힙니다. 1. 빅데이터 분석과 전략 인사이트 1) 빅데이터 열풍과 회의론 - 몇 년 사이에 여기저기서 빅데이터가 성공의 보증수표처럼 떠올랐다. 하지만 '빨리 끓어 오른 냄비가 빨리 식는다'는 말처럼 일종의 거품현상을 우려하며 회의론이 심심찮게 흘러나온다. 아래 그림은 이러한 우려를 반영하듯 '빅데이터' 키워드 검색 건수가 급증하다 식어가는 모습을 볼 수 있다. - 더 큰 문제는 회의론을 극복하는 것이 쉽지 않을 수도 있다는 점이다. 우선 많은 기업들이 가지고 있는 '고객관계관리(CRM)'를 통해 경험한 부정정 학습효과 때문이다. 처음엔 도입만 하면 마..
* 시작하기에 앞서 본 게시물에 포함된 내용은 한국데이터산업진흥원에서 발행한 [데이터 분석 전문가 가이드, 2019년 2월 8일 개정] 에 근거한 것임을 밝힙니다. 1. 빅데이터의 정의 1) 빅데이터란? - 용량과 복잡성의 증가로 기존의 데이터 처리 애플리케이션이나 관리 툴로는 다루기 어려운 데이터세트의 집합 - 다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고 데이터의 초고속 수집ㆍ발굴ㆍ분석을 지원하도록 고안된 차세대 기술 및 아키텍처 - 기존의 작은 데이터 처리 분석으로는 얻을 수 없었던 통찰과 가치를 창출하는 새로운 방식 2) 빅데이터 정의의 범주 가. 데이터 변화(3V) → 규모(Volume) → 형태(Variety) → 속도(Velocity) 나. 기술 변화 → 새로운 데이터 처..