6 분 소요

ADsP 최종 정리

Part 1

1. 데이터 유형

  1. 정성적 데이터 : 언어, 매출
  2. 정량적 데이터 : 수치, 도형, 기호

2. 지식경영의 핵심 이슈

  1. 암묵지 : 내면화 -> 공통화
  2. 형식지 : 표출화 -> 연결화
    상호작용 : 공통화 -> 표출화 -> 연결화 -> 내면화

3. DIKW의 정의
데이터 < 정보 < 지식 < 지혜

4. 기업내부 데이터베이스

  1. 1980년대
  • OLTP : 호스트 컴퓨터가 데이터베이스 액세스, 바로 처리
  • OLAP : 다양한 비스니스 관점, 의사 결정 정보
  1. 2000년대
  • CRM : 고객관계관리
  • SCM : 공급망 관리

5. 빅데이터 출현 배경

  1. 산업계 : 고객 데이터 축적
  2. 학계 : 거대 데이터 활용, 과학 확산
  3. 기술발전 : 관련기술의 발달
    빅데이터 = 산업혁명의 석탄, 철 = 21세기의 원유 = 렌즈 = 플랫폼
    사전처리 -> 사후처리, 표본조사 -> 전수조사, 질 -> 양, 인과관계 -> 상관관계

6. 빅데이터 활용 기본 테크닉

  1. 연관규칙학습 : 상관관계
  2. 유형분석 : 분류, 조직을 그룹으로 나눌때
  3. 유전자 알고리즘 : 최적화, 점진적으로 진화
  4. 기계학습 : 훈련 데이터로 예측
  5. 회귀분석 : 독립변수 조작 종속변수와 관계 파악
  6. 감정분석 : 감정
  7. 소셜네트워크분석 : 촌수, 영향력있는 사람

7. 위기요인 & 통제방안

  1. 사생활 침해 -> 동의에서 책임으로
  2. 책임 원칙 훼손 -> 결과 기반 책임 원칙 고수
  3. 데이터 오용 -> 알고리즘 접근 허용

8. 빅데이터 기본 3요소
데이터 + 기술 + 인력

9. 데이터 사이언스 구성요소

  1. IT영역 : 프로그래밍, 데이터 엔지니어링, 데이터 웨어하우스, 고성능 컴퓨팅
  2. 분석적 영역 : 수학, 확률모델, 머신러닝, 모델링
  3. 비즈니스 영역 : 커뮤니케이션, 스토리텔링, 시각화

10. 데이터베이스 종류

  1. 관계형 DBMS
  2. 객체지향 DBMS
  3. 네트워크 DBMS
  4. 계층형 DBMS

11. 빅데이터 분석 기술

  1. 하둡
  2. Apache Spark
  3. Smart Factory
  4. Machine Learning & Deep Learning

12. 데이터 유형

  1. 정형데이터 : 관계형 데이터베이스, 스프레드시트, CSV
  2. 반정형데이터 : XML, HTML, JSON
  3. 비정형데이터 : 소셜데이터, 영상, 이미지, 음성, 텍스트

Part 2

1. 분석 주제 4가지
대상o, 방법o : Optimization
대상o, 방법x : Solution
대상x, 방법o : Insight
대상x, 방법x : Discovery

2. 방법론
암묵지 -형식화-> 형식지 -체계화-> 방법론 -내재화-> 암묵지

3. 방법론 모델

  1. 폭포수 모델 : 순차적
  2. 프로토타입 모델 : 점진적, 일부분 우선 개발, 개선작업
  3. 나선형 모델 : 점증적, 반복, 복잡도 상승

4. KDD 분석 절차

  1. 데이터셋 선택
  2. 데이터 전처리
  3. 데이터 변환
  4. 데이터 마이닝
  5. 데이터 마이닝 결과 평가

5. CRISP-DM 분석 방법론

  1. 업무 이해
  2. 데이터 이해
  3. 데이터 준비
  4. 모델링
  5. 평가
  6. 전개

6. 빅데이터 분석 방법론

  1. 분석 기획 : 비즈니스 이해 -> 프로젝트 범위 설정 -> 정의 -> 계획 및 수립 -> 데이터 분석 위험 식별 -> 위험 대응 계획 수립
  2. 데이터 준비 : 데이터 정의 -> 획득방안 수립 -> 정형 데이터 스토어 설계 -> 비정형 데이터 스토어 설계 -> 데이터 수집 및 저장 -> 정합성 점검
  3. 데이터 분석 : 비즈니스 룰 -> 데이터셋 준비 -> 텍스트 데이터 확인, 추출, 분석 -> 탐색적 데이터 분석 -> 데이터 시각화 -> 분할 -> 모델링 -> 적용, 평가, 검증
  4. 시스템 구현 : 시스템 분석 및 설계 -> 구현 -> 테스트 -> 운영 계획
  5. 평가 및 전개 : 모델 발전 계획 -> 성과 평가 -> 종료

7. 하향식 접근법

1. 문제 탐색

  • 비즈니스 모델 기반 문제 탐색 : 업무 + 제품 + 고객 + 규제&감사 + 지원 인프라
  • 분석 기회 발굴의 범위 확장 : 거시적 관점의 메가트랜드 (사회, 기술, 경제, 환경, 정치), 경쟁자 확대 관점 (대체제, 경쟁자, 신규 진입자), 시장의 니즈 탐색 관점 (고객, 채널, 영향자), 역량의 재해석 관점 (내부 역량, 파트너와 네트워크)
  • 외부참조 모델기반 문제탐색
  • 분석 유즈 케이스

2. 문제 정의

  • 비즈니스 문제 -> 분석 문제

3. 해결방안 탐색

  • 기존 정보시스템의 단순한 보완으로 분석이 가능한지
  • 엑셀 등의 간단한 도구로 분석이 가능한지
  • 하둡 등 분산병렬처리를 활용한 빅데이터 분석 도구를 통해 보다 체계적이고 심도있는 방안 고려

4. 타당성 검토

  • 경제적 타당성
  • 데이터 및 기술적 타당성

8. 상향식 접근법
Empathize -> Define -> Ideate -> Prototype -> Test

9. 일반적인 IT 프로젝트 우선순위 평가 방식

  1. 전략적 중요도
  • 전략적 필요성
  • 시급성
  1. 실행 용이성
  • 투자용이성
  • 기술 용이성

10. ROI 관점에서 빅데이터 핵심 특징

  1. 투자비용 요소 : 크기 + 다양성 + 속도
  2. 비즈니스 효과 요소 : 가치

11. 데이터 거버넌스
모든 데이터의 표준화된 관리 체계 수립, 프레임워크 및 저장소 구축
구성 3요소 : 원칙 + 조직 + 프로세스
체계 : 데이터 표준화, 데이터 관리 체계, 데이터 저장소 관리, 표준화 활동

12. 분석 과제 관리 프로세스
분석 Idea 발굴 -> 분석과제 후보제안 -> 분석과제 확정 -> 팀구성 -> 분석과제 실행 -> 분석과제 진행관리 -> 결과 공유/개선

Part 3

4-1. 표본 추출 방법

  1. 단순랜덤 추출법 : 난수
  2. 계통추출법 : k개씩
  3. 집락추출법 : 군집
  4. 층화추출법 : 각 계층 골고루

4-2. 측정방법

  1. 명목척도 : 집단 ex)성별
  2. 순서척도 : 서열관계 ex)선호도
  3. 구간척도 : 간격이 의미 있음 ex)온도
  4. 비율척도 : 간격에 대한 비율, 절대적 기준 0, 사칙연산 ex) 무게, 나이

4-3. 확률분포

1. 이산형 확률변수

  • 베르누이 확률분포
  • 이항분포
  • 기하분포
  • 다항분포
  • 포아송분포

2. 연속형 확률변수

  • 균일분포
  • 정규분포
  • 지수분포
  • t-분포
  • x^2-분포
  • F-분포

4-4. 추정

  1. 점추정 : 모수가 특정한 값일 것
  2. 구간 추정 : 모수가 특정 구간에 있을 것

4-5. 가설검정

  1. 귀무가설
  2. 대립가설
  3. 검정통계량
  4. 유의수준
  5. 기각역

4-6. 오류
1종 오류 : 귀무가설O, 기각
2종 오류 : 귀무가설X, 채택

4-7. 상관분석

  1. 피어슨
    등간척도 이상, 연속형, 피어슨 감마
  2. 스피어만
    서열척도, 순서형, 비모수적, 순위상관계수 로우
    p-value <= 0.05 이면 대립가설 채택, 유의미함

4-8. 회귀분석

  1. 선형성
  2. 등분산성 : 분산 일정 (잔차의 분산이 줄어들면 이분산)
  3. 독립성
  4. 비상관성
  5. 정상성 : 오차의 분포가 정규분포

4-9. 최적회귀방석

  1. 설명변수 선택
  2. 모형선택
  3. 단계적 변수선택
  • 전진선택법 : 중요한 설명변수부터 추가
  • 후진제거법 : 적은 영향 변수부터 제거
  • 단계선택법 : 단계별로 추가, 제거 반복

4-10. 시계열 분석

  1. 비정상성 시계열 자료
  2. 정상성 시계열 자료
  • 차분 -> 평균 일정
  • 변환 -> 분산 일정

4-11. 주성분 분석
서로 상관성이 높은 변수들의 선형 결합
누적기여율이 85%이상이면 주성분의 수로 결정


5-1. 데이터 마이닝

1. 지도학습

  • 의사결정나무
  • 인공신경망
  • 일반화 선형 모형
  • 회귀분석
  • 로지스틱 회귀분석
  • 사례기반 추론
  • 최근접 이웃법

2. 비지도 학습

  • OLAP
  • 연광성 규칙발견
  • 군집분석
  • SOM

5-2. 분석 목적에 따른 작업 유형과 기법

1. 예측

  • 분류 규칙 : 과거 데이터로 분류모형 만듦 (회귀분석, 판별분석, 신경망, 의사결정나무)

2. 설명

  • 연관 규칙 : 항목간의 종속관계 (동시발생 매트릭스)
  • 연속 규칙 : 연과 규칙 + 시간 정보 (동시발생 매트릭스)
  • 데이터 군집화 : 소그룹으로 분할 (k-Means)

5-3. 데이터마이닝 단계
목적 설정 -> 데이터 준비 -> 가공 -> 기법 적용 -> 검증


5-4. 데이터 분할 방법
홀드아웃 방법 : 랜덤
교차확인 방법 : k개 하부집단


5-5. 오분류의 추정치

  1. 정분류율 : (긍긍 + 부부)/(전체)
  2. 오분류율 : (긍부 + 부긍)/(전체)
  3. 특이도 : (부부)/(결과부정)
  4. 민감도 : (긍긍)/(결과긍정)
  5. 정확도 : (긍긍)/(예측긍정)
  6. 재현율 = 민감도
  7. F1 Score : 2 x (정확도X민감도)/(정확도+민감도)

5-6. ROC 곡선
2진 분류에서 성능 평가할때 사용
AUROC값이 크면 성능 좋음


5-7. 분류 분석

1. 로지스틱 회귀분석

  • 오즈비 : 성공 확률 / 실패 확률
  • 모형 검정 : 카이제곱 검정
  • glm(종속변수 ~ 독립변수1 + –, family=binomial, data=데이터셋명)

2. 의사결정나무

  • 성장 -> 가지치기 -> 타당성 평가 -> 해석 및 예측
  1. 베이지안 분류
  2. 인공신경망
  3. 지지도벡터기계
  4. k 최근접 이웃
  5. 규칙기반의 분류와 사례기반추론

5-8. 앙상블 분석
여러 개 예측모형 조합, 다중 모델 조합

  1. 배깅
    여러개의 붓스트랩 자료에 예측 모형 만든 후 결합

  2. 부스팅

  3. 랜덤 포레스트
    약한 학습기들을 생성한 후 이를 선형 결합하여 최종 학습기를 만드는 방법


5-9. 인공신경망 분석

  • 연속형 변수 : 로그변환 or 범주화
  • 범주형 변수 : 가변수화(0,1)
  • 은닉층은 가능하면 하나로 설정
  • 은닉노드 수는 큰 값, 가중치 감소

5-10. 군집 분석

1. 연속형 변수 거리

  • 유클라디안 : 루트 제곱
  • 표준화 : 표준편차에 유클라디안, 왜곡
  • 마할라노비스 : 벡터사이거리/표본공분산
  • 체비셰프 : max 차이값
  • 맨하탄 : 차이 합
  • 캔버라 : 합(차/합)
  • 민코우스키 : 맨하탄 + 유클라디안

2. 범주형 변수 거리

  • 자카드 거리 : 1 - J(A,B)
  • 자카드 계수 : J(A,B)
  • 코사인 거리 : 1-내적
  • 코사인 유사도 : 내적

3. 계층적 군집분석

  • 최단연결법
  • 최장연결법
  • 평균연결법
  • 와드연결법
  • 군집화

4. 비계층적 군집분석

  • K-평균 군집분석 : seed중심 군집 -> 분류 -> 다시 계산 -> 반복
  • SOM : 입력층 + 경쟁층

5-11. 연관 분석
연관규칙분석
지지도 : P(A교B)
신뢰도 : P(A교B)/P(A)
향상도 : P(A교B)/P(A)xP(B)

카테고리:

업데이트:

댓글남기기