[ADsP]최종 정리
ADsP 최종 정리
Part 1
1. 데이터 유형
- 정성적 데이터 : 언어, 매출
- 정량적 데이터 : 수치, 도형, 기호
2. 지식경영의 핵심 이슈
- 암묵지 : 내면화 -> 공통화
- 형식지 : 표출화 -> 연결화
상호작용 : 공통화 -> 표출화 -> 연결화 -> 내면화
3. DIKW의 정의
데이터 < 정보 < 지식 < 지혜
4. 기업내부 데이터베이스
- 1980년대
- OLTP : 호스트 컴퓨터가 데이터베이스 액세스, 바로 처리
- OLAP : 다양한 비스니스 관점, 의사 결정 정보
- 2000년대
- CRM : 고객관계관리
- SCM : 공급망 관리
5. 빅데이터 출현 배경
- 산업계 : 고객 데이터 축적
- 학계 : 거대 데이터 활용, 과학 확산
- 기술발전 : 관련기술의 발달
빅데이터 = 산업혁명의 석탄, 철 = 21세기의 원유 = 렌즈 = 플랫폼
사전처리 -> 사후처리, 표본조사 -> 전수조사, 질 -> 양, 인과관계 -> 상관관계
6. 빅데이터 활용 기본 테크닉
- 연관규칙학습 : 상관관계
- 유형분석 : 분류, 조직을 그룹으로 나눌때
- 유전자 알고리즘 : 최적화, 점진적으로 진화
- 기계학습 : 훈련 데이터로 예측
- 회귀분석 : 독립변수 조작 종속변수와 관계 파악
- 감정분석 : 감정
- 소셜네트워크분석 : 촌수, 영향력있는 사람
7. 위기요인 & 통제방안
- 사생활 침해 -> 동의에서 책임으로
- 책임 원칙 훼손 -> 결과 기반 책임 원칙 고수
- 데이터 오용 -> 알고리즘 접근 허용
8. 빅데이터 기본 3요소
데이터 + 기술 + 인력
9. 데이터 사이언스 구성요소
- IT영역 : 프로그래밍, 데이터 엔지니어링, 데이터 웨어하우스, 고성능 컴퓨팅
- 분석적 영역 : 수학, 확률모델, 머신러닝, 모델링
- 비즈니스 영역 : 커뮤니케이션, 스토리텔링, 시각화
10. 데이터베이스 종류
- 관계형 DBMS
- 객체지향 DBMS
- 네트워크 DBMS
- 계층형 DBMS
11. 빅데이터 분석 기술
- 하둡
- Apache Spark
- Smart Factory
- Machine Learning & Deep Learning
12. 데이터 유형
- 정형데이터 : 관계형 데이터베이스, 스프레드시트, CSV
- 반정형데이터 : XML, HTML, JSON
- 비정형데이터 : 소셜데이터, 영상, 이미지, 음성, 텍스트
Part 2
1. 분석 주제 4가지
대상o, 방법o : Optimization
대상o, 방법x : Solution
대상x, 방법o : Insight
대상x, 방법x : Discovery
2. 방법론
암묵지 -형식화-> 형식지 -체계화-> 방법론 -내재화-> 암묵지
3. 방법론 모델
- 폭포수 모델 : 순차적
- 프로토타입 모델 : 점진적, 일부분 우선 개발, 개선작업
- 나선형 모델 : 점증적, 반복, 복잡도 상승
4. KDD 분석 절차
- 데이터셋 선택
- 데이터 전처리
- 데이터 변환
- 데이터 마이닝
- 데이터 마이닝 결과 평가
5. CRISP-DM 분석 방법론
- 업무 이해
- 데이터 이해
- 데이터 준비
- 모델링
- 평가
- 전개
6. 빅데이터 분석 방법론
- 분석 기획 : 비즈니스 이해 -> 프로젝트 범위 설정 -> 정의 -> 계획 및 수립 -> 데이터 분석 위험 식별 -> 위험 대응 계획 수립
- 데이터 준비 : 데이터 정의 -> 획득방안 수립 -> 정형 데이터 스토어 설계 -> 비정형 데이터 스토어 설계 -> 데이터 수집 및 저장 -> 정합성 점검
- 데이터 분석 : 비즈니스 룰 -> 데이터셋 준비 -> 텍스트 데이터 확인, 추출, 분석 -> 탐색적 데이터 분석 -> 데이터 시각화 -> 분할 -> 모델링 -> 적용, 평가, 검증
- 시스템 구현 : 시스템 분석 및 설계 -> 구현 -> 테스트 -> 운영 계획
- 평가 및 전개 : 모델 발전 계획 -> 성과 평가 -> 종료
7. 하향식 접근법
1. 문제 탐색
- 비즈니스 모델 기반 문제 탐색 : 업무 + 제품 + 고객 + 규제&감사 + 지원 인프라
- 분석 기회 발굴의 범위 확장 : 거시적 관점의 메가트랜드 (사회, 기술, 경제, 환경, 정치), 경쟁자 확대 관점 (대체제, 경쟁자, 신규 진입자), 시장의 니즈 탐색 관점 (고객, 채널, 영향자), 역량의 재해석 관점 (내부 역량, 파트너와 네트워크)
- 외부참조 모델기반 문제탐색
- 분석 유즈 케이스
2. 문제 정의
- 비즈니스 문제 -> 분석 문제
3. 해결방안 탐색
- 기존 정보시스템의 단순한 보완으로 분석이 가능한지
- 엑셀 등의 간단한 도구로 분석이 가능한지
- 하둡 등 분산병렬처리를 활용한 빅데이터 분석 도구를 통해 보다 체계적이고 심도있는 방안 고려
4. 타당성 검토
- 경제적 타당성
- 데이터 및 기술적 타당성
8. 상향식 접근법
Empathize -> Define -> Ideate -> Prototype -> Test
9. 일반적인 IT 프로젝트 우선순위 평가 방식
- 전략적 중요도
- 전략적 필요성
- 시급성
- 실행 용이성
- 투자용이성
- 기술 용이성
10. ROI 관점에서 빅데이터 핵심 특징
- 투자비용 요소 : 크기 + 다양성 + 속도
- 비즈니스 효과 요소 : 가치
11. 데이터 거버넌스
모든 데이터의 표준화된 관리 체계 수립, 프레임워크 및 저장소 구축
구성 3요소 : 원칙 + 조직 + 프로세스
체계 : 데이터 표준화, 데이터 관리 체계, 데이터 저장소 관리, 표준화 활동
12. 분석 과제 관리 프로세스
분석 Idea 발굴 -> 분석과제 후보제안 -> 분석과제 확정 -> 팀구성 -> 분석과제 실행 -> 분석과제 진행관리 -> 결과 공유/개선
Part 3
4-1. 표본 추출 방법
- 단순랜덤 추출법 : 난수
- 계통추출법 : k개씩
- 집락추출법 : 군집
- 층화추출법 : 각 계층 골고루
4-2. 측정방법
- 명목척도 : 집단 ex)성별
- 순서척도 : 서열관계 ex)선호도
- 구간척도 : 간격이 의미 있음 ex)온도
- 비율척도 : 간격에 대한 비율, 절대적 기준 0, 사칙연산 ex) 무게, 나이
4-3. 확률분포
1. 이산형 확률변수
- 베르누이 확률분포
- 이항분포
- 기하분포
- 다항분포
- 포아송분포
2. 연속형 확률변수
- 균일분포
- 정규분포
- 지수분포
- t-분포
- x^2-분포
- F-분포
4-4. 추정
- 점추정 : 모수가 특정한 값일 것
- 구간 추정 : 모수가 특정 구간에 있을 것
4-5. 가설검정
- 귀무가설
- 대립가설
- 검정통계량
- 유의수준
- 기각역
4-6. 오류
1종 오류 : 귀무가설O, 기각
2종 오류 : 귀무가설X, 채택
4-7. 상관분석
- 피어슨
등간척도 이상, 연속형, 피어슨 감마 - 스피어만
서열척도, 순서형, 비모수적, 순위상관계수 로우
p-value <= 0.05 이면 대립가설 채택, 유의미함
4-8. 회귀분석
- 선형성
- 등분산성 : 분산 일정 (잔차의 분산이 줄어들면 이분산)
- 독립성
- 비상관성
- 정상성 : 오차의 분포가 정규분포
4-9. 최적회귀방석
- 설명변수 선택
- 모형선택
- 단계적 변수선택
- 전진선택법 : 중요한 설명변수부터 추가
- 후진제거법 : 적은 영향 변수부터 제거
- 단계선택법 : 단계별로 추가, 제거 반복
4-10. 시계열 분석
- 비정상성 시계열 자료
- 정상성 시계열 자료
- 차분 -> 평균 일정
- 변환 -> 분산 일정
4-11. 주성분 분석
서로 상관성이 높은 변수들의 선형 결합
누적기여율이 85%이상이면 주성분의 수로 결정
5-1. 데이터 마이닝
1. 지도학습
- 의사결정나무
- 인공신경망
- 일반화 선형 모형
- 회귀분석
- 로지스틱 회귀분석
- 사례기반 추론
- 최근접 이웃법
2. 비지도 학습
- OLAP
- 연광성 규칙발견
- 군집분석
- SOM
5-2. 분석 목적에 따른 작업 유형과 기법
1. 예측
- 분류 규칙 : 과거 데이터로 분류모형 만듦 (회귀분석, 판별분석, 신경망, 의사결정나무)
2. 설명
- 연관 규칙 : 항목간의 종속관계 (동시발생 매트릭스)
- 연속 규칙 : 연과 규칙 + 시간 정보 (동시발생 매트릭스)
- 데이터 군집화 : 소그룹으로 분할 (k-Means)
5-3. 데이터마이닝 단계
목적 설정 -> 데이터 준비 -> 가공 -> 기법 적용 -> 검증
5-4. 데이터 분할 방법
홀드아웃 방법 : 랜덤
교차확인 방법 : k개 하부집단
5-5. 오분류의 추정치
- 정분류율 : (긍긍 + 부부)/(전체)
- 오분류율 : (긍부 + 부긍)/(전체)
- 특이도 : (부부)/(결과부정)
- 민감도 : (긍긍)/(결과긍정)
- 정확도 : (긍긍)/(예측긍정)
- 재현율 = 민감도
- F1 Score : 2 x (정확도X민감도)/(정확도+민감도)
5-6. ROC 곡선
2진 분류에서 성능 평가할때 사용
AUROC값이 크면 성능 좋음
5-7. 분류 분석
1. 로지스틱 회귀분석
- 오즈비 : 성공 확률 / 실패 확률
- 모형 검정 : 카이제곱 검정
- glm(종속변수 ~ 독립변수1 + –, family=binomial, data=데이터셋명)
2. 의사결정나무
- 성장 -> 가지치기 -> 타당성 평가 -> 해석 및 예측
- 베이지안 분류
- 인공신경망
- 지지도벡터기계
- k 최근접 이웃
- 규칙기반의 분류와 사례기반추론
5-8. 앙상블 분석
여러 개 예측모형 조합, 다중 모델 조합
-
배깅
여러개의 붓스트랩 자료에 예측 모형 만든 후 결합 -
부스팅
-
랜덤 포레스트
약한 학습기들을 생성한 후 이를 선형 결합하여 최종 학습기를 만드는 방법
5-9. 인공신경망 분석
- 연속형 변수 : 로그변환 or 범주화
- 범주형 변수 : 가변수화(0,1)
- 은닉층은 가능하면 하나로 설정
- 은닉노드 수는 큰 값, 가중치 감소
5-10. 군집 분석
1. 연속형 변수 거리
- 유클라디안 : 루트 제곱
- 표준화 : 표준편차에 유클라디안, 왜곡
- 마할라노비스 : 벡터사이거리/표본공분산
- 체비셰프 : max 차이값
- 맨하탄 : 차이 합
- 캔버라 : 합(차/합)
- 민코우스키 : 맨하탄 + 유클라디안
2. 범주형 변수 거리
- 자카드 거리 : 1 - J(A,B)
- 자카드 계수 : J(A,B)
- 코사인 거리 : 1-내적
- 코사인 유사도 : 내적
3. 계층적 군집분석
- 최단연결법
- 최장연결법
- 평균연결법
- 와드연결법
- 군집화
4. 비계층적 군집분석
- K-평균 군집분석 : seed중심 군집 -> 분류 -> 다시 계산 -> 반복
- SOM : 입력층 + 경쟁층
5-11. 연관 분석
연관규칙분석
지지도 : P(A교B)
신뢰도 : P(A교B)/P(A)
향상도 : P(A교B)/P(A)xP(B)
댓글남기기