alice - 문과생을 위한 머신러닝
1. 머신러닝과 데이터 과학 이해하기
데이터과학 : 컴퓨터를 활용 -> 데이터 분석 -> 현실의 문제해결
데이터과학의 목표 : 의사결정(Decision masking, 수익화(Monotization)
빅데이터 분석 | 통계 분석 | 머신러닝 |
A->B, 상관관계 | 이해&해석, smalldata, 가정 | model, 예측&패턴, Bigdata, 성능&정확도 |
※ 머신러닝 : 컴퓨터가 데이터로부터 스스로 학습할 수 있도록 프로그래밍하는 과학적활동
과학적활동 : (현실적문제) 가설->검증->검증
데이터 : 컴퓨터, 데이터, 현실문제
머신러닝
- 컴퓨터가 데이터로부터 스스로 학습을 할 수 있도록 프로그래밍하는 과학적인 활동
- 과학적인 활동 : 현실적문제) 가설-> 검증-> 검증
- 1959) 일일이 스스로 찾아가고 학습하는 과정
- 컴퓨터공학) 자동화된 시스템
- 학습 : task(작업)을 하기위해서 이전의 경험(experince)를 사용하여 선능(performance)를 높이는 과정
2. 데이터 과학자 이해하기 for 비전공자
[데이터 과학자에게 요구되는 실무능력]
프로그래밍 스킬, 수학&통계학 지식, 도메인 전문성
※ 수학적 지식이 없다면 -> 위험지역
도메인 전문성 : 자신이 속한 영역에서의 지식을 가지고 문제를 정의하여 그것을 해결하기 위한 가설을 세우고 검증해 나가는 능력 전반
[도메인 전문성의 중요성]
- SNS
- AU, CTR
- NSAID( 버스테로이드성 소염진통제)
- Gastrointestinal Bleed
[데이터과학자의 업무]
1. 문제파악, 문제정의
2. 데이터 준비
3. 모델 구축 & 평가
4. 결과 공유
5. 모니터링
※ 현실의 머신러닝 업무 프로세스 : 여러 절차가 왔다갔다 함 (삽질과정)
1) 문제파악 및 문제정의
- 비즈니스 문제 파악
- 머신러닝 문제로 전환
- 머신러닝 도입 필요성/가능성 체크
- 도입에 따른 효과검증 설계
2) 데이터 준비
- 가능한 다양하고 많은 데이터 확보
- 머신러닝을 도입할 시스템 설계
- 데이터 분석 및 이해 -Understanding
- 데이터 분석 및 이해 - Preprocessing
- 데이터 분석 및 이해 - Exploring
- Feature Engineering
- 학습, 검증, 테스트 데이터셋 생성
3) 머신러닝 모델 구축 & 분석
- 사용할 모델/알고리즘 선택
- 실무적 제약사항 고려
- 하이퍼파라미터 설정
- 모델 학습
4. 결과 공유
- 코드 배포 (Prodictionize)
- 보고서 작성, 결과정리 및 발표
5. 모니터링
- 모델의 성능을 지속적으로 tracking
- 효과검증 결과 tracking
- 지속적인 유지&보수 계획/실행
[머신러닝을 위한 데이터 과학자의 도구]
Excel
Python -> jupyter, numpy, pandas, tensorflow, matplotlib, scipy ipython....
R
3. 머신러닝을 위한 데이터 이해하기
data : 현실 세계의 어떤 현상을 관찰하여 기록한 것
- Facts
- No meaning
- Representation of real world
Feature : 데이터(data)를 컴퓨터가 이해할 수 있도록 수치 or 디지털로 표현/표상한 것
Target(Label) : 예측하려는 목표
4. 머신러닝 실무 체험
[Supervised Learning]
Classification : 분류, 범주를 예측
Regression : 회귀, 숫자를 예측
[Unsupervised Learning]
Clustering : 유사한 그룹끼리 군집화
[모델 구축 & 평가]
- 모델 & 알고리즘 선택
- 실무적 제약사항 고려한 모델 적합
- 하이퍼파라미터 설정
- 모델 학습
- 모델 평가
[모델/알고리즘 선택]
Model | Algorithm | Result |
Classification | Logistic Regression Decision Tree Support Vector Machine |
범주 예측 |
Regression | Linear Regression | 숫자 예측 |
Clustering | K-means DBscan |
군집 |
[평가]
Regression : 실제값(y)과 예측한 값(^y)의 차이, 오차(Loss/Coset/Error)를 통해 모델의 성능 평가
- Acroynm(지표) : MAE, MSE, RMSE, MAPE
Classification : 실제 범주(actual)와 예측한 범주(predicted)의 일치하는 정도(Loss/Cost/Error)를 통해 모델의 성능 평가
- Accuracy : 정확도
- AUC : TPR과 FPR을 각각 x,y축으로 했을 때의 생성되는 ROC curve 아래의 면적
- Confusion Matrix : 분류 결과를 2x2의 표로 정리한 혼동행렬
- F-measure : precision(예측한 범주에서 실제 True범주 비율)과 recall(실제 범주에서 옳게 True라고 예측한 범주 비율)의 조화평균
TP act : true, pred : true
FP act : true, pred : false
FN act : false, pred : true
TN act : false, pred : false
EV : P(x1) x V1 + P(x2) x V2 + ...
[수료]

'AI > 머신러닝' 카테고리의 다른 글
[alice] 인공지능/머신러닝 기초 (0) | 2020.08.15 |
---|---|
[경고메시지 무시] (0) | 2020.08.12 |
[용어집] (0) | 2020.07.31 |
댓글