본문 바로가기
AI/머신러닝

[alice] 문과생을 위한 머신러닝

by merona99 2020. 7. 24.
반응형

alice - 문과생을 위한 머신러닝

 

 

1. 머신러닝과 데이터 과학 이해하기

 

데이터과학 : 컴퓨터를 활용 -> 데이터 분석 -> 현실의 문제해결

데이터과학의 목표 : 의사결정(Decision masking, 수익화(Monotization)

 

 

빅데이터 분석 통계 분석 머신러닝
A->B, 상관관계 이해&해석, smalldata, 가정 model, 예측&패턴, Bigdata, 성능&정확도

 

※ 머신러닝 : 컴퓨터가 데이터로부터 스스로 학습할 수 있도록 프로그래밍하는 과학적활동

과학적활동 : (현실적문제) 가설->검증->검증

 

데이터 : 컴퓨터, 데이터, 현실문제

 

머신러닝

  • 컴퓨터가 데이터로부터 스스로 학습을 할 수 있도록 프로그래밍하는 과학적인 활동
  • 과학적인 활동 : 현실적문제) 가설-> 검증-> 검증
  • 1959) 일일이 스스로 찾아가고 학습하는 과정
  • 컴퓨터공학) 자동화된 시스템
  • 학습 : task(작업)을 하기위해서 이전의 경험(experince)를 사용하여 선능(performance)를 높이는 과정

 

 

2. 데이터 과학자 이해하기 for 비전공자

 

[데이터 과학자에게 요구되는 실무능력]

프로그래밍 스킬, 수학&통계학 지식, 도메인 전문성

수학적 지식이 없다면 -> 위험지역

 

도메인 전문성 : 자신이 속한 영역에서의 지식을 가지고 문제를 정의하여 그것을 해결하기 위한 가설을 세우고 검증해 나가는 능력 전반

 

 

[도메인 전문성의 중요성]

  • SNS
  • AU, CTR
  • NSAID( 버스테로이드성 소염진통제)
  • Gastrointestinal Bleed

 

 

[데이터과학자의 업무]

1. 문제파악, 문제정의

2. 데이터 준비

3. 모델 구축 & 평가

4. 결과 공유

5. 모니터링

※ 현실의 머신러닝 업무 프로세스 : 여러 절차가 왔다갔다 함 (삽질과정)

 

 

1) 문제파악 및 문제정의

  1. 비즈니스 문제 파악
  2. 머신러닝 문제로 전환
  3. 머신러닝 도입 필요성/가능성 체크
  4. 도입에 따른 효과검증 설계

2) 데이터 준비

  1. 가능한 다양하고 많은 데이터 확보
  2. 머신러닝을 도입할 시스템 설계
  3. 데이터 분석 및 이해 -Understanding
  4. 데이터 분석 및 이해 - Preprocessing
  5. 데이터 분석 및 이해 - Exploring
  6. Feature Engineering
  7. 학습, 검증, 테스트 데이터셋 생성

3) 머신러닝 모델 구축 & 분석

  1. 사용할 모델/알고리즘 선택
  2. 실무적 제약사항 고려
  3. 하이퍼파라미터 설정
  4. 모델 학습

4. 결과 공유

  • 코드 배포 (Prodictionize)
  • 보고서 작성, 결과정리 및 발표

5. 모니터링

  1. 모델의 성능을 지속적으로 tracking
  2. 효과검증 결과 tracking
  3. 지속적인 유지&보수 계획/실행

 

[머신러닝을 위한 데이터 과학자의 도구]

Excel

Python -> jupyter, numpy, pandas, tensorflow, matplotlib, scipy ipython....

R

 

 

 

3. 머신러닝을 위한 데이터 이해하기

data : 현실 세계의 어떤 현상을 관찰하여 기록한 것

  • Facts
  • No meaning
  • Representation of real world

Feature : 데이터(data)를 컴퓨터가 이해할 수 있도록 수치 or 디지털로 표현/표상한 것

Target(Label) : 예측하려는 목표

 

 

 

4. 머신러닝 실무 체험

 

[Supervised Learning]

Classification : 분류, 범주를 예측

Regression : 회귀, 숫자를 예측

 

[Unsupervised Learning]

Clustering : 유사한 그룹끼리 군집화

 

 

[모델 구축 & 평가]

  1. 모델 & 알고리즘 선택
  2. 실무적 제약사항 고려한 모델 적합
  3. 하이퍼파라미터 설정
  4. 모델 학습
  5. 모델 평가

[모델/알고리즘 선택]

Model Algorithm Result
Classification Logistic Regression
Decision Tree
Support Vector Machine
범주 예측
Regression Linear Regression 숫자 예측
Clustering K-means
DBscan
군집

 

[평가]

Regression : 실제값(y)과 예측한 값(^y)의 차이, 오차(Loss/Coset/Error)를 통해 모델의 성능 평가

  • Acroynm(지표) :  MAE, MSE, RMSE, MAPE

Classification : 실제 범주(actual)와 예측한 범주(predicted)의 일치하는 정도(Loss/Cost/Error)를 통해 모델의 성능 평가

  • Accuracy : 정확도
  • AUC : TPR과 FPR을 각각 x,y축으로 했을 때의 생성되는 ROC curve 아래의 면적
  • Confusion Matrix : 분류 결과를 2x2의 표로 정리한 혼동행렬
  • F-measure : precision(예측한 범주에서 실제 True범주 비율)과 recall(실제 범주에서 옳게 True라고 예측한 범주 비율)의 조화평균

 

 

TP  act : true, pred : true

FP  act : true, pred : false

FN  act : false, pred : true

TN  act : false, pred : false

 

EV : P(x1) x V1 + P(x2) x V2 + ...

 

 

 

[수료]

더보기

 

수료

 

반응형

'AI > 머신러닝' 카테고리의 다른 글

[alice] 인공지능/머신러닝 기초  (0) 2020.08.15
[경고메시지 무시]  (0) 2020.08.12
[용어집]  (0) 2020.07.31

댓글