Notice
Recent Posts
Recent Comments
Link
«   2025/07   »
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30 31
Archives
Today
Total
관리 메뉴

9시 24분

빅데이터와 머신러닝 본문

인공지능

빅데이터와 머신러닝

leeeee.yeon 2021. 7. 12. 10:14
빅데이터의 이해

 

이전에는 데이터를 단일 컴퓨터, 단일 데이터베이스에 저장하였음

데이터의 크기가 증가하고, 그에 따라 소요되는 비용도 증가함

 

이에 대한 해결책으로 분산 처리 Computing 방법론이 탄생

분산 처리의 경우, 데이터 처리가 어려워져 빅데이터 기술이 필요해짐

 

Static Data: 개체의 속성에 해당하는 데이터, 시간에 따라 바뀌지 않는 데이터

ex) 성별, 연령, 지역, 제조사, 생산일 등

  • 정형 Data
  • RDB 형태로 저장하는 것이 유리

 

Event Log Data: 모바일이 발전하며 생김, 개체의 사태에 해당하는 데이터, 시간에 따라 바뀌는 데이터

ex) 현 위치, 조회 키워드, 클릭 페이지 등

  • Log Data, 정형 데이터의 구조로 처리하기 어려움
  • 하둡 시스템을 저장하는 것이 유리

모든 데이터가 빅데이터는 아님

 

데이터 수집 > 저장 > 집계 > 지능화

 

과거) 우측과 같이 이미지 정보를 요약해서 정형 데이터로 전환시켜 분석에 사용함

현재) 좌측의 이미지 Pixel 값을 데이터로 보고 그대로 분석에 사용하는 기법이 더 좋은 예측력을 보이고 있음 ( CNN )

분석에 정량 데이터뿐 아니라 신호 데이터까지 처리함

 

 

 

사물인터넷 개념과 결합되면서 자동으로 행동 데이터를 수집/분석/의사 결정

 

고객에 대한 이해 > 행동 event 관계를 이해하는 방향으로 발전함

즉, 고객의 static 정보에서 로그 등 행동정보의 관계를 모형화하는 방향으로 발전

 

 

스몰데이터의 이해

 

스몰데이터가 정식적인 명칭은 아님, 빅데이터와 비교하기 위한 단어

 

통계학: 표본으로부터 모집단의 정보를 추정하거나 모집단의 상태를 추즉하는 과학

 

통계학의 필요성을 알아보는 간단한 예시

간단한 문제: 인구 중에 키 185cm 이상인 사람의 비율은?

솔루션 1: 1,000명의 키를 검사하여 185cm 이상인 사람의 비율로 추정
> 비용이 많이 듦

솔루션 2: 185cm 이상인 사람이 나올 때까지 검사하여 비율은 1/n으로 추정
> 정확도는 떨어지지만 솔루션2보다는 비용 면에서 저렴

솔루션 3: 30명의 키를 측정하여 평균과 표준편차를 구해 정규분포 가정 하에 계산함
> 정확도도 어느 정도 보장되고, 저렴함

 

통계학에서는 기본적으로 표본 수를 최소화하고자 함 ( 표본 수 증가는 비용의 증가 )

그러나, 표본에 따라 분산 등 결과가 달라질 수 있다.

 

+ 모형선택오차 / 출처: https://slidesplayer.org/slide/11273919/61/images/7/%5B%EA%B7%B8%EB%A6%BC+8-1%5D+%EC%98%A4%EC%B0%A8%EC%9D%98+%EC%A2%85%EB%A5%98+%EC%98%A4%EC%B0%A8+%ED%91%9C%EB%B3%B8%EC%98%A4%EC%B0%A8+%EB%B9%84%ED%91%9C%EB%B3%B8%EC%98%A4%EC%B0%A8+%EC%9D%91%EB%8B%B5%EC%98%A4%EC%B0%A8+%EB%AC%B4%EC%9D%91%EB%8B%B5%EC%98%A4%EC%B0%A8+%EC%A1%B0%EC%82%AC%EC%9E%90+%EC%98%A4%EC%B0%A8+%EB%A9%B4%EC%A0%91%EC%9E%90+%EC%98%A4%EC%B0%A8+%EC%9D%91%EB%8B%B5%EC%9E%90+%EC%98%A4%EC%B0%A8.jpg

 

표본오차( x̅-μ )는 표본 수가 증가하면 줄어들지만, 비표본오차는 과학적으로 접근이 어려워 계산이 불가능함

비표본 오차에 의해 참값과 통계적 추정값이 다른 결과를 줄 가능성이 존재함

 

빅데이터의 경우 모형에서 나오는 오차를 줄이는 방향으로 빅데이터를 사용

 

통계학 > 데이터로 표본오차를 줄이거나, 표본오차를 추정하여 오차의 크기를 알고 사용

머신러닝 > 빅데이터를 활용해서 모형선택오차를 줄이는데 사용

[ 집중하는 오차의 종류가 다름 ]

 

재현성: 현재 데이터가 어떤 결론을 낼 때 다른 데이터도 동일한 결론을 내는가?

통계학 > 분포이론으로 증명

머신러닝 > 모형을 개발하고 다른 데이터를 모형에 대입하여 결론이 동일한지 확인

 

스몰데이터에서는 그만큼 모델의 정확성이 중요함

 

  데이터 관점 모형 모수절약
전통적 통계학 분석을 위해 필요한 최소 데이터를 수집함 모집단의 구조 파악을 통한 추론
( 보수적 관점 )
Linear 중심 설명변수의 수를 최소화하여 분석의 자유도를 확보하고자 함
빅데이터 접근 기존에 축적된 자료를 통해 분석함
( 자료 수집 비용 無 )
모집단의 구조보다 예측에 초점
( 적극적 관점 )
Non-Linear로 확장 데이터가 많으므로 변수의 수에 구애 받지 않음

 

고차원일 경우 스몰 데이터는 Non-Linear 모형을 파악하기 어려움

 

정량화 / 선형 모형 / 모형 구조 규명 >>> 이벤트 데이터 / 비선형 모형 / 추측&예측

 

 

인공지능과 빅데이터

 

일반적인 프로그램은 사람의 지식을 컴퓨터에게 전달하여 수행 > A.I.는 컴퓨터 스스로 데이터에서 지식을 쌓고 업무를 수행하는 방식으로 전환

 

인공지능의 초기 아이디어는 1943년 신경망 모형으로부터 시작

입력을 모아 전달한다는 구조적 유사성

 

A.I.의 기계학습(Machine Learning) 모형은 통계학의 회귀모형에서 발전된 형태

 

지금은 그 신경망의 모습이 매우 복잡해짐

 

 

2006년 이후, 딥러닝이란 이름으로 다시 중흥기를 맞이한 이유

  • 기존 신경망 모형의 이론적 문제점 극복 ( 신경망 모형에서 딥러닝으로 개명 )
  • 빅데이터가 Overfitting 이슈를 자연스럽게 극복하게 함
  • 분산처리, GPU Computing 등 빅데이터의 행렬연산을 분산, 수행할 수 있는 컴퓨터 기술 발전

** Overfitting (과적합) : 기계 학습에서 학습 데이터를 과하게 학습하는 것

일반적으로 학습 데이터는 실제 데이터의 부분 집합이므로 학습 데이터에 대해서는 오차가 감소하지만 실제 데이터에 대해서 오차가 증가하게 된다.

( https://ko.wikipedia.org/wiki/%EA%B3%BC%EC%A0%81%ED%95%A9 참고 )

 

[ 인공지능 활용 사례 ]

 

 

'인공지능' 카테고리의 다른 글

kNN & Spam Filter  (0) 2021.07.13
1일차 실습  (0) 2021.07.12
여기서부터는 Tenserflow 2로 배우는 빅데이터와 머신러닝  (0) 2021.07.12
경사 하강법  (0) 2021.06.28
선형 회귀 (Linear Regression)  (0) 2021.06.28