본문 바로가기

AI/빅데이터

1.빅데이터

빅데이터 - 큰 사이즈의 데이터로부터 유의미한 지표를 분석해내는 것, 기존 DB 관리도구의 수집, 저장, 관리, 분석 역량을 넘어서는 데이터
빅데이터의 3V
●Volume - 크기
저장장치 가격의 하락, 네트워크 속도의 향상으로 수 페타바이트의 데이터가 매일 생성
●Variety - 다양성
정형, 반정형, 비정형 형태의 다양한 데이터를 분석
●Velocity - 속도
정보의 유통 속도가 굉장히 빠름

빅데이터의 5V
위의 3가지에 아래의 2가지를 추가하여 5V라고 부름
●Value - 가치
유의미한 가치를 가지는 지표
●Veracity -정확성
데이터의 신뢰성, 정확성이 높음

1.데이터의 형태

수집 형태
데이터의 수집 형태에 따라 정형, 반정형, 비정형으로 구분됨, 보통 정형 데이터보다 비정형, 반정형 데이터가 더 많이 수집됨

● 정형
데이터베이스, CSV, 엑셀과 같이 칼럼 단위의 명확한 구분자와 형태가 존재하는 데이터
●반정형
XML, HTML, JSOM 형태와 같이 여러가지 형태가 있을 수 있지만, 메타데이터나 스키마가 존재하는 데이터
●비정형
동영상, SNS, 사진, 오디오, 음성 데이터처럼 형태가 존재하지 않는 데이터

수집 시간
데이터는 수집과 처리하는 시간에 따라 배치, 실시간 데이터로 구분 가능

●배치
시, 일, 주, 월 단위로 일정한 주기로 수집, 처리되는 데이터
●실시간
실시간 검색어, 실시간 차트 같이 사용자의 입력과 동시에 처리되는 데이터

2.분석 형태
●대화형 분석
사용자가 입력한 쿼리에 바로 반응하여 결과를 반환하는 분석 방법
ex)대화형 대쉬보드
●배치 분석
저장된 데이터를 일정한 주기로 분석하는 방법
ex)일/주/월간 보고서
●실시간 분석
사용자의 여러 입력이 실시간으로 저장되고 분석하는 방법
ex)결제/사기 경고 1분 측정
●기계 학습
기계 학습 알고리즘을 이용하여 예측 모델을 생성하는 방법
ex)예측 모델

'AI > 빅데이터' 카테고리의 다른 글

3.하둡-YARN  (0) 2021.02.18
3.하둡-맵리듀스  (0) 2021.02.18
3.하둡-2  (0) 2021.02.18
3.하둡-1  (0) 2021.02.17
2.빅데이터 처리단계  (0) 2021.02.16