본문 바로가기

AI

(9)
텍스트 다루기 텍스트 정제하기 # 텍스트 생성 text = [" Interrobang. By Aishwarya Henriette ", "Parking And Going. By Karl Gautier", " Today Is The night. By Jarek Prakash "] # 공백문자 제저 strip_whitespace = [string.strip() for string in text] # 텍스트 확인 print(strip_whitespace) # 출력 ['Interrobang. By Aishwarya Henriette', 'Parking And Going. By Karl Gautier', 'Today Is The night. By Jarek Prakash'] # 마침표 제거 remove_peridos = [str..
범주형 데이터 다루기 순서가 없는 범주형 특성 인코딩하기 import numpy as np from sklearn.preprocessing import LabelBinarizer, MultiLabelBinarizer # 특성 생성 feature = np.array([["Texas"], ["California"], ["Texas"], ["Delaware"], ["Texas"]]) # 원-핫 인코더 생성 one_hot = LabelBinarizer() # 특성을 원-핫 인코딩 print(one_hot.fit_transform(feature)) # 결과 [[0 0 1] [1 0 0] [0 0 1] [0 1 0] [0 0 1]] # 특성의 클래스 확인 print(one_hot.classes_) # 결과 ['California' 'D..
수치형 데이터 다루기 특성 스케일 바꾸기 - 최소 최대 스케일링은 특성의 최솟값과 최댓값을 사용하여 일정 범위 안으로 값2을 조정한다. import numpy as np from sklearn import preprocessing # 특성 만들기 feature = np.array([[-500.5], [100.1], [0], [100.1], [900.9]]) # 스케일러 객체 생성 minmax_scale = preprocessing.MinMaxScaler(feature_range=(0, 1)) # 특성의 스케일을 변환 scaled_feature = minmax_scale.fit_transform(feature) # 출력 print(scaled_feature) # 결과 [[0. ] [0.42857143] [0.35714286] ..
3.하둡-YARN -YARN 클러스터 리소스 관리 및 애플리케이션 라이프 사이클 관리를 위한 아키텍처 YARN은 잡트래커의 기능을 분리하여 자원을 관리하는 리소스 매니저와 노드매니저, 애플케이션 라이프 사이클 관리하는 애플리케이션 마스터와 컨테이너로 구성 YARN-Schduler 리소스 매니저는 클러스터 자원을 관리하고 애플리케이션 마스터의 요청을 받아 자원을 할당한다. 자원 할당을 위한 정책을 스케줄러라고함. 하둡에서 제공하는 기본 스케줄러는 FIFO-Schduler, Fari-Scheduler, Capacity-Scheduler 가 있음. 스케줄러는 yarn-site.xml 파일에 yarn.resourcemanager.scheduler.class에 다음의 클래스명을 적어주면 수정됨 ex) yarn.resourceman..
3.하둡-맵리듀스 맵리듀스는 8단계의 처리과정을 거침 1.입력 -데이터를 입력하는 단계 2.맵 -입력을 분할하여 키별로 데이터를 처리 3.컴바이너 -데이터 전송을 줄이기위하여 맵의 결과를 정리 4.파티셔너 -맵의 출력 결과 키 값을 해쉬 처리하여 어떤 리듀서로 넘길지 결정 5.셔플 -각 리듀서로 데이터를 이동 6.정렬 -리듀서로 전달된 데이터를 키 값 기준으로 정렬 7.리듀서 -리듀서로 데이터를 처리하고 결과를 저장 8.출력 리듀서의 결과를 정의된 형태로 저장 보조 도구 -Counter 하둡에서 맵리듀스의 잡 진행 상황을 확인할 수 있는 카운터를 제공. 잡은 맵리듀스의 작업, 입출력 상황을 확인할 수 있는 카운터를 제공하고 사용자가 카운터를 생성하여 사용하기도 가능 -Distributed Cache 맵리듀스 잡에서 공유되..
3.하둡-2 HDFS Federation -네임노드는 파일 정보 메타데이터를 메모리에서 관리하는데 파일이 많아지면 메모리 사용량이 늘어나 메모리 관리에 문제가 생긴다. 이를 해결하기 위해 HDFS Federation을 지원함. HDFS Federation은 디렉토리 단위로 네임노드를 등록하여 사용한다. HDFS Federation을 사용하면 파일, 디렉토리의 정보를 가지는 네임스페이스와 블록의 정보를 가지는 블록 풀을 각 네임노드가 독립적으로 관리한다. 네임스페이스와 블록풀을 네임스페이스 볼륨이라하고 네임스페이스 볼륨을 독립적으로 관리되기 때문에 하나의 네임노드에 문제가 생겨도 다른 네임노드에 영향을 주지않음. HDFS High Availability -HDFS는 네임노드가 단일 실패 지점임, 네임노드에 문제가 생기..
3.하둡-1 하둡은 여러 개의 컴퓨터를 클러스터화하고, 큰 크기의 데이터를 클러스터에서 병렬로 동시에 처리하여 처리 속도를 높이는 것을 목적으로 하는 분산처리를 위한 오픈소스 프레임워크 하둡의 구성 요소 하둡은 4개의 주요 모듈로 구성됨. ●Hadoop Common 하둡의 다른 모듈을 지원하기 위한 공통 컴포넌트 모듈 ●Hadoop HDFS 분산저장을 처리하기 위한 모듈 여러개의 서버를 하나의 서버처럼 묶어 데이터를 저장 ●Hadoop YARN 병렬처리를 위한 클러스터 자원관리 및 스케줄링 담당 ●Hadoop Mapreduce 분산되어 저장된 데이터를 병렬 처리할 수 있게 해주는 분산 처리 모듈 ●Hadoop Ozone 하둡을 위한 오브젝트 저장소 장점 -오픈소스 라인서스에 대한 비용 부담이 적음 -시스템을 중단하지..
2.빅데이터 처리단계 빅데이터의 처리단계는 5단계로 처리됨. 1.수집 데이터를 수집하는 단계 정형, 비정형, 반정형 데이터 수집 ●내부 데이터 시스템 로그, DB 데이터 ●외부 데이터 동영상, 오디오 정보 웹 크롤링, SNS 데이터 ●정제 수집한 데이터를 적재하기 위해 데이터를 전처리하는 과정 ●적재 정제된 데이터를 분석하기 위하여 적재하는 단계 ●분석 적재한 데이터를 의미 있는 지표로 분석하는 단계 ●시각화 분석한 데이터를 도표로 보여주는 단계