머신러닝 (2) 썸네일형 리스트형 텍스트 다루기 텍스트 정제하기 # 텍스트 생성 text = [" Interrobang. By Aishwarya Henriette ", "Parking And Going. By Karl Gautier", " Today Is The night. By Jarek Prakash "] # 공백문자 제저 strip_whitespace = [string.strip() for string in text] # 텍스트 확인 print(strip_whitespace) # 출력 ['Interrobang. By Aishwarya Henriette', 'Parking And Going. By Karl Gautier', 'Today Is The night. By Jarek Prakash'] # 마침표 제거 remove_peridos = [str.. 범주형 데이터 다루기 순서가 없는 범주형 특성 인코딩하기 import numpy as np from sklearn.preprocessing import LabelBinarizer, MultiLabelBinarizer # 특성 생성 feature = np.array([["Texas"], ["California"], ["Texas"], ["Delaware"], ["Texas"]]) # 원-핫 인코더 생성 one_hot = LabelBinarizer() # 특성을 원-핫 인코딩 print(one_hot.fit_transform(feature)) # 결과 [[0 0 1] [1 0 0] [0 0 1] [0 1 0] [0 0 1]] # 특성의 클래스 확인 print(one_hot.classes_) # 결과 ['California' 'D.. 이전 1 다음