Preprocessing - 훌륭한 개발자 블로그

원-핫 인코딩(One-hot encoding) - 전처리

원-핫 인코딩이란 카테고리별로 이진 특성을 만들어 해당하는 특성만 1, 나머지는 0으로 만드는 방법이다. 주로 범주형 데이터에서 많이 이용된다. ex) 국가명, 시.도, 장르 여기서 사용할 vgsales 데이터는 비디오게임 매출 데이터이다. pandas에서 get_dummies 함수를 통해 손쉽게 원-핫 인코딩을 할 수 있다. pd.concat 함수로 원래 DataFrame과 새로운 Data...

PreprocessingOne-Hot Encoding원-핫 인코딩pandas전처리One-Hot Encoding

이미지 데이터 처리의 기본 - Pillow를 이용한 전처리

이미지 데이터 처리의 전세계(?)에서 가장 널리 쓰이는 학습용 예제가 있다. 같다!) 예제에서 사용할 데이터는 데이터이다. 여기선 train 데이터만 사용할 것이다. train 데이터 타입은 dictionary타입인걸 알 수 있다. train 데이터의 데이터 타입을 알았으니, 이제 데이터를 살펴볼 차례다. key값으로는 filenames와 data등등이 있는 것을 알 수 있다. filenam...

pillowPreprocessing전처리Preprocessing

[AI Bootcamp] N111 - EDA, Data Preprocessing

정보를 미리 파악한 후 데이터 불러오기를 해야 하는 이유? -> library 활용 e.g. pandas.read_csv() ❓ 좋은 데이터셋이란 무엇인가? ❓ CSV가 어떤 것을 의미하는가? CSV는 comma-separated values로 몇가지 필드를 comma 즉, 쉼표로 구분한 텍스트 데이터 및 텍스트 파일 ❓ EDA와 Data Preprocessing의 차이는? EDA: 데이터가...

done데이터사이언스EDAPreprocessingAI코드스테이츠bootcampAI

[Tensorflow] 오디오 데이터 전처리하기1(librosa, fft, log- melspectrogram)

mel - spectrogram [가로축 : 시간, 세로축 : 주파수, 색깔 : dB(magnitude)] 일반 spectrogram은 frequency domain이 표현되어 있으나, mel-spectrogram이 mel-scale(인간의 청각 민감도를 고려한) mel scale은 로그 스케일 변환이 일어남 -> 제대로 된 이름은 log-mel spectrogram log는 scale, m...

머신러닝PreprocessingtensorflowMLaudio딥러닝ML

Preprocessing for Korean analysis

[Case 1] 일반적으로 KoNLPy 같은 오픈소스 형태소 분석기를 사용하지만, 형태소 분석 과정에서 잘못된 태깅으로 말뭉치 정보가 왜곡되거나 손실될 경우가 존재한다. 이러한 문제점을 보안하기 위해 다음 방법을 쓰기도 한다. 단어를 띄어쓰기 기준으로 나누고 3글자까지만 잘라서, 노말라이즈를 한다. 이렇게 하면 아래 예시의 토큰들을 한 단어로 취급할 수 있다. 감정가 감정가의 감정가격에 감정...

PreprocessingtokenizernormalizekoreanPreprocessing