Preprocessing [AI Bootcamp] N111 - EDA, Data Preprocessing 정보를 미리 파악한 후 데이터 불러오기를 해야 하는 이유? -> library 활용 e.g. pandas.read_csv() ❓ 좋은 데이터셋이란 무엇인가? ❓ CSV가 어떤 것을 의미하는가? CSV는 comma-separated values로 몇가지 필드를 comma 즉, 쉼표로 구분한 텍스트 데이터 및 텍스트 파일 ❓ EDA와 Data Preprocessing의 차이는? EDA: 데이터가... done데이터사이언스EDAPreprocessingAI코드스테이츠bootcampAI Preprocessing for Korean analysis [Case 1] 일반적으로 KoNLPy 같은 오픈소스 형태소 분석기를 사용하지만, 형태소 분석 과정에서 잘못된 태깅으로 말뭉치 정보가 왜곡되거나 손실될 경우가 존재한다. 이러한 문제점을 보안하기 위해 다음 방법을 쓰기도 한다. 단어를 띄어쓰기 기준으로 나누고 3글자까지만 잘라서, 노말라이즈를 한다. 이렇게 하면 아래 예시의 토큰들을 한 단어로 취급할 수 있다. 감정가 감정가의 감정가격에 감정... PreprocessingtokenizernormalizekoreanPreprocessing
[AI Bootcamp] N111 - EDA, Data Preprocessing 정보를 미리 파악한 후 데이터 불러오기를 해야 하는 이유? -> library 활용 e.g. pandas.read_csv() ❓ 좋은 데이터셋이란 무엇인가? ❓ CSV가 어떤 것을 의미하는가? CSV는 comma-separated values로 몇가지 필드를 comma 즉, 쉼표로 구분한 텍스트 데이터 및 텍스트 파일 ❓ EDA와 Data Preprocessing의 차이는? EDA: 데이터가... done데이터사이언스EDAPreprocessingAI코드스테이츠bootcampAI Preprocessing for Korean analysis [Case 1] 일반적으로 KoNLPy 같은 오픈소스 형태소 분석기를 사용하지만, 형태소 분석 과정에서 잘못된 태깅으로 말뭉치 정보가 왜곡되거나 손실될 경우가 존재한다. 이러한 문제점을 보안하기 위해 다음 방법을 쓰기도 한다. 단어를 띄어쓰기 기준으로 나누고 3글자까지만 잘라서, 노말라이즈를 한다. 이렇게 하면 아래 예시의 토큰들을 한 단어로 취급할 수 있다. 감정가 감정가의 감정가격에 감정... PreprocessingtokenizernormalizekoreanPreprocessing