dataaugmentation 【자연 언어 처리/NLP】Python으로 간단하게 기계 번역에 의한 역번역(back translation)을 하는 방법 NLP 대회 등에서 데이터의 수증기(Data Augmentation)를 위해 역번역을 파이썬으로 하고 싶을 때 없습니까? 예를 들어, Kaggle의 "Toxic Comment Classification Challenge"에서는 1st place solution에 이 기법을 사용하고 있습니다. 이 기사에서는 파이썬에서 기계 번역을 사용하여 쉽게 역 번역하는 방법을 설명합니다. 기계 번역에 의한... NLP파이썬Kaggledataaugmentationgoogletrans ImageDataGenerator를 확장하고 cutout 구현 에 ImageDataGenerator를 사용해 Data Augmentation(수증)을 실시했습니다만, ImageDataGenerator가 가지고 있지 않은 물 증가 방법도 사용하고 싶었습니다. 이번에 그것을 실현해 보았습니다. Google Colaboratory TensorFlow 2.0 Alpha 입니다. ImageDataGenerator를 상속받은 클래스를 만들고 flow 메서드를 재정... GoogleColaboratoryCIFAR-10TensorFlow2.0TensorFlowdataaugmentation tf.data.Dataset을 입력에 ImageDataGenerator를 사용해 Data Augmentation(물 증가)을 실시한다 그래서 다음은 Data Augmentation을 실시하는 것으로, 얼마나 정밀도가 오르는지 확인해 보려고 생각했습니다만, tf.data.Dataset를 Data Augmentation하는 방법을 잘 모르기 때문에, 우선은 그것을 조사해 본다 결정했습니다. 이번에는 CIFAR-10을 소재로 해 보았습니다. 사실은 'cats_vs_dogs' 로 하려고 했습니다만, 배치 단위에 종횡의 사이즈를 맞... GoogleColaboratoryCIFAR-10TensorFlow2.0TensorFlowdataaugmentation 【Semantic Segmentation】 video의 연속성을 사용하여 data의 부피 증가 annotation data를 늘리려는 것이 이 논문의 메인 테마이다. optical flow를 아는 사람이라면 간단하게 이미지 할 수 있다고 생각하지만, 이미지와 Ground Truth 데이터의 pixel을 함께 shift 하는 것으로 데이터가 늘릴 수 있다. Optical Flow(시계열에 있어서의 pixel의 이동)를 이용하는 것으로ground truth의 데이터(time=t를 시프트한... opticalflowannotationDeepLearningdataaugmentationSemanticSegmentation MarianMT를 사용한 텍스트 데이터 증대 이 게시물에서는 MarianMT 모델을 사용하여 데이터 텍스트 데이터를 보강하는 방법을 설명합니다. 우리는 "역변환(Back Translation)"이라는 데이터 증대 기술을 사용할 것입니다. 그런 다음 MarianMT를 사용하여 다른 언어(예: 프랑스어)로 변환합니다. MarianMT를 사용하여 프랑스어 텍스트를 다시 영어로 번역합니다. 설치 후 이제 MarianMT 모델과 토크나이저를 가... machinelearningdatasciencedataaugmentationnlp
【자연 언어 처리/NLP】Python으로 간단하게 기계 번역에 의한 역번역(back translation)을 하는 방법 NLP 대회 등에서 데이터의 수증기(Data Augmentation)를 위해 역번역을 파이썬으로 하고 싶을 때 없습니까? 예를 들어, Kaggle의 "Toxic Comment Classification Challenge"에서는 1st place solution에 이 기법을 사용하고 있습니다. 이 기사에서는 파이썬에서 기계 번역을 사용하여 쉽게 역 번역하는 방법을 설명합니다. 기계 번역에 의한... NLP파이썬Kaggledataaugmentationgoogletrans ImageDataGenerator를 확장하고 cutout 구현 에 ImageDataGenerator를 사용해 Data Augmentation(수증)을 실시했습니다만, ImageDataGenerator가 가지고 있지 않은 물 증가 방법도 사용하고 싶었습니다. 이번에 그것을 실현해 보았습니다. Google Colaboratory TensorFlow 2.0 Alpha 입니다. ImageDataGenerator를 상속받은 클래스를 만들고 flow 메서드를 재정... GoogleColaboratoryCIFAR-10TensorFlow2.0TensorFlowdataaugmentation tf.data.Dataset을 입력에 ImageDataGenerator를 사용해 Data Augmentation(물 증가)을 실시한다 그래서 다음은 Data Augmentation을 실시하는 것으로, 얼마나 정밀도가 오르는지 확인해 보려고 생각했습니다만, tf.data.Dataset를 Data Augmentation하는 방법을 잘 모르기 때문에, 우선은 그것을 조사해 본다 결정했습니다. 이번에는 CIFAR-10을 소재로 해 보았습니다. 사실은 'cats_vs_dogs' 로 하려고 했습니다만, 배치 단위에 종횡의 사이즈를 맞... GoogleColaboratoryCIFAR-10TensorFlow2.0TensorFlowdataaugmentation 【Semantic Segmentation】 video의 연속성을 사용하여 data의 부피 증가 annotation data를 늘리려는 것이 이 논문의 메인 테마이다. optical flow를 아는 사람이라면 간단하게 이미지 할 수 있다고 생각하지만, 이미지와 Ground Truth 데이터의 pixel을 함께 shift 하는 것으로 데이터가 늘릴 수 있다. Optical Flow(시계열에 있어서의 pixel의 이동)를 이용하는 것으로ground truth의 데이터(time=t를 시프트한... opticalflowannotationDeepLearningdataaugmentationSemanticSegmentation MarianMT를 사용한 텍스트 데이터 증대 이 게시물에서는 MarianMT 모델을 사용하여 데이터 텍스트 데이터를 보강하는 방법을 설명합니다. 우리는 "역변환(Back Translation)"이라는 데이터 증대 기술을 사용할 것입니다. 그런 다음 MarianMT를 사용하여 다른 언어(예: 프랑스어)로 변환합니다. MarianMT를 사용하여 프랑스어 텍스트를 다시 영어로 번역합니다. 설치 후 이제 MarianMT 모델과 토크나이저를 가... machinelearningdatasciencedataaugmentationnlp