Talend Data Preptaration을 사용하는 3
Talend Data Preptaration과 Talend Dictionary Service의 제휴
지난번까지 Talend Data Preptation Desktop 에디션을 활용해 기능을 소개했는데, 이번에는 유상판 Talend Data Preptaration과 묶은 Talend Dictionary Service의 협업 기능을 소개한다.
Talend Data Preptation의 SEMATIC TYPES
유상 버전인 Talend Data Preptaration에서는 SENATIC TYPES(사전 데이터)를 등록·업데이트·삭제할 수 있으며, SENATIC TYPES 데이터는 Talend Dictionary Service가 관리한다.
이번에는 SEMANTIC TYPES의 로그인과 업데이트를 통해 DATASETS 중열 분석 상황의 변화를 소개한다.
DATASETS를 통한 데이터 가져오기
먼저 DATASETS를 사용하여 준비된 우편 번호 데이터를 읽습니다.
Data Preptaration 메뉴에서 DATASETS 를 클릭합니다.
DATASETS 화면에서 ADD DATASET 버튼을 클릭합니다.
파일 선택 화면을 표시하고 읽을 우편 번호 데이터를 선택한 후 OPEN 버튼을 클릭합니다.
DATSETS와 PREPARATIONS의 표준 문자 코드가 UTF-8로 설정돼 있어 일본어 데이터를 읽을 때 대란으로 표시되기 때문이다.
테이블의 오른쪽 위에 있는 기어 아이콘을 클릭하면 DATASET의 매개변수 설정 화면이 표시됩니다.
이 화면은 Enceodhing 외에도 Sepatator 등을 설정할 수 있다.
시프트 EnceodingJIS로 변경한 후 CONRIM 버튼을 클릭합니다.
엉망진창인 일본어가 정상적으로 표시되었다.
이 때 모든 열은text로 분석됩니다.
SEMATIC TYPES에서 사전 데이터 로그인
주 메뉴로 돌아가 SEMANTIC TYPES를 클릭합니다.
표준 등록된 SEMANTIC TYPE 목록을 표시합니다.
목록 위의 ADD SEMANTIC TYPE 버튼을 클릭합니다.
SEMANTIC TYPE의 로그인 화면이 표시되므로 Name, Description, Type, Validation Criterion을 설정합니다.
여기서 Name을 도도부현, Description을 도도부현 이름, 유형을 Dictionary, Validation Criterion으로 Simplified txtet로 설정합니다.
Values에 도도부현 이름을 추가하고 오른쪽 아래에 있는 SAVEAND PUBLISH 버튼을 클릭합니다.
SEMANTIC TYPES 일람에는 도도부현이 추가됐다.
DATASET 화면에서 SEMANTIC TYPE 변경 내용
방금 등록된 우편 번호 데이터를 열고 도도부 현란 오른쪽 위에 있는 세 줄의 표시를 눌러라.
그 결과 녹색 상자 목록이 나타나고 맨 위에 This column is a text가 표시되며 이 열이 text로 분석됨을 알 수 있습니다.
이 This column is a text 오른쪽을 클릭하면 후보인 SEMANTIC TYPE가 나와 도도부현 100%로 분석된다.
이 비율은 도도부현 SEMANTIC TYPE에 등록된 내용이 도도부현에 열거된 데이터와 일치하는 비율을 나타낸다.
목록에 있는 도도부현을 누르면 열에 적용됩니다.
도도부현의 SEMANTIC TYPE를 응용한 후 열 이름 오른쪽 아래에 나타난 text가 도도부현으로 바뀌어 다시 열 데이터를 분석했다.
분석 결과 열 이름과 데이터 열 사이의 컬러 막대에 녹색이 일치하고 주황색이 일치하지 않으며 흰색이 공백이다.
이 주황색을 누르면 필터가 일치하지 않는 데이터를 표시합니다.
데이터로 볼 때 도도부현은 기옥현의 데이터만 나타나기 때문에 도도부현의 SEMANTIC TYPE에는 기옥현의 등록이 없다.
SEMANTIC TYPES에서 사전 데이터 업데이트
방금 등록한 도도부현의 세멘틱 TYPE를 열고 수치에 사이타마현을 추가한다.
확인치에는 사이타마현이 추가돼 SAVEAND 펍리스H 버튼을 눌러 저장된다.
DATASETS를 통해 SEMANTIC TYPE 업데이트 확인
DATASETS가 우편번호 데이터를 열자 도도부현의 기둥 아래 가로대가 모두 녹색으로 변했고, SEMANTIC TYPE 업데이트가 적용돼 일치하지 않는 데이터가 사라졌다.
도도부현에 기옥현의 필터를 더하면 모든 줄이 정상치로 나타난다.
총결산
유상 버전인 탤런드 데이터 프리미엄에서는 세맨틱 TYPE의 활용이 크게 확장돼 데이터 클렌징의 생산성이 크게 향상될 것으로 기대할 수 있다.
협업할 수 있는 다른 기능도 있으니 계속 소개하고 싶어요.
Reference
이 문제에 관하여(Talend Data Preptaration을 사용하는 3), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다
https://qiita.com/Stagea/items/70b436ac66161c9e888a
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념
(Collection and Share based on the CC Protocol.)
유상 버전인 Talend Data Preptaration에서는 SENATIC TYPES(사전 데이터)를 등록·업데이트·삭제할 수 있으며, SENATIC TYPES 데이터는 Talend Dictionary Service가 관리한다.
이번에는 SEMANTIC TYPES의 로그인과 업데이트를 통해 DATASETS 중열 분석 상황의 변화를 소개한다.
DATASETS를 통한 데이터 가져오기
먼저 DATASETS를 사용하여 준비된 우편 번호 데이터를 읽습니다.
Data Preptaration 메뉴에서 DATASETS 를 클릭합니다.
DATASETS 화면에서 ADD DATASET 버튼을 클릭합니다.
파일 선택 화면을 표시하고 읽을 우편 번호 데이터를 선택한 후 OPEN 버튼을 클릭합니다.
DATSETS와 PREPARATIONS의 표준 문자 코드가 UTF-8로 설정돼 있어 일본어 데이터를 읽을 때 대란으로 표시되기 때문이다.
테이블의 오른쪽 위에 있는 기어 아이콘을 클릭하면 DATASET의 매개변수 설정 화면이 표시됩니다.
이 화면은 Enceodhing 외에도 Sepatator 등을 설정할 수 있다.
시프트 EnceodingJIS로 변경한 후 CONRIM 버튼을 클릭합니다.
엉망진창인 일본어가 정상적으로 표시되었다.
이 때 모든 열은text로 분석됩니다.
SEMATIC TYPES에서 사전 데이터 로그인
주 메뉴로 돌아가 SEMANTIC TYPES를 클릭합니다.
표준 등록된 SEMANTIC TYPE 목록을 표시합니다.
목록 위의 ADD SEMANTIC TYPE 버튼을 클릭합니다.
SEMANTIC TYPE의 로그인 화면이 표시되므로 Name, Description, Type, Validation Criterion을 설정합니다.
여기서 Name을 도도부현, Description을 도도부현 이름, 유형을 Dictionary, Validation Criterion으로 Simplified txtet로 설정합니다.
Values에 도도부현 이름을 추가하고 오른쪽 아래에 있는 SAVEAND PUBLISH 버튼을 클릭합니다.
SEMANTIC TYPES 일람에는 도도부현이 추가됐다.
DATASET 화면에서 SEMANTIC TYPE 변경 내용
방금 등록된 우편 번호 데이터를 열고 도도부 현란 오른쪽 위에 있는 세 줄의 표시를 눌러라.
그 결과 녹색 상자 목록이 나타나고 맨 위에 This column is a text가 표시되며 이 열이 text로 분석됨을 알 수 있습니다.
이 This column is a text 오른쪽을 클릭하면 후보인 SEMANTIC TYPE가 나와 도도부현 100%로 분석된다.
이 비율은 도도부현 SEMANTIC TYPE에 등록된 내용이 도도부현에 열거된 데이터와 일치하는 비율을 나타낸다.
목록에 있는 도도부현을 누르면 열에 적용됩니다.
도도부현의 SEMANTIC TYPE를 응용한 후 열 이름 오른쪽 아래에 나타난 text가 도도부현으로 바뀌어 다시 열 데이터를 분석했다.
분석 결과 열 이름과 데이터 열 사이의 컬러 막대에 녹색이 일치하고 주황색이 일치하지 않으며 흰색이 공백이다.
이 주황색을 누르면 필터가 일치하지 않는 데이터를 표시합니다.
데이터로 볼 때 도도부현은 기옥현의 데이터만 나타나기 때문에 도도부현의 SEMANTIC TYPE에는 기옥현의 등록이 없다.
SEMANTIC TYPES에서 사전 데이터 업데이트
방금 등록한 도도부현의 세멘틱 TYPE를 열고 수치에 사이타마현을 추가한다.
확인치에는 사이타마현이 추가돼 SAVEAND 펍리스H 버튼을 눌러 저장된다.
DATASETS를 통해 SEMANTIC TYPE 업데이트 확인
DATASETS가 우편번호 데이터를 열자 도도부현의 기둥 아래 가로대가 모두 녹색으로 변했고, SEMANTIC TYPE 업데이트가 적용돼 일치하지 않는 데이터가 사라졌다.
도도부현에 기옥현의 필터를 더하면 모든 줄이 정상치로 나타난다.
총결산
유상 버전인 탤런드 데이터 프리미엄에서는 세맨틱 TYPE의 활용이 크게 확장돼 데이터 클렌징의 생산성이 크게 향상될 것으로 기대할 수 있다.
협업할 수 있는 다른 기능도 있으니 계속 소개하고 싶어요.
Reference
이 문제에 관하여(Talend Data Preptaration을 사용하는 3), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다
https://qiita.com/Stagea/items/70b436ac66161c9e888a
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념
(Collection and Share based on the CC Protocol.)
주 메뉴로 돌아가 SEMANTIC TYPES를 클릭합니다.
표준 등록된 SEMANTIC TYPE 목록을 표시합니다.
목록 위의 ADD SEMANTIC TYPE 버튼을 클릭합니다.
SEMANTIC TYPE의 로그인 화면이 표시되므로 Name, Description, Type, Validation Criterion을 설정합니다.
여기서 Name을 도도부현, Description을 도도부현 이름, 유형을 Dictionary, Validation Criterion으로 Simplified txtet로 설정합니다.
Values에 도도부현 이름을 추가하고 오른쪽 아래에 있는 SAVEAND PUBLISH 버튼을 클릭합니다.
SEMANTIC TYPES 일람에는 도도부현이 추가됐다.
DATASET 화면에서 SEMANTIC TYPE 변경 내용
방금 등록된 우편 번호 데이터를 열고 도도부 현란 오른쪽 위에 있는 세 줄의 표시를 눌러라.
그 결과 녹색 상자 목록이 나타나고 맨 위에 This column is a text가 표시되며 이 열이 text로 분석됨을 알 수 있습니다.
이 This column is a text 오른쪽을 클릭하면 후보인 SEMANTIC TYPE가 나와 도도부현 100%로 분석된다.
이 비율은 도도부현 SEMANTIC TYPE에 등록된 내용이 도도부현에 열거된 데이터와 일치하는 비율을 나타낸다.
목록에 있는 도도부현을 누르면 열에 적용됩니다.
도도부현의 SEMANTIC TYPE를 응용한 후 열 이름 오른쪽 아래에 나타난 text가 도도부현으로 바뀌어 다시 열 데이터를 분석했다.
분석 결과 열 이름과 데이터 열 사이의 컬러 막대에 녹색이 일치하고 주황색이 일치하지 않으며 흰색이 공백이다.
이 주황색을 누르면 필터가 일치하지 않는 데이터를 표시합니다.
데이터로 볼 때 도도부현은 기옥현의 데이터만 나타나기 때문에 도도부현의 SEMANTIC TYPE에는 기옥현의 등록이 없다.
SEMANTIC TYPES에서 사전 데이터 업데이트
방금 등록한 도도부현의 세멘틱 TYPE를 열고 수치에 사이타마현을 추가한다.
확인치에는 사이타마현이 추가돼 SAVEAND 펍리스H 버튼을 눌러 저장된다.
DATASETS를 통해 SEMANTIC TYPE 업데이트 확인
DATASETS가 우편번호 데이터를 열자 도도부현의 기둥 아래 가로대가 모두 녹색으로 변했고, SEMANTIC TYPE 업데이트가 적용돼 일치하지 않는 데이터가 사라졌다.
도도부현에 기옥현의 필터를 더하면 모든 줄이 정상치로 나타난다.
총결산
유상 버전인 탤런드 데이터 프리미엄에서는 세맨틱 TYPE의 활용이 크게 확장돼 데이터 클렌징의 생산성이 크게 향상될 것으로 기대할 수 있다.
협업할 수 있는 다른 기능도 있으니 계속 소개하고 싶어요.
Reference
이 문제에 관하여(Talend Data Preptaration을 사용하는 3), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다
https://qiita.com/Stagea/items/70b436ac66161c9e888a
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념
(Collection and Share based on the CC Protocol.)
방금 등록한 도도부현의 세멘틱 TYPE를 열고 수치에 사이타마현을 추가한다.
확인치에는 사이타마현이 추가돼 SAVEAND 펍리스H 버튼을 눌러 저장된다.
DATASETS를 통해 SEMANTIC TYPE 업데이트 확인
DATASETS가 우편번호 데이터를 열자 도도부현의 기둥 아래 가로대가 모두 녹색으로 변했고, SEMANTIC TYPE 업데이트가 적용돼 일치하지 않는 데이터가 사라졌다.
도도부현에 기옥현의 필터를 더하면 모든 줄이 정상치로 나타난다.
총결산
유상 버전인 탤런드 데이터 프리미엄에서는 세맨틱 TYPE의 활용이 크게 확장돼 데이터 클렌징의 생산성이 크게 향상될 것으로 기대할 수 있다.
협업할 수 있는 다른 기능도 있으니 계속 소개하고 싶어요.
Reference
이 문제에 관하여(Talend Data Preptaration을 사용하는 3), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다
https://qiita.com/Stagea/items/70b436ac66161c9e888a
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념
(Collection and Share based on the CC Protocol.)
유상 버전인 탤런드 데이터 프리미엄에서는 세맨틱 TYPE의 활용이 크게 확장돼 데이터 클렌징의 생산성이 크게 향상될 것으로 기대할 수 있다.
협업할 수 있는 다른 기능도 있으니 계속 소개하고 싶어요.
Reference
이 문제에 관하여(Talend Data Preptaration을 사용하는 3), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/Stagea/items/70b436ac66161c9e888a텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)