Windows 명령으로 파일의 문자 코드 변환

목적



Windows + Python으로 파일을 처리하면 "Unicodexxx가 인식되지 않는다"라는 메시지로 화가났다. 파일을 Sakura에서 열어 보면, 역시 SHIFT-JIS군요. 언제나 사쿠라에서 UTF-8로 변환 -> 저장하면 좋지만, 이번에는 파일 수가 많기 때문에 수작업은 용서입니다.
Mac에서 익숙한 iconv에서 Bat로 변환하지 않겠다고 생각했지만 Windows이기 때문에 그 명령이 없어요.

도구 준비



조사해 보면 iconv for windows가 있으므로 그것을 사용하려고 생각하면 Git Bash에서도 사용할 수 있다는 것을 알았기 때문에 그 수고도 걸리지 않고 낫다. Git for windows를 설치하면 자동으로 들어가므로 그것을 사용하기로 했다.

문자 코드 조사


   file -i WT.csv
   Non-ISO extended-ASCII text, with CRLF line terminators

Non-ISO extended-ASCII text로 뭐야. 실은 SHIIF-JIS의 일.
여기 에 상세하게 기술되고 있다.


다만, 「find 커멘드」가 아니고 「file」커멘드 쪽이 옳다.

문자 코드 변환



마지막은 아래와 같이 바뀌면 OK
   iconv -f SHIFT-JIS -t UTF-8 WT.csv  > WT-UTF8.csv

좋은 웹페이지 즐겨찾기