FileReader의 인코딩 문제

1957 단어 StringOSnull
FileReader로 문자열을 읽고 문자 집합을 변환하는 UTF-8 인코딩된 텍스트 파일이 있습니다:str=new String (str.getBytes (), "UTF-8").그 결과 대부분의 중국어는 정상으로 나타났지만, 마지막에는 일부 한자가 물음표로 나타났다.
 
	public static List<String> getLines( String fileName )
	{
		List<String> lines = new ArrayList<String>();
		try
		{
			BufferedReader br = new BufferedReader(new FileReader(fileName));
			String line = null;
			while( ( line = br.readLine() ) != null )
				lines.add(new String(line.getBytes("GBK"), "UTF-8"));
			br.close();
		}
		catch( FileNotFoundException e )
		{
		}
		catch( IOException e )
		{
		}
		return lines;
	}

 
파일을 읽을 때 OS의 기본 문자 집합인 GBK에 따라 디코딩합니다. 저는 먼저 기본 문자 집합인 GBK 인코딩str.getBytes("GBK")를 사용합니다. 이때 파일의 바이트 서열로 복원한 다음에 UTF-8에 따라 디코딩해야 합니다. 생성된 문자열은 이치대로 말하면 정확해야 합니다.
 
왜 결과에는 아직도 일부 코드가 엉망인가요?문제는 FileReader가 파일을 읽는 과정에서 FileReader가 InputStreamReader를 계승했지만 부류에 문자 집합 파라미터가 있는 구조 함수를 실현하지 못했기 때문에 FileReader는 시스템의 기본 문자 집합에 따라 디코딩을 할 수 밖에 없었고 UTF-8 -> GBK -> UTF-8 과정에서 인코딩이 손실되어 결과적으로 최초의 문자를 복원할 수 없었다.
이유는 FileReader 대신 InputStreamReader, InputStreamReader isr=new InputStreamReader(new File InputStream(fil Name), "UTF-8")를 사용했기 때문이다.이렇게 파일을 읽으면 인코딩 변환을 하지 않고 UTF-8로 직접 디코딩됩니다.
 
	public static List<String> getLines( String fileName )
	{
		List<String> lines = new ArrayList<String>();
		try
		{
			BufferedReader br = new BufferedReader(new InputStreamReader(new FileInputStream(fileName), "UTF-8"));
			String line = null;
			while( ( line = br.readLine() ) != null )
				lines.add(line);
			br.close();
		}
		catch( FileNotFoundException e )
		{
		}
		catch( IOException e )
		{
		}
		return lines;
	}

좋은 웹페이지 즐겨찾기