UTF-8

nlogn 2010. 11. 6. 12:07

2010. 11. 6. 12:07

[출처 : http://www.kristalinfo.com/K-Lab/unicode/Unicode_intro-kr.html#utf8]

가장 완벽하게 유니코드 표준을 표현하는 인코딩 방식은 UTF-16이라고 할 수 있습니다. 그런데 이 인코딩에서는 16비트 단위로 하나의 문자가 표현되기 때문에 전통적인 char 형과는 맞지 않는 부분이 있습니다. UTF-16으로 문자열을 표현했을 때 전통적인 char 형으로 이 문자열 취급하게 되면 중간에 널(null, 0)값이 들어가게 되어 문제가 발생합니다. 즉 유니코드를 지원하려면, 지금까지 개발된 모든 프로그램을 재개발해야 한다는 부담이 발생합니다. 현실적으로 이것은 거의 불가능한 일이라고 할 수 있습니다.

이의 대안으로 제시된 인코딩이 바로 UTF8입니다. UTF-8은 문자열의 중간 바이트에서 0이 나타나지 않도록 고안되었습니다. 이를 위해 각 유니코드 문자는 1바이트에서 4바이트까지 가변적으로 인코딩되도록 하고 있습니다. UTF-8에서는 U+0000 ~ U+007F까지의 128자는 1바이트로 표현되는데 이는 ASCII와 동일합니다. 또 U+0080 ~ U+07FF까지는 두 바이트, U+0800 ~ U+FFFF까지는 세 바이트로 표현됩니다. 즉 BMP내의 모든 문자는 1 ~ 3바이트로 표현됩니다. 그리고 나머지 16개의 보충언어판에 위치하는 1,048,576개의 코드는 네 바이트로 인코딩됩니다. 다음 표에서 UCS-4와 UTF-8간의 변환 방법을 나타내고 있습니다.

표. UTF-8과 UCS-4간의 변환 규칙

UCS-4	UTF-8
0x00000000 - 0x0000007F	0xxxxxxx
0x00000080 - 0x000007FF	110xxxxx 10xxxxxx
0x00000800 - 0x0000FFFF	1110xxxx 10xxxxxx 10xxxxxx
0x00010000 - 0x001FFFFF	11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
0x00200000 - 0x03FFFFFF	111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
0x04000000 - 0x7FFFFFFF	1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

위의 표에서는 UCS-4와 UTF-8간의 변환 규칙을 보여주고 있습니다만, UCS-4의 모든 영역에 대해서 보여주고 있습니다. 그러나 빨간색으로 칠한 부분을 0x0010FFFF로 변경하고 나머지는 삭제해야 정확한 유니코드의 UTF-8 인코딩이라고 할 수 있습니다. 이를 모두 표현한 것은 6바이트까지 확장하면 UTF-8로도 UCS-4의 전역을 인코딩할 수 있음을 보여주기 위한 것입니다. 아마도 1백만자의 코드이면 지구상에 존재했거나 존재하는 모든 문자를 표현하기에 충분할 것으로 예상됩니다. 우주의 모든 언어코드를 표현해야 할 때가 오면 0x00110000 이후의 영역도 사용할 가능성이 조금이나마 있을까요?

어쨌든, 현재 유니코드 표준에서는 UTF-8이 4바이트까지로 인코딩됩니다. 유니코드에 정의된 각 코드는 반드시 다음과 같은 범위에서 인코딩되어야 합니다. 다음 표는 UTF-8 인코딩에서 각 바이트에 올 수 있는 값을 보여주고 있습니다.

표. 올바른 UTF-8 바이트 배열

Code Points	1st Byte	2nd Byte	3rd Byte	4th Byte
U+0000 ~ U+007F	00 ~ 7F
U+0080 ~ U+07FF	C2 ~ DF	80 ~ BF
U+0800 ~ U+0FFF	E0	A0 ~ BF	80 ~ BF
U+1000 ~ U+CFFF	E1 ~ EC	80 ~ BF	80 ~ BF
U+D000 ~ U+D7FF	ED	80 ~ 9F	80 ~ BF
U+D800 ~ U+DFFF	ill-formed (surrogate 부분이므로 인코딩되어서는 안됨)
U+E000 ~ U+FFFF	EE ~ EF	80 ~ BF	80 ~ BF
U+10000 ~ U+3FFFF	F0	90 ~ BF	80 ~ BF	80 ~ BF
U+40000 ~ U+FFFFF	F1 ~ F3	80 ~ BF	80 ~ BF	80 ~ BF
U+100000 ~ U+10FFFF	F4	80 ~ 8F	80 ~ BF	80 ~ BF

저작자표시

nlogn's log :: 천천히 달리기

UTF-8

+ Recent posts

티스토리툴바