'2011/03/22 글 목록

2011/03/22

유니코드 한글, 한자, 일어 범위 2011.03.22
unicode 아닌 문자를 unicode로 2011.03.22

유니코드 한글, 한자, 일어 범위

nlogn 2011. 3. 22. 10:36

2011. 3. 22. 10:36

[출처 : http://blog.naver.com/nlp1/150079485722]

한글

구분	시작	끝
한글(자음, 모음)	1100	11FF
호환용 한글(자음, 모음)	3131	318F
한글 음절(가~힣)	AC00	D7A3

한자

구분	시작	끝
한중일 부수 보충	2E80	2EFF
한중일 통합 한자 확장 - A	3400	4DBF
한중일 통합 한자	4E00	9FBF
한중일 호환용 한자	F900	FAFF
한중일 통합 한자 확장	20000	2A6DF
한중일 호환용 한자 보충	2F800	2FA1F

일어

구분	시작	끝
하라가나	3040	309F
가타카나	30A0	30FF
가타카나 음성 확장	31F0	31FF

[출처] 유니코드 한글, 한자, 일어 범위|작성자 realization

저작자표시

unicode 아닌 문자를 unicode로

nlogn 2011. 3. 22. 10:34

2011. 3. 22. 10:34

[출처 : http://bbs.python.or.kr/viewtopic.php?p=66561&sid=d7caa9e552c40cae5c64bd0169a5d73a]

>>> a = "\uc5ec\ub7ec"
>>> a.decode('unicode-escape')
u'\uc5ec\ub7ec'
>>> print a.decode('unicode-escape')
여러

>>> import re
>>> re.sub(r'\\u(\w+)', lambda m: unichr(int(m.group(1), 16)), a)
u'\uc5ec\ub7ec'
>>> print _
여러

저작자표시

PREV 이전 1 NEXT 다음

nlogn's log :: 천천히 달리기

2011/03/22

유니코드 한글, 한자, 일어 범위

unicode 아닌 문자를 unicode로

+ Recent posts

티스토리툴바