[출처 : http://blog.naver.com/nlp1/150079485722]


 한글

 구분  시작  끝
 한글(자음, 모음)  1100  11FF
 호환용 한글(자음, 모음)  3131  318F
 한글 음절(가~힣)  AC00  D7A3

 

한자

 구분  시작  끝
 한중일 부수 보충  2E80  2EFF
 한중일 통합 한자 확장 - A  3400  4DBF
 한중일 통합 한자  4E00  9FBF
 한중일 호환용 한자  F900  FAFF
 한중일 통합 한자 확장  20000  2A6DF
 한중일 호환용 한자 보충  2F800  2FA1F

 

일어

 구분  시작  끝
 하라가나  3040  309F
 가타카나  30A0  30FF
 가타카나 음성 확장  31F0  31FF
[출처 : http://bbs.python.or.kr/viewtopic.php?p=66561&sid=d7caa9e552c40cae5c64bd0169a5d73a]

>>> a = "\uc5ec\ub7ec" 
>>> a.decode('unicode-escape') 
u'\uc5ec\ub7ec' 
>>> print a.decode('unicode-escape') 
여러 



>>> import re 
>>> re.sub(r'\\u(\w+)', lambda m: unichr(int(m.group(1), 16)), a) 
u'\uc5ec\ub7ec' 
>>> print _ 
여러  

+ Recent posts