python 한글 unicode/utf-8 pattern matching 본문

Programming

python 한글 unicode/utf-8 pattern matching

halatha 2014. 5. 7. 10:00
  • 상황; 유니코드 한글만 pattern matching으로 찾고 싶은 경우
    • unicode table; http://jrgraphix.net/r/Unicode/AC00-D7AF
    • >>> print unichr(int('AC00', 16))

      >>> print unichr(int('D7A3', 16))

      >>> korPattern = re.compile(u'[\uAC00-\uD7A3]+', re.U)
      >>> t = u'[[프랑스]] [[파리 (프랑스)|파리]]'
      >>> for m in re.finditer(korPattern, t):        print m.group()
      ...
      프랑스
      파리
      프랑스
      파리
  • utf-8
    • >>> korPattern = re.compile('([\xE0-\xFF][\x80-\xFF][\x80-\xFF])+')
      >>> t = '[[프랑스]] [[파리 (프랑스)|파리]]'
      >>> for m in re.finditer(korPattern, t):        print m.group()
      ...
      프랑스
      파리
      프랑스
      파리
  • 참고


Comments