본문 바로가기

유니코드2

(자바) Surrogate Pair에 대해 정규식 검사가 되지 않는 버그 2021.07.27 - [IT/개발] - 유니코드를 활용한 개발 일지 유니코드를 활용한 개발 일지 유니코드라는 단어는 많이들 들어봤지만 실제로 어떻게 사용되고 있고 어떤 존재인지 자세히 아는 경우는 드물다. (사실 내가 그랬다.) 현재 데이터를 다루는 일을 하고 있다보니까 문자열을 다 ggtan.tistory.com 위 글에서 나타났던 원인을 드디어 발견했다! 환경에 따라 Supplementary Character에 대해 replaceAll()이 수행이 되지 않는 경우가 존재해서 계속 원인이 무엇일까 하며 JDK 별 / 버전 별 자바 구현체 코드를 뜯어보았다. 뜯어본 JDK는 Oracle, OpenJDK - 8/11/16이며 정확히 16버전에서 자바 정규식 검사를 위한 Pattern 클래스 내 사소한 변.. 2021. 8. 5.
유니코드를 활용한 개발 일지 유니코드라는 단어는 많이들 들어봤지만 실제로 어떻게 사용되고 있고 어떤 존재인지 자세히 아는 경우는 드물다. (사실 내가 그랬다.) 현재 데이터를 다루는 일을 하고 있다보니까 문자열을 다루게 되는 경우가 많은데 이번에 내가 맞닥뜨린 경우는 바로 이모지 😀😀😀 사실 우리가 입력하는 모든 문자열들, 심지어는 널문자와 개행 문자들은 구분되기 위해 각자의 고유 번호가 존재하는데 이를 '유니코드'라고 한다. 이러한 유니코드는 과거에는 U+0000 ~ U+FFFF (앞에 U+를 접두로 유니코드임을 나타낸다)의 범위였지만 구분되어야하는 새로운 문자들이 등장함에 따라 현재는 U+10FFFF까지 존재하게 되었다. (참고: https://unicode-table.com/en/blocks/) U+0000 ~ U+FFFF의 .. 2021. 7. 27.
반응형