유니코드 정규식
| 처음 | 끝 | 영어 | 한국어 |
|---|---|---|---|
| 0000 | 007F | Controls and Basic Latin | 제어 문자와 라틴 기본 |
| 0080 | 00FF | Controls and Latin-1 Supplement | 제어 문자와 라틴 보충 |
| 0100 | 017F | Latin Extended-A | 라틴 확장-A |
| 0180 | 024F | Latin Extended-B | 라틴 확장-B |
| 0250 | 02AF | IPA Extensions | 국제 음성 기호 확장 |
| 02B0 | 02FF | Spacing Modifier Letters | 조정 문자 |
| 0300 | 036F | Combining Diacritical Marks | 조합 분음 기호(악센트) |
| 0370 | 03FF | Greek and Coptic | 그리스어와 콥트어 |
| 0400 | 04FF | Cyrillic | 키릴 자모 |
| 0500 | 052F | Cyrillic Supplementary | 키릴 자모 보충 |
| 0530 | 058F | Armenian | 아르메니아어 |
| 0590 | 05FF | Hebrew | 히브리어 |
| 0600 | 06FF | Arabic | 아랍어 |
| 0700 | 074F | Syriac | 시리아어 |
| 0750 | 077F | Arabic Supplement | 아랍어 보충 |
| 0780 | 07BF | Thaana | 타아나어 |
| 07C0 | 07FF | N'Ko | 은코 |
| 0900 | 097F | Devanagari | 데바나가리어 |
| 0980 | 09FF | Bengali | 벵골어 |
| 0A00 | 0A7F | Gurmukhi | 굴묵키어 |
| 0A80 | 0AFF | Gujarati | 구자라트어 |
| 0B00 | 0B7F | Oriya | 오리야어 |
| 0B80 | 0BFF | Tamil | 타밀어 |
| 0C00 | 0C7F | Telugu | 텔루구어 |
| 0C80 | 0CFF | Kannada | 칸나다어 |
| 0D00 | 0D7F | Malayalam | 말라얄람어 |
| 0D80 | 0DFF | Sinhala | 신할라어 |
| 0E00 | 0E7F | Thai | 타이어 |
| 0E80 | 0EFF | Lao | 라오어 |
| 0F00 | 0FFF | Tibetan | 티베트어 |
| 1000 | 109F | Myanmar | 미얀마어 |
| 10A0 | 10FF | Georgian | 그루지야어 |
| 1100 | 11FF | Hangul Jamo | 한글 자모 |
| 1200 | 137F | Ethiopic | 에티오피아어 |
| 1380 | 139F | Ethiopic Supplement | 에티오피아어 보충 |
| 13A0 | 13FF | Cherokee | 체로키어 |
| 1400 | 167F | Unified Canadian Aboriginal Syllabics | 통합 캐나다 원주민 글자 마디 |
| 1680 | 169F | Ogham | 오검 문자 |
| 16A0 | 16FF | Runic | 룬 문자 |
| 1700 | 171F | Tagalog | 타갈로그어 |
| 1720 | 173F | Hanunoo | 하누누어 |
| 1740 | 175F | Buhid | 부히드어 |
| 1760 | 177F | Tagbanwa | 타그반와어 |
| 1780 | 17FF | Khmer | 크메르어(캄보디아어) |
| 1800 | 18AF | Mongolian | 몽골어 |
| 1900 | 194F | Limbu | 림부 |
| 1950 | 197F | Tai Le | 타이 레 문자 |
| 1980 | 19DF | New Tai Lue | 새 타이 루에 |
| 19E0 | 19FF | Khmer Symbols | 크메르 기호 |
| 1A00 | 1A1F | Buginese | 부기 문자 |
| 1B00 | 1B7F | Balinese | 발리 문자 |
| 1D00 | 1D7F | Phonetic Extensions | 음성 부호 확장 |
| 1D80 | 1DBF | Phonetic Extensions Supplement | 음성 부호 확장 보충 |
| 1DC0 | 1DFF | Combining Diacritical Marks Supplement | 조합 분음 부호(악센트) 보충 |
| 1E00 | 1EFF | Latin Extended Additional | 라틴어 추가 확장 |
| 1F00 | 1FFF | Greek Extended | 그리스어 확장 |
| 2000 | 206F | General Punctuation | 일반 구두점 |
| 2070 | 209F | Superscripts and Subscripts | 위 첨자와 아래 첨자 |
| 20A0 | 20CF | Currency Symbols | 화폐 기호 |
| 20D0 | 20FF | Combining Diacritical Marks for Symbols | 조합 분음 부호(기호) |
| 2100 | 214F | Letterlike Symbols | 글자를 변형한 기호 |
| 2150 | 218F | Number Forms | 여러 가지 수 |
| 2190 | 21FF | Arrows | 화살표 |
| 2200 | 22FF | Mathematical Operators | 수학 연산자 |
| 2300 | 23FF | Miscellaneous Technical | 여러 가지 기술 기호 |
| 2400 | 243F | Control Pictures | 제어 문자 기호 |
| 2440 | 245F | Optical Character Recognition | 문자 인식(OCR) 기호 |
| 2460 | 24FF | Enclosed Alphanumerics | 괄호 문자 |
| 2500 | 257F | Box Drawing | 상자 그리기 기호 |
| 2580 | 259F | Block Elements | 네모 기호 |
| 25A0 | 25FF | Geometric Shapes | 도형 기호 |
| 2600 | 26FF | Miscellaneous Symbols | 여러 가지 기호 |
| 2700 | 27BF | Dingbats | 딩뱃 기호 |
| 27C0 | 27EF | Miscellaneous Mathematical Symbols-A | 여러 가지 수학 기호-A |
| 27F0 | 27FF | Supplemental Arrows-A | 화살표 보충-A |
| 2800 | 28FF | Braille Patterns | 점자 |
| 2900 | 297F | Supplemental Arrows-B | 화살표 보충-B |
| 2980 | 29FF | Miscellaneous Mathematical Symbols-B | 여러 가지 수학 기호-B |
| 2A00 | 2AFF | Supplemental Mathematical Operators | 수학 연산자 보충 |
| 2B00 | 2BFF | Miscellaneous Symbols and Arrows | 여러 가지 기호와 화살표 |
| 2C00 | 2C5F | Glagolitic | 글라골리틱 문자 |
| 2C60 | 2C7F | Latin Extended-C | 라틴 확장-C |
| 2C80 | 2CFF | Coptic | 콥트어 |
| 2D00 | 2D2F | Georgian Supplement | 그루지야어 보충 |
| 2D30 | 2D7F | Tifinagh | 티피나그 |
| 2D80 | 2DDF | Ethiopic Extended | 에티오피아어 보충 |
| 2E00 | 2E7F | Supplemental Punctuation | 구두점 보충 |
| 2E80 | 2EFF | CJK Radicals Supplement | 한중일 부수 보충 |
| 2F00 | 2FDF | KangXi Radicals | 강희자전 부수 |
| 2FF0 | 2FFF | Ideographic Description characters | 한자 생김꼴 지시 부호 |
| 3000 | 303F | CJK Symbols and Punctuation | 한중일 기호 및 구두점 |
| 3040 | 309F | Hiragana | 히라가나 |
| 30A0 | 30FF | Katakana | 가타카나 |
| 3100 | 312F | Bopomofo | 주음 부호 |
| 3130 | 318F | Hangul Compatibility Jamo | 호환용 한글 자모 |
| 3190 | 319F | Kanbun | 훈독 순서 지시 부호 |
| 31A0 | 31BF | Bopomofo Extended | 주음 부호 확장 |
| 31C0 | 31EF | CJK Strokes | 한중일 한자 획 |
| 31F0 | 31FF | Katakana Phonetic Extensions | 가타카나 음성 확장 |
| 3200 | 32FF | Enclosed CJK Letters and Months | 한중일 괄호 문자 |
| 3300 | 33FF | CJK Compatibility | 한중일 호환용 |
| 3400 | 4DBF | CJK Unified Ideographs Extension A | 한중일 통합 한자 확장-A |
| 4DC0 | 4DFF | Yijing Hexagram Symbols | 역경 6줄 기호 |
| 4E00 | 9FBF | CJK Unified Ideographs | 한중일 통합 한자 |
| A000 | A48F | Yi Syllables | 이(Yi) 글자 마디 |
| A490 | A4CF | Yi Radicals | 이(Yi) 부수 |
| A700 | A71F | Modifier Tone Letters | 어조 조정 문자 |
| A720 | A7FF | Latin Extended-D | 라틴 확장-D |
| A800 | A82F | Syloti Nagri | 실헤티 나가리 |
| A840 | A87F | Phags-Pa | 파스파 문자 |
| AC00 | D7AF | Hangul Syllables | 한글 글자 마디 |
| D800 | DBFF | High Surrogate Area | 상위 대체 영역 |
| DC00 | DFFF | Low Surrogate Area | 하위 대체 영역 |
| E000 | F8FF | Private Use Area | 사용자 영역 |
| F900 | FAFF | CJK Compatibility Ideographs | 한중일 호환용 한자 |
| FB00 | FB4F | Alphabetic Presentation Forms | 영문 표현꼴 |
| FB50 | FDFF | Arabic Presentation Forms-A | 아랍어 표현꼴-A |
| FE00 | FE0F | Variation Selectors | 모양 구별 문자 |
| FE10 | FE1F | Vertical Forms | 세로쓰기 모양 |
| FE20 | FE2F | Combining Half Marks | 조합용 반쪽 기호 |
| FE30 | FE4F | CJK Compatibility Forms | 한중일 호환용 꼴 |
| FE50 | FE6F | Small Form Variants | 작은꼴 변형 |
| FE70 | FEFF | Arabic Presentation Forms-B | 아랍어 표현꼴-B |
| FF00 | FFEF | Halfwidth and Fullwidth Forms | 전각/반각 모양 |
| FFF0 | FFFF | Specials | 특수 제어 문자 |
| 10000 | 1007F | Linear B Syllabary | 선상 B 음절 문자 |
| 10080 | 100FF | Linear B Ideograms | 선상 B 상형 문자 |
| 10100 | 1013F | Aegean Numbers | 에게(Aegean) 숫자 |
| 10140 | 1018F | Ancient Greek Numbers | 옛 그리스 숫자 |
| 10300 | 1032F | Old Italic | 옛 이탈리아 문자 |
| 10330 | 1034F | Gothic | 옛 고딕체 알파벳 |
| 10380 | 1039F | Ugaritic | 우가리트 문자 |
| 103A0 | 103DF | Old Persian | 옛 페르시아 문자 |
| 10400 | 1044F | Deseret | 데저렛 문자 |
| 10450 | 1047F | Shavian | 샤우 문자 |
| 10480 | 104AF | Osmanya | 오스마니아 문자 |
| 10800 | 1083F | Cypriot Syllabary | 키프로스 음절 문자 |
| 10900 | 1091F | Phoenician | 페니키아 문자 |
| 10A00 | 10A5F | Kharoshthi | 카로슈티 |
| 12000 | 123FF | Cuneiform | 쐐기 문자 |
| 12400 | 1247F | Cuneiform Numbers and Punctuation | 쐐기 문자 숫자·문장 부호 |
| 1D000 | 1D0FF | Byzantine Musical Symbols | 비잔틴 시대의 악보용 기호 |
| 1D100 | 1D1FF | Musical Symbols | 악보용 기호 |
| 1D200 | 1D24F | Ancient Greek Musical Notation | 고대 그리스 시대의 악보용 기호 |
| 1D300 | 1D35F | Tai Xuan Jing Symbols | 태현경 기호 |
| 1D400 | 1D7FF | Mathematical Alphanumeric Symbols | 수학식에서 쓰이는 알파벳 |
| 20000 | 2A6DF | CJK Unified Ideographs Extension B | 한중일 통합 한자 확장-B |
| 2F800 | 2FA1F | CJK Compatibility Ideographs Supplement | 한중일 호환용 한자 보충 |
| E0000 | E007F | Tags | 태그 |
| E0100 | E01EF | Variation Selectors Supplement | 모양 구별 문자 보충 |
| F0000 | FFFFF | Supplementary Private Use Area-A | 사용자 영역 보충-A |
| 100000 | 10FFFF | Supplementary Private Use Area-B | 사용자 영역 보충-B |
\p{InBasic_Latin}: U+0000–U+007F
\p{InLatin-1_Supplement}: U+0080–U+00FF
\p{InLatin_Extended-A}: U+0100–U+017F
\p{InLatin_Extended-B}: U+0180–U+024F
\p{InIPA_Extensions}: U+0250–U+02AF
\p{InSpacing_Modifier_Letters}: U+02B0–U+02FF
\p{InCombining_Diacritical_Marks}: U+0300–U+036F
\p{InGreek_and_Coptic}: U+0370–U+03FF
\p{InCyrillic}: U+0400–U+04FF
\p{InCyrillic_Supplementary}: U+0500–U+052F
\p{InArmenian}: U+0530–U+058F
\p{InHebrew}: U+0590–U+05FF
\p{InArabic}: U+0600–U+06FF
\p{InSyriac}: U+0700–U+074F
\p{InThaana}: U+0780–U+07BF
\p{InDevanagari}: U+0900–U+097F
\p{InBengali}: U+0980–U+09FF
\p{InGurmukhi}: U+0A00–U+0A7F
\p{InGujarati}: U+0A80–U+0AFF
\p{InOriya}: U+0B00–U+0B7F
\p{InTamil}: U+0B80–U+0BFF
\p{InTelugu}: U+0C00–U+0C7F
\p{InKannada}: U+0C80–U+0CFF
\p{InMalayalam}: U+0D00–U+0D7F
\p{InSinhala}: U+0D80–U+0DFF
\p{InThai}: U+0E00–U+0E7F
\p{InLao}: U+0E80–U+0EFF
\p{InTibetan}: U+0F00–U+0FFF
\p{InMyanmar}: U+1000–U+109F
\p{InGeorgian}: U+10A0–U+10FF
\p{InHangul_Jamo}: U+1100–U+11FF
\p{InEthiopic}: U+1200–U+137F
\p{InCherokee}: U+13A0–U+13FF
\p{InUnified_Canadian_Aboriginal_Syllabics}: U+1400–U+167F
\p{InOgham}: U+1680–U+169F
\p{InRunic}: U+16A0–U+16FF
\p{InTagalog}: U+1700–U+171F
\p{InHanunoo}: U+1720–U+173F
\p{InBuhid}: U+1740–U+175F
\p{InTagbanwa}: U+1760–U+177F
\p{InKhmer}: U+1780–U+17FF
\p{InMongolian}: U+1800–U+18AF
\p{InLimbu}: U+1900–U+194F
\p{InTai_Le}: U+1950–U+197F
\p{InKhmer_Symbols}: U+19E0–U+19FF
\p{InPhonetic_Extensions}: U+1D00–U+1D7F
\p{InLatin_Extended_Additional}: U+1E00–U+1EFF
\p{InGreek_Extended}: U+1F00–U+1FFF
\p{InGeneral_Punctuation}: U+2000–U+206F
\p{InSuperscripts_and_Subscripts}: U+2070–U+209F
\p{InCurrency_Symbols}: U+20A0–U+20CF
\p{InCombining_Diacritical_Marks_for_Symbols}: U+20D0–U+20FF
\p{InLetterlike_Symbols}: U+2100–U+214F
\p{InNumber_Forms}: U+2150–U+218F
\p{InArrows}: U+2190–U+21FF
\p{InMathematical_Operators}: U+2200–U+22FF
\p{InMiscellaneous_Technical}: U+2300–U+23FF
\p{InControl_Pictures}: U+2400–U+243F
\p{InOptical_Character_Recognition}: U+2440–U+245F
\p{InEnclosed_Alphanumerics}: U+2460–U+24FF
\p{InBox_Drawing}: U+2500–U+257F
\p{InBlock_Elements}: U+2580–U+259F
\p{InGeometric_Shapes}: U+25A0–U+25FF
\p{InMiscellaneous_Symbols}: U+2600–U+26FF
\p{InDingbats}: U+2700–U+27BF
\p{InMiscellaneous_Mathematical_Symbols-A}: U+27C0–U+27EF
\p{InSupplemental_Arrows-A}: U+27F0–U+27FF
\p{InBraille_Patterns}: U+2800–U+28FF
\p{InSupplemental_Arrows-B}: U+2900–U+297F
\p{InMiscellaneous_Mathematical_Symbols-B}: U+2980–U+29FF
\p{InSupplemental_Mathematical_Operators}: U+2A00–U+2AFF
\p{InMiscellaneous_Symbols_and_Arrows}: U+2B00–U+2BFF
\p{InCJK_Radicals_Supplement}: U+2E80–U+2EFF
\p{InKangxi_Radicals}: U+2F00–U+2FDF
\p{InIdeographic_Description_Characters}: U+2FF0–U+2FFF
\p{InCJK_Symbols_and_Punctuation}: U+3000–U+303F
\p{InHiragana}: U+3040–U+309F
\p{InKatakana}: U+30A0–U+30FF
\p{InBopomofo}: U+3100–U+312F
\p{InHangul_Compatibility_Jamo}: U+3130–U+318F
\p{InKanbun}: U+3190–U+319F
\p{InBopomofo_Extended}: U+31A0–U+31BF
\p{InKatakana_Phonetic_Extensions}: U+31F0–U+31FF
\p{InEnclosed_CJK_Letters_and_Months}: U+3200–U+32FF
\p{InCJK_Compatibility}: U+3300–U+33FF
\p{InCJK_Unified_Ideographs_Extension_A}: U+3400–U+4DBF
\p{InYijing_Hexagram_Symbols}: U+4DC0–U+4DFF
\p{InCJK_Unified_Ideographs}: U+4E00–U+9FFF
\p{InYi_Syllables}: U+A000–U+A48F
\p{InYi_Radicals}: U+A490–U+A4CF
\p{InHangul_Syllables}: U+AC00–U+D7AF
\p{InHigh_Surrogates}: U+D800–U+DB7F
\p{InHigh_Private_Use_Surrogates}: U+DB80–U+DBFF
\p{InLow_Surrogates}: U+DC00–U+DFFF
\p{InPrivate_Use_Area}: U+E000–U+F8FF
\p{InCJK_Compatibility_Ideographs}: U+F900–U+FAFF
\p{InAlphabetic_Presentation_Forms}: U+FB00–U+FB4F
\p{InArabic_Presentation_Forms-A}: U+FB50–U+FDFF
\p{InVariation_Selectors}: U+FE00–U+FE0F
\p{InCombining_Half_Marks}: U+FE20–U+FE2F
\p{InCJK_Compatibility_Forms}: U+FE30–U+FE4F
\p{InSmall_Form_Variants}: U+FE50–U+FE6F
\p{InArabic_Presentation_Forms-B}: U+FE70–U+FEFF
\p{InHalfwidth_and_Fullwidth_Forms}: U+FF00–U+FFEF
\p{InSpecials}: U+FFF0–U+FFFF
자료:
http://www.mins01.com/mh/tech/read/582?tq=title&q=%EC%9C%A0%EB%8B%88%EC%BD%94%EB%93%9C
https://www.regular-expressions.info/unicode.html