对中文姓名进行合法性校验时,需要支持所有GB18030中涉及到的汉字(包括生僻字),并支持部分少数民族姓名中可能带有的分隔符点(·),如“买买提·卡尔·马克思”。
目前,国家标准GB18030-2005《信息技术中文编码字符集》是我国继GB2312-1980和GB13000-1993之后最重要的汉字编码标准,是我国计算机系统必须遵循的基础性标准之一,其中包含了多种我国少数民族文字(如藏、蒙古、傣、彝、朝鲜、维吾尔文等),收录汉字7000余个,可以说GB18030是包含汉字最全的字符集。GB18030的编码采用单字节、双字节和四字节方案。其中,单字节、双字节和GBK是完全兼容的;四字节编码的CodePoint则是收录了CJK扩展A的6582个汉字。
Unicode是全球文字统一编码,它将世界上的各种文字的每一个字符指定唯一编码,实现跨语种、跨平台的应用。由于中文字符数量巨大,日常使用的汉字数量有数千个,再加上生僻字,数量达到数万个,在参考资料中给出了汉字Unicode的编码范围:
字符集 | 字数 | Unicode 编码 |
基本汉字 | 20902字 | 4E00-9FA5 |
基本汉字补充 | 74字 | 9FA6-9FEF |
扩展A | 6582字 | 3400-4DB5 |
扩展B | 42711字 | 20000-2A6D6 |
扩展C | 4149字 | 2A700-2B734 |
扩展D | 222字 | 2B740-2B81D |
扩展E | 5762字 | 2B820-2CEA1 |
扩展F | 7473字 | 2CEB0-2EBE0 |
康熙部首 | 214字 | 2F00-2FD5 |
部首扩展 | 115字 | 2E80-2EF3 |
兼容汉字 | 477字 | F900-FAD9 |
兼容扩展 | 542字 | 2F800-2FA1D |
PUA(GBK)部件 | 81字 | E815-E86F |
部件扩展 | 452字 | E400-E5E8 |
PUA增补 | 207字 | E600-E6CF |
汉字笔画 | 36字 | 31C0-31E3 |
汉字结构 | 12字 | 2FF0-2FFB |
汉语注音 | 43字 | 3105-312F |
注音扩展 | 22字 | 31A0-31BA |
〇 | 1字 | 3007 |
绝大多数情况下,我们只需要考虑常用汉字,即4E00-9FA5的范围,因此可以直接使用如下的正则表达式(PCRE,Perl Compatible Regular Expressions):
1 |
^[\\u4E00-\\u9FA5][\\u4E00-\\u9FA5|·]*[\\u4E00-\\u9FA5]$ |
该正则表达式即以常用汉字开头、中间包含任意个分隔符(·)或常用汉字、最后以常用汉字结尾,绝大多数情况下够用了。
参考资料:
1、https://www.qqxiuzi.cn/zh/hanzi-unicode-bianma.php
转载时请保留出处,违法转载追究到底:进城务工人员小梅 » 中文姓名正则表达式校验