中文姓名正则表达式校验-进城务工人员小梅

对中文姓名进行合法性校验时，需要支持所有GB18030中涉及到的汉字（包括生僻字），并支持部分少数民族姓名中可能带有的分隔符点（·），如“买买提·卡尔·马克思”。

目前，国家标准GB18030-2005《信息技术中文编码字符集》是我国继GB2312-1980和GB13000-1993之后最重要的汉字编码标准，是我国计算机系统必须遵循的基础性标准之一，其中包含了多种我国少数民族文字（如藏、蒙古、傣、彝、朝鲜、维吾尔文等），收录汉字7000余个，可以说GB18030是包含汉字最全的字符集。GB18030的编码采用单字节、双字节和四字节方案。其中，单字节、双字节和GBK是完全兼容的；四字节编码的CodePoint则是收录了CJK扩展A的6582个汉字。

Unicode是全球文字统一编码，它将世界上的各种文字的每一个字符指定唯一编码，实现跨语种、跨平台的应用。由于中文字符数量巨大，日常使用的汉字数量有数千个，再加上生僻字，数量达到数万个，在参考资料中给出了汉字Unicode的编码范围：

字符集	字数	Unicode 编码
基本汉字	20902字	4E00-9FA5
基本汉字补充	74字	9FA6-9FEF
扩展A	6582字	3400-4DB5
扩展B	42711字	20000-2A6D6
扩展C	4149字	2A700-2B734
扩展D	222字	2B740-2B81D
扩展E	5762字	2B820-2CEA1
扩展F	7473字	2CEB0-2EBE0
康熙部首	214字	2F00-2FD5
部首扩展	115字	2E80-2EF3
兼容汉字	477字	F900-FAD9
兼容扩展	542字	2F800-2FA1D
PUA(GBK)部件	81字	E815-E86F
部件扩展	452字	E400-E5E8
PUA增补	207字	E600-E6CF
汉字笔画	36字	31C0-31E3
汉字结构	12字	2FF0-2FFB
汉语注音	43字	3105-312F
注音扩展	22字	31A0-31BA
〇	1字	3007

绝大多数情况下，我们只需要考虑常用汉字，即4E00-9FA5的范围，因此可以直接使用如下的正则表达式（PCRE，Perl Compatible Regular Expressions）：

^[\\u4E00-\\u9FA5][\\u4E00-\\u9FA5|·]*[\\u4E00-\\u9FA5]$

1	^[\\u4E00-\\u9FA5][\\u4E00-\\u9FA5\|·]*[\\u4E00-\\u9FA5]$

该正则表达式即以常用汉字开头、中间包含任意个分隔符（·）或常用汉字、最后以常用汉字结尾，绝大多数情况下够用了。

参考资料：
1、https://www.qqxiuzi.cn/zh/hanzi-unicode-bianma.php

转载时请保留出处，违法转载追究到底：进城务工人员小梅 » 中文姓名正则表达式校验

中文姓名正则表达式校验

相关推荐

评论抢沙发

相关推荐

评论 抢沙发

评论抢沙发