按拼音排序的小技巧

sibenx · · 7358 次点击 · · 开始浏览

这是一个创建于的文章，其中的信息可能已经有所发展或是发生改变。

说到按中文拼音排序，很多人就想到了通过『拼音字典』的相关库来实现。随便在github搜索一下拼音发现库确实挺多的，不过实现成本都有点高。再搜索拼音排序还真有，我简单的看了下，实现方式五花八门。

今天分享一个按拼音排序的小技巧，与语言无关，但是用PHP实现最简单就用PHP做演示。

$province_arr = ['山东','山西','安徽','北京','福建','甘肃','广东','贵州'];

usort($province_arr,function($a,$b){
    $a = iconv('UTF-8', 'GBK//IGNORE', $a);
    $b = iconv('UTF-8', 'GBK//IGNORE', $b);
    return $a>$b?1:-1;
});
print_r($province_arr);
/**结果如下
Array
(
    [0] => 安徽
    [1] => 北京
    [2] => 福建
    [3] => 甘肃
    [4] => 广东
    [5] => 贵州
    [6] => 山东
    [7] => 山西
)
**/

不算闭包函数的话一行代码就实现了『将汉字用拼音排序』的功能，当然这段代码有一点缺陷就是数组中的每一行数据都执行了两次iconv() 函数，这是可以优化的。另一点就是扩展性不足，遇到英文开头的字符串时需要做特殊处理。除此之外相当给力的一种方法，下面说说他排序的原理。

GBK编码，是对GB2312编码的扩展，因此完全兼容GB2312-80标准。GBK编码依然采用双字节编码方案，其编码范围：8140－FEFE，剔除xx7F码位，共23940个码位。共收录汉字和图形符号21886个，其中汉字（包括部首和构件）21003个，图形符号883个。GBK编码支持国际标准ISO/IEC10646-1和国家标准GB13000-1中的全部中日韩汉字，并包含了BIG5编码中的所有汉字。GBK编码方案于1995年12月15日正式发布，这一版的GBK规范为1.0版。更新介绍

上面一段是GBK编码的简介，要是认真看GBK编码的介绍的话会发现一个很有意思的事情。