用英文字符表示汉字的可行性研究
有没有一种方案,以最少的码位准确表示汉字?
简单分析 a - z 排列组合:
1 位,26 个码位
2 位,26*26=676 个码位
3 位,26*26*26=17576 个码位
如果表示《通用规范汉字表》8105个汉字,最少需要 3 个码位
即使是表示一级字表的 3500 个常用汉字,也需要至少 3 个码位
结论:小于 3 位是不可能实现准确表示汉字的
我们的实现方式?
采用动态编码长度 实现,按照 字频 将最常用的汉字以最少码位表示
如:汉字最常用的 "的" 字,就没必要非得使用 3 位编码表示,仅使用 1 位编码表示即可。
《一、二级简码》
(一)1 位编码(表示最常用字)
理论码位:26 个
实际使用:26 个码位(对应 26 个英文字符)
利用率:100%
(二)2 位编码(表示次常用字)
理论码位:26*26=676 个
实际使用(音节):406 个码位(对应 406 个汉字音节)
利用率:60.06%(剩余码位备用)
《三级简码》
3 位编码形式
理论码位:26*26*26=17576 个
实际使用:6000 余个
# 详细规则可参考:《构字规则》
为什么这样设计?
理论依据:汉字使用的覆盖率
从汉字使用情况来看,高频字数量稳定,2005年、2006年、2007年覆盖率达到80%的字种数分别是581、591、595。
达到90%的字种数分别是943、958、964。
达到99%的字种数分别是2314、2377、2394。