文字 wn-ziz

1) 简介

用英文字符表示汉字的可行性研究

有没有一种方案,以最少的码位准确表示汉字?

简单分析 a - z 排列组合:

1 位,26 个码位

2 位,26*26=676 个码位

3 位,26*26*26=17576 个码位

如果表示《通用规范汉字表》8105个汉字,最少需要 3 个码位

即使是表示一级字表的 3500 个常用汉字,也需要至少 3 个码位

结论:小于 3 位是不可能实现准确表示汉字的

我们的实现方式?



采用动态编码长度 实现,按照 字频 将最常用的汉字以最少码位表示

如:汉字最常用的 "的" 字,就没必要非得使用 3 位编码表示,仅使用 1 位编码表示即可。

《一、二级简码》

(一)1 位编码(表示最常用字)

理论码位:26 个

实际使用:26 个码位(对应 26 个英文字符)

利用率:100%

(二)2 位编码(表示次常用字)

理论码位:26*26=676 个

实际使用(音节):406 个码位(对应 406 个汉字音节)

利用率:60.06%(剩余码位备用)

《三级简码》

3 位编码形式

理论码位:26*26*26=17576 个

实际使用:6000 余个

# 详细规则可参考:《构字规则》

为什么这样设计?

理论依据:汉字使用的覆盖率

从汉字使用情况来看,高频字数量稳定,2005年、2006年、2007年覆盖率达到80%的字种数分别是581、591、595。

达到90%的字种数分别是943、958、964。

达到99%的字种数分别是2314、2377、2394。

2) 核心思想

双拼、字频、声调分组、借音位、符号位


3) 表字范围

《通用规范汉字表》8105个汉字以及少量表外汉字

词条数:8110 查看字表

另有极少使用的表外字表示法可参考:《构字规则》《五级编码》部分

4) 编码查询工具

本站提供汉字编码在线查询功能 点击查字

5) 码表下载

码表为 txt 格式,点击打开后,右键保存即可

一级简码 / 二级简码 / 二级简码(扩展)

三级简码 / 四级编码