字符编码

Unicode介绍

http://utf8everywhere.org/

gbk和unicode转换码表

http://www.herongyang.com/gb2312/unicode_gb2312.html
http://www.cnitblog.com/wujian-IT/archive/2007/12/13/37671.html
http://pan.baidu.com/share/link?shareid=2253699327&uk=2986367675

另外,我也想提两点意见,吴兄可以看看。
一是,渣渣的猪窝那个字符表有点大,尤其是对于我们嵌入式设备。所以,我用java生成了一个字符表,大概7445条映射,基本包含了目前的常用中文字符,做成静态数组,占内存空间大概29k.可以大大节省设备空间。也可以降低查找时间。
二就在算法做些优化,利用HASH表和二分查找结合的方法。取unicode高8位的值作为HASH的键值,这样,一个键下管理256条映射。再使用二分查找,算法复杂度为 O(log256)=8。这样会在算法上又得到了很好的优化。HASH占用1K的内存。