主题:
字号:
16
行距:
2.0

第三千一百零八章 统一码大会[2 / 3]

达十三万之多,而且还在继续增长,而世界范围内其余字符,加起来也就亚洲表意区间字符集的一个零头,因此自然要以中文为主。

虽然周至是瀚文大字库的主导者和设计者,但是四叶草派出的演讲代表,却是麦小苗。

用周至的话说,自己搞出来瀚文大字库,只代表着过去,而麦小苗基于瀚文大字库上搞出来的搜索引擎,以及驱动引擎的非线性匹配算法,才真正代表着未来。

麦小苗演讲的题目叫做《汉语在未来信息世界里的重要性》。

“作为最古老的象形文字,汉语有一项对于信息技术来讲最神奇的特性,那就是它的单位信息量。”

“以《联合国宪章》为例,中文版的《联合国宪章》有26650个字符,而英文版则需要55600个字符,在排版统一的情况下,中文文件的厚度一般只有英文等字母形语言的一半。”

“因此作为书面文字,汉字是这个星球上最高效,信息密度最高的文字。”

“究其根本原因,是因为字母形文字是‘一维’的,只代表了声音,而汉字是二维的,不仅仅代表声音,还封装了海量的信息。”

“这种信息还可以自由组合,用极简的方式完成派生词的产生。”

“比如国际化这个词,用英文表述需要二十个字符,用中文只需要三个字符,换成信息技术的表述,英文需要二十比特,而中文只需要六比特。”

“根据香农信息熵的研究,字符的信息熵为4比特,而汉字的信息熵为9.65比特,也就是说,在以计算机技术为主的信息世界里,中文可以比其余文字,以更小容量的信息载体,更快的速度,记录和传播更大的信息量。”

“比如中文的舅舅一词,只有四个比特,而要用英文来准确瞄准,则需要以‘妈妈的哥哥’来表示,中文词汇在这里还包含了血缘,辈分,性别三个维度的信息量,这是声音记录类字符型文字所无法表达的。”

“除了记录的效率,还有读取的效率。”麦小苗在台上侃侃而谈:“中国有个成语叫做‘一目十行’,意思就是中文信息的读取可以是面积式的,图形化的。”

“四叶草实验室做过一个有趣的实验,那就是将固定中文词汇的排列顺序予以打乱,然后制作出文本交给

本章未完,请点击下一页继续阅读!

盛唐:刘建军今天要干嘛
上官麻子
天可汗回忆录
七星肥熊
都市仙尊洛尘张小曼
洛书
开局诡秘天赋,焚尸就能变强秦河徐长寿
夜天南
被赶出娘家当天,我和首富闪婚了
司七月
穿成国公府庶子考科举
周树森
风水之王吴劫李通玄
紫梦游龙
大小姐来自地狱,夜夜有鬼来敲门
汤粉
我在九叔世界做大佬
隐语不言
都市仙尊
洛书
好感度天赋弱?女鬼抢着送提示
燕雀蜂蝶
重回高三,这一次我全都要
一砚青墨
官场:重生后我权势滔天
血染军刀
我以狐仙镇百鬼
紫梦游龙
重生:本统子教宿主当老六
不干饭会饿
龙渊剑神
夜辰寒
赌石浮沉路
饕餮贪熊
我只是抢个机缘,怎么成天命之子
天上云
综影视炮灰也要美丽
山海明月
赌石,人生
饕餮贪熊
诡三国
马月猴年
柯学世界里的柯研人
入夜眠
假千金还在演?我上交国家惊艳全球
冰梨崽崽
仙侠:户房小吏的日常
年初
穿越逃荒∶全家能进空间还怕啥
水曜
快穿:为我着迷吧
鲜花饼超难吃
太子爷落魄流放,小厨娘随行娇养他!
胖桐
假千金觉醒断亲,满城大佬叫祖宗
烧鸡
废柴修真记洛尘张小曼
洛书
咱家时代贼寇,你小子考上状元了
日更过万
重回八零离婚后,铁血京少步步诱宠
心墨
万古第一废材陆仁
爱哭的小十七
大明烟火
阳光下写字
选岗乡镇被分手,我转身空降当领导
北冥有狼
活人深处
穿黄衣的阿肥
霸总前夫求复婚
明婳
我的歌星女友超凶猛叶知秋虞采薇
连衣
炼气家族,我有一个造化空间
金火旺甲木
备孕七年,原来是邱总他不能生
大麦
怀孕七月被你弃,嫁大佬显怀了你没释怀
一只快要搁浅的鱼
江小姐二婚高嫁,渣前夫他失控了
可乐红酒
长生:让你延续香火,没让你量产仙帝!
长生第一人
综穿之素瑶
一叶桃华
法兰西之父
青山铁杉
华夏武道第一人
麤三
玄门都领袖我在两界当祖师
季时茫然
文娱2000:捧女明星百倍返利
东山剑
3366洛尘
洛书
张小曼洛尘
洛书
厨娘带崽,侯府满门跪求我留下
谭醋鱼