解码是一种从抽象(文字/数字/代码) 中联想/复现实物的过程:解码的过程与编码相反,但遵循着相同的一一对应关系,比如,从刚才提到的「102 36690」中得到「某种黄色芭蕉科植物味道不错」这一表述的过程,就是一种解码的过程。实际上,用数字替代文字,正是在电报、通讯和IT技术中心广泛使用的编码方式。常用汉字大约不超过1万,意味着用一个四位的数字可以对前述汉字一一进行命名或者编码,比如命名为0001,0002……9999。
一本《史记》约有52万字的中文,那么这样一本书可以被52万*4=208万位数字替代,或者说,整本书可以被编码为208万个阿拉伯数字;如果采用2进制算法,基本上可以换算为800万比特,对应为一个容量为1MB的电脑文档(由于实际常用字只有2000-3000个,同时考虑到二进制与十进制的计数差异,以及可以通过上下文的相关性进一步提高编码效率,整个文档的容量可以缩减到约为300KB大小;不过这部分内容超过了本文的范围,暂不赘述)。
为什么需要将汉字编码为数字,又为什么要采用二进制(而不是十进制或者十六进制)来记录呢?这很大程度上是因为:「二分法」是最小的分类单位——任何一种需要用到分类或者计算的场景,都至少具备一个以上的可能性(如果只有一个可能性/只有一种备选状态,则没有分类或者计数的必要),且都可以用二分法或者二分法的变种来计数或者进行分类;也就是说,二进制具备可分类/可编码的普适性——几乎所有的信息都可以转换为二进制编码;大量的自然现象以及思维方法,都可以借用「有或无」、「高或低」、「正或反」、「长或短」、「真或假」的观念;因而二进制在电路、传感器等层面具备普遍的可运算性——基于二进制的传感、运算、存储和通讯传输具备良好且广泛的物理基础。
让我们对这部分内容做一个归纳:所有的语言「包括数学」都是一种编解码算法。通过语言把头脑中的意向表达出来,实际上就是用语言将大脑中的信息进行了一次编码,形成了一串文字或者数字。懂得这种语言「或者说这种编码方式」的接收方就能够使用这种语言进行解码,然后获取到里面的信息。基于二进制的良好属性,可以将几乎所有的信息转换为二进制进行编码、运算和传输。
在数字通讯系统中传输的内容,是以二进制形式存在的、对可直接被人类感受到的信息形式(文字、语音、图像、视频、气味、触感等)进行的抽象/编码。比如,一个300KB或者1MB的文档,里面可能包含着250万或800万位的二进制字符,是对一本52万汉字的《史记》进行编码的结果。信息/数据的无线传输原理正如声音的传输需要介质,信息的传输也需要载体。