近日抽空拜读了google senior researcher吴军的大作《数学之美》,其实在很早的时候耳闻了这本书,直到最近才有幸一读,果然受益匪浅。吴军不愧是语言信息处理方面的大家,对该领域的渊源、关键问题、方法论以及工程技术都有很独到的理解。通过这本书,让我了解到语言信息处理的一些方法。在没有阅读这本书的之前,我也一直想当然的认为语言处理需要让机器像人脑一样对语言进行分析,即所谓的规则分析 (鸟飞派)。现在我才明白,语言信息处理和通信技术领域的数据接收端是何其的相似!计算机无论通过何种方式接收到语言信息(语音、文本),其主要目的就是对其进行解码,任何接收到的信息都含有大量的噪声,那么计算机最主要的目标就是对其进行纠错解码。而通信领域常用的解码方法也是基于概率论的统计方法,例如最大释然译码。语言信息的分析处理也就演变成了基于概率论的统计方法。目前基于统计的语言信息处理是主流,无论是翻译、分词还是上下文分析都大量应用了概率论。书中提到了一些方法的数学模型,阐述了数学之美。

 
实际上,我们的很多技术领域都大量应用了数学方法,处处能体会到数学的威力和美丽。在通信领域,大家都深有体会,数据的编解码、数据的解压缩、信息的调制解调都和数学息息相关。从模拟通信开始,我们就有大量的模型去描述通信系统,到目前的CDMA、LTE技术都完全归功于数字信号处理的发展。OFDM促使4G技术的发展,让我们切身体会到了数学的魅力,使得我们无线通信的带宽向100Mbps迈进,高效的利用了无线带宽资源。在测试测量领域,到处都有数学的身影。信号的滤波、微弱信号的提取、频谱的分析、数据的拟合都离不开强大的数学工具。目前,测试测量仪器正在向软件化的方向发展,其根本原因就在于数字信号处理的推动作用,我们可以采用基于信号处理的计算机方法可以很好的得到测量结果,从而简化了仪器硬件,使得测试测量仪器具有更强的灵活性和可重用性。在我现在从事的网络存储领域,依然离不开数学方法,文件系统中的快速查找树,磁盘数据的冗余编码,这些都需要数学方法的支撑。例如,最近我们发现,传统的RAID6方法和日益增长的磁盘容量存在矛盾,RAID6很难满足现代存储的可靠性需求,存储数据面临丢失的危险。传统RAID6采用了RS编码算法,其可以很好的转换成查表和异或运算,不会大幅度降低IO性能。为了容忍更多磁盘损坏,我们需要引入更好的数据编码方法来替代RAID的PQ校验算法,这就需要更好的数学理论支撑。
 
由此可见,数学是科学技术的基础,数学是现代技术发展的驱动力之一。