蛮干的科学

台湾大法弟子


【正见网2001年08月12日】

觉得科学有一种蛮干的精神。就好像几个世纪前不是有一位学者说:“只要给我一根够长的棍子跟一个支点,我就可以撑起地球”。科学好像只要发现了一点什么或是找到了一点什么工具,就可以拚了命的地往下钻,往下做。

我的实验室是在做语音讯号处理的研究,最主要是语音辨识。语音辨识简单地说就是要让机器(或电脑)听得懂你讲的话。这个研究除了在人这儿之外,在所有其他空间的生命可能都会感到啼笑皆非吧。《转法轮》里就讲了:“不只是人、动物,还有植物都有生命,在另外空间里任何物质都会体现出生命来。当你的天目开到法眼通层次的时候,你发现石头、墙,什么东西都会跟你说话,打招呼”。那既然物质本来就听得懂你说的话,为什么还要想尽办法造一个机器来“听人说话”呢?

语音辨识的过程是这样的:首先把人讲话的声音讯号取样,做傅利叶转换,经过一个精心设计的滤波器之后,取得一组特徵参数,然后把这组特徵参数与资料库中已存有的大量的人的声音资料做比对,因为资料库中的声音讯号是已知发什么音的,所以对比出来最接近的那个声音就是要辨识的答案了。

首先把声音取样的过程就是把事情极度复杂化的过程。以取样频率48kHz来算,5秒钟的声音就会被取样成240,000个数字,这么多的数字当然也只有电脑看得懂了。把声音变成了人无法掌握的形式之后,又拚命地想出各种方法去处理它--去除背景杂音,语者辨识,建立人的声道模型等。真是用尽最高深的数学在解这个问题了,即使如此到最后还是得算机率--这段声音是那个答案的可能性最大,所以辨识的结果是--你讲的是这个音,可能是这个字。如果在限定领域的条件下做语音辨识的话,正确率大概在70%到90%之间。什么是限定领域?就是你讲话的内容只能限定在某个范围(如体育)之内,超出这个范围(如你聊到了政治)--辨识成功率就直直落了。

第一步的取样可以说是错误的开始--把5秒钟的声音变成24万个数字,然后发现实在是太棘手了,无法处理,于是套上滤波器,做傅利叶转换,把讯号由TIME DOMAIN转到FREQUENCY DOMAIN来处理,即便如此,讯号还是太复杂,怎么办?再取特徵参数,把讯号节省到剩下42个参数,终于到了可以处理的程度了,开始跟资料库里的资料比对。因为资讯失去太多,所以只能开始算机率--这个音是那个音的机率最大、这个音不太可能是那个音。算完之后发现结果还是不行,再套上语言模型,终于把辨识率拉到可以接受的程度。

别说这是愚公移山,这应该用“蛮干”两个字来形容才对。要达成这个目的怎么会用这么笨的方法?因为这是科学所能提供的最“聪明”的方法了。科学既提供不了更好的办法,科学家们就只好用笨方法,蛮干下去了。

狗儿不用训练都知道主人的喜怒哀乐,植物有他心通,人怎么会想到反过来要电晶体来“听懂”人讲的话?

添加新评论