2006年11月06日 09:13
维克多·王的电脑的音箱中不断传出钢琴悦耳的音调,但这些音乐并非出自巴赫或利贝拉切之手,它其实是图片颜色的音调。听图片的声音并非王的消遣行为,而是他工作的主要方法。
现在在康奈尔大学攻读博士学位的王来自于香港,他在7岁时因为一场交通事故而失明,王说:“对于失明的人而言,他们的世界没有颜色。但我曾经能看见,所以我知道颜色是什么,但是我却不知道怎么才能让从没有看到过颜色的人明白什么是颜色。”他希望能开发出一种可以将图像转换为声音的新软件。
参与王的这项研究的还有同在电子与计算机工程系的本科生AnkurMoitra以及助研JamesFerwerda。将图像转换为声音的灵感来自于王在2004年的一个偶然试验,他当时正在读取地球上空大气的彩色气象图,这种被称为空间天气的研究可以对地球赤道上空的天气情况作出预测,为全球卫星定位系统和通讯卫星提供服务。空间天气图以海拔为纵轴,以时间为横轴,用不同的颜色表示密度。
作为研究人员,王需要知道的不仅仅是天气图的大体形状,他需要研究它的实时波动情况以及每个像素对应的的数字权值,这样他就可以建立一个与该图像相对应的数学模型。最初,这个小组尝试通过语音描述或用盲文打印等多种方法为王描述天气图,但这些方法所能达到的细致和精确程度都无法满足王的需要。Ferwerda回忆到:“最自然的方法就是利用声音,因为颜色与音调可以完全对应,音调可以紧随颜色变化。
2004年夏天,Moitra尝试用java语言编写把图像转换成声音程序,他在8月份完成了这项工作,这个程序可以将每个像素的颜色转换为不同的钢琴音调。
王用一张鹦鹉图片来测试这个软件,他用一个叫图形输入板的装置来替代鼠标,它由一块矩形平板和一个指示笔组成,可以把笔在该平板上所指示的位置转换成坐标数据。平板的左下角也就是屏幕的左下角。随着王移动指示笔,钢琴的声音也开始发出,在利用了所有钢琴键的基础上,可以将颜色分成88的等级,蓝色的音最低,红色的音最高。
这个软件还有将图像转换为语音的功能,可以根据不同坐标的点的颜色读出其权值。王说:“尽管这也可以让我知道每一点的权值,而且可以清楚地了解其变化梯度,但总是听着200.1、200.8、200.5等数字也很让人烦恼。”
但这种新的研究方法有一个很大的问题——“陆地与海洋”问题。王说:“我有时想知道哪里是陆地,哪里是海洋。”这其实就是寻找它们的分界线的问题,它对于像鹦鹉这类图片也同样重要,如何区分对象主体和背景,对王而言是个很困难的问题。王不断在图形输入板上反复移动指示笔,这一过程不但费时而且很容易出错。
为了解决这个问题,研究人员在一张预先打印好的图片上用盲人可以读出的点字法将主要边界标出,再把这张图片放到图形输入板上,这种方法结合了听觉和触觉两种感知方法。目前,研究人员正在开发能够有效识别重要边界的新软件,以便将边界打印出来。
Moitra说,另一个需要改进的地方就是识别过程不能有时间延迟,否则就会使王产生误解。而这一研究遇到的最主要的问题还是研究经费,最初的资金还是从其他一些小项目中拼凑出来的。现在ferwerda正准备申请美国国家科学基金,以便进一步研究帮助盲人科学家和工程师理解图像和其他技术资料的新方法。