您好,欢迎浏览国际汉语教育网 各地教学中心

名家观点

孙茂松:计算语言学角度的语言资源开发
发布时间:2008/12/29
主持人:下面是来宾发言,先请孙茂松发言。 
  孙茂松:首先非常高兴参加咱们这个讨论会,我觉得商务印书馆有百余年的历史,一直在引领我们国家文字的潮流,今天这件事我觉得也非常好,很荣幸可以参与这个活动。 
  我想和计算机结合还是应该大有可为的,我想了几个具体事情。 
  一个比如说今天的搜索引擎是打一个词给出很多文章,但语言文字工作的改革不一定很方便,因为没有一个汇总能力,我原来做过一个软件,比如说我对这一千个词感兴趣,你有一个表可以把这一千个词放进去,这个软件把这一千个词自动交给百度或者谷歌然后去查,它可能去查,谷歌可以查999页所有页面全自动抓下来,再点进去,点到那篇文章,再把相关例句找出来,看跟这个相关的词到底有多少。另外还可以考察跟这个词可能的搭配,把所有可能搭配的分布是怎么样的找出来。这个东西好处就是省了人力,要不然一千个词你要每个词打到搜索引擎,每个词看999页,把所有的文档下下来,这个事其实计算机一个晚上就做出来了,我觉得是发挥了计算机和语言的双重功能。 
  我现在去查一个词它给出的结果,我发现有些文章是非常严肃的文章,还有很多文章都是80后、90后的文章,我们看起来很挠头。如果做一个文体的自动分类的程序,分一分,这种软件也是可能做出来的。包括哪些是文学色彩更浓的文章,哪些是比较口语化的文章,都是可能的。 
  再有一个跟双语相关的,比如术语。清华同方把期刊库所有的文章,那是国内最大的,很多科技工作者或者老百姓到数据库里不知道怎么翻成英文,这种专家又很难找。同方做了一个自动计算机双语比对,最后的结果是你给任何一个术语,它就给一个比较贴合的英文翻译,非常有用,每天点击量有上百万。 
  再有一个比如视频检索,我做过一个简单的东西,就是打一个北京话盖了帽了,很多外国人不知道什么意思。有的有字幕,如果通过技术把字幕标出来,应用视频的镜头检测技术,可以把相关的片断弄成一个数据。如果视频是广东话的普通话,或者京味的普通话,可以做很多事。 
  还有比如娱乐,微软做过一个东西相当好,它给你识选,有些对你不太好,但是往往有一些奇思妙想,机器想到,人反而想不到,如果有这么个机器人肯定可以赛过大师。我在清华上研究课,我的学生每个人都做一个系统,做出五花八样,最后产生的句子很有意思。还有古诗中词和词的关联如果挖掘出来也很有意思。 
  再有一个我们张轴材老师,他做了一个篆刻的,随便给四个字或几个字,它自动可以出现一个刻章。还有一个填字游戏也很有趣,比如我搞的成语你就可以做成语填字,还可以按等级划分。很多好玩的东西都可能和市场有潜在的联系。这里面还会有很多问题,比如有机制的问题,包括技术和语言工作的确保结合的问题。 
  我简单就说这么多,谢谢大家。