







一、汉语国际教育技术研发中心发展历程
1987年,吕必松校长与著名人工智能专家马希文教授,慧眼独具地在我校创办了全国第一个语言信息处理研究机构:北京语言大学语言信息处理研究所,马希文教授亲自担任所长,拉开了我校信息科学发展的序幕。
二十余载弹指一挥间,在历届校领导的大力支持下,研究所取得了巨大发展,衍生出包括信息科学学院在内的一批科研教学机构。2009年,为了扩展我校在汉语国际教育技术领域的科研实力,学校决定在语言信息处理研究所基础上创建汉语国际教育技术研发中心,由所长宋柔教授担任主任,荀恩东教授担任副主任,将我校语言信息处理和汉语国际教育两个优势学科紧密相连,立足北语,服务国家汉语国际教育发展,着力突破制约汉语国际教育发展的关键技术,提高汉语国际教育发展中的技术贡献率,在国内外引领汉语国际教育的技术发展。从此,我校教育信息化和教育技术发展驶入快车道。
中心所属网站(nlp.blcu.edu.cn)上,常年维护有十余种汉语教学在线软件和演示系统,并提供多种软件工具和资源的开放式下载,成为研发中心对外宣传、展示的窗口。据统计,网站运行之初的一年时间里,累计访问量达到几十万次,累计下载量超过一万次,受到国内外几十家研究单位的关注。至今为止,访问研发中心网站的有来自北京大学、华中师范大学、暨南大学、墨西哥城华夏孔子学院、普吉孔子学院、日本早稻田大学、新加坡南洋理工大学、德国卡尔斯鲁厄大学、IBM、微软亚洲研究院等数十家海内外高校和研究机构。
研发中心成立伊始就确立了自己的发展目标,提出“一个核心任务,两个优势,三个技术突破方向”的总体发展思路,即坚持以发展语言教育技术为核心任务,依托学校已经具备的资源优势、技术优势,大力发展汉语词语计算技术、汉语字形计算技术以及汉语计算机辅助教育技术。围绕发展目标,研发中心在成立短短几年时间里,培养和催生了三个研究组,互为补充,有机结合,探索出一条在文科学校开展信息技术研究和开发的可行道路。
一个核心任务
研发中心坚持以发展语言教育技术为核心任务。以汉语国际教育为代表的语言教育,是我校传统的优势学科,研发中心依托学校大环境,努力打造该领域内先进的科研技术研发平台,占领和保持多项技术的领先地位,为语言教育教学提供基础性支持技术和应用软件技术,引领语言教育技术发展潮流,力争成为国内语言教育技术领域领跑者。
两个优势
研发中心具备语言数据资源和语言信息处理技术两大优势。研发中心承袭了语言信息处理研究所多年积累的数据资源,经过几年系统地整理和扩充,目前已经建成涵盖多个语种、多种类型,规模大、质量高的大型综合性多媒体语言数据库,具备了大数据计算所需要的数据基础。
三个技术突破方向
在核心技术方面,研发中心经过多年积累,在自然语言处理、字形处理和计算机辅助语言教学等多个方面,积累了一系列汉语教学所需的核心技术、研发了多种软件和基于互联网的学习系统。
近几年,随着时代的不断发展,互联网应用迅速崛起,为研发中心的发展带来巨大挑战和机遇。为此,结合目前的发展趋势,研发中心领导大胆提出三项未来发展的核心技术。集中所有科研力量,力争在三个领域获得技术突破。首先,在传统的语言信息处理领域,针对目前汉语词语计算问题,提出利用海量数据进行汉语词语计算的构想,并细化为汉语“自然语块”分析和汉语“复杂科技术语分析”两项任务;其次,围绕汉字书写,提出“汉语字形计算”研究的科学问题和核心技术,将研究落脚为中小学生和留学生的手写汉字书写质量评判问题;第三,围绕现在汉语教学中遇到的实际问题,研究汉语教学信息化技术,利用计算机辅助汉语学习,提出从课件制作、课件发布、学习状态跟踪、碎片化学习的一整套理论方法和应用技术。
研发中心坚持以应用为驱动,所有研究目标均落脚为具体的应用技术。研发中心坚持学科交叉,以语言工程为视角,以计算机技术为手段,结合信息科学中的核心算法,在基础研究方面不断深入,在应用技术方面加大广度,支持汉语教育、语言研究,力争在语言信息处理数学模型、语言知识体系方面取得更大突破。
研发中心的这些观点也得到了学校各级领导的认同。在学校“十二五”规划纲要中,首次将“出技术”列为发展要点之一。2012年,研发中心获得学校“重大专项项目”支持,充分说明了研发中心在学校信息科学发展中的示范作用。
近年来,依托信息科学学院,研发中心为我校获得了一系列科研项目支持。在国家自然科学基金项目中,中心每年均有斩获。2008年,荀恩东教授获得面上项目“基于生成树库分析和一体化机器翻译模型研究”;2011年,荀恩东教授再次获得面上项目“汉字书写规范性表征与评判”;宋柔教授获得面上项目 “基于广义话题的汉语篇章结构研究”;2012年,安维华老师获得青年基金项目“汉字书写质量的自动评测技术及应用研究”;2013年,于东老师获得青年基金项目“基于海量语料自然标注信息的汉语自然语块分析”。
除此之外,研发中心还承担了国家“863”计划项目、国家语委科研项目、国家汉办、教育部等多项国家级科研项目子课题的研究任务。同时与百度、富士通等知名企业保持紧密联系,借助多方面力量推进研发中心的发展和壮大。
自成立以来,研发中心在各级学术期刊、学术会议上发表多篇论文,其中包括 《中文信息学报》、《清华大学学报》、《北京大学学报》、《计算机科学》等业内知名期刊,多篇论文被EI、ISTP检索,成为业内新兴的优秀科研团队。
在教学和学生培养方面,中心招收具有计算机应用技术专业和应用语言学专业背景的硕士研究生、博士研究生,并接收国内外高级进修人员,为汉语国际教育培养技术型高级专门人才。中心现有专职教师7人,其中教授2人,副教授2人,讲师3人;学生21人,其中博士生2人,硕士生13人,本科生5人,外国硕士生1人。良好的实验室氛围和团队合作精神,成为研发中心的优良传统。
展望未来,研发中心将继续坚持科研创新的理念,坚持面向应用的价值观,努力探索新领域新知识,努力将应用技术转化为实用产品,服务学校,服务汉语教学,服务社会,认认真真做学问,踏踏实实做开发,诚诚恳恳求合作,争取为我校的发展不断做出实实在在的贡献。
二、互为补充、有机结合的三个研究组
语言信息处理研究组
语言信息处理组是研发中心研究历史最悠久的团队。多年来,研发中心历任领导均非常重视该领域的研究工作,在词语分析、中文分词、语义理解、机器翻译、语言资源建设等方面取得丰硕的科研成果。在此基础上,研发中心大力开展技术应用与推广,多项科研成果已被企事业和科研单位采用,取得良好的社会效应。成为支撑整个中心研发工作的骨干研究团队。
研发中心一直非常重视语言资源的建设,在中心师生的共同努力下,目前已经建设有汉语中介语语料库、汉英双语语料库、汉日双语语料库、海量汉语语言语料库、海量汉语科技术语语料库以及汉语科技术语词库等一系列语言资源。领域类型涵盖新闻、文学、科技、微博、博客、百科等方面,语料总量超过200G,包含约1000亿汉字,规模大、门类全、质量高,为中心后续课题研究打下了坚实的基础。
研发中心专门面向大规模语料库,研究用计算机技术提取语料库中的自然标注信息的方法,并探索其应用特点。经过严谨论证和大胆设想,研究目标定位为针对海量语料中自然标注信息的提取和分析研究,具体研究内容包括如下两点:通过对海量语料的运算,发现大规模语料库中的自然标注信息,并研究对其中各种信息行之有效的挖掘方法;根据自然语言处理中的各种应用需求对自然标注信息进行分类,研究其各自的本体性质和应用特点。
在巩固原有研究领域的基础上,研发中心一直积极扩展新的研究方向,使整个团队保持旺盛的研究活力。2013年年初,在一次小组讨论中,一个围绕科技术语计算的新兴研究计划获得大家的认可,正式启动浮出水面。科技术语是科技发展的风向标,术语规模的大小、新术语产生数量、细分领域术语的丰富程度,直接反映了科技发展的真实状态。然而多年以来,我国在术语学方面仍借鉴上世纪70年代俄罗斯术语学家的思路,在术语规范、术语管理法方面少有人涉足,在术语计算方面更是处于空白阶段。
在这样的背景下,研发中心借助现有的科技语料库资源优势,希望在相关领域拔得头筹。经过半年多的筹备,在几位老师和研究生的通力协作下,研发中心在“复杂术语计算”领域取得显著进展。以“术语知识图谱”为核心的一系列课题正在紧锣密鼓的开展过程中。相信几年时间里,研发中心必将在该领域取得突破性进展。
E-Learning研究开发组
近年来,信息技术的快速发展及其在学习领域的渗透对传统的教学模式、学习资源和教学方法都带来了深远的影响。在对外汉语教学领域,利用信息技术不仅可以将教学资源数字化、辅助课堂教学、辅助发音矫正和汉字书写,甚至还可以模拟学习者的认知过程。
E-Learning研究开发组目前的研究方向是面向汉语国际教育的无缝学习模型、方法和关键技术。主要研究问题有:(1)移动学习环境下的资源组织模型。如今,各种数字化智能终端为教育教学活动提供了新的认知环境,为学习者提供了一种智能的、无缝的学习空间。而如何组织学习资源,使其满足无处不在、按需提供、自适应呈现等学习需求则是一个新的研究问题。(2)创新学习模式。基于各种计算设备的辅助学习常被看作是一种教室外的非正式学习活动。这两年来,随着大规模在线教育和终身学习概念的提出,参与这种非正式学习的人数呈现出了爆发式的增长。传统的固定时间地点的、由老师授课的学习方式受到了前所未有的挑战,而社交化学习、协同学习、基于游戏的学习等逐步成为一种新的学习模式。(3)情境感知的个性化学习技术。现在的学习者往往拥有多种不同的计算设备,每个学习者的背景、学习曲线、生活情境都不相同,他的学习是一个不断进化的认知过程。情境感知的个性化学习就是要根据学习者所处的上下文信息(如:学习历史、所处的场景、所使用的设备等等)主动推送适合的汉语知识,提供便捷易用的学习服务。
E-Learning研究开发组的主要任务是利用信息技术,以第二语言习得、情境学习等理论为指导,开发面向语言学习尤其是汉语学习的网站、软件和数字资源。中心成立以来,该小组先后研发了HSK数字化测试平台、非母语汉语作文计算机评测平台、图书数字化制作平台、跟我学汉字、跟我学拼音、汉语易错字辨析、在线生成课文拼音、中介语语料库协同标注、学习内容在线生成和发布等实用高效的网站和软件,积累了大量的辅助汉语学习的数字化资源和查询系统,如汉字信息资源库、汉语词汇信息资源库、留学生高等作文语料库等等。
汉字书写评测研究组
中国汉字有着悠久的发展历史,并且记录了中华文明几千年的发展历程。汉字书写能力的培养对于民族文化的传承具有十分重要的意义。然而随着计算机的普及,鼠标键盘的操作代替了汉字的手写工作,汉字书写正在逐渐脱离我们的日常生活,汉字书写水平的下降已成为一个不争的事实。
基于汉字书写的现状,汉字书写评测组的定位在于,以学生在学习写字的过程中所产生的手写汉字作为研究对象,以数字媒体处理、模式识别、机器学习等信息技术作为辅助手段,对汉字书写正确性和规范性的自动评测进行基础理论和应用技术方面的研究。我们的最终目标在于,实现计算机辅助的、无人值守的汉字书写教学和评测的自动化系统。
本课题组的研究具有很高的学术价值和应用价值。一方面,它能够探索和挖掘与书写规范相关的汉字字形结构的本质特征;能够更加深入地发展现有的汉字处理技术;能够为汉字书写习得理论的研究提供客观、丰富的样本数据。另一方面,它能够改进传统的汉字书写教学方法,改善教学质量;能够为各种汉字书写考试的信息化提供技术基础,提高自动化水平;而且能够为汉语学习者提供一种汉字书写自动评测的人性化工具,使汉字书写练习成为一种乐趣,从而为汉字文化传承和汉语国际推广起到推动作用。
汉字书写评测技术的未来发展应该以评测的全面化、精确化、智能化为主要目标,以多种学科技术的综合应用为手段,以探索更加合理的汉字形式化描述方法和人机交互方法为主要任务。由此可见,本课题组将汉字书写自动化评测技术作为研究目标具有一定的前瞻性。
目前,本课题组重点研究的问题包括:离线手写汉字的笔画还原技术;在线手写汉字的字形匹配技术;面向书写评测的汉字形式化描述方法;汉字书写评判侧面的挖掘方法;汉字书写评测的可视化反馈技术等。本课题组正在开发的应用系统包括:汉字笔顺练习工具;汉字部件练习工具;留学生汉字书写教学辅助系统等。
经过近三年的积累,汉字书写评测组已经积累了一定的成果,已成功申请国家自然科学基金项目两项,发表学术论文10余篇,申请国家发明专利一项,培养博士生1人。