日前,教育部、国家语委发布了2007年中国语言生活状况报告。这是教育部、国家语委第三次向社会发布年度语言生活状况报告。
2007年的中国语言生活,总体上看健康和谐、生动活泼,与国家进步和社会发展步同调合。语言文字工作与文化结合,与教育结合,与信息化结合,为奥运服务,比过去有了更亮丽的社会显示度。语言资源的理念逐步建立,科学保存、保护和开发利用中华语言资源,已成为当今中国一项重要、急迫的任务。本土语言和现实语言生活得到学界和社会的更多关注,语言研究和语言文字工作的触角正向多个社会领域伸展,语言文字问题仍不断形成社会的热点话题。海内外汉语(华语)逐步沟通协调,汉语的国际传播成效昭著。国家语言文字工作委员会提出的"构建和谐语言生活"的新世纪工作目标,得到广泛认同与呼应。
国家语言资源监测与研究中心对2007年若干媒体和基础教育语文新课标教材的语言文字使用情况进行调查得到的具体数据也同时发布。
(一)汉字使用情况
1.高频字数量稳定
2005年、2006年、2007年覆盖率达到80%的字种数分别是581、591、595;达到90%的字种数分别是943、958、964;达到99%的字种数分别是2314、2377、2394。从高频字占总字种数的比例来看,随着总字种数的增加,高频字的比例呈减小的趋势。这些数据表明高频字并不会随语料规模或字种的增加而增多,而是趋于保持稳态。
2.每年的用字总表与现行字表之间的差异大于年度字表之间的差异
2005年、2006年、2007年用字总表都与现行规范字表之间存在着差异。取三年用字总表的前2500字与一级常用字比较,有差异的字数分别是357、331、334字;取三年用字总表的前3500字与《现代汉语常用字表》比较,差异字数分别是398、388、396;取三年用字总表的前7000字与《现代汉语通用字表》相比,差异字数分别是506、517、654。将每一年用字总表与现行规范字表之间的差异字进行比较,年度用字总表与现行规范字表的之间的差异大于年度用字总表之间的差异。
(二)词语使用情况
1.每年词语的使用变化很大,但高频词语的使用稳定,词语覆盖率的分布稳定
高频词语(覆盖率达到90%的词语)使用具有很强的稳定性。年度间词种数的变化很大,但年度间高频词语的差别不足1000条,年度间共同使用的高频词语平均占高频词语的85.76%。每年的词种数无论在数量还是词形上,都有很大的差别,但从词语覆盖率的分布来看,三年表现出很强的一致性。
2.成语习用语的使用
2007年尝试性地对语料中的成语和习语进行了调查。成语习语的使用无论在词种上还是词次上,比例都小于1%。
3.流行语
2007年度流行语的提取首次融合了报纸、广播电视、网络(新闻)三种媒体语料。流行语记录了年度的社会生活,凸显了2007年度社会生活的主题和特色。
4.新词语
2007年的新词语监测工作,是在国家语言资源监测语料库中2007年度10.07亿字语料的基础上做的,采用先机器提取、后人工干预的方法,并通过网上公布、听取意见,最终采集了254条新词语。
同时发布的还有2007年网络语言使用情况及基础教育语文新课标教材的用字用语言状况。
《中国语言生活状况报告(2007)》,已由商务印书馆出版发行。
附件:《中国语言生活状况报告(2007)》
一、总貌
2007年的中国语言生活,总体上健康和谐,生动活泼,诸多领域多彩靓丽,语言资源理念逐步建立,非英语外语语种教学和汉语国际传播持续升温。国家语言文字工作委员会提出的“构建和谐语言生活”的新世纪工作目标,得到广泛认同和呼应。
(一)语言资源理念逐步建立
国家语言资源监测与研究中心及其六个分中心自2004年陆续建立以来,将学界提出的“语言资源”概念移升到国家语言规划层面。中心利用大规模动态流通语料库,对平面媒体、有声媒体、网络媒体、教育教材等领域的语言使用状况进行“实态”监测与统计分析,向社会发布年度数据,对构建和谐语言生活起到了不小作用。2007年9月,“国家语言资源与应用语言学高峰论坛”在北京举行,海内外学者从理论到实践多角度讨论语言资源问题。11月,举办“中国民族语文工作成就展暨少数民族语文国际学术研讨会”,教育部副部长、国家语委主任赵沁平等领导同志及一些学者的发言,都涉及“珍爱中华语言资源,构建和谐语言生活”的话题。科学保存、保护和开发利用中华语言资源,已成为当今中国一项重要、急迫的任务。
(二)语言生活生动活泼
移民语言长江三峡工程移民,截止2007年下半年,已搬迁安置128万人。迁入广东、江苏两省的三峡移民,与同乡交际主要使用原方言,与外乡人交往大多使用带有一定口音的“地方普通话”。
新疆生产建设兵团有很多职工是上世纪50年代的戍边移民。北疆地区主体交际语言是“准河南话”,第二代移民会说“准河南话”者高达83.3%,“准河南话”还会在这里保持较长时期。南疆地区的交际语言主要是带新疆味的普通话,第二代移民不会讲父母方言的占85%以上,原因之一是他们幼年接受了上海知青老师的普通话教育。
奥运会和世博会的语言服务2007年北京奥运会官方网站提供中文、英文、法文三种语文服务,在所有奥运场馆及相关大型活动场所提供55种语言服务,语言服务志愿者达5000人次。北京公共场所双语标识英文译法形成规范体系,北京市各类重要公共场所更换或新增英语标识牌247608块。
上海世博会吉祥物“海宝”2007年12月发布,设计理念融入中华元素。上海世博会官方网站开通了中文版(简体和繁体版)、英文版和日文版三种版本,《上海世博》杂志是中英双语合璧。
手机短信语言2007年中国手机用户发送短信5921亿条,手机已是名副其实的“第五媒体”。2004年我国推出首款少数民族语言文字手机。当今报纸、天气预报等纷纷开发手机版,手机短信语言成为语言生活的新内容。
跨境语言我国有30多种跨境语言,其中有些语言又具有外语性质,比如朝鲜语、蒙古语等。有些跨境语言拥有一定数量的海外学习者,如藏语、蒙古语等,帮助有关人员学习和使用跨境语言,国内外同种语言进行必要的语言文字协调,对富边睦邻及国家安全具有重要意义。
二、领域语言丰富多彩
语文教育领域教育在提高母语水平、传承母语文化中举足轻重。伴随着中小学语文新课标的实施和修订,围绕语文课程“工具性”与“人文性”的统一问题,论争激烈。学界主张,语文课程要走出应试教育,从侧重母语知识向侧重母语能力转型,要帮助学生过好现代语文生活。半个世纪以来“高校母语教育”(习称“大学语文”)第三次受到重视,不少出版社组织班底编写各有特色的大学语文教材,许多大学都在开设或准备开设大学语文课程,力图通过大学语文帮助学生继续提高母语修养,强化母语文化的认同。
大众传媒领域2007年,全国广播电视系统结合深入开展抵制低俗之风活动,提出要维护祖国语言文字的纯洁和规范,提倡语言美,净化语言文字环境。2007年春节文艺晚会开播之前,中央电视台还邀请《咬文嚼字》杂志社派专家协助“春晚”剧组在语言文字方面把关,成效明显。
法律领域为保证法律文本的语言质量,全国人民代表大会法律工作委员会于2007年7月成立了立法用语规范化专家咨询委员会。2007年颁布的《中华人民共和国物权法》、《中华人民共和国企业所得税法》等,分别被翻译成蒙古文、藏文、维吾尔文、哈萨克文、朝鲜文等少数民族文字出版,保证了少数民族的法律语言权。到2007年澳门“五大法典”都有中译本,几乎所有的法律条文也都完成了相应的翻译。
科学技术领域2007年全国科学技术名词审定委员会公布了通信科技名词2104条、生态学名词3414条、免疫学名词1727条。截至2007年底,出版名词汇编79部(含第二次审定出版的名词)。经多年努力,海峡两岸科技名词对照与统一工作稳步开展,已完成对照统一工作的学科有20余个,出版了9册两岸名词对照本。2007年还确定以“钅仑”作为第111号元素Rg的中文定名。
社会服务领域社会服务行业根据对象使用服务语言。在西藏、新疆等航线上的多家航空公司,招收少数民族空乘人员,使用藏语、维语等多语服务。2007年海峡两岸春节包机,厦门航空公司、中国国际航空公司都提供闽南方言服务。东方航空公司、中国国际航空公司除使用普通话、英语双语广播外,还根据情况推出韩语、日语服务。北京首都国际机场、上海浦东机场等,提供多文种指示服务。
青藏铁路则使用多语种多文种服务。列车内、车站上的指示牌,一般都有藏文、汉文、英文三种文字;车站和火车上的播音,有些车站根据情况使用其中的两种语言播音,有些使用普通话、藏语、英语三种语言播音。
北京秀水市场是一家涉外集贸市场,接待国外顾客时,99.5%都使用英语,其它使用语种依次为俄语、西班牙语、日语、韩语等。导购员大都能说几种简单的外语词句,甚至可以简单应用十几种外语词句。
三、语言生活热点
非英语外语语种热俗称“小语种”热。2007年北京外国语大学、中国传媒大学、广东外语外贸大学等高校,报考“小语种”人数比往年增长五成甚至一倍。北京暑期“小语种”培训班招生数量,2007年比2006年增长近30%。目前列为上海紧缺人才培训工程的非英语外语语种,有俄语、西班牙语、意大利语、葡萄牙语、阿拉伯语等8种。我国小语种人才培养,还不能满足社会经济文化发展的需要。有关部门应根据国家的未来发展做好外语语种规划,采取切实有效的措施鼓励非英语外语语种的教育。
虚假广告用语热议语言虚假广告大多信息失真、格调低俗、言语失范,是广告语言的热点。2007年中央电视台“3·15晚会”对虚假广告强力曝光。许多名人代言的广告,如某种减肥茶、某种不粘锅等,语言名不副实。据广告新闻网统计,2007年(截止到11月),有关虚假广告250多条,涉及保健用品、药品、医疗器械及医疗机构等方面约为60%。卫生部、国家工商总局、国家广电总局、国家食品药品监管局及一些地方政府为此采取了不少维护消费者权益的措施。
新词新语热《中国语言生活状况报告(下编)2006》向社会公布了2006年产生的171条新词语后,引起媒体和网民的热议。国家语言资源监测与研究中心采用计算机半自动提取的方式,对2007年度新词语进行调查,根据“公众语感”及若干操作准则进行人工干预,并在新浪网上广泛征求网友意见,最后得到254个新词语。
汉语国际传播持续升温2007年共有来自188个国家和地区的19.6万名各类留学人员在我国境内的544所高等学校和其它教学、科研机构学习。来华留学生数量、生源国家和地区的数量,均达到新中国历史上的新高。
2007年全球开办的孔子学院已有210所,分布在64个国家和地区,教职工逾千人,开设汉语课程1200多班次,学员4.6万人。中国国际广播电台(CRI)创办广播孔子学院,用38种语言,向全球汉语学习者提供广播和网络视频教学。
2007年国务院学位办公室下发《汉语国际教育硕士专业学位设置方案》的通知,成立了全国汉语国际教育硕士专业学位教育指导委员会。国家汉办发布《国际汉语能力标准》、《国际汉语教师标准》和《国际汉语教学通用课程大纲》确立了我国统领国际汉语教学标准的权威地位,促进了世界各国汉语教学质量的提高。
四、语言文字使用的若干数据
报纸、广播电视、网络(新闻)用字用词用语调查,是每年语言实态调查的基本项目。2007年调查语料10.07亿汉字、12.36亿字符次。重点进行了2005年、2006年、2007年三年数据的比较。
(一)汉字使用情况
对汉字使用情况的调查结果显示:
1.高频字(覆盖率达到80%,90%,99%)数量稳定。低频字(频次低于10次)随机偶然出现。
2005年、2006年、2007年的数据调查分别是在7.32亿、9.79亿、10.07亿字的语料上进行的,三年数据调查的语料量不同,总字种数也不同。2005年、2006年、2007年覆盖率达到80%的字种数分别是581、591、595;达到90%的字种数分别是943、958、964;达到99%的字种数分别是2314、2377、2394。从高频字占总字种数的比例来看,随着总字种数的增加,高频字的比例呈减小的趋势。这些数据表明高频字并不会随语料规模或字种的增加而增多,而是趋于保持稳态。这说明高频字的使用具有很强的稳定性,当语料规模达到一定的值之后,高频字的分布总是比较均匀,语料中所增加的字种数多为偶然使用,对高频常用字的分布影响不大。
对比三年的前600(覆盖率达到80%以上)最高频率用字,可以很好地看出社会语言生活的变化。如:“涨、季、盘、楼、均”等字在2007年进入前600,而这些字在2006年、2005年均在600位之后。
2005年、2006年、2007年低频字的数量分别是1650、2362、3147,从低频字占总字种数的比例来看,总字种数越少,低频字的比例越低。表明低频字的出现会随着语料规模的增大,随机偶然出现。
2.与现行规范字表对比:每年的用字总表与现行规范字表之间的差异大于年度字表之间的差异。
2005年、2006年、2007年用字总表都与现行规范字表之间存在着差异。取三年用字总表的前2500字与一级常用字比较,有差异的字数分别是357、331、334字;取三年用字总表的前3500字与《现代汉语常用字表》比较,差异字数分别是398、388、396;取三年用字总表的前7000字与《现代汉语通用字表》相比,差异字数分别是506、517、654。将每一年用字总表与现行规范字表之间的差异字进行比较,年度用字总表与现行规范字表之间的差异大于年度用字总表之间的差异。
(二)词语使用情况
对词语使用情况的调查结果显示:
1.年度之间词语的使用变化很大,但高频词语的使用稳定,词语覆盖率的分布稳定
年度之间的相同词种数平均占到年度词种数的22.1%。无论全部语料还是各媒体语料,年度之间的用词用语差别较大,每年都有大量的独用词语出现。这些独用词语记录着年度词语使用的变化情况。
高频词语(覆盖率达到90%的词语)使用具有很强的稳定性。年度间词种数的变化很大,但年度间高频词语的差别不足1000条,年度间共同使用的高频词语平均占高频词语的85.76%。《中国语言生活状况报告》(2007)下编列出了2007年度高频词语表。
高频词语中的年度独用词语,多反映了当年的社会热点。如2007年排在前面的高频独用词语“减排、炒股、嫦娥、生猪”等,与年度流行语十分类似,反映了当年的社会生活和重要事件;排在2006年高频独用词语前面的“荣辱观、馒头、核试验”等词则与当年的社会主义荣辱观教育、娱乐界的“一个馒头引发的血案”、朝鲜核武器试验等事件密切相关。
每年的词种数无论在数量还是词形上,都有很大的差别,但从词语覆盖率的分布来看,三年表现出很强的一致性,三年不同覆盖率下的词语分布,只在覆盖率达到99%以上时略有差异。
2.成语习用语的使用
2007年尝试性地对语料中的成语和习语进行了调查。从调查结果来看,自动分词语标注软件还需进一步提高对成语和习语的识别。成语习语的使用无论在词种上还是词次上,比例都小于1%。
3.流行语
2007年度流行语的提取首次融合了报纸、广播电视、网络(新闻)三种媒体语料,三个分中心采用统一的技术路线,分别自动提取各媒体上的候选流行语后,再进行整合,最终得到“2007年度中国媒体十大流行语”。2008年1月14日,年度流行语由国家语言资源监测与研究中心、北京语言大学、中国传媒大学、华中师范大学、中国新闻技术工作者联合会、中国中文信息学会六家机构联合发布。这是流行语的第十一次发布。
流行语记录了年度的社会生活,2007年的“中国媒体十大流行语”在常规的“综合类、国内时政类、国际时政类、经济类、教育类、科技类、社会生活类、文化娱乐类”外,新增了“奥运专题、金融专题、构建和谐社会专题、民生专题”等,凸显了2007年度社会生活的主题和特色。
4.新词语
新词语是语言对社会变化表现最敏感的部分,它凸显了语言的动态变化,是语言监测的重要内容之一,也是人们关注的焦点。2007年的新词语监测工作,是在国家语言资源监测语料库中2007年度10.07亿字语料的基础上做的,采用先机器提取、后人工干预的方法,并通过网上公布、听取群众意见,最终采集了254条新词语。
这些新词语表现出的特点有:第一,多字词语占优势。其中三字词语36.61%,四字词语28.35%,两者合计近65%。第二,大量使用词语模类推构词,词族化表现明显,运用较多的类后缀有“~族、~客、~奴、~友、~门、~吧、~日”等。词族化的新词语占27.55%。第三,名词性词语最多,占91.33%。第四,构成材料以汉字为主,兼有别样。254个新词语中有13个字母词。第五,新词语来源于多个渠道,分布在不同领域,反映了社会生活的方方面面。其中生活、文化、科技和经济领域产生的新词语较多,占67.32%。
(三)网络语言使用情况
2007年度的中文网络用字用词调查以网络媒体监测语料库2007年的语料为基础,调查对象包括汉字、符号、词语以及BBS网络用语。
1.用字调查
(1)汉字的覆盖率调查显示:在10%至70%的各级覆盖率下,新闻语料所用的字种数都大于博客语料和BBS语料,这反映新闻类语料涉及的内容更丰富,结构更均匀、平衡,使用的高频字字种更多。
(2)对比新闻语料、博客语料、BBS语料的共用字、独用字发现:新闻、博客和BBS三类语料的共用字种数为8460个,占全部字种数的56.74%。博客、BBS的独用字比较多,且低频。其中博客有1918个,BBS有1383个,造成这种现象的主要原因为:网络上流行的“火星文”的干扰、一些由生僻字组成的网名、海外网民使用的繁体字等。
(3)调查显示一些与外来词语相关的汉字、与网络相关的语气词进入到高频字中,如“尔、伊、迪、呵、哦”。
(4)对比2007年与2006年的高频字,新闻语料的高频字相对比较稳定,两年的数据相比,前600高频字中,只有13个不同;前1000高频字中,只有20个不同;前3500高频字中,只有74个不同,相同部分占97.89%。而BBS语料的高频字的变化较大,两年的数据相比,前600高频字中,有68个不同;前1000高频字中,有96个不同;前3500高频字中,有148个不同,相同部分占95.77%。
(5)利用频率比值对比分析2006年与2007年的语料,2007年频率比值较大的“跌、涨、股、幅、券”几个字都和股票有关,十七大的召开使得“党”字的频率比值增大;2007年猪肉价格上涨,使得“肉”字的频率比值较大。
2.符号使用调查
从符号的种数来看,博客所用符号的种数最多,BBS与之接近,都有900多种。从符号占语料频次的比例来看,新闻和博客中符号所占的比例相差不是太大,而BBS中符号所占的比例明显高于其他两类语料,这与BBS用字用语往往形式上比较简洁、比较随意等特点有关。另外,BBS中也包含大量的与专业技术相关的讨论,有些是直接用英文书写的;BBS中使用的网络用语也比其他两类语料多。
3、词语调查
(1)前100个高频词语中单字词为76个,其余24个为二字词语的“是使用频率最高的一个词。
(2)2007年语料中,构词数最多的字是”人“,分别在162个词语中出现。构词数最多的前10个字分别是:人、大、不、上、出、国、中、一、行、年。有721个字只在一个词语中出现。
(3)高频词语中,一字词出现的总频次占全部高频词语频次的49.04%,排名第一;二字词语的词种数最多,占全部词种的70.53%,在频次上所占比例为47.86%;一至二字词语在词种上占了88.40%,在频次上占了96.90%。说明在实际应用中,主要以一至二字词语为主。
(4)使用频次最高的成语为”一网打尽“,它在网络上使用时,除了其原有的词义外,还有很多使用的是与网络有关的引申义。
(四)基础教育语文新课标教材的语言状况
本次调查包括了新课标九年义务教育阶段语文教材中的”用字“、”用词“、”基本句型“等内容。鉴于教材的发行时间、发行量、覆盖面及影响力等因素,选取了2001-2004年出版的人民教育出版社、江苏教育出版社、语文出版社和北京师范大学出版社的九年制义务教育新课程标准语文教材。
1.汉字调查
四套教材的容量人教版为48.3万字,苏教版为37.3万字,北师大版为44.9万字,语文版为52.6万字。共出现汉字字种5069个,其中四套教材共用的汉字字种3590个,占总字种的70%;部分教材共用字种905个,占17.8%;只出现于一套教材的独用字种共574个,占11.3%。
汉字使用中,覆盖率为50%时使用了127字,覆盖率为90%时使用了1164字,覆盖率为95%时使用了1712字。前3500字的覆盖率达到99.6%。
2.词语调查
使用软件自动分词并经人工干预,得到的分词单位为1290126个,不同的词种数为50670个。在四套教材中均出现的词种数有10460个,占总词种数的20%。在各套教材中,共用词种数最高的占45%,最低的只占36%;每套教材的独用词种数在1/5至1/4之间。
从词语出现的频次来看,覆盖所有语料80%时用了3320条词,覆盖90%时用了9101条词,覆盖95%时用了17505条词。
从词语在课文篇数的分布来看,分布在51篇课文以上的只有1630个词语,占词语总数的3.22%。分布在11-50篇课文的有5297个词语,占词语总数的10.45%。二者相加,共有词种6927,占词语总数的13.67%,不足词语总数的1/7。出现1次的达23200个词,占词语总数的45.79%,出现1-5次的占77.55%。可见教材词语虽然数量多,但分布面不广,复现率不高。
比较词语的出现频次与在课文中的分布,发现分布面广的词更容易凸显语文性词语。根据分布上的特征,再参考语义的指称性与结构的凝固性,提取了基础教育的3000条基本词。这个词表的特点是重视书面语特色,重视古今语言的学习,重视文学语言的学习,重视基本生活日语词语。
3.句型调查
对小学1-3年级课文的所有句子进行了句型、句式、句类的普查。发现单句中”主谓句“的比例高于”非主谓句“。主谓句是划分句子结构成分的基点,具备句子结构完整性的一切条件,对初级阶段的学习者形成句子概念具有举足轻重的作用,对学生语言结构的获得和语言能力的形成和锤炼也具有重要作用。非主谓句具有更多的语用和交际特点,口语化、叙述强。
根据充当谓语词语性质的分类,动词谓语句占总单句的88.37%,居第二位的是形容词谓语句
在8种特殊句式中,出现频率高的依次是”连动句“、”是字句“和”存现句“,”使字句“”比字句“”被字句“出现比较少。
在复句中,居首位的是”顺承关系“复句,高于所有其他关系复句之和。顺承关系复句的大量存在,反映的是汉语句子总是按一定的时间、空间或事理关系的先后来叙述的,与小学生的逻辑习惯相吻合。
在四种句类中,陈述句占70%,疑问句占约14%,感叹句占约15%,祈使句只占约1%。
《中国语言生活状况报告(2007)》,已由商务印书馆出版发行。