1、现代汉语常用词表(草案)1范围本规范(草案)提出了现当代社会生活中比较稳定的、使用频率较高的汉语普 通话常用词语 56 008 个,形成现代汉语常用词表,给出了词语的词形。本规范(草案)可供中小学语文教学、扫盲教育、汉语教育、中文信息处理和 辞书编纂等方面参考、采用。2术语和定义常用词现代汉语普通话范畴中使用频率高、适用范围广的词语。词形本规范(草案)指词语的书写形式。词频在一定数量的语料中同一个词语出现的频度,一般用词语的出现次数或覆盖率 来表示。本规范(草案)指词语的出现次数。频级同一语料调查范围中词频数相同的为一个频级。 本词表频级统计分两步: 第 步形成不同类型语料库的频级,即原始频级
2、。第二步形成总语料的频级,就是将几 个原始频级之和再除以不同类型语料库的数目。3研制原则词和语兼顾原则本规范(草案)的词语收录,以单音节词和双音节词为主。同时,根据语言使 用的实际情况,也收录一些常用的缩略语、成语、惯用语等熟语,以及表达整体概 念名称的其他固定短语。系统性和实用性兼顾原则本规范(草案)的词语收录,既注意词语的系统性,又注意词语在语用中的实 用性。如以表示季节为根词的一些词,全部收录它的加缀词“初春”“初冬”“初秋”“初夏”,但对于“晚季节”的词语,只收录“晚春”“晚秋”,未收 录“晚冬”“晚夏”;对于“残季节”的词语,只收录“残冬”未收录“残 春”“残秋”“残夏”。4现代汉语
3、常用词表(草案)说明4.1 本表研制过程中,收集词语同国家语委“现代汉语通用语料库”核心语料 库、厦门大学的新词语语料库、现代汉语规范词典、现代汉语词典、新 华词典等所收词语进行了比对,并查验了该词在人民网人民日报报系网页以 及 Google 网简体中文网页、百度网等常用网页上的使用情况。本表用来检测词频的语料库有:国家语委 “现代汉语通用语料库”中经分 词标注的4 500万字语料、人民日报2001年2005年约1.35亿字的分词标注 语料和厦门大学的现当代文学作品语料库约 7 000 万字的语料。总共 2.5 亿字。本表共收录常用词语 56 008个,包括单音节词 3 181 个,双音节词语
4、 40 351 个,三音节词语 6 459个,四音节词语 5 855个,五音节和五音节以上词语 162个。 表内条目按频级升序排列,频级相同的按汉语拼音音序排列。本规范(草案)提供了现代汉语常用词表的音序索引,按汉语拼音音 序排列,同音的条目按笔画数由少到多排列。其中,词语的读音只供检索使用,不 代表词语的读音规范。频序号词语1的2是3在4一一一5不6有7这8个二9上10也11他12人二13就14对15说16我17要18到19大二20我们21多22把23来24等25年26两27从28而29匕匕 厶冃30又31他们频序号词语32以33时34没有35会36之37但38三三39被40很41下d42自
5、己n43后d44中国45并46使47向48已49出d50用51新52所53里54给55她56更57次n58最59于60可以61可62去频序号词语63由64问题65小66工作67让68其169你70这个71生活72起73这样74天75它76高j77做78家寸79已经80再81或82才83刖84走85这些86一些87却88-89条90位91起来92各T93成频序号词语94什么95元96现在97社会98比99同100四101关系102名103想104如105第一106因为107该108开始109许多110内111时间n112人们n113今天1114国家115本116占八、117思想118至119此1
6、20疋121如果122副123无124张125同时126需要127月T128则频序号词语129重要130为了131日132老133就是134作135五136人民137事138认为139成为140像141北京142历史143水144方面145情况J146而且147党寸148学生n149每j150这里151但是152孩子153可能154发生155必须156只有157外158要求159全160发现161进行162特别n163因频序号词语164岁1165得到166件167文化168分169便170同志171发展172即173日本174总175因此176对于177领导178带J179既180时候181钱
7、1182自d183政府184吃185非186决定187进188还是189受190国191应该192近193美194政治195话196公司197干部n198出现频序号词语199开200一切201研究202认识203写204十分205十206站207之间208问209希望210快211虽然212相(xia ng)213美国214知道215讲216大家217学校218组织219见220由于221正在222法223表示224一样225活动226如何227教育228书229据230城市231道232艺术频序号词语233经济234以及235部236影响237太238其中239学240先生241完全242连
8、243主要244继续245头J246革命247之后248参加249能够250住j251上海252经过253非常254低255甚至j256听257先J258一直259学习260仍261办262所以263代表264变265最后266-起n267万频序号词语268所有269那么270心271越272较273办法274路275有些276未277通过278找279按280拿281解决282-般J283另284经285半286强287或者288时代289手290作品291不断292以后293关于294青年295各种296直/、297其他298农民299那些300余301段n302有的频序号词语303买30
9、4根本305县306作者307者308请309叫310感到311怎么312任何313六314表现315反316存在317然而318准备319送320约j321比较322书记323爱d324单位325群众326应当327王328早d329女330门331个人332座333全国334意义335花336条件337环境频序号词语338了解339搞340力量341不仅342目前343经验344产生345真正346回347队348有关349字350会议351生命352今年353努力354靠355八寸356357358共d359意见360死361民族362块j363只要364、亠、/ 文学365成功366变
10、化367句368管369你们370指371地区372方J频序号词语373和(he)374项375、亠注意376当然377达378面379坐380家庭381原因382进入383病384介绍385下来386事情J387方式j388首389计划390人类391报告392世纪393方法394入395信396化397步398生1399声400图401电话402能力403片404作用405台406如此(略)附录现代汉语常用词表(草案)音序索引词语汉语拼音频序号阿爸aba18137阿昌族achangzu50849阿斗adou42632阿飞afei48603阿富汗afuhan3461阿訇ahong34432阿
11、拉伯数字alab cshuzi35937阿拉伯语alaboyu30476阿妈ama16220阿门amen47913阿Qa20845阿司匹林aslpilin40294阿嚏ati54643阿姨ayi6842啊(d)a16090啊呀aya15418啊哟ayao23908啊(a)a28693啊3)d18287啊3)a5514啊(a)a1175哎ai5497哎呀aiya8456哎哟aiyao11815哀兵必胜aibin-gbisheng53102哀愁aichou25684哀悼aidao8091哀告aigao36418哀歌aige40509哀号aihao29605哀嚎aihao45194哀叫aijiao3
12、5031哀哭aiku41402哀怜ailian35032哀鸣aiming28081哀戚aiql46661哀泣aiqi44322哀求aiqiu11984哀伤dishdng19763哀思disi23975哀叹aitan26507哀恸ditong46377哀痛ditong27828哀婉diwan32720哀怨diyuan23209哀乐diyue20602埃di6336埃及diji3121挨(di)di4736挨边儿dibidnr53583挨次dici40951挨个儿diger42370挨户dihu17735挨肩儿dijidnr46979挨近dijin26596唉(di)di7474唉声叹气dishe
13、n-gtanqi24870唉呀diyd25872挨(ai)ai4436挨饿ai e16362挨批aipi34907挨整aizheng37482挨揍aizOu36941皑皑z- 1z-ai ai28598癌ai10793癌变aibian35321癌细胞aixibdo19156癌症aizheng6730癌肿aizhong44071暧ai9372矮vai5267矮墩墩aldundun53103矮胖alpang27829矮小VVaixiao16293矮子Vaizi224402艾al9226艾蒿alhao36593艾窝窝alwowo55566艾滋病alzibing3427唉(Q1)al4115爱al32
14、3爱不释手albushishou24929爱财如命alca - ruming54115爱称alcheng46662爱答不理aldabuli52602爱戴aldal11712爱尔兰al erlan6977爱抚alfu19330爱国alguo2338爱国主义algu czhUyi3990爱好alhao5492爱河alhe36942爱护alhu5862爱将aljlang34908爱克斯光alkesiguang55082爱怜alllan23303爱恋alllan22255爱美almel21216爱面子almlanzl31481爱莫能助almonengzhu31595爱慕almu18550爱女alnu2
15、9712爱情alqing2005爱人alren5519爱神alshen30357爱屋及乌aiw S jiw口47287爱惜aixi14976爱心aixin4350爱憎aizeng24550爱憎分明dizen-gfenming33081隘口dikou39452碍ai10576碍口dikou54644碍难ainan48993碍事dish!24816碍手碍脚dishou dijia045495碍眼diyan43825暧昧dimei17148安an1651安步当车anb ti ddngche53104安插ancha27587安抵andi45796安定anding4956安度andu27830安顿and
16、un15085安放anfdng15202安分anfen19045安分守己anfe n shOuji30358安抚anfu16334安好anhao36594安徽anhui3002安家anjia21467安检anjian20603安静anjing5113安居anju15923安居工程anjugongchegn28340安居乐业anj u leye10051安康ankang12674安乐anle19724安乐死anlesi38044安乐窝anlewo37483安乐椅anleyi44323安理会anlihui4752安谧anmi36770安眠anmian32861安眠药anmianyao21184安民
17、告示dnmingdoshi45797安宁dnning6724安排anpai613安培anpei22659安贫乐道dnpin ledao46980安琪儿anq Y er38213安寝anqin44324安全anquan709安全带anquandai19797安全岛anquandao48994安全阀anquanfa48251安全感anquangan11863安全帽anquanmao30135安全门anquanmen42371安全套anquantao23630安全系数anquanxishu29177安然anran11659安如磐石anrdpanshi55849安如泰山anrutaishan55083
18、安设anshe42847安身anshen27022安身立命anshen limin g27259安神anshen34572安生ansheng22441安适anshi31376安睡anshui28897安泰antai39037ant u zhbngqi安土重迁an53584安危anwei10168安慰anwei3875安稳anwen14568安息anxi18762安闲anxian25466安详anxiang12330安享anxiang33609安歇anxie38045安心anxin4180安养anyang54116安逸any!18491安营anying36943安营扎寨anyin-gzhazha
19、i27510安于anyu24930安葬anzang17219安之若素anzh - ruosu43360安置anzhi2645安装anzhuang3200桉树anshu32345氨an11115氨基酸anjisuan15442氨气anqi41641氨水anshui34573庵an12110庵堂antang46088谙练anlian55567谙熟anshu36771鹌鹑anchun29290鞍马anma26027鞍马劳顿anm alaodun48604鞍前马后anqian mahou44325鞍子anzi38627俺an2677埯an51701岸an4679岸然anran50468按an279按兵
20、不动anbin-gbudong27023按部就班anb ti jiuban25179按键anjian32346按揭anjie23054按理anil30787按例anil48995按脉anmai52135按摩anmo10229按捺anna25943按钮anniu18863按期anqi12723按时dnshi5677按说anshuo19355按图索骥ant u suojl39235按压anya37125按语anyu34909按照anzhao634案an1109案板anban28985案牍andu48605案发anfa13946案犯anfan20151案件anjian1461案卷anjuan2315
21、6案例anil7184案情dnqing11301案头antou18138案由anyou36095案值dnzhi13209案子anzi6523暗an2609(略)现代汉语常用词表(草案)研制报告一研制背景为给语文应用和有关政策的制定提供科学的词汇依据,积极服务于汉语规范 化、推广普通话,积极服务于中小学语文教学、扫盲教育、汉语教育、中文信息 处理和辞书编纂等工作,1998年7月国家语言文字工作委员会批准立项,成立 现代汉语通用词表 研制课题组。该词表作为国家已经公布的 现代汉语通用 字表等的配套规范,是我国语言文字规范化、语文教育和研究方面的基本建设 项目。研制工作自1998年7月启动,于200
22、1年年底完成并通过了专家鉴定。鉴于5年来汉语词语发展变化很大,研究和统计手段又有很大提高,为把词 表研制工作做得更加扎实完善,课题组希望对原词表进行修订。 2005年6月教 育部语信司决定在原词表的基础上进行修订,此项工作由原课题组和新立项的现代汉语通用词量与分级课题组合作进行,共同研制一个常用词表。根据5年来语言发展变化的情况和对词条增删调整,按新的统计处理方法确定其常用度 并以此重新排序,使之能更真实地反映我国现代汉语词汇系统的概貌。这次修订 工作进行了一年半,主要是对词语作了较大规模的增删调整, 并根据词频调查结 果确定了使用频级。修订的主体工作于 2007年1月完成,之后又根据有关专家
23、 和部门的意见陆续作了增补和修改。二研制过程(一)初稿的形成本词表初稿的研制工作,主要包含下列几方面的内容:(1)搜集有关文献资料,研究前人制订各种词表的经验和教训;(2)比较现有的、在社会上影响较大的辞书的词目,并研究它们的取舍标 准;(3)进行社会调查,了解群众使用汉语词汇的具体情况;(4)在把现代汉语规范词典开编时的词目和其他 10 多本词典、词表进 行对比后进行增删的基础上, 用山西大学和清华大学计算机中心所储存的语料进 行词汇覆盖率的检验。对条目的增删,除了利用计算机之外,还进行了人工干预,逐条审核。通过以上工作,形成了总词目为 61 000 多个的“词表”。 2000年 2 月 2
24、6 日在北京经专家鉴定通过。鉴定委员有陆俭明、陈章太、曹先擢、常宝儒、刘庆 隆、林杏光和苏培成,由苏培成主持。(二)词表的修订2005 年春天,为了加快词表研制工作的进度和提高质量,在教育部语言文 字信息管理司的组织下,研制组联合苏新春主持的“现代汉语通用词量与分级” 课题组对原词表作了修订并再次进行词频统计工作。将“词表”同国家语委研制的“通用语料库”的核心语料库所收词语进行比 对。核心语料库约有 15 万多个词语,除去专有名词、行业词语、人名、地名等 以外,语文类词语约 10 万个。将“词表”同这 10 万个词语进行逐一比对,按照 常用词表既定的收录原则逐条筛选。 在审慎分析各词语在通用语
25、料库中词频的基 础上,考察社会语文生活中的实际使用情况,经过人工干预增选出约 4 000 多个 词语。将“词表”同现代汉语规范词典、现代汉语词典(第 5 版)、新 华词典等所收词语进一步比对。排除其中的方言词语、专有名词、行业词语以 及现代语文生活中存活率或使用率明显偏低的文言词语, 再按照常用词表既定的 收录原则进行审核,增补了 500 多个词语。将“词表” 同新词语语料库所收新词语进行比对。 利用厦门大学研制的新词 语语料库,按照课题组既定的收录原则进行筛选,经现代汉语通用语料库检测, 增补了 1 000余个词语。至此,“词表”的词语收录总数扩展到了 66 000多个。对“词表”词语进行综
26、合审读,必要时查验了该词在人民网人民日报报 系网页以及 Google 网简体中文网页、百度网等常用网页上的使用情况,作了再 次调整(主要是删除尚不具备本表所界定的“常用”规格的词语),另外也考虑 到作为常用性词表的词 , 不宜象一般词典那样因语音或语法的细小差异而将词目 作过细的区分。 后来在送专家和有关部门审读中, 又根据审读意见陆续作了调整 和删减。最终形成的现代汉语常用词表,收录词语共56 008个。11包括单音节词3 181个,双音节词语40 351个,三音节词语6 459个,四音节词语5 855 个,五音节和五音节以上词语 162个。调查所有词语的使用频次。用来检测词频的语料库有三种
27、:第一种是国家语 委主持研制的“通用语料库”中经分词标注的 4 500万字语料。第二种是人民 日报2001年2005年约1.35亿字的分词标注语料。第三种是厦门大学研制的 现当代文学作品语料库,约7 000万字的语料。总共2.5亿字。以上三种语料均 作有分词与标注,从中获得词频数据。对以下两种情况作了人工检测。第一种是 分词后在该语料中没有出现的词语。做法是将被检词放到未作分词标注的原始语 料中以查检字符串的方式调出所有用例进行人工甄别,从而避免原始语料中有词却因软件分词而消失了。在查检时对数量大的语例则用随机抽样的方法抽检。第 二种是同形词。对同形异义词在实际语例中进行人工干预,区分意义,分
28、别统计 词频。三研制原则和方法(一)收词原则本词表所称的“常用词”是指以汉语为母语的中等文化程度的人, 在社会语 文生活中经常见到和使用的现代汉语普通话词语。本词表要求给现当代社会语文 生活中通用的、稳定性较强、使用频率较高的汉语普通话词语划出一个范围,作为现代汉语词汇系统的基干部分,从而为语言应用和有关语言文字政策的制订提 供科学的词汇依据。在研制中,既注重了书面词语的收集,也兼顾了常用口语词 语的考察,还适当收了一些在现代社会大众传媒中时有出现, 跟语文生活有所关 联的行业性、历史性词语。至于更专业些的词语将另行研制,作为现代汉语常 用词表的附表。本词表以收录单音节词和双音节词为主。同时,
29、根据语言交际实际也收录一 些使用频率明显较高的缩略语、成语、惯用语等熟语,以及表达整体概念名称的 其他固定短语。鉴于汉语词语本身在缩略、扩展、拆用,以及跟别的词语组合成新的固定 语等方面的灵活性和复杂情况,本词表的词语筛选还贯彻了以下规则:(1)对于带有词根性质的词语(如“群众化” “群众性”中的“群众”) 和它们的扩展词形、组合短语,从词语构成的能产性考虑,优先收录带有词根性 质的词语, 对它们的扩展词形或组合短语, 根据实际使用频度和规范状况等有选 择地收录,原则上双音节者适当从宽,三音节及其以上者适度从严。(2)对于简缩词语或简称和它们的原形词语,根据实际使用频度和规范状 况等做出不同的
30、选择。如:“安理会”“安全理事会”“联合国安全理事会”, 收录“安理会”,而不再收录“安全理事会”和“联合国安全理事会”;“福利 彩票”和“福彩”,收录“福利彩票”,而不收录“福彩”。(3)可以拆用的四字以上的固定语(多是八字熟语),原则上收录其完整 式,而不分别收录拆用式。如:收录“种瓜得瓜,种豆得豆”,不分别收录“种 瓜得瓜”和“种豆得豆”。(4)经常出现的双音节结构,如果其中一个组成语素在现代汉语中基本不 单用,则把该结构视为词加以收录,如“乌云、李子、鲫鱼、松树”等;如果该 结构中有一个成分的意义已经虚化, 也视为词加以收录, 如“达到、 酿成、成为、 致以、觉得”等。鉴于本词表的研制
31、目的和使用价值, 对于确实存活在社会语文生活中、 但 较为特殊的几类词语,采用以下处理办法:(1)人名。原则上不予收录,但有比喻、借代等引申意义的,适当收录其 中稳定而高频的。如“阿 Q“诸葛亮”等。(2)地名。原则上不予收录,但收录使用频率相对较高的我国各省(及其 省会)、自治区(及其首府)、直辖市名称,以及它们常用的别称或简称。(3)国名。只收录我国周边国家以及在社会语文生活中出现频率明显较高 的一些国家和城市的名称。(4)我国各历史朝代名称。只收录历史上影响较大、在现当代社会语文生 活中出现频率明显较高的朝代名称。(5)党、国家、社会团体和企事业各机构的名称,以及这些机构的领导职 务的名
32、称。 原则上不予收录, 但在现当代社会语文生活中明显稳定而高频的 “支 部”、有着明确比喻意义的“班长”等,则予以收录。本词表的词语收录,既注意词语的系统性,又注意词语在语用中的实用性。 如以表示季节为根词的一些词,全部收录它的加缀词“初春”“初冬”“初秋” “初夏”,但对于“晚季节”的词语,只收录“晚春” “晚秋”未收录“晚冬” “晚夏”;对于“残季节”的词语,只收录“残冬”未收录“残春”“残秋” “残夏”。总之,在词语收录的具体操作中,尽量处理好词语的系统性和词语的 常用性的相互关系,特别注意词频的高低,一切从语言使用实际出发。本词表的词语收录, 既充分尊重社会语文生活的客观实际, 又严格
33、控制不符 合规范以及格调低俗的词语, 切实起到促进社会语文生活向着规范、 文明方向发 展的积极作用。本词表所收录的词语, 在用字上基本涵盖了 现代汉语常用字表 中的全部 汉字,不超出现代汉语通用字表 的范围。凡是独立成词的字, 列出单音节词; 不能独立成词的字, 收录于复音词中。 单音节词条中包括了某些只作常用姓氏的 字,如“邓”。二)根据“词频频级排序法”确定词语的使用频度顺序本词表确定词语的使用频度顺序使用的是 “词频频级排序法” 。由于词语的 来源面比较宽, 各种语料都有自己的覆盖面与构成特点, 词表中的词语不能在每 种语料中都得到全部显现。同一个词语在不同语料库中的频次也可能相差较大,