今天是: ·设为首页 ·加入收藏  
 您现在的位置:安康广播网 >>  讲普通话写规范字  

信息处理用现代汉语词类标记规范
作者:佚名    来源:原创    浏览:0 次    时间:2013-05-03

1 范围

本标准规定了信息处理中现代汉语词类及其他切分单位的标记代码。

适用于汉语信息处理,也可供现代汉语教学与研究参考。

2 术语和定义
下列术语和定义适用于本标准。

2.1 汉语信息处理Chinese Information Processing,CIP

用计算机对汉语形、音、义等信息进行输入、排序、存储、输出、统计、提取等。

2.2 切分单位Segment Unit

汉语信息处理使用的、具有确定语法功能的基本单位。它包括本标准的规则所限定的词、短语及其他单位。

2.3 词类parts of speech,POS

词的语法分类,主要是根据语法功能划分出来的类。

2.4 标记Tag

对文本中切分单位的类别进行标注的代码。

3 总则

3.1 切分单位的范围

本标准的切分单位包括词、短语和其他切分单位,如习用语、缩略语、前接成分、后接成分、语素字、非语素字、标点符号、非汉字符号等。

3.2 词类划分的原则

本标准的词类分类体系参考了吕叔湘、朱德熙、胡裕树等先生的语法体系和《中学教学语法系统提要》。

本标准根据汉语信息处理的特点和要求,主要依据语法功能原则划分词类。

3.3 标记代码的制定原则

依据国际通常做法,标记代码主要采用英文术语的字母。例如,“名词”,采用英文术语“noun”的首字母“n”作为标记代码;“数词”,采用英文术语“numeral”的第三个字母“m”作为标记代码。

汉语独有的,或使用英文术语字母不便的,依据国内通常做法,标记代码采用汉语拼音字母。如,“缩略语”,采用汉字“简”汉语拼音的首字母“j”作为标记代码;“语素字”,采用汉字“根”汉语拼音的首字母“g”作为标记代码。

4 词类及其他切分单位分类

本标准将词类划分为13个一级类,16个二级类;其他切分单位划分为7个一级类,13个二级类。用户可根据需要自行增补。

4.1 词类划分及标记代码

4.1.1 名词(n),表示人或事物的名称,在句子中主要充当主语和宾语。

4.1.1.1 普通名词(ng),表示事物的名称。如:

人马书教师飞机电冰箱阿姨桌子木头

道德理论历史思想文化因素作风哲学

4.1.1.2 时间名词(nt),包括一般所说的时量词。如:

年月日分秒

现在过去昨天去年将来宋朝星期一

4.1.1.3 方位名词(nd),表示位置的相对方向。如:

上下左右前后里外中东西南北

前边左面里头中间外部

4.1.1.4 处所名词(nl),表示处所。如:

空中高处隔壁门口附近边疆一旁野外

4.1.1.5 人名(nh),表示人的名称的专有名词。

华罗庚阿凡提诸葛亮司马相如松赞干布卡尔·马克思

4.1.1.6 地名(ns),表示地理区域名称的专有名词。如:

亚洲大西洋地中海阿尔卑斯山加拿大

中国北京浙江景德镇呼和浩特中关村

4.1.1.7 族名(nn),表示民族或部落名称的专有名词。如:

回族藏族壮族蒙古族维吾尔族哈萨克族

4.1.1.8 机构名(ni),表示团体、组织、机构名称的专有名词。如:

联合国教育部北京大学中国科学院

4.1.1.9 其他专有名词(nz)。如:

五粮液宫爆鸡丁桑塔纳

4.1.2 动词(v),表示动作、行为,心理活动、生理状态及事物的存现、变化等,在句子中主要充当谓语。

4.1.2.1 及物动词(vt),能够带宾语。如:

吃打擦洗喂借送买捧提填

喜欢告诉接受 羡慕考虑调查同意发动

4.1.2.2 不及物动词(vi),不能够带宾语。如:

病休息咳嗽瘫痪游泳睡觉

4.1.2.3 联系动词(vl),表示关系的判断。如:

4.1.2.4 能愿动词(vu),表示可能、意愿。如:

能够能应该可以可能情愿愿意要

4.1.2.5 趋向动词(vd),表示趋向。如:

(走)上(趴)下(进)来(回)去

(跑)上来(掉)下去(提)起来(扔)过去

4.1.3 形容词(a),表示性质、状态,在句中主要充当谓语、定语、状语和补语。

4.1.3.1 性质形容词(aq),表示性质。如:

好高美大勇敢危险漂亮干净伟大

4.1.3.2 状态形容词(as),表示状态。如:

雪白黢黑通红冰凉绿油油亮堂堂白花花冷冰冰

4.1.4 区别词(f),表示事物的区别性特征,在句子中只能做定语修饰名词或跟助词“的”组成“的”字结构。如:

男女公母雌雄微型国产军用

4.1.5 数词(m),表示数目和次序。如:

零一半百千百万一百零八

第一第十八

4.1.6 量词(q),表示人、事物或动作的单位。如:

个条片匹辆尺斤两吨支回次遍千瓦时

4.1.7 代词(r),起替代和复指作用。如:

我你他这那谁我们你们他们

这个那个大家自己什么哪里怎么怎么样

4.1.8 副词(d),修饰或限制动词和形容词,表示范围、程度等。在句子中做状语。如:

都只就仅很再三屡次将不却

总共正在常常重新曾经竟然居然

4.1.9 介词(p),引介名词性成分,不单独充当句子成分。如:

把被从向对凭

按照对于为了自从关于

4.1.10 连词(c),连接词、短语或句子,表示两者之间所具有的某种关系。如:

和同与及并或

并且而且或者因为所以

4.1.11 助词(u),附着在词、短语、句子后面表示某种附加意义。如:

的地得了着过等等似的一样

4.1.12 叹词(e),表示感叹、呼唤或应答,可独立成句或在句中充当独立成分。如:

啊嗯唉哎哼哦哎哟哎呀

4.1.13 拟声词(o),模拟自然界事物的某种声音,不能单独成句。如:

砰滴答扑通咕咚丁丁当当

4.2 其他切分单位划分及标记代码

4.2.1 习用语(i),一种相沿习用的定型短语。

4.2.1.1 名词性习用语(in)。如:

海市蜃楼井底之蛙蛛丝马迹

4.2.1.2 动词性习用语(iv)。如:

跑龙套打官腔吃老本与时俱进励精图治

4.2.1.3 形容词性习用语(ia)。如:

丰富多彩艰苦朴素光明正大

4.2.1.4 连词性习用语(ic)。如:

总而言之由此可见综上所述

4.2.2 缩略语(j),专有名词或常用语的简缩形式。

4.2.2.1 名词性缩略语(jn)。如:

人大五四奥运

4.2.2.2 动词性缩略语(jv)。如:

调研离退休

4.2.2.3 形容词性缩略语(ja)。如:

短平快高精尖

4.2.3 前接成分(h),词根前面的附加构词成分。如:

阿老初第

4.2.4 后接成分(k),词根后面的附加构词成分。如:

子儿头化们式性者

4.2.5 语素字(g),汉字字符集中一般不单独使用的汉字。

4.2.5.1 名词性语素字(gn)。如:

民农材

4.2.5.2 动词性语素字(gv)。如:

抒究涤

4.2.5.3 形容词性语素字(ga)。如:

殊遥伟

4.2.6 非语素字(x),汉字字符集中单独使用时不具有意义的汉字,如:

垃琵蜘踌鸯蜻

4.2.7 其他(w)

4.2.7.1 标点符号(wp),如:

,。、;?!:“”……

4.2.7.2 非汉字字符串(ws),如:

officewindows

4.2.7.3 其他未知的符号(wu)。

5 词类及其他切分单位标记代码表(略)

  CopyRight © Ankang BroadCast 安康人民广播电台 安康广播网  Powered by JSPGenCMS4.0
地址:安康市巴山中路113号  备案编号:陕ICP备16017757号  
陕西互联网违法和不良信息举报电话:029-63907150