发布网友 发布时间:2022-04-22 05:38
共2个回答
热心网友 时间:2023-09-26 05:39
정리 정돈 청소 청결 습관화
整理,整顿,清扫,清洁,习惯化
此为5S
四定(定置、定位、定量、定点)
小
热心网友 时间:2023-09-26 05:39
《汉语拼音方案》《汉语拼音证词法基本规则》《普通话异读词审音表》《中文书刊名称汉语拼音拼写法》
一、定量
1、什么是汉字定量
定量是指规定现代汉语用字的数量,以便汉字学习和运用,便于汉字信息处理。
2、汉字定量的必要性
因为汉字的累积数量与实用字量相差悬殊。
在字量上加以规定,可以*死字、废字、罕用字的复活使用,可以——
有利于减轻汉字学习的负担;
有利于提高汉字应用的效率;
有利于中文信息计算机处理;
1)从静态上看,从甲骨文到现代汉字,总的字数不断增加。
公元100年《说文解字》收字9353个,另有重文1163个,总共10516字。其中“重文”就是“异体字”;
公元400年《字林》收字12824个,比《说文解字》增加2308字;
公元543年《玉篇》收字22726个,比《字林》增加9902字;
公元997年《龙龛手鉴》收字230个,比《玉篇》增加3704字;
公元1011年《广韵》收字26194个,比《龙龛手鉴》减少236字;
公元1066年《类篇》收字31319个,比《手鉴》增加48字;比《广韵》增加5125字;
公元1067年《集韵》收字53525个,比《类篇》增加22206字;
公元1615年《字汇》收字33169个,是一次比较大规模的整理,比《集韵》减少20356字,主要是减少了大量的异体字的结果;
公元1671年《正字通》收字33549个,比《字汇》增加380字;
公元1716年《康熙字典》收字47035个,比《正字通》增加13486字;
公元1915年《中华大字典》收字48000个,比《康熙字典》增加965字;
公元1990年《汉语大字典》收字54678个,比《中华大字典》增加6678字;
公元1994年《中华字海》收入字85000个,比《汉语大字典》增加30322字。增加的字几乎都是扩大偏旁类推简化范围而产生的不规范“简化字”。
2)从动态上看,实际使用的汉字在不同的时代基本上稳定在一定的数量上。
一般说来,常用字3000左右、通用字6000左右,总的实用字数为1万左右。
《十三经》是先秦儒家经典的集合。据统计,该书使用的单字共有6544个。
可以认为先秦典籍中实际实用的汉字数大约为6000字左右。
《史记》使用的汉字数为6000左右;
(现代汉语用字统计表)
《三民主义》(孙中山),总字数约16万,仅用了2134个不同的字;
《*选集》一至四卷,总字数约66万,实际使用21个不同的字;
《骆驼祥子》总字数10多万字,实际使用的字数为2413个。
“748工程”统计了2160万字符的书面汉语语料,语料类型涉及工业、农业、军事、科技、*、经济、文学、艺术、教育、体育、医药卫生、天文地理、自然、化学、考古等多方面的出版物,统计得出实际使用的汉字为6335个。
北京航空航天大学主持的现代汉语词频统计工程,抽样统计了从1919年以来60年间的现代汉语语料,得到的汉字为7754字;
山东大学抽样统计1982-1991年10年间当代汉语流通语料,得到5210字,其中有5092个集内字和118个集外字。
新华通讯社统计了1986年全年的新闻稿件,总字符约为4000万个,得到汉字数为6001个汉字。其中有5748个集内字和253个集外字。
从古今汉字的实用情况看,动态系统中汉字的实用字量大约在6000个左右。这个数字一直是比较稳定的。
3、汉字定量的原则
1)根据汉字的使用频率,选取使用频率高的字;
2500常用字在抽样语料中的覆盖率达97.97%;
1000次常用字在抽样语料中的覆盖率达 1.51%,
合计(3500字)覆盖率达99.48%。
也就是说,认识2500个高频汉字,阅读现代汉语文本时,生字的出现率只有2.03%。
认识3500个高频汉字,阅读现代汉语文本时,生字的出现率只有0.52%。
2)在使[FS:PAGE]用频率相同的情况下,选取学科分布广、使用度高的字;
3)根据汉字的构字能力和构词能力,选取构字能力和构词能力强的字;
4)根据汉字的实际使用功能斟酌取舍。有些在书面语中很少使用的字,统计频率往往很低,但在日常生活中却很常用,也应适当选取。
5)选取专业分布均匀的字,避免选字的片面性。
4、汉字定量的主要成果
主要是两个字表:
《现代汉语常用字表》
《现代汉语通用字表》
常用字是社会普及教育和书面汉语应用中经常使用的汉字,是国民素质教育的基础。
国家语言文字工作委员会汉字处从1986年6月开始研制《现代汉语常用字表》。
1987年7月国家语委邀请各方面专家进行论证;
1988年1月制订出《现代汉语常用字表》。
通用字是社会成员普遍通用的汉字,不包括专业性偏僻字和一般人少用的罕用字。
例如,中文“三古”(古代汉语、古代文学、古籍整理)处理古籍文献所遇到的古字,就不属于现代汉语通用字范围。
通用字是为了满足现代汉语书面语的需要,解决3500常用字之外剩余的0.52%覆盖率的汉字需求问题。
通用字表共收汉字7000个。其中除了3500常用字之外,根据实际需要,主要以《印刷通用汉字字形表》为基础,删除其中不常用的50字,增加854字。
5、汉字定量研究需解决的问题
主要包括:
姓名用字、
地名用字、
方言字、
科技专业用字、
翻译用字等
其中有许多生僻字或新造字。按照汉字定量的要求,都有必要制定字表,加以适当的*。
6、汉字定量的主要参考文献
1)语体文应用字汇(4261字) 1928年6月陈鹤琴
2)常用字选(2000字) 1946年8月四川省教育科学院
3)常用汉字登记表(1017字)1950年9月**教育部社会教育司
4)常用字表(2000字) 1952年6月**教育部公布
5)识字正音3500字表(3559字) 1954年7月中国大辞典编纂处
6)普通话常用字表(3000字) 1958年8月山东省教育厅
7)常用字表(3100字) 1965年8月北京市教育局中小学教材编审处
8)4500字表(4444字) 1975年中国文字改革委员会汉字组
9)汉字频度表(6376字) 1976年12月七四八工程查频组
10)现代汉语词典 1978年8月中国社会科学院语言研究所
11)增订2500字表 1979年7月中国文字改革委员会汉字组
12)新华字典 1979年商务印书馆
13)信息交换用汉字编码字符集·基本集(6763字) 1981年5月国家标准局发布
14)标准电码本(7292字) 1983年邮电部
15)六年制小学语文统编教材生字表(31字) 1984年人民教育出版社
16)常用构词字典(3994字) 1984年3月中国人民大学语言文字研究所
17)社会科学自然科学综合汉字频度表(7754字)
1985年3月北航计算机系中国文字改革委员会汉字处
18)汉字频率表(4574字) 1985年7月北京语言学院语言教学研究所
19)1986年度新闻信息流通频度(6001字) 1987年1月新华社技术研究所
二、定形
1、什么是汉字定形
定形是指规定现代汉语用字的标准字形。
凡是通用汉字,一个字只能有一种确定的字形,不能有多种字形。
特别是中文信息处理技术更需要确定统一的字形标准。
2、汉字定形的必要性
1) 汉字异体繁多,需要整理;
2)异形词的存在影响顺利交际;
3)新旧字形需要统一;
4)电脑用汉字字形需要标准化;
3、汉字定形的任务
1)淘汰异体[FS:PAGE]字
2)整理异形词
3)统一新旧字形
4)规定字形点阵标准
4、汉字定形的方针和原则
方针
整理异形词的方针可以理解为汉字定形的方针,这就是:
积极稳妥、循序渐进、区别对待、分别整理。
汉字定形工作涉及面广,不能操之过急,应当积极稳妥地进行。
关于现代汉语中的异形词的整理规范工作,就采取了这样的方针。
1977年国家文字改革委员会就曾经发布《词语整理表》(征求意见稿)。
2001年12月国家语言文字工作委员会公布《第一批异形词整理表》。
2002年3月31日开始试行。
原则
同样道理,整理异形词的原则可以理解为汉字定形的原则。具体地说,就是:
1)通用性原则
选择通用性强、使用频度高的词语为推荐词形。
通用性原则符合语言的约定俗成规律。如以“毕恭毕敬”为推荐词形,废止“必恭必敬”。
2)理据性原则
从词语发展的理据性选择推荐较为合理的词形。例如:
“戒”与“诫”本属于同源字。
“戒”古代有“劝诫”、“告诫”和“戒备”“警戒”的意义。随着语言文字的发展,又创造了“诫”专门表示“规劝”“劝诫”义,而让“戒”专门表示“警戒”“戒备”义。形义分化分工的结果,造成了异形词。
因此,从理据性出发,推荐“规诫”,废止“规戒”。
3)系统性原则
系统性主要指层级性、递归性和词汇结构系统的类推性。
词汇系统内部有较强的结构层级,同一个结构成分具有明显的递归性和可类推性。这主要表现在相同的语素系列在构词时用字的一致性。如:
“靡—糜”在“奢靡——奢糜”、“侈靡——侈糜”两组异形词中,单根据使用频率,难以决定取舍。
根据同系列的异形词“靡费——糜费”加以推断,发现“靡费”比“糜费”占有明显的优势。因此,整个系列都确定以含“靡”的词形为规范词形加以推荐。
5、汉字定形的主要成果
1)《第一批异体字整理表》;
《第二批异体字整理表》;
2)《印刷通用汉字字形表》;
3)《第一批异形词整理表》(2002年3月31日试行)
该表选取了普通话书面语中经常使用、公众的取舍倾向比较明显的338组(不含附录中的44组)异形词(包括词和固定短语),作为第一批进行整理,给出了每组异形词的推荐使用词形。
4)汉字点阵字形库国家标准
(1)显示用汉字点阵字形库国家标准
《GB5199.1-85信息交换用汉字15×16点阵字模集》,本标准所采用的是宋体。
(2)打印用汉字点阵字形库国家标准
普及型打印用点阵汉字字形库为24×24点阵级别。
提高型打印用点阵汉字字形库为32×32点阵级别和48×48点阵级别。
高精度打印用点阵汉字字形库为×以上点阵级别。
(3)常用字体×点阵国家标准
《GB/T14245-93信息交换用汉字×点阵宋体字模集及数据集》(1993. 国家标准总局)
《GB/T14244-93信息交换用汉字×点阵仿宋体字模集及数据集》(1993. 国家技术监督局)
《GB/T14243-93信息交换用汉字×点阵楷体字模集及数据集》(1993. 国家技术监督局)
《GB/T14242-93信息交换用汉字×点阵黑体字模集及数据集》(1993. 国家技术监督局)
(4)常用字体128×128点阵国家标准
《GB/T14717-93信息交换用汉字128×128点阵宋体字模集及数据集》(1993. 国家技术监督局)
《GB/T13444-92信息交换用汉字128×128点阵仿宋体字模集及数据集》(1992. 国家技术监督局);
《GB/T13443-92信息交换用汉字128×128点阵楷体字模集及数据集》(1992. 国家技术监督局);
[FS:PAGE] 《GB/T14718-93信息交换用汉字128×128点阵黑体字模集及数据集》(1993. 国家技术监督局)
(5)常用字体256×256点阵国家标准
《GB/T14719-93信息交换用汉字256×256点阵宋体字模集及数据集》(1993. 国家技术监督局)
《GB/T13446-92信息交换用汉字256×256点阵仿宋体字模集及数据集》(1992. 国家技术监督局);
《GB/T13445-92信息交换用汉字256×256点阵楷体字模集及数据集》(1992. 国家技术监督局);
《GB/T14720-93信息交换用汉字256×256点阵黑体字模集及数据集》(1993. 国家技术监督局)等。
此外,国家技术监督局还公布了宋体、仿宋体、揩体、黑体四中常用字体的矢量字形库国家标准。
5)汉字矢量字形库国家标准:
《GB/T13844-92图形信息交换用矢量汉字单线宋体字模集及数据集》(1992. 国家技术监督局);
《GB/T13845-92图形信息交换用矢量汉字宋体字模集及数据集》(1992. 国家技术监督局)
《GB/T13846-92图形信息交换用矢量汉字仿宋体字模集及数据集》(1992. 国家技术监督局)
《GB/T13847-92图形信息交换用矢量汉字楷体字模集及数据集》(1992. 国家技术监督局)
《GB/T13848-92图形信息交换用矢量汉字黑体字模集及数据集》(1992. 国家技术监督局)
参考文献:
《第一批异体字整理表》
《第二批异体字整理表》
《简化字总表》
《印刷通用汉字字形表》
《现代汉语通用字表》
《统一的新旧字形表》
《信息处理用部首规范》
《第一批异形词整理表》
三、定音
1、什么是汉字定音
汉字定音指规定现代汉语用字的标准读音。
2、汉字定音的必要性
1)现代汉语中存在大量的异读词,主要是因为记录这些词的汉字存在异读现象。例如:
“差”字共有四个读音,在不同的词语中有不同的读音。如果不加以注意,很容易读错:
chā 差别、偏差、误差、电势差、一念之差、阴差阳错、差强人意
chà 差不多、差不离、差不了、差远了、相差十万八千里
chāi 出差、公差、当差、官差
cī 参差错落、参差
2)人名、地名的异读,要进一步审定。
3)轻声词、儿化词在书面上没表示,在口语里有随意性,应加以明确。
4)一些多音多义字的读音也应该审定。
3、异读词的类型
异读词中的汉字读音主要有三种情况:
古今异读;
方音异读;
文白异读。
4、汉字定音的任务
1)纠正古今异读:汉字的读音实际上与汉字所记录的语词的实际发音密切相关。
因为汉字不是表音文字,所以,汉字的读音又可以随着汉语语音系统的发展而改变。
这样一来,古今汉语语音发展的信息就从古今异读中表现了出来。例如:
“远上寒山石径斜”中的“斜”在这里应该读“xiá”,而不能读“xié”。
这就是古今异读。
2)纠正方音异读:现代汉语方言存在许多语音分歧现象。
汉字可以随不同方言而变读。
汉字在普通话有一个读音,在方言里有不同的读音。
即使北京话中,也有一些字的读音与普通话不同。
例如大量的儿化音、变调等。
3)纠正文白异读:文白异读指口语和书面语之间的异读现象。例如,
“街道”有“jiēdào/gāidào”两读;
“发酵”有“fājiào/fāxiào”两读;
“曝光”有“bàoguāng/pùguāng1”两读;
“麦芒”有“màiwáng/màimáng”两读;
“呆板”有áibǎn/dāibǎn 两读。
5、汉字定音的标准
汉字定音的语音标准,就是以北京语音为标准音。
[FS:PAGE] 古今异读的以今为正;
方音异读的以普通话读音为正;
文白异读的根据社会习惯,以多数人的读音为正。
6、汉字定音的主要成果
《普通话异读词审音表》
提供了异读词的正确读音,可以作为指导汉字定音的主要的参照标准。
主要参考文献:
《汉语拼音方案》
《汉语拼音证词法基本规则》
《普通话异读词审音表》
《中文书刊名称汉语拼音拼写法》
四、定序
1、什么是汉字定序
定序是指确定现代汉语用字的排列顺序,做到字有定序。
首先需要确定汉字的排序方式,然后才能确定每个字的次序。
传统汉字的排序法主要有义序法、形序法、音序法三种。
形序法又有笔画法、部首法、号码法等三种。
号码法中还有四角号码、三角号码、高低笔号等多种。此外,还有兼用不同方法进行汉字排序的,例如:先部首后笔画、先笔画后部首等等,方法众多,不一而足。
2、汉字排序法的源流
1)义序法
是按照字义进行分类来排列顺序的,如古代辞书《尔雅》、《释名》等。
如《尔雅》按照系列各类排列:
释诂、释言、释训、释亲、释宫、释器、释乐、释天、释地、释丘、
释山、释水、释草、释木、释虫、释鱼、释鸟、释兽、释畜等
现代出版的《简明汉语义类词典》也是按意义排序的。
按意义排序很难定出明确一致的标准,所以,除了特殊需要,一般不采用义序法。
2)形序法
是按照字形特征进行分类来排列字序的。中国最早的一部字典《说文解字》就是根据字形结构特点排列汉字的。
汉字结构复杂,可以作为排序依据的字形信息也相对较多。
因此,形序法又分为以下三种:
a.笔画法
这种方法实际上是笔画笔形法,主要根据汉字笔画的数量多少排列汉字。
笔画数相同的字,根据不同笔形的顺序。
汉字的基本笔画有五种。五种基本笔画如何排列次序也有不同。例如:
(1)“札”字法:按笔顺取“札”字的笔顺作排序依据,即:
“横、竖、撇、点、折”
(2)“丙”字法:按笔顺取“丙”字的笔顺作排序依据,即:
“横、竖、折、撇、点”;
(3)江天日月红法:取每个字的首笔形作排序依据,即:
“点、横、竖、撇、折”;
目前,基本上多采用“札”字排序法,即“横、竖、撇、点、折”次序。
b.部首法
部首法是按照汉字的部首排列汉字的顺序。
部首和部首内的汉字按照笔画多少和笔顺排列。
汉字部首起源于东汉末年许慎编撰的《说文解字》,该书首创540部首。
《正字通》和《康熙字典》该并为214部。
现代通行的字词典工具书,所采用的部首数量不尽相同。
c.号码法
号码法主要有四角号码法。
四角号码法的取码口诀:
“横一垂二三点捺,叉四插五方框六,七角八*是小,点下有横变零头。”
因为汉字笔形有很多变体,使用0到9十个数字代码,每种笔形必然概括许多变体。了解这些变体是掌握四角号码法的关键。
四角代码的笔画变体:
1)所有起笔端与横笔运笔趋势一致的,例如“挑”、“横上钩”均为“横”(代码为1);
2)所有竖、撇和竖左钩均为垂(代码为2);
3)所有点和捺,包括左点、右点、以及横捺、斜捺归为一类,(代码为3);
4)所有两笔交叉的为(代码为4);
5)所有一笔纵或横穿两笔或两笔以上的均为“插”(代码为5);
6)所有方框,例如“口”、“囗”(代码为6);
7)所有折笔或者两笔画相接所形成的角形均为“角”(代码为7);
8)所有[FS:PAGE]两笔相离成正倒八字或八字变形的均为“八”(代码为8);
9)所有“小”字或“小”字变体的例如“肖”字头、“京”字脚均为“小”(代码为9);
10)点和横相结合,例如“享”“京”“高”“辛”诸字的上部均为“零头”(代码为0)。
此外,还有一些细则需要掌握:
1)取码顺序按照:左上——右上——左下——右下的顺序;
2)一笔可以分角取码。如:
“以”2870;“七”4071;“几”7721;“习”1712;
3)相连的两个角共用一个代码笔形的,服从前面的角位,后面的角位用0代替。例如:
“全”8010;“本”4023;“禾”2023;“高”0022
4)一笔上下两段和其他笔画构成不同笔形的,分两角取号。例如:
“大”4080;“来”4023;“李”4040;“蛊”5010
5)全包围和“门”结构的字,后两码取里面的笔形。如:
“园”6021;“田”6040;“闭”3724;“问”3760;
6)一角有单笔和复笔两种笔形时,要取复笔笔形。如:
“少”9020;“扎”5201;“介”8022;“气”8001;
7)有两复笔可取的,在上角取较高的复笔,在下角取较低的复笔。如:
“也”4471,“军”3750;“成”5320;“皮”4024;
8)当中起笔的撇,下角有其他笔形的,不取撇而取其他笔形。如:
“衣”0073;“奎”4010;“友”4040;“寿”5034;
9)或平行的笔形,一律以最左或最右的笔形为角。如
“非”1111;“市”0022;“草”4440;“竹”8822;
3)音序法
音序法是按照字的读音排列字的顺序。
历代的韵书都属于按照“音序法”排列汉字的。现代汉语早期曾经采用“注音字母”记录的顺序排列汉字的方法,1958年《汉语拼音方案》公布实施以后,基本上都以《汉语拼音方案》拼写的汉字读音形式作为排序依据,根据汉语拼音字母表的顺序排列字的音序。
3、各种排序法的优缺点
1)义序法的优缺点
优点
可以从意义的角度成系统地查阅单字。
缺点
①意义的类聚关系没有一定的标准;
②同义类内部的顺序排列没有客观的依据;
③不适合字数较多的工具书
2)笔画法的优缺点
优点
只要会数笔画数,熟悉笔画笔形的先后次序,掌握了部首就可以进行汉字的检索。
缺点
①笔画数相同的字排序时存在二义性;
②有些字或者部件的笔顺不一致,影响正确排序。例如:
母:中间是“横、点、点”还是“点、横、点”;
竖心:是“竖、点、点”还是“点、竖、点”;
万:是“横、撇、折”还是“横、折、撇”;
女:是“横、折、撇”还是“折、撇、横”;
车:末笔究竟是“数”还是“横”;
等等,在普通使用者中间存在分歧。
③笔画数和笔顺都相同的字的排序存在二义性。例如:
巾、山;
开、井;
天、夫;
末、未;
工、土、士;
人、入、乂、八;
九、几、乃、匕;
已、己、巳、弓;
丸、凡、夕、么、及、久、勺;
3)部首法的优缺点
优点
①部首法历史悠久、使用广泛;
②基本适应汉字的结构特点,多数汉字与部首具有意义上的联系;
③基本符合人们从形查字习惯和要求,便于查检不会读音的生字。
缺点
①部首的位置不固定,有些字难以确定部首;
②同笔画的部首字及同部首内的字,排列次序存在二义性。
4)号码法的优缺点
优点
①可以直接根据笔形编码查字,避免了数笔画的繁琐。
②[FS:PAGE]汉字代码采用阿拉伯数字,汉字排列成自然数列,查找起来自然方便。
缺点
①规则比较复杂,初学者不易掌握;
②重码字较多,需要增加区别码。
5)音序法的优缺点
优点
①排检速度快,准确率高;
②不受简、繁字体的影响;
③符合国际上大都按音序检索的习惯。
缺点
①读不出或读不准音的字、词可以排序,但是难以查找;
②同音字的顺序存在分歧。例如:
《新华字典》shi4音节中下列32个字的顺序看不出具体的排列规则。
士、仕、氏、舐、示、世、市、柿、式、试、拭、轼、弑、似、势、事、
侍、峙、恃、饰、视、是、适、室、莳、逝、誓、释、谥、嗜、筮、噬、
既不是部首法(单立人的字分开排列),又不是笔画法(笔画多少的字交叉排列),也不是频度法(使用频率高低不等的字混合排列)。好像是采用“声符”归类法,因为声符相同的字排列在一起。但是,不同声符之间的顺序如何排列的呢?因此,很令人费解。
③不适合用来编排收字较多的字典、词典;
即使区分声调,现代汉语的带调音节约为1300个。《汉语大字典》56000个汉字,平均每个音节的同音同调字约为43个。如果考虑到各个音节汉字分布的不均匀性,个别音节的同音字会超过100甚至更多。这些同音字由于排列无明确规则,因此查找起来很费时间。
4、汉字定序的主要成果
(1)19年,教育部和文字改革委员会联合成立了汉字查字法工作组,对各种排检法进行整理、研究,提出了“部首查字法”、“四角号码查字法”、“笔形查字法”、“拼音字母查字法”等四种草案。
(2)二十多年来,我国出版的各种字典辞书基本上都是根据这四种检字法编排的。
(3)1983年拟订了《统一汉字部首排检草案》选用了201个部首,使部首查字法得以规范化。
(4)汉字信息处理中的汉字编码,也属于汉字排序问题。
汉字编码是把汉字变换成字母数字代码,便于通过键盘把汉字输入计算机。
汉字编码的方案先后提出了几百种,概括起来主要有字形编码法(形码)、字音编码法(音码)和形音结合编码法(形音码或音形码)三类。
各类编码中都存在不同数量的“重码”。这些重码从根本原因上说,就是因为汉字的定序问题没有解决所造成的。
汉字编码的研究和应用,对汉字定序起到了积极的促进作用。