埃德蒙顿华人社区-Edmonton China

 找回密码
 注册
查看: 1899|回复: 3

高频度汉字

[复制链接]
鲜花(0) 鸡蛋(0)
发表于 2005-2-25 06:57 | 显示全部楼层 |阅读模式
老杨团队,追求完美;客户至上,服务到位!
ZT; J4 R: o9 x3 ^
汉字的学习
- x* ~! g* s- k4 R+ {% Q; K# b/ S   
* L/ N* `( u2 D     北京航空学院计算机系从一亿三千万字的社会科学和自然科学文字材料中,
0 y/ B7 P/ k, @" k4 A抽出一千一百多万字的材料, 对汉字的出现频率进行了统计。统计结果列入一九
$ y. W! f6 T# h% E1 ]  E八五年发表的《三千高频度汉字字表》。这个字表对中文教学有很大的参考价 6 V3 U2 [9 a9 F3 P5 N1 @
值。
8 N- {' h+ @( ~3 ^0 e, U9 e' z    各个汉字的使用频率不一样。最常用的 "的" 字, 频率高达百分之四以上。就 * \/ k7 b3 E" [8 n7 ^: i) C; k
是说, 每读一百个字的文章, 就会遇到四个 "的" 字。第一百位的 "本", 频率降到
; }2 i4 D7 R: T' r  G9 ]百分之○点一八九, 不到 "的" 的二十分之一。第五百位的 "严" 字, 频率为百分 * }+ {! ]; I$ G3 x: S
之○点○四四, 不到 "的" 的八十分之一。而第一千位的 "赶" 字, 频率只有百分 + e0 y; ?. j$ _( s1 f
之○点○一五八, 仅为 "的" 字的二百五十八分之一。
1 n5 H! Q7 X4 |# b     显然, 我们应该先教常用的汉字, 后教不常用的汉字。但是真正做到这点非
: N% r. V! c* A2 ~% m* ~常困难。字表所反应的是书面语, 而大多数教材以教口语为主, 教的字自然多用 $ H+ f3 I7 ~3 O; E' b
于口语。比如, 口语常用的 "坐" 字, 在字表仅为第七百○一位, "吗" 为八百○ 9 T" a" ^9 A( J' b. A) W
一位, "姓" 字为第一千四百二十四位。口语不常用的 "而" 字, 在字表中则高居第
1 x# O) D) ^0 S五十二位。所以, 编写教材时面临的一个难题, 就是如何平衡口语和书面语的汉
) Z7 [! U) p& j. l5 X: f字。
, Z* p' f' q1 C' R* X     还有, 按理说应该先教常用的偏旁部首。如先教 "门", 再教 "们"; 先教 "木", ) y. V' d; |" Y
再教 "机"。但是, 不论是口语还是书面语, 出现频率高的字, 未必就是偏旁部首。 * B0 ]4 s0 A2 K) v* g1 h" ?6 ~
如 "们" 的频率为第二十四, 而 "门" 则为第二百二十六。"机" 的频率为第九十四, , t, o5 S# E3 n+ @1 p* _
而 "木" 仅为第五百四十二。 3 {7 Y: w7 H$ o/ C& {
     汉字的总数虽然多达五六万, 可是常用的只有一两千字。根据汉字频率表,
4 m; w. G# r+ }) u/ P最常用的十个字, 共占频率为百分之十二以上; 最常用的一百个字, 占百分之四 9 q: S2 p+ ^/ L. w9 u- S
十; 最常用的二百个字, 超过一半, 达百分之五十四; 最常用的一千字, 占百分之 8 E- B/ p3 J" m" m
八十九; 最常用的两千字, 占百分之九十七。如果把这些告诉学生, 就会增加他
8 ]4 U8 Q8 t4 D9 G8 p# M0 ]们学习汉字的信心。
鲜花(0) 鸡蛋(0)
 楼主| 发表于 2005-2-25 07:12 | 显示全部楼层
最高频的前一千个高频度汉字的覆盖率大约为90%,以后每增加1400个字,大约提高覆盖率十分之一。' b2 H4 I9 p( y2 w
# s( G% g! b  m0 K6 ^0 J5 b
字种数 增加字数 合计字数 覆盖率
( r+ T- ~, G' w/ N  b8 ^9 I1000 1000 90.000%$ @& Z* B. E9 F7 j' ?- W  y
1000 1400 2400 99.000%
2 z1 p; n, ~2 L5 l/ a$ ]! D" z% ?2400 1400 3800 99.900%$ {3 S$ h+ S. F4 W
3800 1400 5200 99.990%5 A! C: w5 w6 c. B8 e8 A8 h
5200 1400 6600 99.999%
鲜花(0) 鸡蛋(0)
 楼主| 发表于 2005-2-25 15:23 | 显示全部楼层
Originally posted by victorw at 2005-2-25 07:12 AM:% ?0 s1 s7 j/ ^0 C9 g, L
最高频的前一千个高频度汉字的覆盖率大约为90%,以后每增加1400个字,大约提高覆盖率十分之一。
0 U3 z/ [% j. i2 r8 Q* n" ?7 z. t+ I$ C7 s
字种数 增加字数 合计字数 覆盖率, o0 }% p$ e+ M# R" _6 e* I
1000 1000 90.000%
6 n# X; p8 I; n* \$ I0 x1000 1400 2400 99.000%6 z; d' y, X6 M% a) r
2400 1400 3800 99.900%
& i4 `% k2 k( E/ j$ a3800 ...

! `. n; h% T8 h2 R
0 o& E8 ]) }3 [5 g1 f# u正因为这样, 在阅读现代的一般书刊的时候,如果认识了1000个出现次数最多的字,那么不认识的字只占书刊总字数的10%; 如果认识了2400个出现次数最多的字,那么,不认识的字只占书刊总字数的1%了; 如果认识了3800个出现次数最多的字,那么, 不认识的字只占书刊总字数的0.1%. 
鲜花(0) 鸡蛋(0)
发表于 2005-9-9 16:45 | 显示全部楼层
老杨团队 追求完美
呵呵.....说实话,每太看懂,但是还是来发扬一下中国文化精神......(汉语永远是博大精深的~要不然我是好几年的语文岂不是白学了........)
您需要登录后才可以回帖 登录 | 注册

本版积分规则

联系我们|小黑屋|手机版|Archiver|埃德蒙顿中文网

GMT-7, 2026-4-8 14:51 , Processed in 0.126035 second(s), 11 queries , Gzip On, APC On.

Powered by Discuz! X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表