日志

在C程序中显示汉字

已有 1608 次阅读2010-3-1 13:27 |个人分类:单片机|系统分类:单片机| 内码, 区位码, 汉字

一.

首先机器可以识别的是机内码；然后我们需要将其转化为区位码才可以得到点阵的地址；得到地址取到点阵就可以显示了。

这种方法是调用中文汉字库进行汉字显示。

国家标准规定：

汉字库分94个区，每个区有94个汉字（以位作区别），每个汉字在汉字库中有确定的区和位编号，这就是汉字的区位码。每个汉字在库中是以点阵字模形式存储的，一般采用16×16点阵（32字节）、24×24点阵（72字节），每个点用一个二进制位（0或1）表示，对应在屏幕上显示出来，就是相应的汉字。

由于在中文环境下，输入的是汉字的内码，我们必须将之转换成区位码，算出偏移量，从字库中找到对应的汉字，将其字模显示即可。

内码转换成区位码方法如下：

   qh=c1－0xa0 wh=c2－0xa0

其区位码就是：

    qw=qh＊0xff＋wh

该汉字在字库中离起点的位置是：

     offset=(94＊(qh－1）＋(wh－1))＊32L

1.点阵汉字

计算机认识的东西——内码

2.汉字的内码

在电脑中，所有的数据都是以0和1保存的，按不同的数据操作，可以得到不同的结果。对于显示英文操作，由于英文字母种类很少，只需要8位（一字节）即可。而对于中文，常用却有5000以上，于是前辈们想了一个办法，就是将ASCII表的高128个很少用到的数值以两个为一组来表示汉字，即汉字的内码。而剩下的低128位则留给英文字符使用，即英文的内码。不信，你可以用记事本写一C文件：
main()
{
unsigned char *s,*e="ABcd",*c="你好";
clrscr();
printf("English char =");

s=e;
while(*s!=0) /*C的字符串以0为结束符*/
{
printf("%3d,",*s);
s++;
}
printf("\nChinease char=");
s=c;
while(*s!=0)
{
printf("%3d,",*s);
s++;
}
getch();
}
再用TC输入*.txt打开运行，看见了没有，那些数值即英文和汉字的各字节内码。

3.汉字字模

得到了汉字的内码后，还仅是一组数字，那又如何在屏幕上去显示呢？这就涉及到文字的字模，字模虽然也是一组数字，但它的意义却与数字的意义有了根本的变化，它是用数字的各位信息来记载英文或汉字的形状。在硬件系统内，英文的字模信息一般固化在ROM里，即使在没有进入系统的CMOS里，也可以让你看到英文字符。而在DOS下，中文的字模信息一般记录在汉字库文件HZK16里。

4.汉字库文件

了解字母和汉字是按字模位信息显示的原理后，那如何得到汉字的字模信息呢？难道要我们自己去做？NO。前辈们经过艰辛的努力，将制作好的字模放到了一个个标准的库中以免去后辈的麻烦，这就是点阵字库文件。一般我们使用16*16的点阵宋体字库，所谓16*16，是每一个汉字在纵、横各16点的区域内显示的。不过后来又有了HZK12、HZK24，HZK32和HZK48字库及黑体、楷体和隶书字库。虽然汉字库种类繁多，但都是按照区位的顺序排列的。前一个字节为该汉字的区号，后一个字节为该字的位号。每一个区记录94个汉字，位号则为该字在该区中的位置。因此，汉字在汉字库中的具体位置计算公式为：94*(区号-1)+位号-1。减1是因为数组是以0为开始而区号位号是以1为开始的。这仅为以汉字为单位该汉字在汉字库中的位置，那么，如何得到以字节为单位得到该汉字在汉字库中的位置呢？只需乘上一个汉字字模占用的字节数即可，即：(94*(区号-1)+位号-1)*一个汉字字模占用字节数，而按每种汉字库的汉字大小不同又会得到不同的结果。以16*16点阵字库为例，计算公式则为：(94*(区号-1)+(位号-1))*32。汉字库文该从该位置起的32字节信息即记录了该字的字模信息。

5.点阵汉字的显示

了解点阵汉字及汉字库的构成原理后，显示汉字就变得简单。以16*16点阵字库为例，通常的方法是：将文件工作指针移到需要的汉字字模处、将汉字库文件读入一2*16数组再用for循环一位位地显示。

二.

汉字：机内码高位=区码+A0H 机内码低位=位码+A0H
汉字库结构：GB2312规定字库分为94个区，每区94个汉字；1-9区为图形字符，10-15区没有使用，16区以后为汉字。
“啊”字的区位码1601（16区第1个）内码是B0A1。
字库（HZK16）中汉字的点阵第一个字节在字库文件中的偏移（长整型）=（（机内码/256-161）*94+机内码%256-161）*32
通过偏移算出在字库中地址,就可以依次取出点阵数据.

到目前为止，我们编写的C 程序，其用于人机交互的提示或菜单都是英文
的，那么如何在没有汉化的Turbo C 集成开发环境下编制显示汉字的程序呢？

解决这一编程问题，我们首先必须了解有关汉字编码及字库的知识。根据对汉字使
用频率的研究，可把汉字分成高频字(约100 个)，常用字(约3000 个)，次常用字(约4000 个)，
罕见字(约8000 个)和死字(约45000 个)，即正常使用的汉字达15000 个。我国1981 年公布
了《通讯用汉字字符集(基本集)及其交换码标准》GB2312-80 方案，把高频字、常用字、和
次常用字集合成汉字基本字符集(共6763 个)，在该集中按汉字使用的频度，又将其分为一
级汉字3755 个(按拼音排序)、二级汉字3008 个(按部首排序)，再加上西文字母、数字、图
形符号等700 个。

汉字编码:

区位码

国家标准的汉字字符集(GB2312—80)在汉字操作系统中是以汉字库的形式提供的。汉
字库结构作了统一规定，即将字库分成94 个区，每个区有94 个汉字(以
位作区别)每一个汉字在汉字库中有确定的区和位编号(用两个字节)，这就是所谓的区位码
(区位码的第一个字节表示区号，第二个字节表示位号，因而只要知道了区位码，就可知道
该汉字在字库中的地址，每个汉字在字库中是以点阵字模形式存储的，如一般采用16×16
点阵形式，每个点用一个二进位表示，存1 的点，当显示时，可以在屏上显示一个亮点，存
0 的点，则在屏上不显示，这样把存某字的16×16 点阵信息直接用来在显示器上按上述原
则显示，则将出现对应的汉字。

内码
汉字使用两字节表示，国家制定了统一标准，称为国标码。国标码规定，每个字节使用
后面7 位，第一位为0。为了区别于英文的ASCII 码，国标码在计算机上使用的时候，规定
汉字每个字节第一位设置为1，以表示该两字节为汉字，称为内码。以“大”字为例子：
国标码3473H： 0 0 1 1 0 1 0 0 0 1 1 1 0 0 1 1
内码B4F3H： 1 0 1 1 0 1 0 0 1 1 1 1 0 0 1 1
国标码与内码有一定的转换公式，即16 进制的区位码，两个字节各加80H，就成为了
国标码。
汉字字模在字库中存放的位置根据汉字的区位码来确定，内码是汉字在机内的表示。由
于区位码和内码存在固定的转换关系，所以当在支持汉字输入的系统中，键盘输入的汉字内
码即在程序中存在，将其转换为区位码，再从字库中找到对应的汉字字模，然后再用有关的
位操作和循环语句，对每个字节的每一位进行判断，如同过滤一样，如果某位是1，则按设
置的颜色在屏幕的相应位置画点（用graphics.h 中的显示象素点的函数putpixel()），若某位
为0，则不画点，这样就可按预先设置的颜色在相应位置显示出该汉字来。

内码到区位码的转换
若汉字内码为十六进制数h2h1l2l1，则区号qh 相位号wh 分别为：
qh= h2h1-0xa0;
wh= l2l1-0xa0；
若用十进制表示内码为dld2，则
qh=dl-l60；
wh=d2-160；
即区位码qw 为：
qw=100*(d1-160)十(d2-160);
反过来，若已经知道了区位码qw。则也可求得区号和位号：
qh=qw/100；
wh=qw-100*qh;
因而该汉字在汉字库中离起点的偏移位置(以字节为单位)，可计算为：
offset=(94*(qh-1)+(wh-1))* 32;
注意：字库中每1 区有94 个字符。
这样，就可以找寻到文件的偏移量，读出一个char bytes[32]数组。这样bytes 数组中则
存了要显示汉字的16×16 点阵字模，然后将字模按行扫描的办法，通过循环用putpixel()函
数在屏幕设定位置显示出象点，因而组合成一个显示的汉字。