千年之约:王选夫妇与汉字激光照排技术革命

2018-04-27
作者: 宁肯 来源: 北京日报

  王选夫妇。图片提供/视觉中国

  东方,西方

  第三代西文照排机已在西方大量推广,第四代机也正在一些技术先进的国家加紧研制,中国的五家单位选择的是二代机与三代机,即使费了九牛二虎之力研制出来,又有多大价值?

  1975年,王选已38岁,年轮也在他脸上刻下了比别人更多的东西,不老,但也不年轻,身体虚弱,但眼睛放光,自有了妻子陈堃銶后再没熄过。但这虚弱的身体却灵敏地感觉到那个时代最重要的、革命性的东西:

  1971年,英特尔研制出世界上第一块四位字长微处理器4004;1974年英特尔再度推出比4004快20倍的微处理器8080;同年美国MITS公司利用8080设计出世界第一台微型电子计算机。然而,计算机是西方人发明的,建立在英文基础上,古老的已经使用了几千年并且还在使用的象形文字汉字,能进入微机编码吗?显然不可能——这几乎是一种常识。但王选不这么看,至少把这看成挑战。

  1974年春暖花开时,陈堃銶得了晕眩症,时常发作,天旋地转,无法再给学生上课,教研室不再安排教学任务,让陈堃銶管些杂物,管管资料,对付教学之外的一些活动。陈堃銶也因此参加了对印刷厂的调查了解工作。在印刷厂,陈堃銶了解到国家有一个关于汉字信息处理技术的重点科研项目,代号为“748工程”。陈堃銶将这一消息告诉了王选,王选内心仿佛得到某种如同计算机内部的指令,突然感到某种沉默已久的“主机”启动。

  “748工程”总共包括精密汉字照排系统、汉字情报检索系统、汉字通信系统和汉字终端设备等内容的研究。王选认为精密汉字照排系统最为关键,这是书刊和报纸编辑排版工作的专用系统,对已延续了五千年的汉字意义重大,陈堃銶了解到在“748工程”中,已有五家单位在研制精密汉字照排系统,分别是上海印刷技术研究所、中华印刷厂、北京新华印刷厂、清华大学计算机系、中国科学院自动化研究所,这五家都实力雄厚。

  精密汉字照排系统的方案,其创造性、先进性和可行性是能否研制成功的关键,上述五家恰恰在这三个方面都存在着严重的缺陷。王选很想告诉他们——第三代西文照排机已在西方大量推广,第四代机也正在一些技术先进的国家加紧研制,中国的五家单位选择的是二代机与三代机,即使费了九牛二虎之力研制出来,又有多大价值?更重要的一点是,五家在汉字字形存储方面采取的全部是模拟存储方式,而不是数字,模拟存储方式能解决存储和输出等技术难关吗?

  王选的目光直接瞄准了国外正在研制的第四代机——激光照排机。最早开始研制激光照排机的英国蒙纳公司对四代机刚刚进入试制阶段,尚未形成商品;日本虽然搞出了第三代照排机,但功能很不完善,仅能勉强应付日文中的少量汉字。这是挑战,也正好是机会。

  这种技术与计算机相连,组成编辑排版系统,取代铅字(泥字)实现了书报自动排版。激光照排机直接制版的前景更加诱人:激光束直接打在感光版材上,经自动处理后即可直接胶印;底片的显影、定影及制版等工序都可免除。

  把古老的象形文字融进电子计算机谈何容易?汉字印刷用的字体字号又特别多,每种字体起码需要7000字,还有16种字号。考虑到字体和字号,印刷用的汉字字头数高达100万字以上,汉字点阵对应的总存储量将达200亿位。

  必须找到一种方法,对汉字信息进行大大压缩。王选唯一担心的是自己身体。自从确立了目标,王选常常整夜整夜不睡觉,坐着研究不行就躺着研究,幸好有陈堃銶,简直就是他的另一半,他们太一样了。陈堃銶早已习惯了王选,两人奇迹般地完全达到兼容,甚至很多时候他们就是一个人。王选着了魔似的拿着字典,查报刊,在床上翻来覆去、苦心孤诣研究浩如烟海的汉字:字形的特点,规律,没有规律的规律,没有逻辑的逻辑。

  中国文明要过计算机这个坎就需要千年等一回。王选与陈堃銶不是通常的过日子,而是过事业,生活得再简单不过,但他们慢慢归纳出汉字的横、竖、折等规则笔画:它们由基本直线和起笔、收笔及转折等笔锋组成;归纳出撇、捺、点、钩不规则笔画:它们都有一定的曲线变化。有一天躺着的王选气喘地对陈堃銶说,能不能想办法对这些笔画进行统计,看看能否选出一些典型的笔画,供整套字合用,再研究怎样用更少的信息描述它们?

  陈堃銶非常敏感,她从印刷厂找来字模,将字模稿上的一个个汉字字形放大,放在坐标纸上,再描出字形的点阵和统计笔段,就像毛活的图案,发现横、竖、折的基本部分比较固定,变化的是头和尾。而头和尾的样式不是很多,因此可以挑选出若干个供所有字合用的典型。但撇、捺、点这些不规则笔段,笔画变化太多,很难挑出几种可供所有汉字合用的典型。

  王选拿着一张张字模稿,辗转反侧,也正在此时,在汉字古老的逻辑中,王选的西方逻辑——高等数学,发挥了作用:两者在融合、对接、交互。融合点正是用类似数学拓扑学的“轮廓”来描述汉字字形:用折线轮廓逼近汉字字形,然后在轮廓上选取合适的关键点,再将这些点用直线相连,成折线,用折线代表汉字的轮廓曲线,只要点取得合适,就能保证文字放大或缩小后的质量。

  无论古老汉字多么桀骜不驯,还是被数学描述了。

  前夜

  陈堃銶将此带到系里实验室用于实践,通过软件模拟出了“人”字的第一撇,堪称石破天惊的第一笔!

  然而,在进行字形变倍实验时笔画出现了粗细不均,特别是横、竖、折这类规则笔画最甚,明显影响了文字质量。为了保证笔画的匀称,需要对这些笔画进行特殊控制。王选与陈堃銶粗略统计,汉字中规则笔段的比例占差不多一半,一套七八千字的字模会包含几万个横和同样多的竖,但分类后可能就只有几十个类型的横和竖了。

  王选精密的脑子运行到这儿,一个绝妙的几乎自动生成的设计又一次形成了:“我们可以用参数方法描述规则笔段,就是把笔画的长度、宽度、起笔笔锋、收笔笔锋、转折笔锋——横肩、竖头、竖尾,还有,笔画的起始位置等用参数编号表示。其余撇、捺、钩、点不规则笔段仍用轮廓表示,这样不但可以保证字模变倍时横、竖、折等笔画的匀称,解决文字变倍后的质量问题,还可以使信息进一步大大压缩……”

  王选起来喝了一大口水,躺下来接着说:“另一方面,由于我们可以实现不失真的变倍,不必把所有的字号压缩信息都存到计算机里去,可以只选择其中一两种有代表性的字号,放大或缩小变出别的各种字号,这样就能达到更高的压缩倍数!”

  陈堃銶不但在家帮助计算,还把压缩信息拿到系里计算机上进行各种模拟实验。陈堃銶惊讶地发现,这种“轮廓加参数”压缩信息表示法,达到了信息最大限度的节省,使汉字信息存入计算机的问题迎刃而解!

  陈堃銶把这个消息告诉了喘息的王选,自己激动得也有点喘。

  两人马不停蹄,又设计了压缩信息的紧凑形式,陈堃銶用黑、宋、仿、楷四种字体的十种字号,以及长宋、扁宋、长黑、扁黑等点阵的总存储量与压缩后的存储量相比,发现总体压缩倍数达500多倍。到了最关键时刻,即如何使存入计算机的压缩信息还原成字形点阵。陈堃銶白天还要常去上课,王选就一个人或坐或卧或在屋子中转磨。有一天陈堃銶刚回来,王选大声说,我想出办法啦!由于声音过大,停了好半天才说:“我们,可以用数学公式的推导,推导出一个压缩信息复原的递推公式!”

  两人马上按王选说的验算试验了一批字,无论放大缩小,完全一样,毫不变形。

  1975年5月,王选写出了“全电子照排系统”的建议手稿,提出采用数字化存贮和高倍率汉字信息压缩技术,并采用小键盘输入。当时北大数学系的负责人黄禄萍先生看到王选的手稿很是惊讶,认为“兹事体大”,由他主持了一次方案介绍会。

  王选的方案在北大领导层通过,“全电子式自动照排系统”被正式列为北大科研项目。学校决定从无线电系、数学系、物理系、中文系、电子仪器厂及印刷厂等单位抽调人力,组建研究班子。一个病人立起一个项目带起了一个群体也算是当时北大的一个传奇。

  王选的方案传到四机部“748工程”办公室主任郭平欣那里,郭平欣是计算机专家,他敏锐地意识到,王选的研究成果属于汉字信息处理的核心技术,如果真有突破,意义重大。

  但那是1975年,北京大学并没形成真正的科研学术气氛,一些人也不认可他这个病人,除了数学系,王选所寄予了厚望的无线电系、物理系、中文系大都反应冷淡。只有数学系派出两位教师,其中一位还是陈堃銶,另外是一个年轻人。从1975年夏天到1976年底,科研班底始终没能完全组织起来。即使已经调来的人对计算机也不熟悉,真正懂计算机的只有王选和陈堃銶两个人。

  不过王选与陈堃銶早已习惯了个人方式,有时相视一哂,继续他们的家庭式研究。每天,王选趴在桌子上,戴着眼镜,同时用放大镜分析汉字字形规律,进行繁杂的统计和比较。更多时候趴在床上,或侧卧在床上,随时依据身体的状况调动自己的身体。就这样王选精确地计算着汉字不同笔画的曲率变化,再分类合并,进一步提高压缩汉字信息的数量。这种拓扑学性质的工作使王选成为彻头彻尾的汉字专家。

  经过几个月的奋战,王选终于探究出汉字造型的奥秘,使庞大吓人的汉字字形的信息量骤然压缩成了五百分之一!那么被大大压缩了的汉字信息,能否精确地复原?为此王选在发明了高倍率压缩方案的同时,发明了一种巧妙的复原办法。除此之外王选还发明了一种失真最小的文字变倍技术,使庞大的汉字字模队伍缩减成五百分之一后,终于能自由自在地跳入电脑之中,为汉字精密照排系统的研制,扫除了最大的障碍。

  1975年9月,王选的高倍率字形信息压缩技术和字形的高速还原技术进一步成熟。陈堃銶将此带到系里实验室用于实践,通过软件模拟出了“人”字的第一撇,堪称石破天惊的第一笔!这个“人”字甚至具有隐喻的意义——王选是一撇,陈堃銶是一捺,刚好是一个完整的“人”,更是一个大写的“人”。王选和陈堃銶又做出了“方”和“义”两个完整的字。两个字如同他们的子女。他们一生没有孩子,汉字就是他们的孩子。

  1976年6月11日。郭平欣主任、国家出版局副局长沈良、“748工程”办公室的毛应、张淞芝及新华社的一干人,来到北京大学计算中心观看王选、陈堃銶的模拟实验。郭平欣一声不响地注视着宽行打印机输出的字样。郭平欣挑了10个字,分别是:山、五、瓜、冰、边、效、凌、纵、缩、露,后来又加了一个字:湘。这是行家挑的11个字,包括了汉字的主要结构与笔画,能打出这11个字,出报就没问题了。每个字都由两张宽行打印纸拼接而成,虽然放得很大,但几乎看不出有失真的地方。更重要的是,郭平欣要求一个字要压缩在1K,也就是120字节以内就可以了,而实际上压缩倍数比这要大,结果比期待的还要好。郭平欣严格地笑了,换句话说他的严格还挂在眉梢上,却满意地笑了。郭平欣与喘息的王选和眩晕的陈堃銶及其他操作人员一一握手,让王选保重身体。

  1976年9月21日,在郭平欣的建议下,张淞芝手书了一个通知,把“748工程”中的汉字精密照排系统的研制任务正式下达给北京大学。至此,中国印刷术第二次革命终于艰难拉开了帷幕。

  高峰

  四路激光平行扫描方案,使输出速度果真就像王选想的,提高了四倍:从原来的每秒钟15个字,一下提高到了每秒钟60个字。

  汉字信息高倍率压缩是一座高峰,王选逾越了之后,第二个高峰就是要解决高精度的输出装置。当时王选唯一能借鉴的,只有三代机的阴极射线管输出装置,它可以把一页版面扫描在荧光屏上,在底片上曝光。这样不但输出速度快,而且能同时输出黑白图片和照片,但制造这种显像管和扫描电路的技术复杂,对底片灵敏度的要求也非常高,这个方法后来被王选否定了。

  王选与陈堃銶继续寻找,了解到邮电部杭州通信设备厂制成报纸传真机,并已投入实用,报纸清样可以在北京通过传真机传送省市制成底片,再制版、印报,这是个线索。但传真机用的光源是录影灯,输出质量受到了很大限制,还是不可行。王选从文献上得知,美国戴摩(DYMO)公司正在研制第四代激光照排机,不过因技术没过关,没能成为商品,这是个打击。但很快王选与陈堃銶在一个展览会上见到杭州通信设备厂的传真机,心有灵犀的他们一下被吸引了:这种报纸的传真机幅面宽,分辨率高,对齐度好,王选一下想到激光照排系统,一个念头冒出来:“如果把报纸传真机的录影灯光源改为激光光源,不就变成激光照排机了吗?”但光学上王选是个外行,必须找个内行问一问。回到学校,王选立即请教本校物理系光学专家张合义:“你看,能不能把传真机中的录影灯光源改为激光?并且,把分辨率从原来的24线/毫米提高到20线/毫米?这样大概就能进一步提高输出质量,不仅满足出报要求也能满足更高的出书质量要求,你觉得这可能吗?”张合义的回答是肯定的,王选惊喜异常,脸上再次泛出红晕。

  因为王选眼睛放光,张合义眼睛也开始放光,陈堃銶注意到了,同样放出“激光”,三束光线交叉,是时代最奇异的光。

  王选立即着手激光输出控制器研究,他的身体居然进一步恢复,虽然依然喘,但精力充沛,坐着的时候已比躺着时候多,走路也不用扶墙,陈堃銶对眩晕也已习以为常。王选在陈堃銶的凝视下设计出了“挑选式读带写鼓”方案,为加快复原速度,还设计出了“按索引取一行字模压缩信息读入磁心存储器”方法。但内容存量放不下一张报纸仍是最大的问题,王选手捧《光明日报》终日冥想,有一天眼睛再放异彩,终于想出了“分段生成字形点阵并缓冲”高招。

  但新问题又出现了:用杭州通信设备厂滚筒式传真机改装成的照排机,滚筒的转速不能太快,结果每秒钟仅能输出15个字。速度太慢了!怎么才能提高输出速度呢?王选的生命能量这段时间达到了顶峰:他的有节奏的喘息已不是病而是某种音乐,某种不可或缺的生命伴奏。又一个灵感突然闪进王选脑海:把一路激光改成四路激光在滚筒上扫描,输出速度就可以提高四倍!

  王选深知,困难已不在激光输出控制器,而在于光学系统。

  几天以后,王选在办公楼前碰到了张合义。张合义这年秋天也参加“748工程”会战组,专门负责激光输出,听到了王选天才的想法非常振奋,经过短暂的思索之后,当即肯定四路激光平行扫描的设想可行!

  分手之后,张合义很快就把方案设计出来了。张合义运用光导纤维耦合的办法,保证四路激光准确定位。四路激光平行扫描方案,使输出速度果真就像王选想的,提高了四倍:从原来的每秒钟15个字,一下提高到了每秒钟60个字,完全达到实际应用标准。

  王选致力于突破一个个硬件难关,陈堃銶则像是一个方面军的指挥员,为研制排版软件绞尽脑汁,四处奔忙。这位体态娇弱、智力过人的女性可以说是中关村——当然也是中国——第一代计算机软件方面专家,承担着激光照排系统中大型软件的总体设计。当时美国和日本的排版软件大都是只能出毛条,再用毛条拼成版面,只有极少数的排版系统能整页输出、自动成页、自动添页码。陈堃銶设计软件目光瞄向国外最新水平,不但要整页输出、自动成页、自动加页码,还增添了联机修改的功能,以便在荧光屏上显示出修改后的小样。

  1976年底,王选写成了《全电子式精密照排系统》及《全电子式汉字照排系统后处理部分》,陈堃銶设计了其中各个部分软件间及软件与硬件之间接口的数据结构,并设计完成了书版的批处理排版语言,将排版程序分解为两次扫描,至此,汉字激光照排系统的总体设计方案基本形成。他俩绕过了二代机和三代机在机械、光学等方面的巨大技术困难,大胆选择了别人不敢想的第四代激光照排。西方从铅排到激光照排,其间经过一代手摇照排,二代光学机械照排,三代阴极射线管照排,王选/陈堃銶一步跨越了西方走过的四十年。

  绝唱

  这时候,报纸的样张终于印出来。“汉字信息处理”六个大字,赫然占据着报头的位置。

  1979年7月27日清晨,阳光灿烂,未名湖湖光摇曳,北京大学汉字信息处理技术研究室的计算机机房洋溢着紧张而又热烈的气氛。身穿白罩衫的工作人员一声不响地围在样机四周,用期待的目光注视着神秘的样机,没有人走动,更没有人说话,只有计算机键盘不停地发出轻巧的嗒嗒的敲击声。转眼间,只见从激光照排机上输出一张八开报纸的底片。两个年轻人忍不住挤了过去,只见装有底片的暗盒被拿进暗室,于是,年轻人又拥在暗室门口焦急地等待着,不断有人喊:好了没有?

  暗室的门终于打开了,人们争先恐后,抢着看那张刚刚冲洗出来的大底片。

  王选满面通红,使劲儿抑制着心跳与喘息。陈堃銶在他旁边,留心着底片也留心着王选,虽然自己时有幻觉,仿佛感受着三重阳光。底片从一个人手里传到另一个人手里,赞叹声与欢叫声此起彼伏。这时候,报纸的样张终于印出来。“汉字信息处理”六个大字,赫然占据着报头的位置。横竖标题错落有致,大小十来种字体,再配上精心安排的表格,花边,使版面美观大方,端庄悦目。

  王选一夜成名。

  没人知道陈堃銶。没人知道陈堃銶做了什么。王选声名最显赫的时候,有记者采访王选,王选突然说起妻子。那时王选荣誉等身,摘得了第14届日内瓦国际发明展览会金牌奖、联合国教科文组织科学奖、国家最高科学技术进步奖;担任了“三院院士”:中国科学院院士、中国工程院院士、第三世界科学院院士,全国政协副主席,九三学社中央副主席。

  王选忽然对记者说:“我的妻子陈堃銶,那时我负责系统和硬件,她负责整个软件的设计。有十多年,她是整个软件的负责人,在这个项目里头她的贡献和我差不多,也是激光照排的创始者。你们为什么不报道她?”

  记者说人们习惯聚焦一个人。王选说:“这是不对的,事实不是这样。唐三藏取经,九九八十一难,这是我们一同取的经。我总觉得我剥削了她:两人的荣誉加在了一个人身上。”

  1980年夏天,陈堃銶的软件的核心部分全部调通。计算机激光汉字编辑排版系统成功地排出了样书——《伍豪之剑》。全书只有26页,但字形优美清晰、封面古朴典雅,这是用国产激光照排系统排出的第一本汉字图书。该书从文稿输入、编辑排版、校对修改到加添页码等一系列工序都是在计算机控制下自动运行的。没有动用一个铅字,也没有经历铅排所必不可少的拣字、拼版、打纸型、浇铅版等一系列烦琐的工序,更没有熔铅、铸铅这类有毒作业。

  王选和陈堃銶望着那本色彩雅致的淡绿色样书,再次长长地舒了一口气,脸上都露出了胜利的健康的微笑。方毅副总理接到书,抑制不住喜悦心情,爱不释手,把样书带到中央政治局,分赠给了每位政治局委员。这些貌似平凡的绿色小册子,向中国最高领导层传递了一则重要的信息:北京大学有一位名不见经传的年轻助教,已经在首都引发了一场划时代的汉字印刷术革命!

  邓小平也没有忽略这一信息,当即写下“应加支持”的批示。1980年10月方毅带着邓小平的批示来到北大,向王选及全体研制人员表示了衷心的感谢。陈堃銶在全体人员中笑,王选向副总理欲言又止,又看了一眼陈堃銶。

  回到家后陈堃銶对王选说:“行了,就这么定了,以后不要提我,就是你一个人。”

  王选咕哝:“是我们两人。”“两人太复杂了,”陈堃銶说,“我们还分吗?”

  是的,两人不分,当初陈堃銶嫁给王选自己便消失了。王选也消失了,他们变成一个人。

  摘选自《中关村笔记》(宁肯著,十月文艺出版社出版)

「 支持红色网站!」

红歌会网

感谢您的支持与鼓励!
您的打赏将用于红歌会网日常运行与维护。
帮助我们办好网站,宣传红色文化。
传播正能量,促进公平正义!

×
赞赏备注
确认赞赏

评论(我来首评..)

大家都在看

热评文章
热点文章
热赞文章