欧阳健:数位化——《台湾110天》之第005天
作者按:笔者应“汉学中心”邀请作学术访问,于2015年11月16日飞抵台北,2016年3月4日返回福州,为期108天。在编纂《魏子云欧阳健学术信札》之馀,以一般大陆游客难能实现的方式,深入接触台湾的大千世界,了解这里的山川景致、社会风俗,逐日写出所见所闻所思,并配以实拍的照片,而成《台湾108天》,既是对台湾的文化观察和社会批评,也是自己的学习体会和思想记录,期望通过文化寻根和国族认同,为实现祖国和平统一、中华民族伟大复兴,起微薄的推动之力。《数位化》是第5天的日记,敬请关心台海局势的诸君,批评指正。
数位化
——《台湾110天》之第005天
欧阳健
2015年11月20日(星期五),阴。
晨六点起来,伟英已蒸好饭。看电视,王如玄又有军宅问题,陈建仁则变危机为转机,柯文哲说,六位候选人中有五人与其有交往,看得眼花缭乱。
八点半,寿菊来接我们去国图,继续参加“全球视野下的汉学新蓝海国际研讨会”,连同昨天开了整整两天,仿佛与世隔绝,收获与感想都不少。
十多年来,台湾数位典藏与数位学习计划,取得了相当成绩。中研院副院长王汎森院士自称是“不会游泳的教练”,他在《数位人文学与新汉学》的演讲中说,台湾已建立100个机构,750网站,成果入口是《典藏台湾成果联合目录》,并以观察者的角色,探讨“数位”与“人文”的伙伴关系,如“知识分子”一词,由二三十年前每年在报纸上出现几千次,至近几年减少为几百次乃至几十次,反映出台湾社会“知识分子”的式微,证明数字化处理大数据,能由定量到定性,从而带来开拓学术领域的契机。
王汎森引用屈万里的话,说不要轻易做出“没有”的判断,要承认“无知之幕”,有些材料你永远不知道藏在哪里;他赞同郭沫若《金文所无考》的“古文献中有习见之事物而为金文所绝无者,此可为判别典籍之真伪及时代先后之标准”,以为应学会从史料的“空白处”进行思考,重新解释观念词汇的起落、竞逐与结合。他还谈到史家和历史意义的建构和呈现,如清代考证学发达,学者之间的联系靠的是书信,如果以GIS(Geographic Information System,即“地学信息系统”)来进行多节点式的、宏观的观察,考察信件的流向,碰到什么,讨论什么,如何实现知识的分享等等,是非常有趣的课题。他展示了对“新汉学”的一种想象:不只重视一个山脉中峰与峰的历史,也关注如微血管的周遍全身,这是多节点的历史,是动态过程的历史,所以要处理比原先更多元、更广泛、甚至更多细节的历史文本,它是海底捞针式的挑战,这就需要发挥数位工具的作用。他提醒与会学者:数字化不是可以取代人的研究,而是让人得到一个方便。它和人是伙伴的关系,是不断的对话与互动。要注意数位人文的盲点与克服,不要被关键字所限制,以至丧失了整体的脉络。数位资料应当放在整体时代环境中评估,要注意“发散”和“收敛”两种不同思路间的冲突和矛盾。要处理好人文学的“虚”与“实”,应如龚自珍《尊史》所说,史学应“大出入”。他特别强调:人文研究的主体终究还是“人”,应以人为核心,关心人间真相,追求人文丰富性,以建立伙伴式的合作,由人的观察,人的思考,人的解释综合而成学问。以数位工具为“器”,博观而约取,以彰显汉学之“道”。观察、综合、分析、解释,永远是人文研究不变的核心,数位技术可以帮助开启更多的可能性。王汎森侃侃而谈,显示出博学与睿智,既高屋建瓴,又细致入微,所言皆深中肯綮,令人折服。
会议的召开,势将推动数字化事业的深入。关于是否应创建一门数位人文学的讨论,触及到了问题的本质与核心。就实质而论,人文学是本体,数字化乃是新形势下采用的工具和手段;换句话说,数字化是为更好地开展人文学研究服务的。当然,由于数字化的采用,不仅可以减少大量简单重复劳动,带来速度上的便捷和规模上的拓展,而且可以引领思维方式与研究方式的变革,具有十分重要的意义。
但从数字化的实践看,目前尚处于起步阶段,许多尝试尚是初级水平。最令人担忧的是对象与手段的倒置:研究古代散文、古代诗歌、古代小说,不是对古代散文、古代诗歌、古代小说怀有真正的兴趣,想要探究古代散文、古代诗歌、古代小说的底蕴,而是将古代散文、古代诗歌、古代小说作为数字化的试验品,强拉古代散文、古代诗歌、古代小说充作数位化的奴仆,以至于化学问为游戏,化神奇为腐朽,徒然好玩热闹而已。
如台湾大学历史系副教授许雅惠的《北宋晚期金石收藏的网络与脉络》,侧重点在以数位网络分析来处理金石图录,整理北宋晚期收藏家与他们的社会网络,进而探讨相关的政治与文化脉络。本文以吕大临《考古图》为基点,展示了六七幅以软件画出的人际之间的网络图,以收藏家姓氏籍贯与藏品数量为坐标的动态图表,让人眼花缭乱,叹为观止。窃以为金石学是以青铜器和石刻碑碣为主要研究对象,着重于著录和考证,以达到证经补史的目的。作者的兴趣不在金石即古器物与古文字本身,而在所谓“收藏圈”即由个人形成的网络,反映出数位运用中的避重就轻倾向(另一篇论佛经的数字化,偏重于寺志的考察而非经义的参悟,与此极为相类)。即就收藏网络而言,收藏者与收藏者之间的关系,是异常复杂的,用一条线连接的两个人名,会有非常不同的状况,不能都简单地说成是“脉络”。《红楼梦》中贾赦强要了石呆子珍藏的扇子,你能用一条线将他们连接起来,说成是密切的“网络”吗?即使将他们连接起来了,对证明扇子的文物价值与艺术价值又有什么意义呢?
再如中研院中国文哲研究所研究员刘苑如与研究助理罗珮瑄的《疾病感觉地图:地理信息系统(GIS)视野下的文本世界》。发言由二人交替上台,先由刘苑如介绍她们的“新”,不新在数位系统的新,而在从文本角度看是否能满足文本阅读的问题意识。文本阅读的核心在于建立意义,每个类目代表一个问题,数据还原为话语,数据又创造文本。她们选择《世说新语》《冥祥记》《搜神后记》三部魏晋南北朝小说,对其篇目人物进行快速数据化,构架了疾病事件的文本性,以建置“小说疾病叙事数据库”。罗珮瑄再说明数据库的建构方式,诸如文本与时空,理想文本,资料的基础,异常与非常等等,并以表格、图像来描述历史上的疾疫地图与小说里的疾疫地图,人间关系与疗愈关系。病人、施者、协调者之类。最后由刘苑如做结论,讲叙事,信息量,疾病与情感,象征的符号,关系情境等等。主持本场报告的中研院台湾史研究所研究员兼所长谢国兴,说了一句俏皮话:“看起来很有学问,听起来不大懂。”“讨论人”中研院近代史研究所副研究员张哲嘉则说:“那么长的篇幅,不知讲些什么,那些图反而遮蔽我的眼睛。”我都有同感。本文给自己提出的任务是借助魏晋南北朝小说来建置“小说疾病叙事数据库”,对于数字化的大数据而言,这本不是什么难事。魏晋南北朝时期的神怪小说数量众多,著名者有曹丕的《列异传》,张华的《博物志》,郭氏的《玄中记》,干宝的《搜神记》,葛洪的《神仙传》,王嘉的《拾遗记》,陶潜的《搜神后记》,刘义庆的《幽明录》、《宣验志》,刘敬叔的《异苑》,祖冲之的《述异记》,任昉的《述异记》,东阳无疑的《齐谐记》,吴均的《续齐谐记》,殷芸的《小说》,颜之推的《冤魂志》,还有一批以“志怪”为书名的小说集,如《曹毗志怪》,《殖氏志怪记》,《孔氏志怪》,《祖台之志怪》等等,鲁迅《古小说钩沉》皆有辑录,如果将所有魏晋南北朝小说都囊括进去,应该不是什么困难的事,那样也许能称得上是“大数据”,作者仅仅选择三部,能有多少代表性?况且为什么要选这三部?也没有申述充分的理由。《世说新语》,鲁迅称“志人小说”,与佛教灵验小说《冥祥记》、志怪小说《搜神后记》有着本质的不同,以之作为材料时要解决“虚实关系”,操作起来是完全不同性质的。
再如政治大学语言学研究所与信息科学系特聘教授刘昭麟的《〈全唐诗〉的分析、探勘与应用:以计算语言学的观点》,他讲述利用软件分析《全唐诗》的内容,滔滔不绝,如数家珍。他的精到之处在于指出由于词的歧义,数据往往会出来一连串胡说八道的数字,有时也会非常有用,但诠释真的很困难。从所举例证看,所谓基本分析无非是作品数量的统计,领先的是白居易、杜甫、李白;频率最高的二字字串,领先的是“何处”、“不知”、“万里”,以及使用“风”、“月”的词组等等。但计算语言学不能将“何处”、“不知”、“万里”联缀成好诗,也不能分辨“风月”连用,指的是景物还是世态。计算机能统计诗中的颜色,但它绝对不懂得“春风又绿江南岸”、“独自怎生得黑”句中的“绿”与“黑”,究竟好在哪里。
这就提出了一个问题:学术论文的题目从何而来?我们看小说是因为有趣,把当作疾病医疗史料来处理未尝不可,但终感到不是从小说本身中紬绎出来,没有把握其内在的价值,而是从外部贴加上去的,充其量不过一种思维的练习,而其末流,不过是自娱自乐而已。这是特别要注意防止与克服的。数字化的价值与作用,在于帮助人处理解决更复杂的问题,而不是设计所谓“课题”。研究者的当务之急,是端正研究的方向,重点要落在学问的本体,这些都有待在实践中不断地提高和升华。
数字化工程的得出数据,本身不会说话,这就曝显出人的观念的问题。从鼠标瞬间点击出的成百上千的例证中,甲学者可以举出十条八条来证明一种见解,乙学者也可以举出十条八条来证明相反的见解,这里的关键就在人的立场与态度。如柏克莱加州大学历史系讲座教授叶文心的《沉船记:美船罗妹与晚清台湾》(Shipwrecked: The American Rover and Late Qing Taiwan),其要点有三:1、一个故事:同治六年春,美国商船罗妹号从汕头驶向营口,遭遇大风,在南台湾沉没,船员分乘舢板,登上沙滩,忽然跳出十五六人,将多数人杀死,有一名水手跑到“打狗”,向英国领事馆投诉,副领事坐海军舰艇到出事地点探询,岸上发来枪弹,无功而返。美国驻厦门领事李仙得闻知,调动美国两艘战舰,率一百七八十名水兵登陆,美军大败。李仙得不肯放弃追寻,清朝官员为息事宁人,帮助李仙得进入原住民聚落,取回部分遗骨遗物。2、把平常故事说成历史事件,小题大作:以为这反应双方在沟通上的落差。1867年,天津条约快十年,在作业层面的接触,显示了中外争议的新形态。公示表述的歧义:在美方是“搜寻救援”,在清朝是“惩凶赔偿”,地方官员关于生番“不载版图,为声教所不及”的说法,成为日本争论主权的依据。3、以不太牵强的方式,与主题做一个衔接:东方与西方的数据性质不同。时间,事件发生在哪一天?有阴历与阳历的不同,钟点也不一致,有想象的空间;地点,在什么地方?用的英国绘制地形图。就数据而数据,做结论会出偏差。海洋秩序,信息的需求是不同的,数据本身就是历史。
其实,就与主题相关的数据而论,罗妹号事件的关键不在时间地点差异,而在判定数据的有效性。文章所用的资料,大量来自西方的外交文书与新闻报导,少量来自清朝官员的奏折,信息源实出当事一方美国水手的一面之词,而当事另一方原住民意旨,则根本没有得到反映,这种信息的不对称,是史家首先要加以权衡的。况且所有的证据多已消失:罗妹号已沉入海底,船长与水手(除了那跑到打狗的一人)已不在人世。从台湾原住民的角度考虑(首先要剔除他们必定“野蛮”的成见),当他们在宁静的南台湾海滩上,突然发现十多个相貌怪异的陌生人,难道不该怀疑他们的身份,并采取必要的措施吗?
对于李仙得这种人,绝不能用中性的词语来描述,不能说成是“以海洋及陆地为着眼点”、与“汉英语境中有关统治与文明的话语建构”相关的人物。试想,李仙得调动一百七八十名水兵攻打中国的领土台湾,并写下《台湾是中国的领土吗》等著作,渲染“台湾生番的野蛮”,“台湾是灾祸地带”,以“中国的海洋口岸并不安全”为由,宣称“文明国家应该取得台湾,除去野蛮的威胁”,完全是强盗逻辑。文章摘要最后一句为:“罗妹国情事件三十年之后,台湾成为日本帝国的一部分”,仿佛在陈述一件漠不相关的事,这就充分说明,历史研究中不能光有数位化,还须有坚定的民族立场。我们所说的“全球化”,决不是李仙得之“台湾不是清地,外国人当然可以占领”,以为日本可以取代中国,对中国形成包围圈的大亚洲主义。
会议期间,中午凭餐券领得一份“圆理想便当”,味美而又实惠,这种做法,值得提倡。
六点结束,寿菊开车送我们到家,然后别去。
伟英做了晚饭,稍稍看了一下电视,浴,早早睡了。
夜雨。
【文/欧阳健,本文为作者向红歌会网原创投稿。】