TICK IT

http://www.linyi.press

从数据角度看金庸武侠世界

家里吃饭的时候偶尔还会看《95版神雕侠侣》。古天乐、李若彤都是我很欣赏的演员,关于这版连续剧连金庸本人都大为称赞二位演的最接近原著,的确算的上是经典。惭愧的是,关于金庸原著,我本人并没有真正静下心来完整的阅读过。作为一名数据工作者,正好趁着兴趣正浓,尝试从数据角度一观金庸的武侠世界。

金氏武侠不止于14本,最经典的应该就是下面的几本,被他老人家连接成对“飞雪连天射白鹿,笑书神侠倚碧鸳”。当今的网络时代,可以很方便的抓到电子版的原著,借助特定算法处理便可对原著进行适当的数据化分析。

金庸生于1924年,从创作年代分布看,他30岁左右开始写经典武侠,花了15年的时间来创作经典。尤其从1959年开始,年产量达到2-3部。金庸那时大概35岁,不知是人到中年偶有危机感(男人这个年龄要小心,据说35岁是普遍个坎,岳飞死的时候就刚好35岁),还是出于大师思如泉涌不写不快,总之这种产出速度还是相当高的。

采用中科院分词原创算法(多层隐含马尔科夫模型)对各部作品进行分词,并进一步剔除{“我、你、的、了、是”}等无显著意义代词、助词,形成词向量组(比如“降龙十八掌”将被识别为1个词,而非5个词/字)。

简单统计各部作品含词量可看到如下分布,基本上金庸对于各部小说的长短把握还是很有分寸的,并没有因为熟练于武侠而将篇幅随意拉长,用“字字珠玑”来形容是不为过的。

印象高中时代看《读者》有提到过金庸平时不忙的时候经常会翻看《穴位图》,武功招式、兵器暗器应该也是那个时候想出来的,真是五花八门,闻所未闻。少林的“铁莲子”是金庸提及最多的暗器,《书剑恩仇录》中红花会的三当家赵半山(出自太极门派)就使用这种暗器;其次“般若掌”、“龙抓手”、“韦陀掌”也是提及最多的武功;天下武功出少林,金庸会不会对佛教也有过极深研究,大师信佛吗?(此处缺一个含羞的表情包)

小说人物设计,韦小宝占据了很大篇幅,这个混世魔王恐怕是金庸笔下不太会武功但最厉害的角色。这或许也是金庸对于侠客塑形渐变的一个缩影。从《书剑》中陈家若的反清复明为己任,到《射雕》中郭靖的“侠之大者,为国为民”,算是金庸对于侠客传统定义的一个升级,再到《神雕》中杨过兼具侠邪两性,更多的反应人性变化,到最后《鹿鼎记》中韦小宝的混世魔王形象,已经完全回归到普通人性。或者不同角色差异本是时代固有的烙印,比如同处北宋,先辈乔峰及晚辈郭靖都以忠孝义为先。又或者这就是作者人生观的一个渐变,据说金庸曾有过做外交官的人生理想。

进一步迭代生成词文矩阵,赋以词频做权重,可计算出小说空间距离阵,并对小说进行系统聚类。为探索小说基于人物间的传承关系,此处仅提取关于人物的词文矩阵。《射雕》和《神雕》成为一类,主要讲述东邪西毒南帝北丐郭靖黄蓉杨过小龙女的故事,这几乎就是爷爷爸爸儿子孙子的家事;《雪山飞狐》和《飞狐外传》成为一类,可以说是胡斐本传及胡斐外传;第二梯度,《碧血剑》《鹿鼎记》,袁承志复仇失败后漂泊海外,旧相好阿九公主出家为尼后来做了韦小宝的师傅,两个故事多少有些关联,整个分类基本还算合理。

俗话说,千言万语不如一张图。人物之间的关系很难量化,但若以各自小说作为主要节点,可从侧面观察小说之间因人物而产生的联系。由于小说中人物繁多,这里设定阀值剔除了大量无名小卒,图中每个小圆圈代表一个人(避免视觉混乱,这些人名不显示),每个大圈圈则为中间度( ∑(P(ivj)/P(ij),i≠j,i≠v,j≠v) )较大的节点,即小说名称及连接小说的关键人物。

除了“梅剑和”及“莫大”属误判外(《天龙八部》中只有梅剑和菊剑两个人,分词中算法出现误判有待后期有时间再行改进,导致切分成与《碧血剑》中的“梅剑和”同名,同样《倚天》中没有“莫大”那位高手),整个网络关系还是比较清晰的。《连城诀》和《白马啸西风》成为独立子群,和其他各篇几乎没有关系。

金庸的武侠世界应该是这么构建的:

天龙八部乔帮主三弟虚竹走了XX运得无崖子70多年内功,成了缥缈峰逍遥派接任掌门。逍遥派祖师爷逍遥子,据说聪明绝顶又神秘莫测,网络上还有关于金大爷武侠世界里逍遥子vs扫地僧的讨论。金庸对逍遥子这个名称显然有特别偏好,《鸳鸯刀》中“太岳四侠”之首“病夫模样的中年人,衣衫褴褛,咬着一根旱烟管,双目似睁似闭”的烟霞神龙也叫逍遥子,只不过这个神龙跟逍飘渺就没有半毛钱关系了。”降龙十八掌“据说原来有二十八掌,经由乔峰和虚竹融合擒龙功将威力升级到飞毛腿当量,直接浓缩成了十八掌,只是后人越传越邪门,而且越传越难理解,传到郭靖手里(十八掌还是全的)算是留了个全,后来再传到史火龙那一代的时候,难度基本就超过了现代的高考,只剩下十二掌,再到后来经由谢逊传给张无忌就只剩下三掌了,再后来,就没有后来了。

《射雕》和《神雕》合并成一部完全是可以的,基本就是讲讲爷爷爸爸儿子孙子的家事。早在东邪西毒南帝北丐各开大招上华山对轰的时候,这几位亦正亦邪,压根无分敌我,只有中神通王重阳开防火墙才能平衡四方。神通仙逝后将《九阴真经》和林朝英的大部分绝学都留在古墓,后来都成了孙子辈杨过和小龙女的私家财产(全真七子是很无辜的,上层的武学没一样在全真教),这是后话。邪毒帝丐的第二代郭靖得到真传,郭伯伯成为一代大侠镇守湖北襄阳,抵御蒙古鞑子。后来遇到义弟杨康的遗腹子杨过,武功没能亲自教成(顺便要提一下大武小武,很可能是金庸写出来衬托杨过的两个笑话,两兄弟从小到大最大的梦想是当郭靖的亲戚,不过最后娶了耶律燕、完颜萍,跟耶律齐做了亲家,算是见解实现了当亲戚的梦想),杨过后来被送到终南山全真教学艺,这绝对要感谢郭伯伯,过儿才有机会遇到女神。

杨过是我很喜欢的角色,机灵、有悟性、不落俗套、有情有义、拿得起放得下,男神的标签太多了。男神的出生却是个草丝,不过这个世界好像自古如此,牛逼人生不需要解释,杨过当年要是没有练武而是去养猪,绝对也会成为养猪大户的。杨过后来看透世俗参悟生死,带着老女神(那时候小龙女差不多已经40出头了)回古墓养老,生了个女儿在《倚天屠龙记》中专门跑出来灭周芷若,就是那位说出”终南山后活死人墓,神雕侠侣绝迹江湖“的黄衫女子。

杨过的离去,导致郭襄单相思忧郁了好长时间,直到最后出家创立峨眉派,的确体现出女强人的本色。郭襄的人生中遇到张君宝也是很有意思的一段。当时落魄无依的张君宝遇到郭襄,郭襄很够意思让他去找自己的爹爹郭大侠求个好前程,只是后来阴差阳错君宝想通了,决定不再去找郭大侠,要靠自己逆袭,这才有了后来的武当派,他后来还取了个艺名叫张三丰。再后来就是他有个外孙也是各种走运,学到很多上层武功,外孙名叫《倚天屠龙记》中的张无忌。插一句,张三丰终身保留童子之身的原因是对郭襄暗生情愫,呵呵,金庸大爷,我猜得对吗?

张三丰的武当教传到冲虚那一辈的时候武功也是好的一塌糊涂,各种笑傲江湖。冲虚在当代已算是十大高手之一(是不是有点武功一代不如一代的感觉,难怪金庸写到后面的韦小宝干脆用“混”走江湖,阿弥陀你的佛)。据说冲虚和当时的少林寺方证大师是”好基友,一辈子“,经常约出来谈心,以至于后来《笑傲江湖》中的令狐冲上少林找茬的时候冲虚有专门出来帮忙干过几架,这应该是尽人皆知的。

朱元璋被暗示是借助《倚天》中明教势力打败陈友谅,建立了明王朝,只是可惜据说他们朱家基因好像不太好,后代当皇帝的大多不成样。皇位传到崇祯的时候偏偏遇到个陈圆圆,搞得内忧外患,帝位岌岌可危。大将袁崇焕很快被政治玩死,崇祯也就跟着拉稀了,那天闯王李自成刚好进京。袁崇焕的儿子袁承志的出场本是要续承老父遗志,匡扶明室,生平事迹可详见《碧血剑》。他先拜闯王李自成的部下崔秋山那学了几招,后来某天出门看见有坨翔,就义无反顾的跑上去踩了一脚。后来就邪门了,袁崇焕很快接触到金蛇剑法学成一代高手。再后来李自成的军队进京可能是被天上人间搞残的,袁承志见状心灰意冷遂隐居海外(其实是南海外,也就是现在的文莱)。顺便要八卦一句,袁承志和崇祯的女儿阿九公主有过一腿,后来阿九出家为尼,再后来当了韦小宝的师傅,就是那位“断臂神尼”。

李自成兵败失踪后中国消停了不少,皇太极也差不多得了天下,是为清廷。闯王归去,留下大批宝藏由其麾下胡、苗、范、田四大护卫掌握,江湖传闻护卫内讧,毛人凤一剑刺死了胡一刀,引出一段胡家少爷胡斐报仇寻源的《飞狐》故事。胡斐曾得到过《书剑恩仇录》中红花会三当家赵半山的帮助,后期还遇到过大当家总舵主陈家洛,他还以为陈家洛就是乾隆。不过陈家洛其实是乾隆的同胞兄弟,只是他自己并不知道而已。《书剑恩仇录》书剑应该就是指陈家洛,书生舞剑最终失败,故事有点凄凉。

李岩是李自成的重要谋士,但最后也是死在李自成手里,据说李自成对李岩怀有内疚,李岩的儿子也未忍心杀闯王。李岩的儿子李西华应该是个有独特见地的人物,气势差了点但武功还可以,《鹿鼎记》中天地会和沐王府对于反清后怎么复明有争议,李西华就提出“推翻清朝,谁功劳大就谁当皇帝”,正所谓皇帝轮流做,明天到你家,只是这种思想太前卫了,一般人接受不了,李西华被排挤。可见,在那种年代武功已经不是那么重要了,像韦小宝那样“混得开”的能力一下就体现出优势来,有道是识时务者为俊杰。

敬金庸大师!

Nov 15, 2015 Publish Date
金庸 武侠 古典