以此手段,“前进四”找出了与“寂寞”关联密切的10个词:唯有、今夜、摇落、怅望、故国、伴、惆怅、深春、明日、旅。他在文中这样写道:“能看出来,诗人们往往在春日的深夜里,在树叶摇落的季节里,在旅途中,怀念故国的时候,最容易寂寞。这也难怪,我写完上个句子,都感觉有点寂寞了呢。”
最热烈“基友”:陆龟蒙和皮日休
3月12日,“前进四”又贴出另一篇分析成果《计算机告诉你,唐朝诗人之间的关系到底是什么样的》,超高的阅读量让他感到惊讶:“最初只是为了好玩,没想到有这么多人喜欢。”他告诉记者,这篇文章写的时候其实很随意,远没有之前写数学类文章那么认真。如果能知道有这么大的传播度,就会更加认真些。
这篇文章,他把关注焦点放在诗人身上,试图理清两个诗人以至于多个诗人间的关系。如何解决呢?借助全唐诗,他把“关系”简化为“引用关系”,即诗的标题和正文中只要提到过对方,那么两者之间的引用关系加1。一首诗如果提到多次对方,只算一次引
用。“前进四”对记者说,“这种引用关系的分析只是大体上的分析。如果要认真分析两位诗人之间的关系,势必要按年代顺序来分析两者之间的唱和作品,这工作量有点大,并且不是我擅长的内容”。计算机无法对引用的诗做细微的情感分析,因此文中的诗坛“社交网络”“朋友圈”都只是以“引用关系”为依托。
全唐诗共2000多名作者,诗人的别称又很多,比如杜甫字子美,按排行称为杜二,按官职称为杜工部。为了让他们对号入座、不重复、不遗漏,“前进四”使用CBDB(中国历代人物传记资料库,系统性收录中国历代名人传记资料)查询诗人的主要信息及别名,排除年代不符的重名,手动补充遗漏部分。由于把全唐诗所有诗人关系都理出来会很乱,借助CBDB来的筛选,“前进四”将762位诗人纳入社交网络的关心范围。
范围既定,程序运行。首先,看一下著名的李白与杜甫。全唐诗中,杜甫写了12首与李白有关的诗,李白则只有3首与杜甫有关的诗。虽然“前进四”也调侃“李白这种朋友确实差劲了一点”,但对于近来网上流传的李杜二人的段子,他觉得“看看笑笑就好”。“前进四”表示,杜甫写李白的诗多,一方面因为李白是长辈,比杜甫大了十来岁,成名时间也早得多,更多的是因为杜甫和李白的性格不同:李白飘逸,杜甫深情。
那么,唐代诗人间的唱和互动以哪两人最为频繁呢?排名第一的是晚唐时期陆龟蒙和皮日休,堪称“绝对的好基友”。两人互相提到对方的次数均达百次以上,常年酬唱的成果被集成唱和诗集《松陵集》,文学史上也留下“皮陆”的美名。
并列排名第二的则是白居易和刘禹锡、白居易和元稹。白居易与元稹是文学史上闻名的“元白”二人组,关系之亲密自不待言;白居易和刘禹锡同年(772年)出生,从政道路都是“各种被贬谪”。白居易得知刘禹锡去世的消息后,还写下了悼亡的千古名诗:四海齐名白与刘,百年交分两绸缪。同贫同病退闲日,一死一生临老头。
白居易是“大V中的大V”
另外,从排名前三十的引用关系来看,白居易还与李逢吉、崔玄亮、李建、李绅等名字相连次数很多。“前进四”称,白居易绝对是唐朝诗人朋友圈中的明星,是“大V中的大V”。
两人间关系有了排名,“前进四”利用ECharts将前一百名引用关系图示化,得到诗人们的社交网络圈。依据引用度的强弱,关系图显示出了唐朝诗人的两个大型朋友圈:盛唐杜甫-李白朋友圈、中唐白居易朋友圈。
对于白居易这个“社交核心”,“前进四”向南都记者解释,社交网络圈的核心人物,就是与其他文人发生联系比较多,并且在文坛上有一定名望的人。白居易是其中典型,白与其同时代的其他文人都有联系,并且是当时的诗坛领袖。
除此之外,从初唐、盛唐、中唐、晚唐分阶段看,初唐诗人中关系最好的是宋之问和沈铨期,两位正是宫廷诗人的代表,确定了近体诗的格律,史称“沈宋”;晚唐诗人的社交网络比较散乱,没有明显的核心。其中最重要的就是李商隐和杜牧,文学史也以“小李杜”认证。
跨界回响
“这个数据统计很有趣但还流于简单”
以“前进四”这个程序员的思维,计算机不仅可以分析唐诗,还可以解剖其他时代的文献,梳理时代人物关系。当然前提是这种分析需要“对当时的时代有一定的了解”。伴随着计算机技术的发展和古典文献的数字化进程,他对做出中国历史人物关系图的愿景抱有期待。
文章来源:《大数据》 网址: http://www.dsjzz.cn/zonghexinwen/2020/1111/1378.html
上一篇:早读|大数据杀熟,严格监管
下一篇:强制二选一、大数据杀熟等套路到头了!《关于