现在的位置:主页 > 综合新闻 >

大数据分析唐诗朋友圈 白居易最“大V”(3)

来源:大数据 【在线投稿】 栏目:综合新闻 时间:2020-11-11

【作者】:网站采编
【关键词】:
【摘要】:就程序员的思路,南都记者请教了一位人文领域研究者刘锐。刘锐现在香港教育大学中国语言学系做词汇语义学、语料库语言学方面的研究。他评价两篇文

就程序员的思路,南都记者请教了一位人文领域研究者刘锐。刘锐现在香港教育大学中国语言学系做词汇语义学、语料库语言学方面的研究。他评价两篇文章称:这种文理之间、文科和工程科学之间的跨界,在大众看来还比较新奇,想必这和教育体制的文理分科在大众中形成的观念有关。这样的文章虽然算不上学术研究(其实很多是程序员的“练笔之作”),但是对于向大众普及文理合流、文理相通的观念很有帮助。由此可以看到跨界和学术走入生活的趋势。通过一些计算机技术,从宏观的方面揭示诗词歌曲的特点,并通过现代人熟知的一些概念表达出来,比如“社交网络”、朋友圈等,能够引发大众对现象的思考,和对学术的兴趣。

刘锐告诉南都记者,之前他看过另一篇很火的文章《我分析了42万字的歌词,为了搞清楚民谣歌手们在唱些什么》,是用计算机方法分析歌词。相比之下,“前进四”的文章所用材料数量更大,分析较为严谨。不过,就学术研究而言,失之简单。做诗歌研究绕不过文学史。诗人社交网络、诗坛核心,考量的维度很多,“除了诗歌的互引,还比如各种史料记载的诗人交游的情况,诗人对文学风格的影响,贡献等。如果文章根据制图得出结论后再查查文学史,若能互相印证,会更有说服力”。

同时他认为,基于字词统计的方法是语言学中常用的方法,比如汉语中哪些是常用词,就用统计方法加一些语言学原理来确定。但是“前进四”的字词统计还是流于简单。“诗歌精细的意义不说,单说这个字词统计没有考虑到多义词、多义字的情况,这就不是很可靠了。而且他用的分词软件是不是适用于古汉语呢?古今汉语的分词是非常不同的”。

刘锐表示,整体而言他很乐见这种“跨界研究”。据他介绍,学术领域有一门计算语言学,专门用计算机研究语言。由此能验证出不少有趣的结论,最著名的便是“齐普夫定律”。此定律有点像所谓的“二八定律”,是最省力法则在语言中的体现。

他山之石

“数据挖掘”

在历史研究中大有可为

实际上,程序员的这次“跨界”也得到不少人文领域读者的关注。“有些不会写代码的朋友,他们想知道有没有现成的工具可以对其他文献进行分析”;还有一些读者和“前进四”交流对话,由此他听说了数字史学(digital history)这一概念,才明白自己的文章用计算机分析、展示历史,可以算作“数字史学”的范畴。

“前进四”口中的数字史学,据南京大学历史系王涛的论文《挑战与机遇:“数字史学”与历史研究》介绍,早在上个世纪90年代就有了这一概念。信息技术革命与“大数据”时代的到来,为史学研究史料整理、分析思路造成了不小的冲击。论文认为,计算机“数据挖掘”的特长在历史研究中大有可为。王涛提到,2007年开始,哈佛大学由谷歌公司支持,借助电脑“阅读”百万计电子书,利用n-grams分析书籍中出现的重要词汇,获悉不少有趣的结果。例如,对著名历史人物的成名过程有了定量的描述,而且发现成名的准备期从20世纪中期开始变得越来越短;对历史上出现的瘟疫流行路线有了清晰的描绘;主流文化对技术进步的接纳,在19世纪初平均需要66年,而在1880-1920年间,则只需27年。

无论是“计算语言学”还是“数字史学”,离普通人还是有些距离。不过,善用搜索工具、用程序处理人文,总能带给你意想不到的结论。毕竟,依照计算机分析,现代民谣歌手在歌词中最喜欢春天,最爱念叨“南方”,和全唐诗中诗人的偏爱有那么一丝接近呢。

文章来源:《大数据》 网址: http://www.dsjzz.cn/zonghexinwen/2020/1111/1378.html

上一篇:早读|大数据杀熟,严格监管
下一篇:强制二选一、大数据杀熟等套路到头了!《关于

大数据投稿 | 大数据编辑部| 大数据版面费 | 大数据论文发表 | 大数据最新目录
Copyright © 2018 《大数据》杂志社 版权所有
投稿电话: 投稿邮箱: