语言统计分析期末大作业要求我们统计全唐诗中的对偶字,并用所得到的统计结果反过来评判出对仗最工整的诗句。我在数据处理过程中突然想到,鉴于互成对偶的两个字之间有一定的语义联系,我们便有了一个庞大的汉字语义关联库;如果把所有汉字之间的关联画成一张图会是什么样子呢?于是我用 Mathematica 7 提出了全唐诗中处在对偶位置上的所有字对,得到了 464448 个可能的对偶关系;再利用一些算法得到了最稳定、最常用的 2000 个对偶关系,把它们都描绘在一张大图上,于是便有了上面的这个图。点击这里查看高清无码大图,1600×1600 像素。可以看到,有语义关联的汉字自动地聚合到了一起。
利用 Mathematica 7 的 CommunityStructurePartition 算法,我把这个图中的顶点大致分成了几个团体,每一个团体内的字基本上就构成了一个词类。这几天打算就这个题目继续研究下去,希望能得到一些更有意思的结果。