本
文
摘
要
之前大概2周前,爬了一遍话题清单,结果是30009个话题,后来发现中间网断了一次,大概漏了10个左右,这些话题是重复的。排名第一的答主说有34w多个话题,我持怀疑态度,应该没有去重吧。
将这些话题简单的用Gephi得到如图结果
可以明显的发现,未归类下拥有最多的子节点,其他的子类最多好像是170个。
定义最近的出现的层次为节点的层级,如图结果
第三层的差异来自未归类。我个人认为其实知乎的未归类在一定程度上接近知乎的早期形态。并且和中图法,LCC类似层次分布,我认为是有明显的专家编辑的结果,当然我认为认为之后本身是大众标签法。最近正在讨论话题结构的由上而下的专家法,和由下而上的大众编辑的不同。
另外,还有一个最近正在学习的幂等律,知乎的话题关注人数也类似。额,当老师都能用最小努力原则解释齐普夫定律后,我也在尝试解释下图。QAQ
============== 2017年3月20日===========
准备一次大修,重新抓取,不过这次知乎对爬虫进行了限制,多线程20时,疯狂429.(gevent同样疯狂429) 目前先降低速度重新抓取一遍, 巨慢。 之后会考虑加上代理。当前的结果和之前的结果存在较大差异,等抓取完毕后来填坑讨论。事实上,之前也有文章讨论过该问题。
参考文献:
张鹏翼, 杰苏, & 张久珍. (2016). 社会化构建标签等级的评价研究——以知乎话题结构为例. 图书与情报, 160(04), 89.
============== 2017年3月20日晚===========
数据抓完了,但是似乎存在一些问题,主要集中于未归类,抓取时候我的未归类只有5000个???贴一个抓取的数据的结果。简化为树状结构,每个话题的id只记录为最早出现处。
http://h12345jack.github.io/others/2017-03-18_topicSpider.txt
============== 2017年4月6日晚=============
GG
============== 2017年5月20日晨=============
我觉得有趣的几个毕设截图