我是如何找到在知乎上我距离 @vczh 、 @OnlySwan 的距离的?
首先考虑这个问题的解决方案以及与爬虫的关系吧。一个比较可行的方案是,抓取所有人的关注列表及被关注列表,然后通过一个有向图连接起来,找两个人的最短关联关系,实际上就是就图中两个节点的最短路径。考虑到我希望得到的是仰望型的关系图,即从一个较有名气的人的关注列表出发,能否在他的关注链上游找到自己(举例:我关注轮子哥很正常,但是轮子哥没有关注我,不过他的关注链上有我,我希望借此找到这个链上的所有人)。所以,这个问题还可以得到进一步的简化:只是抓取每个人的关注列表而忽略粉丝列表,存储下这个人(Node)及与关注列表每个人的对应关系(Relationship)。
那么,对应的实现应该如何解决呢?首先要知道知乎的用户很大,即使刚才的方案干掉了所以没有任何人关注的用户,但是有至少一个人关注的用户依旧很多,所以不建议自己维护这样一个很大的图,Graph Database 是一个不错的选择,这篇博客中,我将使用 neo4j 来存储节点及其关系。而对应的用户及抓取列表,将使用Mongo存储。
既然找到了解决方案,那么上手开始吧。关于 neo4j 的安装及基本使用,以及cypher( neo4j 使用的操作语法)的入门介绍,这里将一笔略过,如果你没有 neo4j 的使用经验,请读者自行去 neo4j 的官网阅读学习。
现在,我们将任务进一步细化:
1. 从知乎的某个用户 x 开始,得到他的关注列表
2. 将 x 与其关注列表中的每个人 each 建立关系: x --FOLLOWING--> each
3. 将关注列表还没有抓取关注列表的用户放入 Mongo 中
4. 如果 Mongo 中还有未抓取关注列表的人,重复 1
然后,对于需要查询某两个人之间的最短路径,只需要在 neo4j 的 web 终端里使用对应的 cypher 语句即可。
分析部分至此结束,这里并不打算一步一步写出代码,代码可以参考博客中的内容。。
最后,在这里贴两张图片吧,分别对应着轮子哥的关注链上我的位置和四万姐的关注列表上我的位置:
由图容易看出,轮子哥与我只间隔了一个人,而四万姐与我之间间隔了最少两个人。