今天2021年 09月 14日 星期二,欢迎光临本站 上海市leyu乐鱼电竞有限公司

公司动态

记录一次知乎数据分析

文字:[大][中][小] 2021-09-14    浏览次数:    

  毕业设计题目是知乎爬虫及相关数据分析。总共爬取到约75w用户数据,专栏和线w条。基于以上的数据并进行一定程度的清洗后,我进行了简单的分析。数据可视化用的是pyecharts。

  由下面图表可以得到知乎用户的男女比例大概是3:2,各一线城市的男女比例都接近于4:3,高校男女比例都是男性多于女性。尤其是电子科技大学,在知乎上的男女比例接近于6:1。职业与性别比例的关系也符合实际,教师,会计等职业都是女性多于男性,而程序员,机械,建筑工程师等工科职业都是男性多于女性。

  由下面图表的高校词云可以看到,知乎用户的受教育水平是平均较高的,大部分用户都是大学教育水平,这也是知乎可以成为国内著名知识问答平台的原因。图5-6分析了知乎上活跃的高校,统计的标准是每个高校用户的回答数和提问数的加和。由统计的瀑布图可以看到中山大学居于活跃榜首,华南理工大学,北京大学次之。

  由职业词云可以看到知乎用户大多是学生,去除学生后,知乎用户的主流职业是程序员,设计师,教师,工程师等。其中以程序员的比例最大,这也是很多用户喜欢在知乎上提问编程技术问题的原因。每一个行业在某个地区的发展也是不一样的,可以看到职业地区热力图,程序员聚集最多的地区是北上广深等一线城市,在南京,成都,杭州等新一线城市也具有相当大的比例。这也是一线城市的高新技术企业往往比较发达的原因,同时也侧面反映了新一线城市的迅速发展。

  对知乎75w用户所产生的关注量,感谢数等信息进行了总值统计和均值统计,并将粉丝数超过10w的大V所产生的信息剥离出来进行统计。由对比条形图可以看出来,大V用户仅以少数的回答就获得了接近总量70%的赞同数和感谢数。普通用户之间很难互相关注,通常都是普通用户关注大V用户,在深层次关注大V用户所关注的用户,从而逐步形成知乎上的社交链。

  与其他社会化网络网站一样,知乎也同样存在僵尸用户(即注册用户后没有产生任何有意义的行为),由图可以看到知乎的僵尸用户率24.46%。接着分析除去僵尸用户以后的用户行为的分布情况。由图饼状分割图可以看到知乎用户粉丝数超过1w的的用户仅占1%,超过80%的用户要么无人关注,要么仅有寥寥几人关注。由回答数分布图可以得到知乎用户回答数与赞同数的大致分布情况,可以看到大约60%的用户没有回答过任何一个问题,约10%的用户回答过问题并没有得到任何赞同回应,约30%的用户回答问题并得到了赞同。

  由以上的一些基本信息分布统计可以得到知乎信息传播路径,金字塔顶端的是回答者,然后是知乎的注册读者,继而向全网传播的则是一些自媒体人及转载读者。

  本部分分析了知乎上约400位大V之间的互相关注关系,可以看到整体的关系链图像蘑菇,同大多数社会化网络结构一样,知乎的用户结构也是中心放射状结构。生成关系链图引用了斥力因子因素,最后各个节点的力因子稳定后,可以发现这400位大V的关系链中心结点是知乎的现任CEO周源,作为知乎掌门人的他,几乎关注了知乎上的所有大V。在关系链中也可以看到一个孤立点Sherry Li。

返回上一步
打印此页
[向上] 
在线客服

QQ咨询

咨询热线:
02154796948