保存成功
订阅成功
保存失败,请重试
提交成功

微博爬虫总结:构建单机千万级别的微博爬虫系统

NLP方向硕士生,曾实习于微信算法团队,现就职于AI创业公司;致力于构建聪明灵动的人机对话系统
查看本场Chat

1. 前言

这是本人第一次做 Gitchat,非常荣幸能够将我这段时间对微博数据的抓取工作整理成这篇文章,分享给大家。最后,我也会讲述一下我对于爬虫的理解,以及爬虫工程师,这个大数据时代站在数据最源头的人,未来有什么发展。

2. 微博的价值

微博是中国最早兴起的自媒体平台,理念就是人人都是自媒体,人人都可以在这里发表自己的观点。 到现在微博已经成为了官方/明星用来“新闻发布“的第一阵地,比如政府发条微博向社会通报某件社会事件的进展情况,明星则悄咪咪的发条微博宣布自己的恋情,瞬间微博的服务器表示自己扛不住了!! 当然,对于我们普通人,也常会发微博,或者转发,评论来表达自己对于社会事件的观点,也会来表现自己生活的日常,或开心,或吐槽。 更为重要的是什么呢,微博不同于 QQ 空间,不同于微信朋友圈,不需要对方加你,也不需要你关注对方,你就可以看到对方的全部动态,个人信息!。所以,微博变成了唯一一个可以爬的社交媒体平台。

2.1 微博数据维度

微博语料数据具体可以分成,微博数据,个人信息,单条微博评论数据,社交关系数据。

2.1.1 微博数据

微博数据,就是微博最基本的语料数据。

比如下面这条微博:

enter image description here

能抓取到的数据维度包括:

字段 说明
weibo_url 微博的URL,可以作为这则微博的唯一标识
user_id 微博作者的ID
content 微博的内容
tool 发布的工具,一般是手机型号,或者上图中的weibo.com
created_at 微博发表时间
image_group 微博附带图的URL
repost_num 转发数
comment_num 评论数
like_num 点赞数
is_repost 是否是转发的微博
repostweibourl 如果是转发的微博,源微博的URL
2.1.2 用户数据

enter image description here

还没有评论
评论
查看更多