搜故事,从300万个故事到海量知识百科的华丽转变!

媒体工作者如何用八爪鱼采集器从微博快速获取疫情实时数据

时间:2012-06-23

微博基于其时效性强、互动性强和开放性强的特点,成为媒体报道和话题讨论的重要阵地

提示:本文共有 2223 个字,阅读大概需要 5 分钟。

紧张的疫情防控战打响后,疫情相关的媒体报道与热点话题在互联网各个平台喷发。微博基于其时效性强、互动性强和开放性强的特点,成为媒体报道和话题讨论的重要阵地。

及时获取最新的媒体报道与热点话题,成为很多人的刚需。面对疫情信息来源广、量级大、实时性高的现状,如果仅凭人力一条条翻阅,很容易陷入信息滞后、成本高昂的困局。

使用八爪鱼做好的采集模板,配合云上定时采集,可轻松实现大规模、实时采集疫情相关数据,以下将以微博为例详细讲解。其他平台(知乎、头条、微信等)的采集方法也是类似的。

实时采集媒体报道

第一步:找到各大媒体的微博账号,采集每个账号的主页链接

八爪鱼提供:【微博-搜索博主】模板

1、如果已有目标媒体的微博账号和主页链接,可直接跳到第二步。

2、如果已有目标媒体,但没有其微博账号,可以通过微博搜索寻找。以目标媒体名作为关键词,选择【找人】,即可找到其微博账号,一般是搜索结果的第一个。

八爪鱼提供【微博-搜索博主】模板,满足以上采集需求。

Step1. 下载八爪鱼客户端,找到【微博-搜索博主】模板 ,点击【立即使用】。

Step2. 在【关键词】这个参数框中,输入已有的媒体名,例:深圳商报、成都商报(可同时输入多个关键词,用换行符隔开),然后【启动本地采集】。

Step3. 示例数据,获得目标媒体的微博账号和主页链接。采集结果会比较多,导出后用“关键词=用户名”手动筛选一下即可。

3、如果没有目标媒体,可以通过微博搜索寻找。输入关键词(日报/晨报/晚报/商报/都市报/速报/快报/青年报等),选择【找人】,即可找到一批媒体的微博账号。

关键词需根据媒体名的特性提炼。输入的关键词越多、越精准,得到的媒体账号就越多,后续采集到的疫情报道也就越多。

同样的,也可通过【微博-搜索博主】模板,满足以上采集需求。具体使用方法同上,只是,在【关键词】这个参数框中,输入的是 日报/晨报/晚报 这类模糊关键词。

示例数据,获得一批媒体的微博账号和主页链接。

第二步:访问每个账号的主页,采集其发布的报道

八爪鱼提供:【微博-博主主页的博文】模板

通过第一步,已经获取到了媒体的微博账号和主页链接,之后就是依次打开每个链接,采集其发布的微博。需要采集的关键字段包括微博发布时间、正文、正文链接、转发数、评论数和点赞数等。

八爪鱼提供【微博-博主主页的博文】模板,满足以上采集需求。

Step1. 在八爪鱼客户端中,找到【微博-博主主页的博文】模板 ,点击【立即使用】 。

Step2. 在【网址】这个参数框中,输入我们从步骤一中获得的账号的主页链接(可同时输入多个网址,用换行符隔开)。

Step3. 示例数据,包含我们需要的微博发布时间、正文、正文链接、转发数、评论数和点赞数等字段。

经过以上操作,已经可以采集到目标数据。但是,上面使用的是本地单次采集,采集一次就结束了。如何实时采集每个媒体微博账号发布的报道呢?

第三步:实时采集每个账号发布的报道

八爪鱼提供:云采集方案

通过八爪鱼提供的云采集方案,可实时采集每个账号发布的报道。

1、设置定时采集,定时最短间隔时间为1分钟。即采集模板最短可每间隔1分钟就自动启动1次。一般微博的更新时间间隔都会大于1分钟,因而不会漏掉更新的微博。

2、多个云节点并发采集,极大提高采集速度。在1的基础上,每次启动后,采集任务拆分成多个子任务,分配到多个云节点上并发运行,保证每次采集迅速完成。

3、在1和2的基础上,观察账号的更新频率,为采集模板设定合适的翻页次数,使得每次启动采集后,采集的都是新增的前几页的数据,而非多次重复采集历史数据。

实时采集热点话题

实时采集微博热搜榜中的热点话题

八爪鱼提供:【微博-热搜榜】模板

微博热搜榜,实时提供大家正在搜的热点话题。通过微博热搜榜,可以追踪疫情每个时间节点下的热点话题和话题下的具体微博。

八爪鱼提供【微博-热搜榜】模板,满足以上采集需求。

Step1. 在八爪鱼客户端中,找到【微博-热搜榜】模板 ,点击【立即使用】 ,无需输入参数,直接启动【本地采集】。

Step2. 示例数据,获取到热门话题与话题下的具体微博。

微博热搜榜是实时变动的,可为【微博-热搜榜】模板设置定时云采集,实时采集热搜榜中的热点话题。具体方法在第一部分第三步中已详细说明,不再赘述。

已有一批热门话题,实时采集其搜索结果

八爪鱼提供:【微博搜索】模板

如果已有一批热门话题,可通过微博搜索每个话题,查看搜索后得到的具体微博,以追踪其发展情况。

八爪鱼提供【微博搜索】模板,实现以上采集需求。

Step1. 在八爪鱼客户端中,找到【微博搜索-限云采集-免登陆】模板 ,点击【立即使用】 。

Step2. 在【检索关键词】参数输入框中,输入已有的热点话题,然后启动【本地采集】。

Step3. 示例数据,采集到搜索热点话题后的具体微博。

同样的,以上演示的是单次采集。我们也可为【微博搜索-限云采集-免登陆】模板设置定时云采集,以实时采集热点话题搜索后得到的具体微博。具体方法同上,不再赘述。

本文以微博为例,详细讲解了使用八爪鱼实时采集媒体疫情报道与热点话题的方法,关键点在于利用好采集模板+云采集这2大利器。再次说明,其他平台(知乎、头条、微信等)的采集方法也是类似的,可参考本文。

八爪鱼希望帮助更多有需要的人,及时获取第一手疫情信息,进而更好服务于疫情防控工作。

虽然最近的坏消息很多,新的一天总有新的苦痛和遗憾,但我们同心同德抗击疫情,必能度过难关。

看到此处说明本文对你还是有帮助的,关于“媒体工作者如何用八爪鱼采集器从微博快速获取疫情实时数据”留言是大家的经验之谈相信也会对你有益,推荐继续阅读下面的相关内容,与本文相关度极高!

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。
相关阅读
八爪鱼陷阱抓到两只八爪鱼

八爪鱼陷阱抓到两只八爪鱼

华纳,广告,会员,好莱坞,无耻之徒,用户,权益,腾讯视频,用户提供,为会员,吸血鬼日记,破产姐妹,我知道了

2012-12-27 #小故事

如何用数据对外讲好中国故事

如何用数据对外讲好中国故事

数据,优势,对外传播,摘要,对数,传统,事业,做法,形态,工作者,我国,才刚,效果,概念,方式,规律,分析,不再是,中国故事,亦可以,刚起步,媒体融合,数据可视化,设计理念,事半功倍,可视化

2020-08-30 #故事会在线阅读

八爪鱼的故事?

八爪鱼的故事?

晚饭,水族,贝壳,海马,结果,大鲨鱼,八爪鱼,得意地,还是看不到,难得是,不慌不忙,泰然自若

2017-07-18 #故事会在线阅读

八爪鱼英雄

八爪鱼英雄

八爪鱼,英雄,船长,汤米·温格尔,老沙,海洋,安徒生,比大,温格尔,经典,事实证明,乐器,会用,儿童,勇气,国际,故事,插图,小船,形状,异兽,手臂,想象力,插画,朋友,救生员,时候,椅子,派对,盐水

2020-06-30 #故事会在线阅读

八爪鱼英雄

八爪鱼英雄

八爪鱼,英雄,船长,汤米·温格尔,老沙,海洋,安徒生,比大,温格尔,经典,事实证明,乐器,会用,儿童,勇气,国际,故事,插图,小船,形状,异兽,手臂,想象力,插画,朋友,救生员,时候,椅子,派对,盐水

2012-11-19 #故事会

八爪鱼英雄

八爪鱼英雄

温格尔,八爪鱼,英雄,儿童,插画,汤米,船长,工作,汤米·温格尔,安徒生,老沙,作者简介,作品,儿童读物,国际,插图,斯特拉斯堡,海洋,译者,领域,克里克塔,插画家,比大,梅隆,王星,中文系,年发,德国政府,欧洲委员会,歌德学院

2012-12-04 #短篇故事

八爪鱼英雄

八爪鱼英雄

温格尔,八爪鱼,英雄,儿童,插画,汤米,船长,工作,汤米·温格尔,安徒生,老沙,作者简介,作品,儿童读物,国际,插图,斯特拉斯堡,海洋,译者,领域,克里克塔,插画家,比大,梅隆,王星,中文系,年发,德国政府,欧洲委员会,歌德学院

2018-09-17 #故事阅读

“八爪鱼”的税收故事

“八爪鱼”的税收故事

工作,新区,征管,李善民,兰州新区,八爪鱼,税收,时间,负责人,耕地占用税,上线,父母,税务局,绰号,问题,鼻炎,故事,头发,单位,团队,地税,妻儿,服务处,母亲,税务,管理处,建设,运行,国地税,地税局

2020-06-30 #故事大全