浅析舆情监测软件对历史数据的回溯几个问题

广州舆情监控系统 广州舆情监测软件公司

浅析舆情监测软件对历史数据的回溯几个问题

2022年12月8日 舆情监测行业新闻 0

很多人都会遇到这样的需求,特别是公关公司在做公关删帖的项目的时候,会提出一个这样的需求,去查看某个或者某些品牌历史3年5年十年的网络上面的所有负面信息,遇到这样需求的客户他们基本上是白嫖历史数据,很少会愿意掏钱来做这个事情的,因为他们也是为了图方便,所以才要用到软件,而且甲方不会为这部分数据买单的,很多时候他们也是被甲方白嫖。

但是这个需求舆情监测软件厂商到底能不能做呢?今天小编就来给大家分享一下,肯定不能做,也实现不了,为什么呢?
1、不同网站对历史数据做了不同的限制,特别是权重较高的网站,对爬虫比较排斥,爬虫爬实时的数据都比较难,更何况历史的,而且爬历史数据会遇到各种问题需要验证,就算个别网站可以爬成功,但是大部分还是很难成功的。

2、爬历史数据的成本太高了,就拿微信公众号文章来说吧,目前国内所有的爬虫都是基于微信公众号作者去爬的,一个一个作者去爬,目前国内几千万个公众号,爬一个月的历史数据都需要很多的服务器资源。

3、国内很多网站在这么多年做了大大小小多次改版,每次改版网站的结构不同,这个将影响爬虫。

所以说可以爬历史数据完全就是一个骗局,千万别信,除非他们网站有历史数据沉淀。

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注