大数据分析,从资料清理开始

释放双眼,带上耳机,听听看~!


愈来愈多企业会透过大数据来作分析应用,但统整资料前,必须先清理资料,在过程中,你可能会面对6个挑战,来看看该如何一一解决。

愈来愈多企业开始利用大数据做分析应用,我也常被问到两个问题:第一个问题是:「我的公司没有资料,怎么做大数据分析?」

第二个问题则是:「我的公司资料很多,但不知道从何开始?」

第一个问题,我的答案很简单:「没有资料,也就没有包袱,现在就可以开始蒐集有用的资料!」

第二个问题就比较複杂了,也反映许多企业正面临的难题。

根据媒体报导,全家便利商店历年来蒐集了190万笔资料,要导入大数据应用时,却发现这些资料都不能用,只好重新建立。

这可能是比较极端的例子,但事实上,企业的资料的确散见各处,有的在业务端、有的在营销端,甚至客服端也有,相当欠缺清理与整合。

整合资料前,要先清理资料,在这个步骤,你很快就会发现很多问题。我归纳,至少会面临下面这6个挑战,而这些问题也是我过去碰过的。

挑战1:没有资料(No Data)

由于过去没有设定目标,所以没有保存。比如刚开始没想到日后会回馈顾客生日礼,所以建立资料时,没有询问顾客的生日,日后就少了一项可以应用的资料。

挑战2:过时的资料(Out-of-date Data)

有的企业虽然有保存资料,但资料的保鲜期已过,用途不大。例如,5年前蒐集的客户email,有些网路服务可能已经终止,客户已不再使用,或是客户早已换了工作,email就得重新蒐集才行。

挑战3:不完整的资料(Uncompleted Data)

虽然有资料,但资料栏位不完整,导致只有部分资料可以应用,或者必须补齐才有应用价值。例如姓名、电话、地址、交易资料都有,但是没有记录交易时间、金额,以至于无法做进一步分析。

挑战4:遗失的资料(Missing Data)

这个状况是,有资料,资料栏位也很完整,但是某些笔数的资料栏位却是空白的。

譬如1年12个月的资料,某些地区的交易资料是空白的,这是代表没有交易呢?或者交易金额是零?这些栏位必须处理。若确认是没有交易,就要填入「零」或「平均数」,以减低对总体资料的影响。

挑战5:稀少的资料(Sparse Data)

该有的栏位都有,也有纪录,但是记录到交易行为发生的资料数量非常少。例如,请消费者来为某部电影评价,但是大部分人都没有看过这部电影,造成有评价的资料过少,缺乏分析的价值。

挑战6:不精确的资料(Inaccurate Data)

最常发生的状况,就是用不同的衡量方法,提供不一样的资料。有位企业经营者问我:「整理完后的资料,剩下两千笔不到,怎么办?」不用灰心,两千笔有效的资料,总比20万笔没有经过清理的资料来得可靠!

最后切记,大数据并非「数大就是美」,应该是「不怕少,怕不好」。

这就是为什么做大数据分析前,我们要先清理资料的原因了!

往期好文推荐:

创业者合理的工作时间安排,你的时间怎么用

解构划世代的消费心理学

消费心理学大师费里尔传授10大市场营销中重要的法则

七人一机:UnRaid破解6.8.13开心版下载及安装教程(附中文补丁)

VMware传输 (VMDB)错误14: Pipe connection has been broken的解决方法

赚吧随笔

薪资影分身-4个简单方法,用死薪水创造多重被动收入

2020-12-16 18:30:20

赚吧随笔

餐饮小店如何做外卖?什么是第一次做外卖别踩的误区?

2020-12-19 18:15:02

网赚博客赚钱资源
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索