为什么你的数据驱动玩不转

大数据时代,张口数据平台,闭口数据驱动。很多企业都在考虑采用数据驱动或者已经开始尝试数据驱动。

如果搜索一下数据驱动能做什么,会发现什么似乎都可以做:

简单说一句话,万物皆可数据驱动。

然而现实情况中,数据驱动落地的效果经常不达预期。那我们来看看为啥数据驱动玩不转。

数据量不够

有的应用场景需要大量的数据支撑才能得到更准确的结果,比如依赖机器学习做的预测分析,模式匹配,或者推荐算法,都依赖都大量数据来得到模型。

数据驱动遇到很容易遇到的一个问题是数据量(Volume)不足。这种情况下一些技术无法施展,如果等待数据积累,可能需要较长时间,往往就搁置了。

遇到这种情况一般是想办法找外部数据,比如:

我的一个客户想预测某个硬件设备是否会发生故障,基于当前采集的数据量是无法完成预测模型训练的。我们在互联网上找到了免费分享的硬件数据,基于这个数据训练了模型,尽管可能硬件型号有些偏差,但因为基本原理类似,误差可以接受。

通过获取外部数据,对于数据量需求大的维度可能有帮助。

数据质量不好

还有一些场景是数据量不是问题,但是数据中的有效信息不够。这种情况往往是因为获取的数据集可能本来不是为某个场景服务的,而又没有根据当前场景设计数据采集点,所以就将就使用了一个相似的数据集。

使用质量不好数据集虽然可以快速启动,但对复杂分析的场景就不好支持了。对于这种情况需要尽快补齐缺失的关键数据,才能保证后续的准确处理。

我的一个客户想在分析某个硬件设备的驱动数据,但因为一些驱动变化的事件采集不全,对驱动的状态更新就不能保证准确。在准实时的监控场景下,就不好保证准确性了。对于这个情况我们及时安排了更多的事件数据采集,才有效提高了状态的准确性。

数据时效低

对于一些场景数据的生成速度直接决定了效果,但因为数据采集技术限制,往往可能做不到较快的数据上报。对于这个情况,就因为数据时效降低了数据价值。

对于时效性要求高的场景,我们往往需要部署高频和稳定的数据采集点。如果较晚发现瓶颈在数据采集点的性能不足,就会直接影响数据处理结果的价值。

那么,然后哪

注意了上述三点,我相信大家的数据驱动更容易转起来。可是话说回来,这三点不就是大数据的4V特征(Volume,Variety,Value,Velocity)换了个说法阐述了一遍吗?

如果重新思考数据驱动的本质,会发现数据只是信息的原始形式的表达,每个数据驱动的场景都明确或隐含了一个业务目标。对这些数据的要求恰恰是业务目标的要求,那么数据驱动似乎不过是业务的一个分析工具。