为什么你的数据驱动玩不转

Tue, Mar 30, 2021

大数据时代，张口数据平台，闭口数据驱动。很多企业都在考虑采用数据驱动或者已经开始尝试数据驱动。

如果搜索一下数据驱动能做什么，会发现什么似乎都可以做：

简单说一句话，万物皆可数据驱动。

然而现实情况中，数据驱动落地的效果经常不达预期。那我们来看看为啥数据驱动玩不转。

数据量不够

有的应用场景需要大量的数据支撑才能得到更准确的结果，比如依赖机器学习做的预测分析，模式匹配，或者推荐算法，都依赖都大量数据来得到模型。

数据驱动遇到很容易遇到的一个问题是数据量（Volume）不足。这种情况下一些技术无法施展，如果等待数据积累，可能需要较长时间，往往就搁置了。

遇到这种情况一般是想办法找外部数据，比如：

我的一个客户想预测某个硬件设备是否会发生故障，基于当前采集的数据量是无法完成预测模型训练的。我们在互联网上找到了免费分享的硬件数据，基于这个数据训练了模型，尽管可能硬件型号有些偏差，但因为基本原理类似，误差可以接受。

通过获取外部数据，对于数据量需求大的维度可能有帮助。

还有一些场景是数据量不是问题，但是数据中的有效信息不够。这种情况往往是因为获取的数据集可能本来不是为某个场景服务的，而又没有根据当前场景设计数据采集点，所以就将就使用了一个相似的数据集。

使用质量不好数据集虽然可以快速启动，但对复杂分析的场景就不好支持了。对于这种情况需要尽快补齐缺失的关键数据，才能保证后续的准确处理。

我的一个客户想在分析某个硬件设备的驱动数据，但因为一些驱动变化的事件采集不全，对驱动的状态更新就不能保证准确。在准实时的监控场景下，就不好保证准确性了。对于这个情况我们及时安排了更多的事件数据采集，才有效提高了状态的准确性。

对于一些场景数据的生成速度直接决定了效果，但因为数据采集技术限制，往往可能做不到较快的数据上报。对于这个情况，就因为数据时效降低了数据价值。

对于时效性要求高的场景，我们往往需要部署高频和稳定的数据采集点。如果较晚发现瓶颈在数据采集点的性能不足，就会直接影响数据处理结果的价值。

注意了上述三点，我相信大家的数据驱动更容易转起来。可是话说回来，这三点不就是大数据的4V特征（Volume，Variety，Value，Velocity）换了个说法阐述了一遍吗？

如果重新思考数据驱动的本质，会发现数据只是信息的原始形式的表达，每个数据驱动的场景都明确或隐含了一个业务目标。对这些数据的要求恰恰是业务目标的要求，那么数据驱动似乎不过是业务的一个分析工具。