零壹教育很多人对数据挖掘都有一个根深蒂固的误解以为它是客观分析当下、预判未来的工具。可实际上所有数据分析本质上都是在复盘已经发生的过去没有任何一次跑数是真正立足当下的。很多看似常规的技术操作其实都藏着人的主观判断。挑选数据的时间范围、设定统计的颗粒度、填补缺失的空值这些不起眼的操作都在悄悄定义数据的价值。选定某段时间窗口就是默认这段历史具备参考意义刻意忽略某个时段的数据等同于直接抹去这段真实发生过的业务事实。所谓的数据结果从一开始就不是纯粹客观的。异常检测就是最典型的例子。我们给数据标注“异常”看似是精准筛查问题实则是人为划定评判标准。正常和异常的边界从来不是数据自带的属性而是靠调整参数、滑动窗口人为定义的。仅仅改动一次窗口长度同一个数据现象上一秒还是有效趋势信号下一秒就会被判定为随机噪声。数据的性质完全取决于我们手中的评判标准。除此之外数据挖掘还有一个天生短板只会回溯不会假设。它擅长用过往数据推演未来走势却无法完成反事实推演。评估政策、运营策略效果时我们只能看到已经落地执行的结果那条没有选择的路、未落地的可能性永远不会出现在数据里这也让很多效果分析存在天然漏洞。说到底数据工具从来不是中立的。每一次参数调整、每一次数据筛选都是我们在用主观视角重构历史。深耕数据行业就必须明白我们不是在还原全部真相只是在筛选自己想看到的结果。始终敬畏数据的局限性不盲从量化结果才是数据分析最核心的能力。