数据评估

🚧 功能预告:该功能即将上线,敬请期待。

在用数据做预测或训练模型之前,需要先了解数据质量是否过关。数据质量评估从三个角度给数据打分:数据完不完整、规不规律、序列之间有没有关联,分数越高代表质量越好。

三个评估维度

完整性

这个分数告诉你:数据有没有缺、有没有乱。

传感器掉线、网络抖动、重复上报……这些问题都会让时间序列数据出现空洞、重复或错位。完整性分数反映的就是这些问题的严重程度。

分数意味着什么建议
80–100数据连续完整,时间戳规律可直接使用
40–80存在部分缺失或异常建议先做数据清洗
0–40缺失或异常较多,数据质量差需要认真排查数据来源

如果完整性分数低,后续的预测或分析结果会受到影响——模型可能学到错误的规律,或者因为数据空洞而产生偏差。建议先处理数据问题再继续。

可预测性

这个分数告诉你:这条数据”有没有规律可循”。

有些数据天然有规律——比如每天固定时段的用电量、随季节变化的温度。有些数据则更像随机波动,比如某些金融数据。可预测性分数反映的就是序列的规律程度。

分数意味着什么建议
50–100规律性强,易于预测适合建模
30–50有一定规律,但波动明显可以尝试建模,结果供参考
0–30规律弱,接近随机噪声预测效果可能较差,需评估数据或策略

如果可预测性分数低,并不代表数据有问题,而是说明这条序列本身波动性强、难以预测。此时需要结合业务判断,决定是否引入其他变量辅助预测,或降低对预测精度的期望。

相关性

这个分数告诉你:多条序列之间有没有联系。

当你同时采集了多个指标(比如温度、湿度、气压),相关性分数可以帮你看清楚哪些指标之间”步调一致”,哪些互相独立。这对做多变量预测、筛选有用特征很有帮助。

如果两条序列相关性极高(接近 100),它们传达的信息几乎相同,建模时保留一条即可,避免冗余。如果目标序列与其他序列相关性很低,说明那些序列对预测帮助不大,可以考虑去掉。

快速参考

指标核心问题分数低说明什么
完整性时间戳连续吗?有没有重复或空洞?数据有缺失、重复或时序错乱
可预测性序列有周期性或趋势性规律吗?序列接近随机,难以从历史推断未来
相关性多条序列之间有线性关联吗?序列之间相互独立,协变量价值有限