数据评估
🚧 功能预告:该功能即将上线,敬请期待。
在用数据做预测或训练模型之前,需要先了解数据质量是否过关。数据质量评估从三个角度给数据打分:数据完不完整、规不规律、序列之间有没有关联,分数越高代表质量越好。
三个评估维度
完整性
这个分数告诉你:数据有没有缺、有没有乱。
传感器掉线、网络抖动、重复上报……这些问题都会让时间序列数据出现空洞、重复或错位。完整性分数反映的就是这些问题的严重程度。
| 分数 | 意味着什么 | 建议 |
|---|---|---|
| 80–100 | 数据连续完整,时间戳规律 | 可直接使用 |
| 40–80 | 存在部分缺失或异常 | 建议先做数据清洗 |
| 0–40 | 缺失或异常较多,数据质量差 | 需要认真排查数据来源 |
如果完整性分数低,后续的预测或分析结果会受到影响——模型可能学到错误的规律,或者因为数据空洞而产生偏差。建议先处理数据问题再继续。
可预测性
这个分数告诉你:这条数据”有没有规律可循”。
有些数据天然有规律——比如每天固定时段的用电量、随季节变化的温度。有些数据则更像随机波动,比如某些金融数据。可预测性分数反映的就是序列的规律程度。
| 分数 | 意味着什么 | 建议 |
|---|---|---|
| 50–100 | 规律性强,易于预测 | 适合建模 |
| 30–50 | 有一定规律,但波动明显 | 可以尝试建模,结果供参考 |
| 0–30 | 规律弱,接近随机噪声 | 预测效果可能较差,需评估数据或策略 |
如果可预测性分数低,并不代表数据有问题,而是说明这条序列本身波动性强、难以预测。此时需要结合业务判断,决定是否引入其他变量辅助预测,或降低对预测精度的期望。
相关性
这个分数告诉你:多条序列之间有没有联系。
当你同时采集了多个指标(比如温度、湿度、气压),相关性分数可以帮你看清楚哪些指标之间”步调一致”,哪些互相独立。这对做多变量预测、筛选有用特征很有帮助。
如果两条序列相关性极高(接近 100),它们传达的信息几乎相同,建模时保留一条即可,避免冗余。如果目标序列与其他序列相关性很低,说明那些序列对预测帮助不大,可以考虑去掉。
快速参考
| 指标 | 核心问题 | 分数低说明什么 |
|---|---|---|
| 完整性 | 时间戳连续吗?有没有重复或空洞? | 数据有缺失、重复或时序错乱 |
| 可预测性 | 序列有周期性或趋势性规律吗? | 序列接近随机,难以从历史推断未来 |
| 相关性 | 多条序列之间有线性关联吗? | 序列之间相互独立,协变量价值有限 |