基于lasso回归的多变量时间序列预测 lasso多变量时间序列 matlab代码 注:暂无Matlab版本要求 -- 推荐 2018B 版本及以上
当你在处理股票价格预测、气象数据预测这种自带"变量全家桶"的时间序列时,传统的ARIMA可能就有点力不从心了。这时候Lasso回归这个自带特征选择buff的算法就该登场了——既能处理多重共线性,还能自动踢掉不重要的特征,真香!
咱们先来点硬核的,直接上Matlab代码骨架:
% 数据准备 load electricity_dataset; % 官方自带的多变量电力数据集 data = electricityDataSet{1:end-24, :}; % 留最后24小时做验证 % 时间滞后处理(关键操作!) lags = 1:24; X = lagmatrix(data, lags); y = data(25:end,1); % 预测第一个变量的未来值 % 清洗NaN valid_idx = all(~isnan(X),2); X = X(valid_idx,:); y = y(valid_idx); % 开搞Lasso! [beta, fitinfo] = lasso(X, y, 'Alpha', 1, 'CV', 10); % 最佳模型选择 bestIdx = fitinfo.Index1SE; coef = beta(:, bestIdx); intercept = fitinfo.Intercept(bestIdx);这段代码最骚的操作在lagmatrix这个函数——它能自动生成时间序列的滞后特征矩阵。比如24小时滞后相当于把数据像贪吃蛇一样往后拖24步,生成类似[ t-1, t-2,...,t-24 ]这样的特征窗口,这对捕捉时间序列的周期性特征简直不要太好用。
不过要注意两个坑:
- 滞后处理后会产生NaN,必须用
valid_idx清洗干净 CV参数设成10折交叉验证,相当于自带防过拟合护盾
预测效果怎么样?咱们可视化走一波:
% 预测结果可视化 y_pred = X*coef + intercept; plot(y,'LineWidth',2); hold on; plot(y_pred,'--','LineWidth',1.5); legend({'真实值','预测值'},'FontSize',12); title('Lasso多变量预测效果'); xlabel('时间点'); ylabel('用电量');这里有个隐藏技巧:lasso函数返回的系数矩阵beta是稀疏的,很多特征直接被压缩为零。用nnz(coef)可以查看保留了多少有效特征,通常会发现80%的滞后特征都被自动过滤掉了,这就是Lasso的暴力美学。
进阶玩家可以试试这个操作:
% 动态Lambda值调试 lambda_grid = logspace(-3,1,50); [beta, fitinfo] = lasso(X, y, 'Lambda', lambda_grid, 'Standardize', true);手动设置Lambda网格,配合lassoPlot函数可视化正则化路径,能清晰看到不同变量随着正则化强度变化的存活情况。这个功能在论文做图时特别有用,瞬间提升逼格。
最后友情提示:当变量超过50个时,记得把UseParallel参数设为true,否则你的Matlab可能会表演"未响应"的保留节目。毕竟时间序列数据动辄几十万行,CPU不并行,等待两行泪啊!