光伏产业链数据挖掘与预测(下篇)【SMM分析】
作品
【SMM分析:光伏产业链数据挖掘与预测(下篇)】此研究分为上、中、下篇。本文为下篇;本文主要运用随机森林和LASSO回归模型输出因子重要性。数据集主要涵盖光伏产业链的产量、进出口、发电量、PPI、价格等数据,时间段为2021年1月31日到2022年9月30日。研究发现......
研究介绍
此研究分为上、中、下篇。本文为下篇;本文主要运用随机森林和LASSO回归模型输出因子重要性。数据集主要涵盖光伏产业链的产量、进出口、发电量、PPI、价格等数据,时间段为2021年1月31日到2022年9月30日。研究发现,在随机森林模型中,太阳能电池产量和多晶硅产量对光伏组件净出口的金额与数量影响较大;多晶硅产量对太阳能发电量和多晶硅致密料平均价影响较大;太阳能电池产量对电力热力生产和供应业资产影响较大;PPI当月同比对太阳能电池产量影响较大。在LASSO回归模型中,多晶硅产量对光伏组件净出口产量负向影响,对金额则是正向影响;电力热力生产与供应资产和PPI当月同比对太阳能发电量是正向影响;多晶硅产量对多晶硅致密平均价是(间接)正向影响;多晶硅产量对电力热力生产与供应资产和太阳能电池产量是正向影响。在光伏产业链量化研究系列中,上篇涉及关联规则算法挖掘,而中篇主要是模型的剖析与预测结果展示。
随机森林特征重要性计算
LASSO回归特征重要性计算
LASSO回归的特征重要性就是LASSO回归对应的自变量系数。在系数中,会出现系数为0的现象;系数为0的自变量代表此类变量在回归模型降维时被剔除出去。
随机森林特征重要性展示
在随机森林模型中,太阳能电池产量和多晶硅产量对光伏组件净出口的金额与数量影响较大;多晶硅产量对太阳能发电量和多晶硅致密料平均价影响较大;太阳能电池产量对电力热力生产和供应业资产影响较大;PPI当月同比对太阳能电池产量影响较大。
LASSO回归特征重要性展示
在LASSO回归模型中,多晶硅产量对光伏组件净出口产量负向影响,对光伏组件进出口金额则是正向影响;电力热力生产与供应资产和PPI当月同比对太阳能发电量是正向影响;多晶硅产量对多晶硅致密平均价是(间接)正向影响;多晶硅产量对电力热力生产与供应资产和太阳能电池产量是正向影响。间接影响的原因是因为在《光伏产业链数据挖掘与预测(上篇)》(可点击此链接查看)的关联规则挖掘中,多晶硅产量首先通过影响光伏组件净出口和金额或太阳能发电量后,进而影响多晶硅致密平均价,所以为间接影响。
总结
通过上篇的关联规则算法挖掘,我们初步得知了宏观与基本面数据对多晶硅复投料平均价、太阳能发电量、光伏组件净出口数量与金额的影响逻辑链。在中篇,我们通过随机森林、LASSO回归和灰色模型对光伏产业链数据的值预测以及涨跌趋势预测。随机森林与LASSO回归的模糊预测范围均覆盖了真实值,但灰色预测模型的效果不太理想,原因是数据的涨跌幅度过大,无法通过级比测试。在下篇中,随机森林与LASSO回归的特征重要性基本与关联规则所挖掘出的逻辑链相符;特别是LASSO的特征重要性方向与大部分关联规则所挖掘出来的逻辑链一致;不同模型之间的验证进一步增强了关联规则模型逻辑链条的可靠性。
注意:本文仅供参考,不构成投资建议
光伏产业链量化研究系列往期文章:
《光伏产业链数据挖掘与预测(上篇)》(链接)
《光伏产业链数据挖掘与预测(中篇)》(链接)