关于股票价格的二阶模糊时间序列

引用本文 [复制中英文]

刘智, 张铁, 董莹, 徐爽爽. 关于股票价格的二阶模糊时间序列[J]. 东北大学学报:自然科学版, 2019, 40(2): 300-304.

LIU Zhi, ZHANG Tie, DONG Ying, XU Shuang-shuang. A Second-Order Fuzzy Time Series Model for Stock Price Analysis[J]. Journal of Northeastern University Nature Science, 2019, 40(2): 300-304. DOI: 10.12068/j.issn.1005-3026.2019.02.028.

[复制英文]

基金项目

国家自然科学基金专项基金天元访问学者项目(11726616)；辽宁省博士科研启动基金资助项目(201501164)；中央高校基本科研业务费专项资金资助项目(DC201501040)

作者简介

刘智(1979-)，女，辽宁辽阳人，沈阳工业大学讲师，东北大学博士研究生;
张铁(1956-)，男，辽宁沈阳人, 东北大学教授，博士生导师。

文章历史

收稿日期：2017-12-06

Contents Abstract Full text Figures/Tables PDF

关于股票价格的二阶模糊时间序列

刘智^1,2, 张铁¹, 董莹³, 徐爽爽²

1. 东北大学理学院, 辽宁沈阳 110819;
2. 沈阳工业大学基础部, 辽宁辽阳 111003;
3. 大连民族大学理学院, 辽宁大连 116600

收稿日期：2017-12-06

基金项目：国家自然科学基金专项基金天元访问学者项目(11726616)；辽宁省博士科研启动基金资助项目(201501164)；中央高校基本科研业务费专项资金资助项目(DC201501040)。

作者简介：刘智(1979-)，女，辽宁辽阳人，沈阳工业大学讲师，东北大学博士研究生;
张铁(1956-)，男，辽宁沈阳人, 东北大学教授，博士生导师。

摘要：由于股票价格的时间序列具有不确定性, 股市的真实模型不容易建立, 而模糊时间序列在解决模糊性数据和不确定性数据方面具有较大优势; 因此, 本文首先将数据进行预处理并改进论域划分的方法, 然后利用三角隶属度函数进行数据的模糊化处理, 再利用模糊化后的数据建立三层BP神经网络, 最后, 应用广义的逆模糊数公式将预测模糊集进行逆模糊化, 从而得到预测结果.应用本文方法对印度国家银行(SBI)股票价格和Alabama大学的入学人数进行预测, 预测结果精度较高.

关键词：二阶模糊时间序列 BP神经网络逆模糊数模糊时间序列股票价格

A Second-Order Fuzzy Time Series Model for Stock Price Analysis

LIU Zhi^1,2, ZHANG Tie¹, DONG Ying³, XU Shuang-shuang²

1. School of Sciences, Northeastern University, Shenyang 110819, China;
2. Department of Basics, Shenyang University of Technology, Liaoyang 111003, China;
3. College of Science, Dalian Nationalities University, Dalian 116600, China

Corresponding author: LIU Zhi, E-mail: liuzhi2099@sut.edu.cn

Abstract: It is difficult to model stock market because of its uncertainty, while fuzzy time series has its advantages in dealing with fuzzy and uncertainty data. Accordingly, the data was first preprocessed and a new way to divide the universe of discourse was given, after which the data was fuzzified using the triangular membership function, and a three-layer BP neural network was then established according to the fuzzified data. Finally, the generalized inverse fuzzy number formula was used to defuzzify the fuzzy relation, with the prediction results obtained. The method was used for predicting the stock price of State Bank of India(SBI)and the enrollment of the University of Alabama, and the results showed that the prediction accuracy is higher than that of the related previous methods.

Key words: second-order fuzzy time series BP neural network inverse fuzzy number fuzzy time series stock price

1965年, Zadeh^[1]提出了模糊集的概念.由于模糊性事件在现实生活中是普遍存在的, 从而模糊数学一经产生, 便显示出旺盛的生命力, 得到了广泛的应用.1972年, Chang和Zadeh^[2]又提出了模糊数的概念.时至今日, 模糊数学在实际中的应用几乎涉及到了国民经济的各个领域及部门^[3-10].

1927年, 英国统计学家尤尔(Yule)首创的AR(2)模型, 标志着时间序列分析的开端.随后, 时间序列的理论和实践得到了飞速发展, 在现代社会中的应用也日益广泛^[11-12].

模糊时间序列的概念首次由Song Q和Chissom B S在1993年提出, 用模糊关系方程作为模型结合时间序列理论, 将其应用到大学注册学生数的预测和温度预测等领域, 他们所发展的模糊时间序列预测方法在处理数据资料不完整或者不合理的问题时, 通过模糊理论的特性就可以得到有效的解决, 所以预测结果较传统模型准确率有了一定的提高.

模糊时间序列的关键步骤就是论域的划分、模糊逻辑关系的建立和逆模糊化.本文改进了划分论域的方法, 利用BP神经网络将模糊化的数据建立模糊关系, 并应用该关系进行预测得到预测模糊集, 最后应用逆模糊数公式得到预测数据.通过比较, 本文提出的方法具有更高的精度, 且应用起来更方便有效.

1 二阶模糊时间序列 1.1 模糊时间序列的基本概念

定义1 ^[13]对实数域R的任意一个固定的子集Y(t)(t=0, 1, 2, …), f_i(t)(i=1, 2, …)是定义在Y(t)的一组模糊集, 且F(t)是f_i(t)(i=1, 2, …)的集合, 则称F(t)为定义在Y(t)上的模糊时间序列.

定义2 ^[13]设F(t)仅由F(t-1)确定, 这种关系可以通过模糊关系F(t)=F(t-1)·R(t, t-1)得到, 其中R(t, t-1)表示F(t)到F(t-1)的模糊逻辑关系, 则被称为定义在F(t)上的一阶模糊关系, 记为:F(t-1)→F(t).

定义3 ^[14]设F(t)由F(t-1), F(t-2), …, F(t-n)确定, 则n阶模糊时间序列被定义为F(t-n), …, F(t-1)→F(t).

1.2 构建二阶模糊时间序列 1.2.1 数据预处理

根据观测数据, 利用式(1)计算出数据的变化率y_t+1:

(1)

式中x_t为原始数据.

1.2.2 改进的聚类分析算法

将经过预处理后的数据按照升序排列后设为a_i, 按照以下步骤进行处理:

① 计算每两个数据之间距离d_i和n个数据之间的平均距离d_mean:

(2)

(3)

② 按如下规则聚类.

规则一:将每个数据归为一类，形成初始聚类.

规则二:将每两个数据之间距离d_i从小到大排列, 下标保持不变.从最小的d_i开始, 进行如下处理:

情况一:如果a_i及a_i+1所处的聚类只有一个元素, 形如…, {a_i}, {a_i+1}, …, 且d_i < d_mean, 则将a_i及a_i+1归为一类{a_i, a_i+1}, 否则保持原聚类不变.

情况二:如果a_i或a_i+1所处的聚类有m个元素(m > 1), 则保持原聚类不变.

重复以上过程直到d_i > d_mean, 聚类结束.

③ 划分论域:利用聚类的结果, 按照以下规则划分论域.

规则一:假设当前聚类有两个或两个以上的元素, 则保留最小和最大的元素去掉其他的元素, 得到论域[a_m, a_n).

规则二:假设当前聚类只有一个元素a_i, 它前面为论域[a_k, a_l), 它后面为论域[a_m, a_n), 计算a_i－d_mean和a_i+d_mean, 如果a_i－d_mean > a_l, 且a_i+d_mean < a_m, 则得到论域[a_i－d_mean, a_i+d_mean); 否则, 计算d₁=d_mean, d₂=a_i－a_l, d₃=a_m－a_i, 设d_k=min{d₁, d₂, d₃}, 得到论域[a_i－d_k, a_i+d_k).

规则三:假设当前聚类只有一个元素a_i, {a_i}前为论域[a_k, a_l), a_i后为聚类{a_m}, 则计算d₁=d_mean, d₂=a_i－a_l, d₃=(a_m－a_i)/2, 设d_k=min{d₁, d₂, d₃}, 得到论域[a_i－d_k, a_i+d_k).

规则四:假设当前聚类只有一个元素a_i, {a_i}前为聚类{a_l}, a_i后论域为[a_m, a_n), 则计算d₁=d_mean, d₂=a_m－a_i, d₃=(a_i－a_l)/2, 设d_k=min{d₁, d₂, d₃}, 得到论域[a_i－d_k, a_i+d_k).

规则五:将论域补充完整, 构成连续的区间.

1.2.3 建立二阶模糊关系链

利用三角隶属度函数公式得到模糊集.将预处理后的数据分别对应到相应的模糊集, 60%作为训练数据, 其余的作为测试数据.构建三层BP神经网络.利用模糊集的中点坐标作为神经网络的输入、输出, 建立模糊时间序列.

1.2.4 利用逆模糊数公式逆模糊化

利用1.2.3节输出的结果, 假设m_i-1, m_i, m_i+1分别为A_i-1, A_i, A_i+1的中点; μ_i-1, μ_i, μ_i+1分别为A_i-1, A_i, A_i+1的隶属度; b_i为变化率的预测值, 则逆模糊数公式为

(4)

再利用式(4)计算出原始数据的预测值:

(5)

2 仿真

应用本文提出的模糊时间预测方法, 对SBI日股票价格和Alabama大学的入学人数进行预测, 并将预测结果与其他方法预测结果进行比较.

2.1 预测股票价格

本文选用从2012-06-05到2012-07-31 SBI日股票价格(数据来自http://in.finance.yahoo.com/), 应用本文提出的方法对股票价格进行预测.

① 用x_i表示日股票价格(见表 1第2列), 利用式(1)对数据进行预处理, 预处理后的数据用y_i表示, 见表 1第3列.

表 1 SBI股票价格数据模糊化 Table 1 Data fuzzification of the stock price of SBI

② 划分论域.利用式(3)计算出每个数据之间的平均距离d_mean=0.214 9, 根据1.2.2的算法将数据划分为43个论域, 再根据股票的熔断机制(股票的日变化率不得超过7%), 在最前面加上论域u₀, 在最后面加上u₄₄, 将其补充完整.结果如下:

计算出相应的区间中点, 结果如下:

③ 利用划分论域将股票变化率数值进行模糊化, 结果见表 1第4列, 并找到相应模糊集的中点, 结果见表 1第5列.

④ 利用三层BP神经网络建立二阶模糊关系链.将模糊化的数据分为两组, 前24个数据作为训练数据, 后15个数据作为测试数据.假设要预测的时刻为t, 其对应的模糊集作为输出节点数据; 设其前2个时刻分别为t-1, t-2, 其相应模糊集分别作为2个输入节点数据.利用训练数据训练并得到相应的神经网络, 再利用测试数据进行测试，得到其对应的模糊集(见表 2第3列).

表 2 SBI股票价格预测结果 Table 2 Prediction results of the stock price of SBI

⑤ 利用式(4)进行逆模糊化得到相应变化率的预测值(见表 2第4列).再利用式(5)计算出股票价格的预测值(见表 2第5列).

为了证明本文方法的优越性, 将本文方法的预测值与文献[15]、文献[16]、文献[17]和文献[18]方法的预测值进行比较, 结果见图 1.可以看出本文的方法最接近真实值.为了更直观地比较, 利用式(6)计算出各种方法的均方误差RMSE, 利用式(7)计算出绝对误差率AER, 本文提出的方法绝对误差率最大值为0.898%, 最小值为0.005%, 可见本文方法预测值更加精确, 更值得推广.

(6)

(7)

图 1 采用不同方法的预测值 Fig.1 Predicted values from different methods

式中：p_t表示t时刻的预测值；x_t表示t时刻的真实数据；n表示数据总数.

2.2 预测Alabama大学的入学人数

应用本文提出的方法对Alabama大学从1971到1992年的入学人数进行预测.

首先对入学人数数据进行预处理, 计算出年变化率; 然后, 计算变化率间的平均距离d_mean=0.674 5, 根据1.2.2的算法将数据划分为27个论域, 并计算出每个论域的中点, 将所有数据模糊化; 利用三层BP神经网络建立二阶模糊关系链.

将模糊化的数据分为两组, 利用训练数据训练并得到相应的神经网络, 再利用测试数据进行测试得到其对应的模糊集; 最后, 利用式(4)进行逆模糊化得到相应变化率的预测值(见表 3第4列), 再利用式(5)计算出预测的入学人数(见表 3第5列).

表 3 Alabama大学入学人数预测 Table 3 Predicted enrollment of the University of Alabama

表 3的最后一列为每个预测值与真实值的绝对误差率, 通过表 3可以看出，本文提出的模糊时间序列方法得到的绝对误差率最大为3.65%, 表明本文方法预测精度高.为了进一步证明这一点，在表 4中将本文预测结果与文献[13]、文献[18]和文献[19]方法的预测结果进行比较.通过表 4可以看出, 由本文方法得到的预测值的均方误差和绝对误差率都远远小于其他方法.

表 4 不同方法预测结果比较 Table 4 Comparison of predicted results from different methods

3 结语

本文提出了一种新的二阶模糊时间序列.它首先计算出数据的变化率, 再利用聚类分析方法将数据变化率划分成相应的论域; 然后利用三角隶属度函数将变化率进行模糊化, 建立三层的BP神经网络，并据此构造二阶模糊关系链；最后利用逆模糊数公式得到预测的数据的变化率并计算出预测值.为了体现本文方法的鲁棒性及精确性, 本文将提出的方法应用于股票价格和入学人数预测, 实验结果精度较高.

参考文献

[1]	Zadeh L A. Fuzzy sets[J]. Information Control, 1965, 8(3): 338–353. DOI:10.1016/S0019-9958(65)90241-X
[2]	Chang S S L, Zadeh L A. On fuzzy mapping and control[J]. IEEE Transactions on Systems, Man, and Cybernetics, 1972, 2: 30–34.
[3]	Dubois D J. Fuzzy sets and systems:theory and applications[M]. [S.l.]: Academic Press, 1980: 10-79.
[4]	Saeidifar A, Pasha E. The possibilistic moments of fuzzy numbers and their applications[J]. Journal of Computational and Applied Mathematics, 2009, 223(2): 1028–1042. DOI:10.1016/j.cam.2008.03.045
[5]	Xu J P, Liu Q, Wang R. A class of multi-objective supply chain networks optimal model under random fuzzy environment and its application to the industry of Chinese liquor[J]. Information Sciences, 2008, 178(8): 2022–2043. DOI:10.1016/j.ins.2007.11.025
[6]	Panigrahi M, Panda G, Nanda S. Convex fuzzy mapping with differentiability and its application in fuzzy optimization[J]. European Journal of Operational Research, 2008, 185(1): 47–62.
[7]	Lee C S, Wang M H. Ontology-based intelligent healthcare agent and its application to respiratory waveform recognition[J]. Expert Systems with Applications, 2007, 33(3): 606–619. DOI:10.1016/j.eswa.2006.06.006
[8]	Yager R R. On ordered weighted averaging aggregation operators in multicriteria decision making[J]. IEEE Transactions on Systems, Man, and Cybernetics, 1988, 18(1): 183–190. DOI:10.1109/21.87068
[9]	Chrysafis K A, Papadopoulos B K. On the fuzzy difference equations of finance[J]. Fuzzy Sets and Systems, 2008, 159(24): 3259–3270. DOI:10.1016/j.fss.2008.06.007
[10]	Aldrich J. Correlations genuine and spurious in Pearson and Yule[J]. Statistical Science, 1995, 10(4): 364–376. DOI:10.1214/ss/1177009870
[11]	Box G E P, Jenkins G M, Reinsel G C, et al. Time series analysis:forecasting and control[J]. Journal of the Operational Research Society, 1975, 22(2): 199–201.
[12]	Anderson O. The elimination of spurious correlation due to position in time or space[J]. Biometrika, 1914, 10(2/3): 269–279. DOI:10.2307/2331784
[13]	Song Q, Chissom B S. Forecasting enrollments with fuzzy time series—part Ⅰ[J]. Fuzzy Sets and Systems, 1993, 54(1): 1–9. DOI:10.1016/0165-0114(93)90355-L
[14]	Hebb D. The organization of behavior[M]. [S.l.]: Wiley, 1949: 1-48.
[15]	Chen S M. Forecasting enrollments based on fuzzy time series[J]. Fuzzy Sets and Systems, 1996, 81(3): 311–319. DOI:10.1016/0165-0114(95)00220-0
[16]	Chen S M. Forecasting enrollments based on high-order fuzzy time series[J]. Cybernetic Systems, 2002, 33(1): 1–16.
[17]	Yu H K. Weighted fuzzy time series models for TAIEX forecasting[J]. Physica A, 2005, 349(3/4): 609–624.
[18]	Singh P, Borah B. High-order fuzzy neuroexpert system for time series forecasting[J]. Knowledge Based Systems, 2016, 46: 12–21.
[19]	Jilani T A, Burney S M A, Ardil C. Fuzzy metric approach for fuzzy time series forecasting based on frequency density based partitioning[J]. Proceedings of World Academy of Science:Engineering and Technology, 2007, 23(2): 112–117.