首页 > 范文大全 > 正文

高校食堂的菜品销量分析

开篇:润墨网以专业的文秘视角,为您筛选了一篇高校食堂的菜品销量分析范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

摘 要: 针对高校食堂菜品存在的浪费、搭配不佳问题,根据连续85天的用餐人次数据,用时间序列分析研究了用餐人次符合的ARIMA(5,1,3)模型。对济南市高校常见的菜品及年销售数据,用R语言编程,先利用“过半数规则”计算和预测某一菜品销量的好坏,并计算出不同的素菜-素菜、素菜-荤菜之间的销量关联性。最后使用Python编程,用Apriori算法进一步挖掘菜品间的销售关联。

关键词: 时间序列分析; ARMA模型; R语言; 关联规则学习

中图分类号:TP311 文献标志码:A 文章编号:1006-8228(2017)07-65-04

The analysis of dishes sales in university dining room

Wang Chuyu1, Wang Qinghua1, Wang Chuchu1, Chen Yanhui2, Hua Yiheng1

(Shandong University School of Mathematics, Jinan, Shandong 250100, China; 2. Shandong University School of Software)

Abstract: In view of the waste and poor collocation of dishes in university canteens, the model of ARIMA (5,1,6) suiting well the number of customers in the consecutive 85 days is studied. Based on the lists of the most common dishes in the universities in Jinan and the sales of the dishes, with the aid of R language, the 'more than the half' rule is applied to compute a 'k' which predicts the sale of the next month is good or not. Finally, programming in Python, Apriori algorithm is used to further tap the sales correlation between the dishes.

Key words: time series analysis; ARMA model; R language; learning of association rules

0 引言

高校食堂是一个特殊的“经营实体”,高校食堂须考虑如何改善菜肴品质及服务质量。本文用时间序列分析、关联规则挖掘等算法,研究了用餐人次的变化规律,并初步预测了每种菜品销量的涨落。Apriori算法是关联规则学习的一种算法,本文基于此研究了不同菜品之间最强的销量关联性。

1 基于时间序列分析的用餐人次预测

以山东大学为例,“山东大学一多食堂”的两台pos收款机记载了交易时间、交易额、现有余额、用卡次数等数据,我们选择其中2016年10月、11月、12月的用餐数据进行研究,用向量m表示连续85天的用餐人次,在R中绘制m的时间序列图,如图1所示。

根据图1还不能确定m的变化趋势,因此我们继续用时间序列分析方法提取相关信息。

1.1 平稳性检验

运用游程检验法对序列m作平稳性检验:m的均值为996.1412,大于均值的样本个数为N1=41,小于均值的样本个数为N2=44游程数为Nr=22,N=85,游程的均值和方差分别为,Var(Nr)=,且Nr近似服从正态分布,即统计量。游程判别法认为,在给定的显著性水平α=0.05下,若,则认为序列是平稳的,否则认为是非平稳的[1]。根据已知数据计算,得,由游程判别法知,序列m是非平稳序列。

1.2 平稳性检验与白噪声检验

理论上来说,任何一个非平稳时间序列经过多阶差分后都可变成平稳序列。但差分的阶数并非越多越好,过差分会带来信息的严重损失。解决方法是对非平稳序列进行一阶差分,并判断一阶差分后的序列是否具有平稳性。因此,对m进行一阶差分并在R中绘制时间序列图,如图2所示。

tseries程序包含检验时间序列平稳性的adf.test()函数。调用该函数后得到p值是0.01,小于显著性水平(一般取0.1或0.05)。说明diff(m)已经是平稳序列,不需要再对m进行二阶或其他差分处理。

进一步利用Q统计量和LB统计量分别对diff(m)进行白噪声检验,得到表1中的结果。

1.3 模型识别与参数估计

为识别符合diff(m)序列的时间序列模型,应作出自相关函数与偏自相关函数。由图3知,自相关函数与偏自相关函数均呈现拖尾性特点,初步推断diff(m)符合ARMA(p,q)模型。

接着调用arima()函数,使用CSS-ML估计法对该ARMA(5,3)模型进行参数估计,结果如表3所示。

因此diff(m)的拟合结果是:

1.4 模型检验与参数的显著性检验

建立模型后需要对整个模型的有效性进行检验,并进行参数的显著性检验。先调用tsdiag()函数对残差进行白噪声检验。

在图4中,标准残差的序列图呈现出“中间变幅大、两头变幅小”的特点,类似于正态分布的分布函数形态;残差的样本ACF都处于2倍标准差范围内,可近似于零;Ljung-Box检验统计量的p值均大于0.5,明显大于显著水平。上述三c证明了残差服从正态分布,相关信息已被模型提取。