
2014年sas大赛第三题.docx
10页题目:数据集timeser_com中存放着某地区每个电信基站的通话时长和短信包信息date代表时间变量,Cell代表基站编码,tcherl和sms分别代表通话和短信量问题如下:(1) 根据date创建时间变量date_new;(2) 清理数据,根据CELL和date_new变量剔除重复记录,对tcherl和sms使用三次样条曲线进行插值;(3) ARIMA过程步识ARIMA(p,d,q)滞后阶数并简要说明确定该模型的原因(提示:通过单位根检验检验差分阶数的合理性);(4) 估计得到的模型系数,对每个基站的tcherl和sms两个变量进行向前30步的预测数据解答:(1) 程序:data timese; set voice; date_new= input(put(date,8.),yynndd8.) ; format date date9.; run; 原数据集 新建的date_new变量精选文档(2) 删除重复记录:程序:proc sort data = timese out = timese; by date cell; run; data times_new; set timese; by date cell; if ^first.cell then delete; run; 三次插值(考虑站点cell=D37C072)频数分布情况:程序:proc freq data=times_new; table cell; run; D37C0631330.0498673.15D37C0712140.07100813.22D37C0722140.07102953.29D37C0732140.07105093.36D37C0811330.04106423.40D37C0821330.04107753.44D37C0831330.04109083.48 三次插值:精选文档程序:proc iml; a = shape(1,226,1); create dates from a[colname='date_new']; append from a; run; quit; data dates; set dates; date_new= intnx('day','04may09'd,_n_-1) ; format date_new date9.; run; proc sql ; create table date_new as select date_new from dates where date_new not in (select date_new from date); run; 。
