运用SAS进行Monte Carlo蒙特卡罗模拟(第九弹):
回归分析的R平方调整分析
本文未经原作者同意严禁转载
R平方:决定系数,反应因变量的全部变异能通过回归关系被自变量解释的比例。如R平方为0.8,则表示回归关系可以解释因变量80%的变异。换句话说,如果我们能控制自变量不变,则因变量的变异程度会减少80%
但是,R平方也有其局限性:R平方随着自变量的增加会变大,R平方和样本量是有关系的。因此,我们要到R平方进行修正。修正的方法很多,本例主要介绍四种常见的修正R平方的方法。
调整公式如下:
RSQ_ADJ1=1-(N/(N-P))*(1-RSQ);
RSQ_ADJ2=1-((N-1)/(N-P-1))*(1-RSQ);
RSQ_ADJ3=1-((N-1)/(N-P))*(1-RSQ);
RSQ_ADJ4=RSQ-((P-2)/(N-P-1))*(1-RSQ)-(2*(N-3))/((N-P-1)*(N-P+1))*(1-RSQ)**2;
其中,N为观测值个数,P为预测变量个数,RSQ为原R平方值。
本例只考察了好坏样本比例的R平方的调整。首先生成指定相关系数的变量样本,然后再对样本进行回归分析,并记录下其R平方值,并计算修正的R平方值,将这些结果进行统计分析。
LIBNAME REG ‘C:REG’;
PROC PRINTTO LOG=’C:REGLOGFILE.TMP’;**输出日志到文件中;
RUN;
DATA A (TYPE=CORR);**得到要生成样本的各变量间的相关系数;
_TYPE_=’CORR’;
INPUT X1 X2 X3 X4 X5 X6 X7 X8 Y;
CARDS;
1.00 . . . . . . . .
0.30 1.00 . . . . . . .
0.30 0.30 1.00 . . . . . .
0.30 0.30 0.30 1.00 . . . . .
0.30 0.30 0.30 0.30 1.00 . . . .
0.30 0.30 0.30 0.30 0.30 1.00 . . .
0.30 0.30 0.30 0.30 0.30 0.30 1.00 . .
0.30 0.30 0.30 0.30 0.30 0.30 0.30 1.00 .
.44019 .44019 .44019 .44019 .44019 .44019 .44019 .44019 1.00
;
RUN;
PROC FACTOR N=9 OUTSTAT=FACOUT;
DATA PATTERN; SET FACOUT;
RUN;
%MACRO REG;
%DO A=1 %TO 3;**样本数量:20 40 80;
%DO REP=1 %TO 2000;
PROC IML;
DAT=RANNOR(J(&N,9,0));
DAT=DAT`;
DAT=F*DAT;
DAT=DAT`;
CREATE REGDATA FROM DAT[COLNAME={X1 X2 X3 X4 X5 X6 X7 X8 Y}];
APPEND FROM DAT;
PROC REG DATA=REGDATA NOPRINT OUTEST=REGOUT;**回归分析,结果输出到REGOUT数据集中;
RUN;
DATA A; SET REGOUT;
KEEP N P NP_RATIO RSQ RSQ_ADJ1 RSQ_ADJ2 RSQ_ADJ3 RSQ_ADJ4 BIAS_RSQ BIAS1 BIAS2 BIAS3 BIAS4;
PROC APPEND BASE=REG.REG8_RSQ; **R平方数据导出;
%END;
%END;
%MEND REG;
%REG;
RUN;
DATA A; SET REG.REG8_RSQ;
PROC SORT; BY NP_RATIO;
PROC MEANS; BY NP_RATIO; **得到平均R平方偏离度;
RUN;
结果:
——————————— NP_RATIO=2.5 ———————————-
变量
——————————————————————————–
BIAS_RSQ
BIAS1
BIAS2
BIAS3
BIAS4
——————————————————————————–
———————————— NP_RATIO=5 ———————————
变量
BIAS_RSQ
BIAS1
BIAS2
BIAS3
BIAS4
——————————————————————————–
———————————– NP_RATIO=10 ———————————-
变量
——————————————————————————–
BIAS_RSQ
BIAS1
BIAS2
BIAS3
BIAS4
——————————————————————————–
我们可以看到,好坏样本比例差不多时,R平方的偏差最大。随着好坏样本比的增大,R平方的偏差在逐渐减小(0.1990950->0.0948840->0.0445254),减小的比例也与好坏样本比大体一致,即4:2:1。
参考资料
Xitao Fan, etc..Monte Carlo Studies: A Guide for Quantitative Researchers. SAS Institute Inc.,2002
未经允许不得转载:哈勃私语 » 回归分析的R平方调整分析
本文共4556个字 创建时间:2015年8月8日19:25