小样本OLS回归的框架

625 0 0

作者:分析101

1 最小二乘法的历史

不管是学习机器学习、计量经济学、数理统计，很多人接触到的第一个算法就是最小二乘法（least squares method）。

这是一个非常古老的方法。早在18世纪早期，在天文学和航海领域就已经出现了最小二乘法的思想。真正意义上第一个正式发表该方法是在1806年的法国科学家Legendre，而数学王子Gauss据说在更早时候就发现了该方法，但直到1809年他在发表计算天体运动轨道时才正式使用，两人也为谁是第一个发现的争论不休。

Gauss毕竟是数学王子，1829年，他又首次证明出，在线性无偏估计量的类中，OLS估计具有最小的抽样方差。在他的证明中，假设了线性回归模型中的误差项是独立且正态分布的，后来，由Markov将假设放宽到只需要误差项不相关、同方差且期望为0即可。因此，该定理最终被命名为Gauss-Markov定理。

2 小样本OLS回归的框架

做OLS回归是为了什么？简而言之，在假设了数据生成过程(y=beta' x+varepsilon)并收集到一系列((x,y))的数据之后，我们可以做的事情有3个，这也是我们学习OLS回归的路线：

得到系数的点估计；
判断数据拟合得如何？
得到系数的区间估计，进行假设检验。

首先，我们先利用数据得到点估计(hat{beta})，由此还可以得到它的一系列性质，然后，可以通过计算如(R^2)等一系列指标来说明拟合得如何，最后，在得到区间估计后，可以对预先的有关于系数的假设进行假设检验。

2.1 点估计及其性质

在使用OLS回归之后，可以得到

[hatbeta=(X'X)^{-1}X'y ]

这就是系数的点估计，可以看下它有什么样的性质。

首先，它是(y)的线性组合，具有线性性，另外，在施加一些假设后，它的条件期望是对系数的无偏估计，即(mathbb{E}(hatbeta|X)=beta)，而它的方差则由Gauss-Markov定理保证了是最小的，这就是“BLUE”（Best Linear Unbiased Estimator）。

2.2 拟合优度

对于拟合优度，基础的指标有中心化或非中心化(R^2)。

而对于模型的选择来说，如果用(R^2)作为模型选择的标准，则很明显，加入的自变量越多，(R^2)就会越高，因此需要用其他的指标。如AIC（Akaike Information Crierion）、BIC（Bayesian Information Crierion）、调整(R^2)即(bar{R}^2)等，都可以来选择模型。

2.3 区间估计与假设检验

若假设(varepsilon|Xsim N(0,sigma^2 I))（其中(sigma)未知），则(hat{beta})也相应地服从正态分布，因此可以得到它的区间估计。但得到它的区间估计并不是我们的最终目的，我们的最终目的是要检验如(Rbeta=r)（其中(R)为(Jtimes K)矩阵）这样的假设是否成立。

由统计学知识可知，可构造出这样的二次型

[dfrac{(Rhatbeta-r)'(cdot)(Rhatbeta-r)}{sigma^2}|X sim chi^2_J ]

上式虽然可以证明它服从(chi^2)分布，但左侧的(sigma^2)我们却不知道，因此我们无法利用上式构造统计量。

一个解决办法是用(s^2=dfrac{1}{N-K}e'e)估计(sigma^2)，可以证明，这样估计是无偏的，即(mathbb{E}(s^2|X)=sigma^2)，且满足

[dfrac{(N-K)s^2}{sigma^2}|Xsim chi^2_{N-K} ]

和

[s^2 perp !!!!!!! perp hat{beta} |X ]

因此，我们可以构造一个(F)统计量进行检验：

[Fequiv dfrac{(Rhatbeta-r)'(cdot)(Rhatbeta-r)/J}{s^2}sim F_{J,N-K} ]

这样可以联合检验有关系数的(J)个线性假设，只需将假设写成(Rbeta=r)的形式即可。若只需检验一个假设，即(J=1)，则因(F_{1,q}sim t^2_q)，故统计量可化为(t)分布，直接进行(t)检验即可。

内容来源于网络如有侵权请私信删除

文章来源: 博客园

原文链接: https://www.cnblogs.com/analysis101/p/14492591.html

标签： AI 人工智能

你还没有登录，请先登录或注册！

还没有人评论，欢迎说说您的想法！

小样本OLS回归的框架

小样本OLS回归的框架

1 最小二乘法的历史