在例7.12中,我们估计了一个线性概率模型以说明一个年轻人在1986年是否被拘捕:(i)用OLS估计此模
在例7.12中,我们估计了一个线性概率模型以说明一个年轻人在1986年是否被拘捕:
(i)用OLS估计此模型, 并验证其全部估计值都严格地介于0和1之间。最大和最小的估计值各是多少?
(ii)像8.5节所讨论的那样,用加权最小二乘法估计这个方程。
(iii)用WLS估计值决定avgsen和tottie在5%的显著性水平上是否联合显著。
在例7.12中,我们估计了一个线性概率模型以说明一个年轻人在1986年是否被拘捕:
(i)用OLS估计此模型, 并验证其全部估计值都严格地介于0和1之间。最大和最小的估计值各是多少?
(ii)像8.5节所讨论的那样,用加权最小二乘法估计这个方程。
(iii)用WLS估计值决定avgsen和tottie在5%的显著性水平上是否联合显著。
我们估计了一个线性概率模型以说明一个年轻人在1986年是否被拘捕:
(i)用OLS估计此模型,并验证其全部估计值都严格地介于0和1之间。最大和最小的估计值各是多少?
(ii)用加权最小二乘法估计这个方程。
(iii)用WLS估计值决定avgsen和tottime在5%的显著性水平上是否联合显著。
(i)用虚拟变量demwins来代替教材(10.23)中的demvote,并用通常的格式报告结果。哪些因素影响获胜概率?请用截至1992年的数据。
(ii)有多少个拟合值小于0?有多少个拟合值大于1?
(iii)采用下面的预测规则:如果demwins>0.5,你就可以预测民主党会获胜;否则,共和党将获胜。那么,在这20次选举中,这个模型有多少次正确地预测了实际结果?
(iv)代入1996年的解释变量值。预测克林顿赢得这次选举的可能性有多大。事实上,克林顿获胜了,你的预测结果是否与事实相符?
(v)对误差中的AR(1)序列相关,做异方差-稳健:检验。你有何发现?
(vi)求出第(i)部分中估计值的异方差-稳健标准误。!统计量有什么明显的变化吗?
在教材例11.6中,我们估计了一个一阶差分形式的有限分布滞后模型:
利用FERTIL3.RAW中的数据来检验误差中是否存在AR(1)序列相关。
利用数据集401KSUBS.RAW。
(i)利用OLS估计e401k的一个线性概率模型,解释变量为inc,inc²,age,age²和male。求通常的OLS标准误和异方差-稳健的标准误。它们有重要差别吗?
(iii)对第(i)部分估计的模型求怀特检验,并分析系数估计值是否大致对应于第(ii)部分中描述的理论值。
(iv)在验证了第(i)部分的拟合值都介于0和1之间后,求这个线性概率模型的加权最小二乘估计值。它们与OLS估计值有重大差别吗?
利用BARIUM.RAW中的数据。
(i)用前119次观测(即不包含1988年的最后12个月观测),估计线性趋势模型。这个回归的标准误是什么?
(ii)同样用除了最后12个月以外的所有数据,估计chnimp的一个AR(1)模型。把这个回归的标准误与第(i)部分中的标准误相比较。哪一个模型提供了更好的样本内拟合?
(iii)用第(i)和第(ii)部分中的模型计算1988年12个月的提前一期预测误差。(每个方法都应该得到12个预测误差。)计算并比较这两种方法的RMSE和MAE。就样本外提前一期预测而言,哪种方法效果更好?
(iv)在第(i)部分的回归中添加月度虚拟变量。它们是联合显著的吗?(当我们检验联合显著性时,不必担心误差中轻度的序列相关。)
如果我们在经典线性模型假定下从式(6.38)开始,假定n很大,并忽略中的估计误差,那么y0的一个95%预测区间就是
。
(ii)在CEO薪水的例子中,验证第(i)部分中的条件是成立的。
以查阅英文字典为例,单词“Data”应大致位于前1/5和1/4之间,而“Structure”则应大致位于后1/5和1/4之间。对元素的分布规律掌握得越准确,这种加速效果也就加可观。
此类方法的原理大同小异,无非是利用向量元素的分布规律,根据目标数值,通过插值估计出其大致所对应的秩,从而迅速缩小搜索范围,故称作插值查找(interpolation search)。
a)若有序向量中的元素均独立且等概率地取自某一数值区间,试证明它们应大致按线性规律分布;
b)针对此类有序向量,如何通过插值来估计待查找元素的秩?试给出具体的计算公式;
c)试证明:对于此类向量,每经一次插值和比较,待搜索区间的宽度大致以平方根的速度递减;
d)试证明:对于长度为n的此类向量,插值查找的期望运行时间为o(loglogn);
(i) 估计一个将respond与resplast和avggift联系起来的线性概率模型。以通常的形式报告结果, 并解释变量resplast的系数。
(ii)过去捐助的平均水平看来会影响做出捐助响应的概率吗?
(iii) 在模型中增加变量propres p并解释其系数。(这里须注意, propresp增加1是最大可能变化。)
(iv) 在回归中增加propres p以后, resp last的系数有何变化?这讲得过去吗?
(v) 在模型中增加每年寄出邮件的数量mail year。它的估计影响有多大?为什么它不是邮件数量对响应的因果关系的一个较好的估计?
在近来的一篇论文中,埃文斯和施瓦布(EvansandSchwab,1995)研究了就读于天主教高中对将来读大学的概率所产生的影响。为具体起见,令college为二值变量,如果读大学则等于1,否则为0。令CahHS也为二值变量,如果就读于天主教高中则等于1.一个线性概率模型是:
college=β0+β1CathHS+其他因素+u
其中其他因素包括性别、种族、家庭收入和父母的受教育程度。
(i)为什么CathHS可能与u相关?
(ii)埃文斯和施瓦布拥有关于每个学生在大二时进行的标准化测验成绩数据。我们用这些变量能做些什么,以改进就读于天主教高中在其余条件不变情况下的估计值?
(iii)令CathRel为二值变量,若学生是天主教徒则等于1。讨论它成为前面方程中CathHS的一个有效的ⅣV所需要的两个要求。其中哪个可加以检验?
(iv)不足为奇,作为天主教徒对是否就读于一所天主教高中有显著的影响。你认为CathRel作为CathHS的工具变量令人信服吗?
在第3章的习题3中,我们估计了一个方程,来检验一个随机样本中每个人每周花在睡眠上的分钟数(sleep)和每周花在工作上的分钟数(totwork)之间的替代关系。方程中还包括受教育程度和年龄。由于sleep和totwork是每个人同时选择的,所估计的睡眠和工作之间的交替关系会遭到“联立性偏误”的批评吗?请解释。
利用CRIME4.RAW。
(i)使用固定效用法而不是差分法重新估计教材例13.9中关于犯罪的非观测效应模型。系数的符号和大小有什么明显变化?其统计显著性又怎样?
(ii)在数据集中添加每个工资变量的对数,再用固定效用法估计模型。添加这些变量如何影响第(i)部分有关司法变量的系数?
(iii)第(ii)部分的工资变量都带有所预期的符号吗?请解释。它们是联合显著的吗?