
高中数学线性回归分析课件苏教版选修22.ppt
22页知识结构知识结构 收集数据收集数据 ( (随机抽样随机抽样) )整理、分析数据整理、分析数据估计、推断估计、推断简简单单随随机机抽抽样样分分层层抽抽样样系系统统抽抽样样用样本估计总体用样本估计总体变量间的相关关系变量间的相关关系 用样本用样本的频率的频率分布估分布估计总体计总体分布分布 用样本用样本数字特数字特征估计征估计总体数总体数字特征字特征线线性性回回归归分分析析统计的基本思想统计的基本思想实际实际样本样本模模 拟拟抽抽 样样分分 析析问题问题1 1::正方形的面积正方形的面积y y与正方形的边长与正方形的边长x x之间之间 的的函数关系函数关系是是y = xy = x2 2确定性关系确定性关系问题问题2 2::某水田水稻产量某水田水稻产量y y与施肥量与施肥量x x之间是否之间是否 --------------有一个确定性的关系?有一个确定性的关系?例如:例如:在在 7 7 块并排、形状大小相同的试验田块并排、形状大小相同的试验田上上 进行施肥量对水稻产量影响的试验,得到进行施肥量对水稻产量影响的试验,得到如下所示的一组数据:如下所示的一组数据:施化肥量施化肥量x x 15 20 25 30 35 40 45 15 20 25 30 35 40 45水稻产量水稻产量y y 330 345 365 405 445 450 455 330 345 365 405 445 450 455复习、变量之间的两种关系复习、变量之间的两种关系自变量取值一定时,因变量的取值带有一定随自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫做机性的两个变量之间的关系叫做相关关系相关关系。
1 1、定义:、定义: 1 1):相关关系是一种不确定性关系;):相关关系是一种不确定性关系;注注对具有相关关系的两个变量进行对具有相关关系的两个变量进行统计分析的方法叫统计分析的方法叫回归分析回归分析2 2):):2 2、、现实生活中存在着大量的相关关系现实生活中存在着大量的相关关系 如:人的身高与年龄;如:人的身高与年龄; 产品的成本与生产数量;产品的成本与生产数量; 商品的销售额与广告费;商品的销售额与广告费; 家庭的支出与收入等等家庭的支出与收入等等探索:水稻产量探索:水稻产量y y与施肥量与施肥量x x之间大致有何之间大致有何规律?规律?10 20 30 40 5010 20 30 40 50500500450450400400350350300300·······发现:图中各点,大致分布在某条直线附近发现:图中各点,大致分布在某条直线附近探索探索2 2:在这些点附近可画直线不止一条,:在这些点附近可画直线不止一条, 哪条直线最能代表哪条直线最能代表x x与与y y之间的关系呢?之间的关系呢?x xy y施化肥量施化肥量水稻产量水稻产量施化肥量施化肥量x x 15 20 25 30 35 40 45 15 20 25 30 35 40 45水稻产量水稻产量y y 330 345 365 405 445 450 455 330 345 365 405 445 450 455散点图散点图10 20 30 40 50500450400350300·· ··· ··xy施化肥量施化肥量水稻产量水稻产量最小二乘法:最小二乘法:称为样本点的中心称为样本点的中心。
3 3、对两个变量进行的线性分析叫做、对两个变量进行的线性分析叫做线性线性回归分析回归分析2 2、回归直线方程:、回归直线方程:2.2.相应的直线叫做相应的直线叫做回归直线回归直线1 1、所求直线方程、所求直线方程 叫做叫做回归直回归直 ------线方程线方程;其中;其中相关系数相关系数• 1.1.计算公式计算公式•2 2.相关系数的性质.相关系数的性质•(1)|r|≤1(1)|r|≤1..•(2)|r|(2)|r|越接近于越接近于1 1,相关程度越大;,相关程度越大;|r||r|越接近于越接近于0 0,相关程,相关程度越小.度越小.•问题:达到怎样程度,问题:达到怎样程度,x x、、y y线性相关呢?它们的相关程度怎线性相关呢?它们的相关程度怎样呢?样呢?负相关负相关正相关正相关相关系数相关系数r>0正相关;r<0负相关.通常,r>0正相关;r<0负相关.通常, r r∈∈[-1,-0.75]--0.75]--负相关很强负相关很强; ; r∈∈[0.75,1]—正相关很强正相关很强; r∈∈[-0.75,-0.3]--负相关一般负相关一般; ; r∈∈[0.3, 0.75]—正相关一般正相关一般; r r∈∈[-0.25, 0.25]--0.25]--相关性较弱相关性较弱; ; ·······10 20 30 40 5010 20 30 40 50500500450450400400350350300300xy施化肥量施化肥量水稻产量水稻产量施化肥量施化肥量x x 15 20 25 30 35 40 45 15 20 25 30 35 40 45水稻产量水稻产量y y 330 345 365 405 445 450 455 330 345 365 405 445 450 455解解: 1.画出散点图画出散点图2.求出求出3.写出回归方程写出回归方程4.计算相关系数计算相关系数例题例题1 1 从某大学中随机选出从某大学中随机选出8 8名女大学生,其身名女大学生,其身高和体重数据如下表:高和体重数据如下表:编号编号1 12 23 34 45 56 67 78 8身高身高165165165165157157170170175175165165155155170170体重体重48485757505054546464616143435959求根据一名女大学生的身高预报她的体重的求根据一名女大学生的身高预报她的体重的回归方程,并预报一名身高为回归方程,并预报一名身高为172172cm的女大cm的女大学生的体重。
学生的体重 分析:由于问题中分析:由于问题中要求根据身高预报要求根据身高预报体重,因此选取身体重,因此选取身高为自变量,体重高为自变量,体重为因变量.为因变量.3.通过探究栏目引入通过探究栏目引入“线性回归模型线性回归模型”此处可以引此处可以引导学生们体会函数模型与回归模型之间的差别导学生们体会函数模型与回归模型之间的差别((2 2)从散点图还可以看到,样本点散布在某一条直)从散点图还可以看到,样本点散布在某一条直线的附近,而不是一条直线上,所以不能用一次函线的附近,而不是一条直线上,所以不能用一次函数y=bx+a来描述它们之间的关系这时我们数y=bx+a来描述它们之间的关系这时我们用下面的线性回归模型来描述身高和体重的关系:用下面的线性回归模型来描述身高和体重的关系:y=bx+ay=bx+a+ +e其中a和b为模型的e其中a和b为模型的未知参数未知参数,,e e是是y y与与 之间的误差之间的误差, ,通常通常e称为e称为随机误差随机误差((1 1)由图形观察可以看出,样本点呈条状分)由图形观察可以看出,样本点呈条状分布,身高和体重有比较好的线性相关关系,因布,身高和体重有比较好的线性相关关系,因此可以用线性回归方程刻画它们之间的关系。
此可以用线性回归方程刻画它们之间的关系线性回归模型线性回归模型 y=bx+ay=bx+a+ +eey=bx+ay=bx+a+ +e其中a和b为模型的e其中a和b为模型的未知参数未知参数,,e e是是y与与 之间的误差之间的误差,通常通常e称为e称为随机误差随机误差为了衡量预报的精度为了衡量预报的精度, ,需要估计的需要估计的σσ2 2值值? ?((1 1)根据散点图来粗略判断它们是否线性相关根据散点图来粗略判断它们是否线性相关2 2)是否可以用线性回归模型来拟合数据)是否可以用线性回归模型来拟合数据((3 3)通过残差)通过残差 来判断模型拟合的效来判断模型拟合的效 果果这种分析工作称为这种分析工作称为残差分析残差分析 使学生了解残差图的制作及作用使学生了解残差图的制作及作用P98P98•坐标纵轴为残差变量,横轴可以有不同的选择;坐标纵轴为残差变量,横轴可以有不同的选择;•若模型选择的正确,若模型选择的正确,残差图中的点应该分布在以残差图中的点应该分布在以横轴为心的带形区域;横轴为心的带形区域;•对于远离横轴的点,要特别注意对于远离横轴的点,要特别注意。
• 错误数据• 模型问题身高与体重残差图异常点。
