在日常数据分析工作当中,回归分析是应用十分广泛的一种数据分析方法,按照涉及自变量的多少,可分为一元回归分析和多元回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。
回归分析的实施步骤:
1)根据预测目标,确定自变量和因变量
2)建立回归预测模型
3)进行相关分析
4)检验回归预测模型,计算预测误差
5)计算并确定预测值
我们接下来讲解在Excel2007中如何进行回归分析?
一、案例场景
为了研究某产品中两种成分A与B之间的关系,现在想建立不同成分A情况下对应成分B的拟合曲线以供后期进行预测分析。测定了下列一组数据:
二、操作步骤
1、先绘制散点图:具体步骤是选中数据,插入—>图表—>散点图
2、在散点图的数据点上右键—>添加趋势线
3、在弹出的选项框的选项中选择公式和相关系数等,这样就以得到拟合的直线
在图中我们可以看到,拟合的回归方程是 y = 0.223x + 9.121,R² = 0.982
附:R2相关系数取值及其意义
我们进一步使用Excel中数据分析的回归分析提供更多的分析变量来描述这一个线性模型
4、选中数据—>数据—>数据分析—>回归
注:本操作需要使用Excel扩展功能,如果您的Excel尚未安装数据分析,可以参考该专题文章的第一篇《用Excel进行数据分析:数据分析工具在哪里?》。
为了更好地定量说明土壤理化性质对PAHs浓度的影响,对土壤理化参数和PAHs总量进行了多元回归分析,多元线性回归分析用于揭示被解释变量(因变量)与其他多个解释变量(自变量)之间的线性关系。因为自变量之间可能存在相关关系,为消除多重共线性的缺点,采用逐步回归方法进行分析。模型以PAHs总量为因变量,8个理化参数为自变量,3个灌区的回归结果见表4.10。
表4.10 各灌区剖面的PAHs总量与土壤理化指标的回归模型
注:R为相关系数,t为对回归参数的显著性检验值,F为回归方程的显著性检验,Sig为显著性概率。污灌区PAHs总量的回归方程为
y=6509.691+570.341x1-12.012x2-756.247x3-18.610x4
式中:y为PAHs总量;x1为TOC;x2为土壤含水量;x3为pH值;x4为可溶盐含量。土壤的TOC含量、含水量、pH值、可溶盐含量是影响污水灌区土壤中PAHs分布的主要因素。
再生水灌区的回归方程为
y=70.053+107.296x1-3.623x2
式中:y为PAHs总量;x1为TOC;x2为土壤含水量。土壤的TOC含量和含水量是再生水灌区土壤中PAHs分布的主要影响因素。
清灌区的回归方程为
y=-3.627+54.853x
式中:y为PAHs总量;x为土壤的TOC含量。土壤TOC含量是清灌区土壤中PAHs分布的主要影响因素。
综合上述多元回归分析结果,土壤TOC含量是3个灌区唯一共同的影响因素,也是3个模型最重要的影响因子。在3个灌区,回归分析筛选出来的影响因子和相关分析得到的相关因子基本一致。
萘和菲均是3个灌区剖面检出含量占第一、第二位的污染物,同时也是2环和3环PAHs的典型代表,因此选择这两种PAHs建立单组分的多元线性回归分析模型(表4.11)。6个模型所筛选出来的因子和方程的显著性稍有差异,但TOC在各方程中依然是“最优”因子,且影响最显著,由此也可推出TOC是影响PAHs在土壤剖面分布的主要因素。
表4.11 各灌区剖面典型PAHs含量与土壤理化指标的逐步回归分析结果
注 :F为回归方程的显著性检验,Sig为显著性概率(参见表4.10)。
多元回归分析类型:一元线性回归分析、多元线性回归分析、非线性回归分析、曲线估计、时间序列的曲线估计、含虚拟自变量的回归分析以及逻辑回归分析等。
回归分析的任务就是, 通过研究自变量X和因变量Y的相关关系,尝试去解释Y的形成机制,进 而达到通过X去预测Y的目的。
常见的回归分析有五类:线性回归、0‐1回归(逻辑回归)、定序回归、计数回归 和生存回归,其划分的依据是因变量Y的类型。
1.因变量还可以有多种类别:
(1)连续数值型变量
(2)0-1型变量:结果只有两种并且相互对立。
(3)定序变量:拥有一定的顺序如:优秀、良好、中等、及格、不及格。(4)计数变量:代表发生次数。
(5)生存变量:截止数据(不确定),例如:寿命80+,截止到今年他80岁,具体他能够活到多少岁,还不知道。
2.这就是回归分析要完成的三个使命:
第一、识别重要变量;
第二、判断相关性的方向;
第三、要估计权重(回归系数(必须要去量纲))
3.回归分析的分类:
OLS:普通最小二乘
GLS:广义最小二乘
一、概念不同
1、单因素统计:单因素分析(monofactor analysis)是指在一个时间点上对某一变量的分析。
2、多因素回归分析:指在相关变量中将一个变量视为因变量,其他一个或多个变量视为自变量,建立多个变量之间线性或非线性数学模型数量关系式并利用样本数据进行分析的统计分析方法。
二、方法不同
1、单因素统计:试验单元编号、随机分组。
2、多因素回归分析:引进虚拟变量的回归分析、曲线回归、多元回归模型。
三、应用方向不同
1、单因素统计:单因素的盆栽试验;温室内、实验室内的实验等,应用该设计,若实验中获得的数据各处理重复数相等,采用重复数相等的单因素资料方差分析法分析,若实验中获得的数据各处理重复数不相等,则采用重复数不等的单因素资料方差分析法分析。
2、多因素回归分析:影响因变量的因素有多个,这种多个自变量影响一个因变量的问题可以通过多元回归分析来解决。
例如,经济学知识告诉我们,商品需求量Q除了与商品价格P有关外,还受到替代品的价格、互补品的价格,和消费者收入等因素,甚至还包括商品品牌Brand这一品质变量(品质变量不能用数字来衡量,需要在模型中引入虚拟变量)的影响。
来源:百度百科- 多元回归分析
来源:百度百科-单因素分析
在大多数的实际问题中,影响因变量的因素不是一个而是多个,我们称这类回问题为多元回归分析。可以建立因变量y与各自变量xj(j=1,2,3,…,n)之间的多元线性回归模型:
其中:b0是回归常数;bk(k=1,2,3,…,n)是回归参数;e是随机误差。
多元回归在病虫预报中的应用实例:
某地区病虫测报站用相关系数法选取了以下4个预报因子;x1为最多连续10天诱蛾量(头);x2为4月上、中旬百束小谷草把累计落卵量(块);x3为4月中旬降水量(毫米),x4为4月中旬雨日(天);预报一代粘虫幼虫发生量y(头/m2)。分级别数值列成表2-1。
预报量y:每平方米幼虫0~10头为1级,11~20头为2级,21~40头为3级,40头以上为4级。
预报因子:x1诱蛾量0~300头为l级,301~600头为2级,601~1000头为3级,1000头以上为4级;x2卵量0~150块为1级,15l~300块为2级,301~550块为3级,550块以上为4级;x3降水量0~10.0毫米为1级,10.1~13.2毫米为2级,13.3~17.0毫米为3级,17.0毫米以上为4级;x4雨日0~2天为1级,3~4天为2级,5天为3级,6天或6天以上为4级。
油炸是十分常见的烹饪方法 但是油炸过后的小半锅剩油 倒掉浪费,炒菜又感觉不合适 怎么做才能不浪费呢 就让小编教你怎么利用剩油吧 油炸过食物的油到底能不能吃 观察油的...
身边很多吃货朋友都是属于无辣不欢型的,无论吃什么都会狂放辣椒,宿舍或是办公室还要备着辣酱。小编也是爱吃辣的其中之一,平时炒菜才会加下自制的辣椒油,觉得这样才更香!今天就跟大家分享几款比较好吃的辣椒...
1、杀阡陌是谁扮演的?15版《花千骨》中杀阡陌的饰演者是马可。马可,中国内地男演员,1990年2月9日出生于河南省商丘市。2012年,中央戏剧学院2008级表演系本科毕业。2015年3月,主演爱奇艺自...
我是合肥买房参谋吴哥,211大学毕业, 十余年房产经验,熟悉合肥买房政策、区域规划与学区,成功指导数千名购房者合肥置业。以下为“合肥买房参谋”微信公众号粉丝问答精选提问分享。合肥买房参谋公众号粉丝提问...
变化万千的饮食世界,一些曾饱受赞誉的国宴菜肴,随时代变迁,历经辉煌与落寞的轮回。如今,当消失的国宴菜再次出现在人们的视野。大家不禁想一探究竟:这些菜品到底是何味道?该如何烹制?背后有着怎样耐人寻味...
1、在法政先锋第二部中李荞的扮演者是谁是不是港姐原名:李诗韵英文名:selena出生:1981年02月12日职业:演员语言:广东话、英文、法语、普通话三围:33教育程度:加拿大多伦多大学毕业出道日期:...