关键词不能为空

当前您在: 首页 > 育儿 >

多因素分析

作者:陕西保健网
来源:http://www.xapfxb.com/yuer
更新日期:2021-02-28 11:13

-

2021年2月28日发(作者:练习瑜伽有什么好处)
多因素分析

研究多个因素间关系及具有这些因素的个体之间的一系
列统计分 析方法称为多元(因素)分析。主要包括:

多元线性回归(
multiple linear regression


判别分析(
disoriminant analysis


聚类分析(
cluster analysis


主成分分析(
principal component analysis


因子分析(
factor analysis


典型相关(
canonical correlation


logistic
回归(
logistic regression


Cox
回归(
COX regression



1


多元回归分析(
multiple linear regression


回归分析是定量研究因变量对自变量的依赖程度、分析变量 之间
的关联性并进行预测、预报的基本方法。研究一个因变量对几个自变
量的线性依存关系时, 其模型称为多元线性回归。函数方程建立有四
种方法:全模型法、向前选择法、向后选择法、逐步选择法 。

全模型法其数学模型为:
y
?
?
0
?
?
1
x
1
?
?
2
x
2
?
?
?
p
x
p
?
?

式中

y
为因变量,

x
1
,
x
2
?
x
p


p
个自变量,
?
0
为常数项,
称为偏回归系数
(< br>partial regression coefficient


?1
,
?
2
?
?
p
为待定参数,
?1
,
?
2
?
?
p
表示在其它自变量固定不变的 情况下,自变量
X
i

每改变一
个单位时,单独引起因变量
Y
的平均改变量。




?
为随机误差,又称残差(
residual

,
它是在
Y
的变化中不能为自
变量所解释的部分




例如:
1
、现有
20
名糖尿病病人的血糖(
y< br>,
m
m
o
/
l
L

、胰岛素

x
1
,
mU
/
L
)及生长素(
x2
,
?
g
/
L
)的数据,讨论血糖浓度与胰岛素、生长素的依存关系,建立其多元回归方程。










逐步回归分析
(stepwise regression analysis)
在预先选定的几个自变量与一个因变量关系拟合的回归中 ,每个
自变量对因变量变化所起的作用进行显著性检验的结果,可能有些有
统计学意义,有些没 有统计学意义。有些研究者对所要研究的指标仅
具有初步知识,并不知道哪些指标会有显著性作用,只想 从众多的变
量中,挑选出对因变量有显著性意义的因素。

一个较理想的回归方程,应 包括所有对因变量作用有统计学意义
的自变量,而不包括作用无统计学意义的自变量。建立这样一个回归
方程较理想的方法之一是
逐步回归分析

stepwise regression analysis


基本原理:按这个自变量在方程中对因 变量作用的大小,由大到
小依次引入方程。每引入一个自变量都要对回归方程中每一个已引入
的 (包括刚被引入的)自变量的作用作统计意义检验,若发现一个或
几个已被引入的自变量的作用无统计学 意义时,即行剔除。每剔除一
个自变量后,
也要对留在回归方程中的自变量逐个作统计学意义检 验。
如果发现方程中还存在作用无统计学意义的自变量时,也予以剔除,
直至没有自变量可引入 ,也没有自变量可从方程中剔除为止。

最优方程应是:
y
?
?0
?
?
1
x
1
?
?
?
px
p
?
?


y
有显著性作用的自变量全部到 回归方程中。凡是对
y
没有显
著性作用的自变量都不被引入方程。

例如:

1
、讨论中学生的肺活量的影响因素,观察了
10
名女中学生的体


X
1
, kg


胸围

X
2
, cm


胸围之呼吸差

X
3
, cm

及肺活量

Y
, ml




2
、某研究协作组调查煤矿工人
II
期高血压患者
40< br>例,同时调查
了工作面的污染程度(
X
1

、井下工作时间 (
X
2

、每人的体重(
X
3


吸烟年限(
X
4

、饮酒年限(
X
5
)和收缩压 (
y

,欲分析影响煤矿工人
II
期高血压患者收缩压高低的主要因 素。


3

为探讨影响差等生学习成绩的因素,
某儿科医 生调查了某学校
六年级各班倒数第五名以内学生的平均成绩

y


并测定了智商

X
1


血清铁(
X< br>2

、血清酮(
X
3

、日均热卡(
X4

、日均食入蛋白量(
X
5


头围(X
6
)和月人均收入(
X
7









2


判别分析(
discriminant analysis


根据 已掌握的一批分类明确的样品,制定出一个分类标准用以判
断以后新样品的归类。
在医学研究中 经常遇到根据某病人的各种症状、
体征、化验结果等来判定病人患的什么疾病,如:根据骨科的
X
光片
的各种特征判断病人属于何种骨瘤?体育选材中根据运动员的体形、
运动成绩、 生理指标、心理素质指标、遗传因素判断是否选入运动队
继续培养等。

判别分析在医学领域的主要用途是:

1
、疾病诊断:

用 判别分析的方法诊断疾病又称为计量诊断。包
括临床诊断、
X
线诊断、心电图诊断、超 声波诊断、脑电图诊断等。

2
、疾病预报:

流行病预报、某些疾病(心肌梗死、中风)的早期
预报。

3

预后估计:

某些疗法的疗效估计,
某些恶性肿瘤患者的生存期
估计等。

4

疾病的病因学估计:

研究引起疾病的原因,
并分析其主要影响
因素。

判别分析:
要求
Y
变量二分类或多分类的属性变量。
分别用
Fisher
和< br>Bayes
准则进行计算。

同时根据样本中个体的症状、
体征选用多 元逐步判别分析的方法,
来判断病人患的什么疾病。其判别函数为:

Z


b
1
x
1
+ b
2
x
2
+ b
3
x
3

…..+ b
k
x
k



对判别函数在实际应用中的判别能力要进行检验。

?











判别临界值:
Y
0
?
?
n
1
?
?
?
y
?
a
?
?
n
2
y
?
b
?
?
/
?
n
1
?
n
2
?

?
?














且:

y
?
a
?
?
Y
?
0
?
y
?
b
?
?






所以:若

Y>Y
0

判为
A
类;若

Y0

判为
B
类。


可以计算各指标的贡献率,进行回代检验其符合率。

例如:







1
、有健康人
10
名 ,心肌梗死病人
6
名,分别进行心电图检查
得到三个指标
X
1

X
2

X
3

建立这两类人的判别式,以次判别新的就
诊患者是否为心肌梗死病人。






2
、对正常人和白血病人进行血清学方 面的研究,用高分辨核磁
共振谱仪分析
α
峰形,

α
峰的高 度
(X
1
)
和峰腰
(X
2
)
的宽度作为观 察
指标,
采集了
13
名白血病人和
11
名献血员作为健康人 的血清的
α

形。






3
、现有已知分类的健康人
11
人,硬化症患者
7
人,冠心 病患者
5
人,这
23
人的心电图的
5
个指标测量数据,建立 判别方程。


3


logistic
回归分析

多元线性回归要求
y
是呈正态分布的连续型随机变量。医 学中常
见这样的试验:动物服药后是生(假设其值为
1
)还是死(假设其值

0

,或是发病(
1
)还是未发病(
0
)等。当因 变量取值为(
0

1


自变量可能是分类变量,也可能是 连续变量时,用线性回归分析的方
法进行处理是不合适的,应选用
Logistic
回归。

Logistic
回归属于概率型回归,用来分析某类事件发生的 概率与
自变量之间的关系。
适用于因变量为二值变量(或多分类)的情形。

基本概念:因变量的预测值在
0~1
之间。如根据冠心病病人的饮
食特点、
吸 烟史、
生活的方式、
得病的类型等数据资料,
建立一个
logistic
回归方程来预测病人的冠心病的可能性。


数学模型:
y = < br>ln
?
p
j
/
?
1
?
p
j
?
?
?
a
?
?
b
j
x
i j

式中:
p
j
是在条件
x
ij
?
?
x
1
j
,
x
2
j
,
x
3
j
?
?
x
m
j
?
下,某事件发生的概 率,











1
?
p
j
是该事件不发生的概率。其中,i
?
1
~
m
,

m
是自变量
的个数。
a
是截距,
b
i
是待估计的参数。





Logistic
回归方程的曲线为
S
型,
预测值最大值趋近
1

最 小值趋

0







logistic
回归方程的另一种表达形式:
p
?
exp
?
y
?


通过变换可
?
1
?
exp
?
y
?
?
以得出
P
与多元变量
Xi
间的数学表达式:
p
?


























1
?
p
?



例如:

exp(
a
?
?
b
i
x
i
)

1
?
exp(
a
?
?b
i
x
i
)
1

exp(
a
?
?
b
i
x
i
)
1

某医生研究 哪些指标可以判断糖尿病患者是否动脉硬化,
将临
床症状颈总动脉中层厚度
imt?
0.8mm
或有斑块定义为动脉硬化,记为
因变量
type =1
,非硬化
imt < 0.8mm
且无斑块,记为因变量
type =0

选择自变量为年龄(
age

、尿白蛋白(
ALB

、体重指数(
BMI

、胰
岛素敏感指数

I SI


收缩压

SBP


甘油三脂< br>(
TG


胆固醇

CHO

、< br>糖尿病病程(
DURA








2

某医院为研究医院内尿路感染的主要危险因素,
回 顾调查了某年
三个月份在住院期间实施保留导尿的
200
名患者,分别记录了

危险因素
















变量名










定义

性别























X
1










=0
,男
=1
年龄(岁)

















X
2









<30=0, 30~ =1, 50~=2, 70~=3
插管前住院时间(天)







X
3









<3=0, 3~ =1, 10~=2, 20~=3
导尿方式



















X
4







闭式
=0
,开放式
=1
导尿期间无抗生素持续冲洗



X
5











=0
,是
=1
留置导尿时间















X
6









<3=0, 3~ =1, 10~=2, 20~=3
感染前有无输血史











X
7











=0
,有
=1
感染前有无应用免疫抑制剂



X
8









=0
,用
=1



插管前血浆肌酐水平









X
9










<80=0, 80~ =1, 170~=2
有无糖尿病

















X
10










=0
,是
=1
尿路感染



















Y







未感染
=1
,感染
=0




分析可能在医院内尿路感染的危险因素。


4
、比例风险模型-
COX
回归





常用统计描述和统计推断的方法有:
分位数、
中数生存期、
平均数 、
生存函数古迹、判断生存时间分布、非参数检验、寿命表法、
log-rank
检验 (对数秩检验)等。这些方法已经系统地应用在医学的医疗评价和
预后的因素分析中。

-


-


-


-


-


-


-


-



本文更新与2021-02-28 11:13,由作者提供,不代表本网站立场,转载请注明出处:http://www.xapfxb.com/yuer/461866.html

多因素分析的相关文章