-
精品文档
多因素分析
研究多个因素间关系及具有这些因素的个体 之间的一系
列统计分析方法称为多元(因素)分析。主要包括:
多元线性回归(
multiple linear regression
)
判别分析(
disoriminant analysis
)
聚类分析(
cluster analysis
)
主成分分析(
principal component analysis
)
因子分析(
factor analysis
)
典型相关(
canonical correlation
)
logistic
回归(
logistic regression
)
Cox
回归(
COX regression
)
1
、
多元回归分析(
multiple linear regression
)
回归分析是定量研究因变量对自变量的依赖程度、分析变量 之间
的关联性并进行预测、预报的基本方法。研究一个因变量对几个自变
量的线性依存关系时, 其模型称为多元线性回归。函数方程建立有四
种方法:全模型法、向前选择法、向后选择法、逐步选择法 。
全模型法其数学模型为:
y
?
?
0
?
?
1
x
1
?
?
2
x
2
?
?
?
p
x
p
?
?
式中
y
为因变量,
x
1
,
x
2
?
x
p
为
p
个自变量,
?
0
为常数项,
?
1
,?
2
?
?
p
为待定参数,
称为偏回归系数
(< br>partial regression coefficient
)
。
?1
,
?
2
?
?
p
表示在其它自变量固定不变的 情况下,自变量
X
i
每改变一
个单位时,单独引起因变量
Y
的平均改变量。
精品文档
精品文档
?
为随机误差,又称残差(
residual
)
,
它是在
Y
的变化中不能为自
变量所解释的部分
例如:
1
、现有
20
名糖尿病病人的血糖(
y< br>,
mmol
/
L
)
、胰岛素
(
x
1
,
mU
/
L
)及生长素(
x
2
,
?
g
/
L
)的数据,讨论血糖浓度与胰岛素、
生长素的依存关系,建 立其多元回归方程。
逐步回归分析
(stepwise regression analysis)
在预先选定的几个自变量与一个因变量关系拟合的回归中,每个
自变量对 因变量变化所起的作用进行显著性检验的结果,可能有些有
统计学意义,有些没有统计学意义。有些研究 者对所要研究的指标仅
具有初步知识,并不知道哪些指标会有显著性作用,只想从众多的变
量中 ,挑选出对因变量有显著性意义的因素。
一个较理想的回归方程,应包括所有对因变量作用有 统计学意义
的自变量,而不包括作用无统计学意义的自变量。建立这样一个回归
方程较理想的方 法之一是
逐步回归分析
(
stepwise regression analysis
)
基本原理:按这个自变量在方程中对因变量作用的大小,由大到
小依次引入方程。每引入一个自变量都要对回归方程中每一个已引入
的(包括刚被引入的)自变 量的作用作统计意义检验,若发现一个或
几个已被引入的自变量的作用无统计学意义时,即行剔除。每剔 除一
个自变量后,
也要对留在回归方程中的自变量逐个作统计学意义检验。
如果发现方 程中还存在作用无统计学意义的自变量时,也予以剔除,
直至没有自变量可引入,也没有自变量可从方程 中剔除为止。
精品文档
精品文档
最优方程应是:y
?
?
0
?
?
1
x
1
??
?
p
x
p
?
?
对
y有显著性作用的自变量全部到回归方程中。凡是对
y
没有显
著性作用的自变量都不 被引入方程。
例如:
1
、讨论中学生的肺活量的影响因素,观察 了
10
名女中学生的体
重
(
X
1
, kg
)
、
胸围
(
X
2
, cm
)
、
胸围之呼吸差
(
X
3
, cm
)
及肺活量
(
Y
, ml
)
。
2
、某研究协作组调查煤矿工人
II
期高血压患者
40< br>例,同时调查
了工作面的污染程度(
X
1
)
、井下工作时间 (
X
2
)
、每人的体重(
X
3
)
、
吸烟年限(
X
4
)
、饮酒年限(
X
5
)和收缩压 (
y
)
,欲分析影响煤矿工人
II
期高血压患者收缩压高低的主要因 素。
3
、
为探讨影响差等生学习成绩的因素,
某儿科医 生调查了某学校
六年级各班倒数第五名以内学生的平均成绩
(
y
)
,
并测定了智商
(
X
1
)
、
血清铁(
X< br>2
)
、血清酮(
X
3
)
、日均热卡(
X4
)
、日均食入蛋白量(
X
5
)
、
头围(X
6
)和月人均收入(
X
7
)
精品文档
精品文档
2
、
判别分析(
discriminant analysis
)
根据已掌握的一批分类明确的样品,制定出一个分类标准用以判
断以后新样品的归类。
在医学研究中经常遇到根据某病人的各种症状、
体征、化验结果 等来判定病人患的什么疾病,如:根据骨科的
X
光片
的各种特征判断病人属于何种骨瘤 ?体育选材中根据运动员的体形、
运动成绩、生理指标、心理素质指标、遗传因素判断是否选入运动队< br>继续培养等。
判别分析在医学领域的主要用途是:
1
、疾病诊断:
用判别分析的方法诊断疾病又称为计量诊断。包
括 临床诊断、
X
线诊断、心电图诊断、超声波诊断、脑电图诊断等。
2
、疾病预报:
流行病预报、某些疾病(心肌梗死、中风)的早期
预报。
3
、
预后估计:
某些疗法的疗效估计,
某些恶性肿瘤患者的生存期
估计等。
4
、
疾病的病因学估计:
研究引起疾病的原因,
并分析其主要影响
因素。
判别分析:
要求
Y
变量二分类或多分类的属性变量。
分别用
Fisher
和< br>Bayes
准则进行计算。
同时根据样本中个体的症状、
体征选用多 元逐步判别分析的方法,
来判断病人患的什么疾病。其判别函数为:
Z
=
b
1
x
1
+ b
2
x
2
+ b
3
x
3
…..+ b
k
x
k
对判别函数在实际应用中的判别能力要进行检验。
?
判别临界值:
Y
0
?
?
n
1
?
?
?
y
?
a
?
?
n
2
y
?
b
?
?
/
?
n
1
?
n
2
?
?
?
且:
y
?
a
?
?
Y
?
0
?
y
?
b
?
?
所以:若
Y>Y
0
判为
A
类;若
Y
判为
B
类。
可以计算各指标的贡献率,进行回代检验其符合率。
精品文档
精品文档
例如:
1
、有健康人
10
名,心肌梗死病人
6
名,分别 进行心电图检查
得到三个指标
X
1
、
X
2
、
X
3
。
建立这两类人的判别式,以次判别新的就
诊患者是否为心肌梗死病人。
2
、对正常人和白血病人进行血清学方 面的研究,用高分辨核磁
共振谱仪分析
α
峰形,
以
α
峰的高 度
(X
1
)
和峰腰
(X
2
)
的宽度作为观 察
指标,
采集了
13
名白血病人和
11
名献血员作为健康人 的血清的
α
峰
形。
3
、现有已知分类的健康人
11
人,硬化症患者
7
人,冠心 病患者
5
人,这
23
人的心电图的
5
个指标测量数据,建立 判别方程。
3
、
logistic
回归分析
多元线性回归要求
y
是呈正态分布的连续型随机变量。医 学中常
见这样的试验:动物服药后是生(假设其值为
1
)还是死(假设其值
为
0
)
,或是发病(
1
)还是未发病(
0
)等。当因 变量取值为(
0
,
1
)
,
自变量可能是分类变量,也可能是 连续变量时,用线性回归分析的方
法进行处理是不合适的,应选用
Logistic
回归。
Logistic
回归属于概率型回归,用来分析某类事件发生的 概率与
自变量之间的关系。
适用于因变量为二值变量(或多分类)的情形。
基本概念:因变量的预测值在
0~1
之间。如根据冠心病病人的饮
食特点、
吸 烟史、
生活的方式、
得病的类型等数据资料,
建立一个
logistic
回归方程来预测病人的冠心病的可能性。
精品文档
精品文档
数学模型:
y =
ln
?
p
j
/
?
1
?
p
j
?
?
?
a
?
?
b
j
x
ij
式中:< br>p
j
是在条件
x
ij
?
?
x
1j
,
x
2
j
,
x
3
j
??
x
mj
?
下,某事件发生的概率,
1
?
p
j
是该事件不发生的概率。其中,
i
?
1
~m
,
m
是自变量
的个数。
a
是截距,
b
i
是待估计的参数。
Logistic
回归方程的曲线为
S
型,
预测值最大值趋近
1
,
最 小值趋
近
0
。
logistic
回归方程的另一种表达形式:
p
?
exp
?
y
?
通过变换可
?
1
?
exp
?
y
?
?
ex
p(
a
?
?
b
i
x
i
)
1
?
ex
p(
a
?
?
b
i
x
i
)
以得出< br>P
与多元变量
Xi
间的数学表达式:
p
?
1
?
p
?
例如:
1
ex
p(
a< br>?
?
b
i
x
i
)
1
、
某医 生研究哪些指标可以判断糖尿病患者是否动脉硬化,
将临
床症状颈总动脉中层厚度
im t
?
0.8mm
或有斑块定义为动脉硬化,记为
因变量
type =1
,非硬化
imt < 0.8mm
且无斑块,记为因变量
type =0
。
选择自变量为年龄(
age
)
、尿白蛋白(
ALB
)
、体重指数(
BMI
)
、胰
岛素敏感指数
(
I SI
)
、
收缩压
(
SBP
)
、
甘油三脂< br>(
TG
)
、
胆固醇
(
CHO
)
、< br>糖尿病病程(
DURA
)
。
精品文档
精品文档
2
、
某医院为研究医院内尿路感染的主要危险因素,
回顾调查了某年
三个月份在住院期间实施保留导 尿的
200
名患者,分别记录了
危险因素
变量名
定义
性别
X
1
女
=0
,男
=1
年龄(岁)
X
2
<30=0, 30~ =1, 50~=2, 70~=3
插管前住院时间(天)
X
3
<3=0, 3~ =1, 10~=2, 20~=3
导尿方式
X
4
闭式
=0
,开放式
=1
导尿期间无抗生素持续冲洗
X
5
否
=0
,是
=1
留置导尿时间
X
6
<3=0, 3~ =1, 10~=2, 20~=3
感染前有无输血史
X
7
无
=0
,有
=1
感染前有无应用免疫抑制剂
X
8
无
=0
,用
=1
插
插管前血浆肌酐水平
X
9
<80=0, 80~ =1, 170~=2
有无糖尿病
X
10
否
=0
,是
=1
尿路感染
Y
未感染
=1
,感染
=0
分析可能在医院内尿路感染的危险因素。
4
、比例风险模型-
COX
回归
常用统计描述和统计推断的方法有:
分位数、
中数生存期、
平均数 、
生存函数古迹、判断生存时间分布、非参数检验、寿命表法、
log-rank
检验 (对数秩检验)等。这些方法已经系统地应用在医学的医疗评价和
预后的因素分析中。
精品文档
-
-
-
-
-
-
-
-
本文更新与2021-02-28 11:43,由作者提供,不代表本网站立场,转载请注明出处:http://www.xapfxb.com/yuer/461968.html
-
上一篇:胰岛素抵抗与糖、脂代谢紊乱
下一篇:生化的名词解释和问答题答案