다중회귀

help 목록돌아가기


통계분석용 데이터 명 생성일자 출처 메모 데이터보기
상품재구매 2016-12-10 Sample Data R 조절매개 분석 연구용
데이터보기
label_important다중회귀는 독립변수가 2 개 이상과 하나의 종속변수 간의 인과관계를 분석합니다.
예시: '성격(Big5) 유형이 태도에 미치는 영향'을 분석할 수 있습니다.
label_important아래의 다중회귀 모형에서 [+],[-]버튼을 클릭하여 독립변수들과 종속변수를 선택하십시오.

독립변수(X)

 
add
 
remove
 
add
 
remove
arrow image

종속변수(Y)


분석하기

모형 요약

모형 R 조정된 R² 추정값의 표준오차
1 0.661 0.437 0.431 0.601

분산분석

모형 제곱합 자유도 평균 제곱 F 유의확률
회귀 모형 55.337 2 27.669 76.488 0.000
잔차 71.262 197 0.362
합계 126.599 199

계수

모형 비표준화 계수 표준화 계수 t 유의확률 VIF값
계수 표준오차 베타
(상수)Y절편 0.934 0.189 0 4.954
V1.상품이미지 0.331 0.062 0.370 5.351 0.000 1.676
V3.브랜드가치 0.333 0.064 0.361 5.213 0.000 1.676
일반적으로 VIF 값이 10 이하인 경우 다중공선성 위험이 낮은 것으로 판단하므로 사용자는 VIF 값이 10 이하일 경우 다중공선성 위험이 낮다고 제시할 수 있음

다중회귀 설명

·회귀식의 설명력
V5.만족도 변수와 V1.상품이미지 변수, V3.브랜드가치 변수 간의 추정 회귀선은 다음과 같다.

ý=0.934+0.331x1+0.333x2

독립변수 선택 방법은 모두선택(none)을 적용하였다. 분석 결과는 다음과 같다.
추정 회귀식에 의해 얻어진 예측치와 실제 관찰치 사이에서 나타나는 잔차들의 표준편차인 추정값의 표준오차는0.601이다.

추정된 회귀식의 해당 자료에 대한 설명력을 나타내는 수정된 결정계수(R²)의 값은 0.431로 나타났다. 즉, 주어진 독립변수들이 종속변수를 설명하는 설명력은 43.1이다.

또한 투입된 독립변수들의 상호 독립적인 정도를 판단하는 Durbin-Watson 값은 값은 1.870로 2에 근접하여 상당히 독립적인 것으로 판단할 수 있다.
Durbin-Watson 값은 값은 0~4까지의 값을 가지며 2에 가까울 수록 투입된 독립변수들이 독립적인 것으로 판단한다.

·회귀모형의 적합성 검정
[가설설정]
[H0, 귀무가설] 모형은 적합하지 않다.
[H1, 대립가설] 모형은 적합하다.

모형의 적합도 검정 결과 F값은 76.488이고, 유의확률 p-value < 0.001로 유의수준 0.05에서 귀무가설을 기각하고 대립가설을 채택한다. 즉, 모형은 적합하다.
또한, 조정된 결정계수(조정된 R²)가 0.437로 주어져 있다. 따라서 추정된 회귀선이 총변동의 43.7%를 설명하고 있음을 알 수 있다.

·회귀계수의 유의성 검정
[가설설정]
[H0,귀무가설] 𝛽_i=0 회귀계수는 0이다.독립변수(X_i)가 종속변수(Y)에 영향을 미치지 않는다.
[H1,대립가설] 𝛽_i≠0 회귀계수는 0이 아니다.독립변수(X_i)가 종속변수(Y)에 영향을 미친다.

분석 결과, V1.상품이미지의 t값은 5.351이고 유의확률 p < 0.001로, 유의수준 0.05에서 귀무가설을 기각하고 대립가설을 받아들인다. 즉, V1.상품이미지변수는 V5.만족도변수에 유의한 영향을 미친다고 할 수 있다.
V1.상품이미지변수의 기울기 추정치는 0.331으로 다른 변수들이 고정되었을 때, V1.상품이미지변수가 한 단위 증가하면 V5.만족도변수는 평균적으로 0.331만큼 증가한다고 추정할 수 있다.

분석 결과, V3.브랜드가치의 t값은 5.213이고 유의확률 p < 0.001로, 유의수준 0.05에서 귀무가설을 기각하고 대립가설을 받아들인다. 즉, V3.브랜드가치변수는 V5.만족도변수에 유의한 영향을 미친다고 할 수 있다.
V3.브랜드가치변수의 기울기 추정치는 0.333으로 다른 변수들이 고정되었을 때, V3.브랜드가치변수가 한 단위 증가하면 V5.만족도변수는 평균적으로 0.333만큼 증가한다고 추정할 수 있다.

독립변수들 간의 다중공선성은 VIF값을 이용하여 살펴보았는데, 주어진 독립변수들의 VIF값은V1.상품이미지=1.6764, V3.브랜드가치=1.6764로 모두 10보다 작아 다중공선성은 없다고 할 수 있다.

 
Call:
lm(formula = model, data = x_list	)

Residuals:
	 Min       1Q   Median       3Q      Max
-1.80666 -0.36612  0.02041  0.41026  1.85445

Coefficients:
			Estimate Std. Error t value Pr(>|t|)    
(Intercept)  0.93430    0.18861   4.954 1.56e-06 ***
V1           0.33061    0.06178   5.351 2.41e-07 ***
V3           0.33257    0.06380   5.213 4.68e-07 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 0.6014 on 197 degrees of freedom
Multiple R-squared:  0.4371,	Adjusted R-squared:  0.4314 
F-statistic: 76.49 on 2 and 197 DF,  p-value: < 2.2e-16

Analysis of Variance Table

Response: V5
		   Df Sum Sq Mean Sq F value    Pr(>F)    
V1          1 45.508  45.508 125.803 < 2.2e-16 ***
V3          1  9.829   9.829  27.172 4.681e-07 ***
Residuals 197 71.262   0.362                      
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Call:
lm(formula = market.out)

Coefficients:
(Intercept)           V1           V3  
	 0.9343       0.3306       0.3326  

   V1    V3 
FALSE FALSE 
NULL
	Weights
V1 50.47899
V3 49.52101
 lag Autocorrelation D-W Statistic p-value
   1      0.05408871      1.870379   0.336
 Alternative hypothesis: rho != 0
							

* 선형 회귀 모델의 잔차분석

첫 번째 차트인 Residuals vs Fitted는 X 축에 선형 회귀로 예측된 Y 값, Y 축에는 잔차를 보여준다. 선형 회귀에서 오차는 평균이 0이고 분산이 X값과 독립적으로 일정하다고 가정하였으므로, 예측된 Y 값과 무관하게 잔차의 평균은 0이고 분산은 일정해야 한다. 따라서 이 그래프에서는 기울기 0인 직선이 관측되는 것이 이상적이다.
두 번째 차트인 Normal Q-Q는 잔차가 정규 분포를 따르는지 확인하기 위한 Q-Q도다. 우상향 직선일수록 정규분포가 예측된다.
세 번째 차트인 Scale-Location은 X 축에 선형 회귀로 예측된 Y 값, Y 축에 표준화 잔차Standardized Residual3 를 보여준다. 이 경우도 기울기가 0인 직선을 중심으로 무작위적으로 퍼져있는 것이 이상적이다. 만약 특정 위치에서 0에서 멀리 떨어진 값(±2 밖으로 또는 ±3 밖으로)이 관찰된다면 해당 점에 대해서 표준화 잔차가 크다, 즉, 회귀 직선이 해당 Y를 잘 적합하지 못한다는 의미다. 이런 점들은 이상치outlier일 가능성이 있다.
네 번째 차트인 Residuals vs Leverage는 X 축에 레버리지Leverage, Y 축에 표준화 잔차를 보여준다. 레버리지는 설명 변수가 얼마나 극단에 치우쳐 있는지를 뜻한다. 예를 들어, 다른 관측치의 X 값은 모두 1 ~ 10 사이의 값인데 특정 관측치만 99999 값이라면 해당 관측치의 레버리지는 큰 값이 된다. 이런 관측치는 입력이 잘못되었거나, 해당 범위의 설명 변숫값을 가지는 관측치를 보충해야 하는 작업 등이 필요하므로 유심히 살펴봐야 한다. 네 번째 차트의 우측 상단과 우측 하단에는 선으로 통계량 Cook’s Distance가 표시되어 있다. 쿡의 거리는 회귀 직선의 추정에 크게 영향을 끼치는 관측치를 찾는 방법이다. 쿡 통계량은 잔차의 제곱과 지레값의 증가 함수이므로 쿡 통계량이 큰 관측치는 추정에 영향력을 많이 미치는 것으로 판단된다. 두 값이 큰 우측 상단과 우측 하단에 쿡의 거리가 큰 값들이 위치하게 된다.

* 선형 단순회귀 그래프