반복 측정 분산 분석 | 7-1 Repeated Measure Anova (반복 측정 분산분석)이란? 198 개의 가장 정확한 답변

당신은 주제를 찾고 있습니까 “반복 측정 분산 분석 – 7-1 Repeated Measure ANOVA (반복 측정 분산분석)이란?“? 다음 카테고리의 웹사이트 th.taphoamini.com 에서 귀하의 모든 질문에 답변해 드립니다: th.taphoamini.com/wiki. 바로 아래에서 답을 찾을 수 있습니다. 작성자 Sapientia a Dei 이(가) 작성한 기사에는 조회수 11,061회 및 좋아요 123개 개의 좋아요가 있습니다.

반복 측정 분산 분석 주제에 대한 동영상 보기

여기에서 이 주제에 대한 비디오를 시청하십시오. 주의 깊게 살펴보고 읽고 있는 내용에 대한 피드백을 제공하세요!

d여기에서 7-1 Repeated Measure ANOVA (반복 측정 분산분석)이란? – 반복 측정 분산 분석 주제에 대한 세부정보를 참조하세요

통알못을 위한 통계튜브 – 기초편 –
통알못(통계를 알지 못하는 사람)을 위한 통계튜브 기초편입니다.
이런분들에게 적합합니다.
1. p값이 0.05보다 큰지 작은지만 말할 수 있는 분
2. 그런데 p값이 뭔지 모르는 분
3. 논문작성을 위한 통계를 아무리 들어도 어렵기만 하고 이해가 안되는 분
4. 대학원에서 통계 강의 들을 때마다 C학점을 벗어나지 못하는 분
5. 논문을 쓰려고 설문지도 돌리고 데이터도 다 코딩했는데 이제 어떻게 해야할지 모르겠는 분
6. 통계가 배우고 싶은데 아무리 공부해 봐도 어려운 증명만 나와 무슨 말인지 모르겠는 분
7. 문송한데 통계까지 죄송할까봐 아예 통계는 들여다 볼 엄두도 못 내는 분
어려운 수학 하나 없이 최대한 산수 수준에서 문송한 분들을 위한 통계 강의
개념을 이해해야 통계가 보이는데, 무조건 계산하고 풀어서 답을 맞추라고 하니 통계가 어려웠습니다
통계를 보다 쉽게 잘 이해하도록 돕기위해 만든 통계 채널입니다
통계가 왜 어려웠는지에서부터 기초적인 것들부터 시작해서 통계의 핵심을 마스터 합니다.
처음부터 차근차근 들어보세요.
통계가 쉬워집니다.
중고등학생들도 쉽게 통계를 이해하고 분석할 수 있습니다!!
빅데이터 분석을 하고 싶은데 통계를 몰라서 못하겠다고요?
여기서 부터 시작해 보세요!!
천리 길도 한 걸음부터!!
하루에 한 클립씩만 차근 차근 봅시다!!
사용 통계 소프트웨어: JAMOVI
다운로드: https://www.jamovi.org/download.html
#기초통계 #논문통계 #반복측정분산분석

반복 측정 분산 분석 주제에 대한 자세한 내용은 여기를 참조하세요.

[SPSS 22] 반복측정 분산분석(Repeated Measures ANOVA)

반복측정 분산분석은 동일 개체에 대해서 시간의 흐름에 다라 여러 번 해당 결과를 반복측하여 측정한 자료이다. 이렇게 측정한 자료들은 변수 내에서 …

+ 여기에 자세히 보기

Source: m.blog.naver.com

Date Published: 6/5/2022

View: 6356

③ 반복측정 분산분석(Repeated Measures ANOVA)

SPSS 통계분석 #10. 분산분석(AONOVA): ③ 반복측정 분산분석(Repeated Measures ANOVA). 권코치 2021. 1. 3. 16: …

+ 여기에 더 보기

Source: kwon-coach.tistory.com

Date Published: 11/2/2021

View: 2998

반복측정 분산분석(Repeated Measures ANOVA) – 공돌이의 …

Prerequisites이 포스팅의 내용을 잘 이해하기 위해선 아래의 내용에 대해 알고 오시는 것을 추천합니다. 표본과 표준 오차의 의미 F-value의 의미와 …

+ 자세한 내용은 여기를 클릭하십시오

Source: angeloyeo.github.io

Date Published: 3/24/2022

View: 5374

Repeated measures ANOVA (반복측정 분산분석 … – cbgSTAT

by Byung Gil Choi, MD, PhD. SPSS, Repeated measures ANOVA (반복측정 분산분석, GLM-repeated measures). 개념 …

+ 더 읽기

Source: www.cbgstat.com

Date Published: 11/21/2021

View: 5292

주제와 관련된 이미지 반복 측정 분산 분석

주제와 관련된 더 많은 사진을 참조하십시오 7-1 Repeated Measure ANOVA (반복 측정 분산분석)이란?. 댓글에서 더 많은 관련 이미지를 보거나 필요한 경우 더 많은 관련 기사를 볼 수 있습니다.

7-1 Repeated Measure ANOVA (반복 측정 분산분석)이란?
7-1 Repeated Measure ANOVA (반복 측정 분산분석)이란?

주제에 대한 기사 평가 반복 측정 분산 분석

  • Author: Sapientia a Dei
  • Views: 조회수 11,061회
  • Likes: 좋아요 123개
  • Date Published: 2019. 2. 6.
  • Video Url link: https://www.youtube.com/watch?v=y88o0i3LcwY

[SPSS 22] 반복측정 분산분석(Repeated Measures ANOVA)

분산분석을 공부할 때 의문이 드는게 있었다.

분산분석의 기본 가정 사항 중 독립성이 있다는 것은 이제 통계를 공부하는 사람이라면 다 알것이다.

그런데 독립성이란 말이 참으로 애매하다.

왜냐하면 이 독립성을 객관적으로 측정해서 보여주는 것이 없이 단순히 연구자의 의도에 따라 독립성일수도 짝지은 표본일수도 있다는 것이었다.

예를들어보면, 팬텀 하나를 놓고 각기 다른 조건으로 3번씩 측정하여 서로 비교하고자 할 때 이것은 독립적일까? 아닐까?

결론적으로 말하면 이것은 독립적이지 않은 것이다.

같은 팬텀이라는 공통의 조건이 존재하기 때문이다.

여기에서 문제가 생긴다.

두번을 측정했다면 대응표본 t 검정을 수행하면 되는데 3번을 측정했으므로 Paired t test 나 Wilcoxon 검정은 안되는 것이다.

그렇다면 비모수 검정인 Kruskal-Wallis test는 가능할까?

위의 경우에는 가능할것 같지만 요인이 하나 더 생기게 되면 이것 역시 힘들어진다.

그럴때를 대비해서 반복측정 분산분석이 등장한것 같다.

반복측정 분산분석은 영어로 Repeated Measures ANOVA로 명칭되며 줄여서 RM ANOVA로 지칭하기도 한다.

또한 일반선형 모형을 사용한다고 해서 반복측정 일반선형모형(Repeated measures general linear model) 이라고도 한다.

시작하기에 앞서 아래의 내용들은 SPSS 20.0 매뉴얼 교재와 데이터 솔루션에서 제공한 강의자료 및 SPSS data를 참고하였다.

데이터 솔루션 (http://www.datasolution.kr/main/main.asp) 에 들어가보면 통계 데이터 파일을 제공 받을 수 있고, 통계 관련 책 및 소프트웨어를 저렴하게 구입할 수도 있다.

반복측정 분산분석은 동일 개체에 대해서 시간의 흐름에 다라 여러 번 해당 결과를 반복측하여 측정한 자료이다. 이렇게 측정한 자료들은 변수 내에서 서로 상관성을 가지고 있는 것이 특징이며, ANOVA에 비해서 작은 변동도 잡아낼 수 있어 연구의 정확도가 증가되는 장점을 가지고 있다.

반복적으로 측정된 자료를 일반적인 t-test 나 ANOVA 로 수행할 경우 오류가 증가하며, 결국엔 결과의 신뢰성이 저하되므로 주의해야 한다.

따라서 반복측정 자료는 t-test 나 ANOVA 대신 반복측정 일반선형 모형을 사용하여야 하며 회귀분석 자료의 경우 혼합모형(Mixed model) 또는 일반화 추정방정식을 사용해서 분석해야 한다.

이 부분에서 추후에 공부해야 할 과제가 하나 더 생긴 기분이다.

도데체 통계의 끝은 어디인가?

통계 학사-석사-박사를 전공하면 이 모든 통계 이론들을 다 외우고 있는 것일까? 하~~~

t-test 및 ANOVA 는 위의 그림과 같이 독립표본일 때 가능하다.

2 표본일때는 t -test, 3 표본일 때 ANOVA를 사용하지만, 2 표본이라고 해서 ANOVA를 사용 못하는 것은 아니다.

다시 말해서, 2 표본, 3표본 모두 F 통계량을 이용해서 ANOVA를 분석할 수 있다.

어쨌든 여기에서 중요한 것은 표본들이 모두 독립적이란 것이다.

그렇다면, 서로 짝지어진 표본들은 어떻게 해야 할까?

통계에서 보면 가끔 헷갈리게 하는게 어떤땐 그룹이라 쓰고 어떤땐 수준이라 표기하는데 읽는 사람들이 알아서 해석해야 할 부분인것 같다.

보통은 그룹으로 얘기하지만 여기서는 같은 그룹이라는 개념에서 수준을 사용하도록 한다.

A라는 하나의 그룹이 있다.

A 그룹에게 조영제를 주입 하기 전과 후의 조영제가 집적되는 양상을 비교하고자 할때 Paired t test 와 Wilcoxon signed-rank test 를 사용하여 분석할 수 있다.

그런데 수준이 둘이 아니고 셋일때는 반복측정 분산분석을 사용한다.

일반적인 분산분석이 독립변수가 한개 일 경우 One-way ANOVA로 표기하듯이 반복측정 분산분석 역시 독립변수가 한개 일때 One-way RM ANOVA 로 표기한다. 물론 독립변수가 2개이면 Two-way RM ANOVA라고 한다.

그런데 실제로는 RM ANOVA 하나로 통일해서 사용하는듯 하다. 분석법이 비슷해서 따로 구분을 안하는것 같다.

A 라는 하나의 뇌종양 그룹이 있는데 처음에는 A 회사의 조영제를 사용해보고, 며칠 후에 B 회사의 조영제를, 그리고 다시 며칠 후에 C 회사의 조영제를 사용해서 과연 어느 회사의 조영제가 뇌종양을 잘 나타내는가 하는 문제이다.

요즘 IRB 때문에 생명 윤리 문제가 대두되고 있기 때문에 뇌종양 그룹은 환자가 아닌 실험용 쥐라고 생각해두자.

어떤분은 이러한 설명에서 진정제를 예로 들기도 하였다.

환자를 진정시켜야 하는데 처음에는 Ativan을 사용해보고 안되면 다시 Ketamine을 투여해보고 그래도 안되면 Dormicum을 사용해서 진정되는 효과를 분석하고자 한다….

이와같이 그룹은 변하지 않고 세번의 처치가 반복적으로 이루어진 상황을 얘기하는 것이다.

다음 예는 시간 개념이 도입된 것이다.

첫번째 예제는 시간 개념 보다는 그냥 단순히 반복적으로 시행한 것이고, 이번은 일정 시간을 두고 측정한 것이다.

하지만 원리는 비슷하다.

A 라는 그룹에게 조영제를 주입 전과 주입 후 12시간, 주입 후 24 시간 후에 몸 속에서 조영제의 집적 농도가 어떻게 변화되는지 측정해보고자 한다…

보통은 24시간 이후에 모두 배설되어야 하는데 신장의 기능에 따라서 또는 조영제의 종류에 따라서 다르게 나타날 수도 있을 것이다.

다음 예제는 시간 개념에 하나의 요인이 더 추가된것이다.

이와 같이 두 요인의 독립변수가 존재 할 때 이원배치 반복측정 분산분석(Two-way Repeated Measures ANOVA)라고 한다.

만약 위와 같은 모형을 ANOVA로 가로열, 세로열 형태로 여러번 분석한다면 1종 오류와 2종 오류가 증가되어 그 분석의 결과는 잘못된 방향으로 가버릴 것이다.

A, B, C 회사의 조영제가 있다. 각각 다른 그룹에게 조영제를 주입 전, 주입 후 12시간, 주입 후 24시간 반복측정하여 조영제의 배설 농도를 측정하고자 한다…

분석은 One-way RM ANOVA와 동일하고, 분석 과정 중에서 몇가지만 더 해석하면 된다.

앞에서도 계속 언급했지만 ANOVA는 그룹 간에 차이를 파악하는 것이 목적이고, RM ANOVA는 개체 별 차이 효과와 개체 내 차이 효과를 잘 분리하여, 그들의 효과를 파악하는 것이 주된 목적이다.

그런데 요인이 더 추가되면서 RM ANOVA에서도 분산의 동일성 외에 개체 내 상관의 일관성을 의미하는 구형성(sphericity) 가정이 필요하다.

ANOVA는 그룹 간 차이 검정과 사후검정을 확인하면 됐었는데 RM ANOVA는 시간의 차이에 따른 검정과 교호작용까지 두가지를 더 해석해야 한다.

교호작용이란 “둘 또는 그 이상의 위험 용인이 있는 질병 발생률이 개별 효과의 결과로 기대되는 발생률과 다를 때” 라고 McMahon 이 1972년도에 정의를 내린바 있다.

말이 조금 어려운것 같은데 한마디로 상호작용이 있느냐의 문제이다.

위의 표에서 Time*GFR 로 표기된 것이 교호작용을 의미한다.

조영제의 체 내 농도가 시간의 흐름에 따라 변하느냐, GFR(glomerular filtration rate; 사구체여과율) 수치에 따라 변하는냐 또는 시간과 GFR의 상호작용에 의해 체 내 조영제 농도가 달라지느냐의 문제이다.

위의 그래프와 같이 시간과 GFR이 서로 같은 방향으로 움직인다면 교호작용이 없는것이고, 4번, 5번 그래프와 같이 어느 한 요인에 의해 다른 요인이 상승하거나 감소했을 때 교호작용이 있다라고 한다.

교호작용이 유의하다고 나올 경우, 다시 말해 교호작용이 있다라고 결과에 제시될 경우 결과 값을 있는 그대로를 해석하는 것은 위험하며, 각 시점별로 별도의 T-test 및 ANOVA 를 사용하여 개별 분석해야 된다.

모수 검정에서 항상 등장하는 기본 가정사항이다.

ANOVA와 마찬가지로 정규성, 등분산성이 있고, 독립성이 빠지고 그 자리에 구형성이 추가되어 있다.

통계를 공부하면서 느끼는 것은 많은 연구자들이 주로 모수 검정을 사용하는데 과연 정규성을 만족하였는가? 라는 것이다.

왜냐하면 열심히 데이터를 측정해서 정규성 검정을 시행해보면 정규성을 통과하지 못하는 경우가 너무도 많기 때문이다.

특히 샘플 수가 7개 미만으로 극히 적거나, 들쑥날쑥한 데이터가 포함될 경우 정규성을 만족하기가 정말 쉽지 않다.

그럼에도 불구하고 대부분 모수 검정을 시행하였고, 학위논문 및 학회논문의 심사과정에서 별 문제없이 통과되고 있다.

그래서 내 나름대로의 결론을 내려보았다.

1. 정규성을 만족하지 않는다고 해서 반드시 비모수로 해야 하는 것은 아닌것 같다. 표본 통계란 것은 모집단을 추정하기 위해 시행하는 것인데 모집단에서 이미 정규성을 만족한 데이터라면 표본(sample)에서 정규성을 만족하지 못했다고 하더라도 모수 통계를 이용할 수 있다. 예를들어 혈압이 거기에 해당된다고 한다.

2. 모수통계는 평균을 이용하지만 비모수통계는 순위를 이용한다. 그런데 연구를 진행하다보면 순위 보다는 평균과 표준편차가 연구에 더 적합한 경우를 볼 수 있다. 따라서, 이런 경우 논문에 모수 통계의 당위성을 충분히 설명하면 되지 않을까? 라는 생각을 해본다.

나의 결론이 맞는지 모르겠다.

누군가 이 문제에 대해 명쾌하게 설명 좀 해줬으면 좋겠다.

이렇게 질문을 던지고 나서 블로그 이웃께서 몇가지 답변을 주셨다.

1. 정규성을 만족하지 못하면 모수통계는 적용할 수 없다.

2. RM ANOVA에서 정규성을 만족하지 못하면 Friedman test 를 시행한다.

두번째 기본가정은 등분산성이다. 이는 다른말로 동일성 또는 동질성이라고도 한다.

One-way ANOVA가 Levene의 동질성 검정에서 등분산을 확인했다면 반복측정 ANOVA에서는 Box의 공분산 행렬 등식 검정 표를 통해 확인할 수 있다.

가설은 다음과 같다.

귀무가설(H0) : 그룹 간 분산 구조는 동일하다.

대립가설(H1) : 그룹 간 분산 구조는 동일하지 않다.

당연한 얘기지만 귀무가설을 만족하려면 P 값이 0.05 보다 크거나 같아야 한다.

반대로 대립가설을 만족하려면 0.05 보다 작아야 한다.

결론적으로 등분산성 가정을 만족하려면 귀무가설을 만족해야 하므로 P 값은 0.05 보다 크거나 같게 나와야 한다.

위의 표를 예로 든다면 P 값이 0.922 로서 0.05보다 크므로 등분산성 가정은 만족하는 것이다.

만약 동질성이 다르게 나온다면, 그룹간의 비교를 할 수 없기 때문에 그 차이를 파악하기가 어렵게 된다.

등분산성과 비슷한 개념의 세번째 구형성 가정이 나온다.

구형성(Sphericity) 가정이란 반복적으로 측정되는 자료들의 시차에 따른 분산이 동일하다는 가정이다.

이것은 분석 결과에서 Mouchly의 단위행렬 검정을 통해 확인 할 수 있는데 이것을 구형성 가정을 통과하지 못해도 다행히 다른 결과 값을 제시해 준다.

구형성 가정 역시 P 값이 0.05 이상이어야 하는데 만족하게 되면 분석 결과에서 개체-내 효과 검정 표를 확인하면 되고, 만족하지 못하면 Greenhouse-Geisser 방법으로 수정된 일변량 분석을 이용하거나 다변량 검정의 Piliai의 트레스 또는 Wilis의 람다 항목응 이용한다.

이렇게 보면 이해하기 힘들겠지만 밑에서 분석 결과를 보면 이해할 수 있을 것이다.

머쉬리(Mauchly)의 단위행렬 검정 표는 등분산성에 대한 적합성 검정으로서, 다음과 같이 가설을 세우고 있다.

귀무가설(H0) : 구형성 가정을 만족한다 (P≥0.05).

대립가설(H1) : 구형성 가정을 만족하지 않는다 (P<0.05). 따라서 구형성 가정을 만족시키기 위해서는 P 값이 0.05 이상으로 나타나 귀무가설을 만족해야 한다는 것을 알 수 있다. 엡실론에서 Greenhouse-Geisser과 Huynh-Feidt 의 값들은 구형성 가설을 보정하는 것으로 1에 가까울수록 구형성 가설이 타당함을 의미한다. 구형성 가정이 만족되었는데 다변량 검정을 해석하면 검정력이 떨어질 수 있으므로 주의한다. 구형성 가정이 만족하면 "개체 내 효과 검정" 을 해석한다. 이는 다변량 검정보다 신뢰성이 높아 주로 활용된다. 해석의 첫번째는 윗 칸에 있는 Greenhouse-Geisser과 Huynh-Feidt 의 P 값을 확인하며, 가설은 다음과 같다. 귀무가설(H0) : 시간의 흐름에 따라 변화가 없다 (P≥0.05). 대립가설(H1) : 시간의 흐름에 따라 변화가 있다 (P<0.05). 따라서 데이터를 반복적으로 측정하였을때 P 값이 0.05 보다 작게 나오면 통계적으로 유의한 것으로 볼 수 있는 것이다. 교호작용을 확인하기 위해서는 아래 칸에 있는 Greenhouse-Geisser과 Huynh-Feidt 의 P 값을 확인하며 가설은 다음과 같다. 귀무가설(H0) : 교호 작용이 없다 (P≥0.05). 대립가설(H1) : 교호 작용이 있다 (P<0.05). 교호작용이 나타나게 되면 해석을 신중하게 해야 한다. "개체 내 대비 검정" 항목은 반복측정한 데이터가 어떠한 형태를 가지고 있는지 파악할 수 있다. 종류는 3가지로서 아래에서 확인할 수 있다. 선형, 2차모형, 3차모형에 각각 P 값이 제시되는데, 만약 위의 예시처럼 2차, 3차 모형은 유의하지 않고, 선형모형만 유의하게 나온다면 그 모형은 선형모형을 의미한다. 그런데 모두다 유의하지 않게 나온다면 그 모형은 랜점하게 변화하는 것으로 시간의 흐름과 무관하며 결국엔 안 좋은 모형이 된다. 모형의 형태는 위와 같다. 선형 모형은 시간의 흐름에 따라 비례적으로 증가하는 것이고, 2차 모형은 시간의 흐름에 따라 갑자기 증가 또는 감소 하는 형태로 나타난다. 3차모형은 증가와 감소를 반복하는 형태로 잘 나타나지 않는다. 드디어 반복측정 분산분석에 대한 이론 설명이 끝이나고 실제 예제를 가지고 따라해볼 차롈이다. 위의 이론을 토대로 비교하면서 해석하면 이해하는데 더 쉬울것이다. 두통을 위한 진통제에는 여러가지가 있다. 그 중에서 3 종류의 진통제 효능을 비교하기 위해 그룹 3 집단을 선정하여 각각 진통제를 복용하도록 하였다. 복용 후 혈중 약물 농도를 4회 측정하여 진통제의 효능을 비교자고자 하였다. 이때 혈중 농도가 높을수록 진통제의 효능이 높은 것으로 간주한다. 전체 196개의 케이스와 5개 필드로 구성되어 있다. 그룹은 세 그룹으로서 1 그룹에게는 진통제 A, 2 그룹에게는 진통제 B, 3 그룹에게는 진통제 C를 복용하도록 했고, 복용 직후, 복용 후 1시간, 복용 후 2시간, 복용 후 3시간 후에 약물 농도를 반복적으로측정하였다. 귀무가설 (H0) : 세 종류의 진통제 효능은 모두 같을 것이다. 대립가설 (H1) : 세 종류의 진통제 효능은 서로 차이가 있을 것이다(적어도 두 그룹에서 차이가 있을 것이다). 분석 과정은 정규성 검정을 시행한 후 반복측정 분산분석을 시행한다. 첨부된 RM ANOVA.sav 파일을 다운로드하여 SPSS에서 Open 한다. Open 후 첫 화면으로 "데이터 보기(D)" 화면이 보인다. "변수 보기(V)" 를 클릭하여 세부적인 변수 설정을 한다. 참고로 "Group" 변수의 레이블은 위와 같이 설정하였다. 정규성 검정을 위해 "분석(A)" ==> “기술통계(E)” ==> “탐색(E)” 을 차례로 클릭한다.

탐색 화면이 나타났다.

범주형 변수인 “진통제 종류”를 “요인 목록(F):” 으로 보내고 나머지 연속형 변수는 모두 “종속 목록(D):” 항목으로 이동한다.

그리고 오른쪽의 “도표(T)…” 버튼을 클릭한다.

도표 대화상자에서 “검정과 함께 정규성 도표(O)” 항목에 체크한다.

안타깝게도 Kolmogorov-Smirnov 검정과 Shapiro-Wilk 검정 모두 정규성을 만족하진 않았다.

하지만 반복측정된 데이터를 찾기가 너무 힘들어서 이 예제를 그대로 사용하니, 실제 연구에서는 Friedman test를 고려해봐야 한다.

반복측정 분산분석을 위해 “분석(A) ==> “일반 선형 모형(G)” ==> “반복 측도(R)…” 를 차례로 클릭한다.

“반복 측도 요인 정의” 대화 상자가 나타난다.

요인1을 본인이 알아보기 쉽게 이름을 변경한다. 그대로 둬도 상관없다.

예제에는 “시간” 이라고 변경하였다.

그리고 4번 반복측정 했으므로 “수준 수(L):” 항목에 4 를 입력하고 “추가(A)” 를 클릭한다.

“시간(4)” 가 입력되어 있다.

“정의(F)” 를 클릭한다.

“수준 수(L):” 항목에 4 를 입력했기 때문에 위와 같이 “개체-내 변수(W):” 항목에 4개의 카테고리가 생성되었다.

먼저 범주형 변수인 “진통제 종류[Group]” 를 “오브젝트 간 요인(B):” 항목으로 이동시킨다.

그리고 남아있는 연속형 변수인 “복용 직 후, 1시간, 2시간, 4시간” 변수를 순서대로 “개체-내 변수(W):” 항목으로 이동시킨다.

여기에서 주의할 점은 한꺼번에 이동시키는게 아니고 하나씩 하나씩 옮겨야 한다는 것이다.

첫번째 “복용직 후[Baseline]” 변수를 이동시켰다.

두번째, 세번째, 네번째 변수까지 모두 차례대로 이동시킨다.

“모형(M)…” 과 “대비(N)…” 는 그대로 둔다.

다음, “도표(T)…” 를 클릭한다.

“반복 측도: 프로파일 도표” 대화창이 나타났다.

여기에서 “시간” 을 “수평축 변수(H):” 항목으로, “Group” 을 “행구분 변수(S):” 항목으로 이동시킨다.

이것은 시간의 흐름에 따라 각 그룹별 그래프가 어떻게 생성되는지 보고자 함이다.

“추가(A)” 버튼을 클릭한다.

그러면 “도표(T):” 항목에 “시간*Group” 가 추가된것을 확인 할 수 있다.

“계속” 을 클릭하고 빠져 나온다.

두 그룹 이상의 분산분석이므로 사후분석 다준 비교를 위해 “사후분석(H)…” 를 클릭한다.

각각의 진통제를 복용한 세 그룹의 다중비교를 위해 “요인(F):” 항목에서 “사후 검정변수(P):” 항목으로 이동시킨다.

모든 변수들의 샘플 수가 같으므로 “Tukey 방법” 을 선택하고 “계속” 을 클릭하여 빠져나온다.

다음 “옵션(O)…” 를 클릭한다.

“옵션” 메뉴에서는 주 효과 비교와 동질성 검정을 확인한다.

먼저 “시간” 을 선택하여 “다음 평균 표시(M):” 항목으로 이동시킨다.

그렇게 하면 “주효과 비교(O)” 항목이 활성회된다.

“주효과 비교(O)”, “기술통계(D)”, “동질성 검정(H)” 항목을 체크한다.

“계속” ==> “확인” 을 클릭하면 분석이 수행된다.

처음 결과는 크게 해석이 필요한 부분은 아니지만 기술통계 표를 통해 평균과 표준편차를 한번씩 살펴본다.

분산의 동일성에 대한 검정 결과이다.

위의 설명에서 가설은 다음과 같다고 하였다.

귀무가설(H0) : 그룹 간 분산 구조는 동일하다.

대립가설(H1) : 그룹 간 분산 구조는 동일하지 않다.

따라서, 유의확률 P 값이 0.922로서 0.05보다 크기 때문에 그룹 간 분산의 구조는 동일한 것으로 볼 수 있다.

즉, 등분산성을 만족한다는 얘기이다.

다변량 검정 결과에서 4가지 검정 방법이 제시되어 있다. 보통 Pillai의 트레이스, Wilks의 람다 방법을 많이 사용하는데, “시간” 항목은 어떤 검정 방법을 사용하던지 모두 95% 신뢰수준에서 매우 유의하게 나타난다.

먼저 시간들 간의 개체 내 효과를 나타내는 “시간”의 경우 모든 4가지 검정방법 모두 95% 신뢰수준에서 유의하게 나타났다.

이는 시차에 따라서 그룹 간의 결과들이 좀 다를 수 있음을 보여주고 있다.

그러나 “시간*Group” 항목에서 결합효과(교호작용 효과)는 유의하지 않음을 알 수 있다.

** 다변량 검정은 뒤의 구형성 검정이 유의하지 않은 경우 사용할 수 있으나, 검정력이 비교적 약하다고 알려져 있다.

** 가장 좋은 것은 구형성 검정이 통과하고, 그 가정 하에 검정을 하는 것이 좋다.

위의 표는 모쉬리(Mauchly)의 단위행렬 검정 결과이다. 이전 버전에서는 “Mauchly의 구형성 검정” 이란 제목이 붙어 있었다.

Mauchly의 단위행렬(구형성) 검정 결과는 시차에 따른 분산의 동일성을 나타내는 검정으로 적합성 검정이다.

가설은 다음과 같다.

귀무가설(H0) : 구형성 가정을 만족한다 (P≥0.05).

대립가설(H1) : 구형성 가정을 만족하지 않는다 (P<0.05). 따라서, 위의 결과를 보면 유의확률 P 값은 0.085로서 0.05 보다 크므로 적합한 모형임을 알 수 있다. 엡실론에서 Greenhouse-Geisser, Huynh-Feldt 값들은 구형성 가설을 보정하는 값인데, 이 값들이 1에 가까울수록 구형성 가설이 타당하다고 하고, 1과 멀어질수록 구형성 가설이 타당하지 않다고 본다. 위의 다변량 검정과 같은 내용이며, 구형성 가정 하에 해석되는 각종 결과이다. 앞의 다변량 검정보다 좀 더 신뢰성이 높아 본 결과를 많이 활용한다. 먼저, "시간" 항목의 경우 가설이 다음과 같다. 귀무가설(H0) : 시간의 흐름에 따라 변화가 없다 (P≥0.05). 대립가설(H1) : 시간의 흐름에 따라 변화가 있다 (P<0.05). 따라서, Greenhouse-Geisser과 Huynh-Feldt 모두 0.000 으로서 매우 유의하므로, 시간의 흐름에 따라서 전체적인 변화에 차이가 있음을 알 수 있다. 개체 내 대비 검정은 반복측정한 데이터가 어떤 형태를 가지고 있는지 파악하는 것이다. 첫번째가 선형모형, 두 번째가 2차 모형, 세 번째가 3차모형에 대한 검정을 한다. 기본적인 가설은 H0 : 본 반복측정의 모형은 선형이 아니다 (P ≥ 0.05) H1 : 본 반복측정의 모형은 선형이다 (P < 0.05) ** 선형모형만 유의(P<0.05)하고, 2차모형과 3차모형이 유의하지 않다(P≥0.05)고 나오면 그 모형은 선형 모형을 의미한다. ** 만약 모두 유의하지 않으면, 시간의 흐름에 따라 변화가 거의 없거나 모양이 Random하게 변화한다는 것을 의미(안 좋은 모형)한다. 오차에 대한 분산이 일정한지를 체크하는 표인것 같은데, 특별히 해석을 요하는 표는 아닌것 같으므로 다음 표로 넘어간다. 가장 중요한 부분인 그룹 간의 차이가 있는지 개체간 효과를 검정하는 부분이다. 가설은 H0 : 3 그룹(진통제A, 진통제B, 진통제C) 간의 약물의 차이가 없다. H1 : 3 그룹(진통제A, 진통제B, 진통제C) 간의 약물의 차이가 있다. 개체 간 효과 검정 결과 0.039로, 0.05 보다 작으므로, 3개 그룹 간에는 진통제의 종류에 따라 차이가 있다는 것을 의미한다. 이는 궁극적으로 진통제에 따라서 효과 차이가 있음을 의미한다고 할 수 있다. 위의 세 표는 시간의 흐름에 따른 그룹 별 비교를 보여준다. 참고만 하고 다음 사후 검정으로 넘어간다. 3 그룹을 비교하였으므로 일원배치 분산분석처럼 사후분석이 필요한데 위에서 Tukey 방법을 선택하였으므로 그 결과를 제시해주고 있다. 위의 오브젝트 간 효과 검정에 있어서, 3 그룹 간의 비교에서 유의한 차이를 보였으므로, 이들을 사후 검정을 통해 서로 간의 우열을 파악해야 한다. 검정 결과 * 진통제 A = 진통제 B * 진통제 B = 진통제 C * 진통제 A < 진통제 C 으로 결과가 나타나서, 결과적으로 보면 진통제 A 를 투여하는 것 보다는 진통제 C 를 투여해야지만, 진통제의 효능이 가장 좋게 나타남을 파악할 수 있다. 진통제 종류와 시간(4시점)에 따라서 평균의 변화량을 도표를 통해 한눈에 시각적으로 파악할 수 있는 프로파일 도표이다. 대략 첫 시점에서는 진통제 A와 진통제 C 가 거의 차이가 없고, 진통제 B 와는 많은 차이를 보인다. 그러나 2 시점 부터는 진통제 B와 C 가 진통제 A 와 차이를 보이기 시작하는 것을 알 수 있다. 그리고 진통제 B 와 진통제 C는 그 뒤 큰 차이를 보이지 않는다. 본 도표를 통해 앞의 사후 분석의 결과와 약간 다른 형태의 결론을 내릴 수 있다. 앞의 사후분석의 경우 진통제 C 가 진통제 A 에 비해 현격하게 차이가 났지만, 시간이 지날수록 진통제 B 와 진통제 A 도 차이가 있을 수 있다는 것을 그래프를 통해 좀 더 세밀하게 파악할 수 있다.

SPSS 통계분석 #10. 분산분석(AONOVA): ③ 반복측정 분산분석(Repeated Measures ANOVA)

안녕하세요^^ 권 코치입니다.

오늘 포스팅은 분산분석의 마지막으로 반복측정 분산분석

“Repeated Measures ANOVA”에 대하여 알아보도록 하겠습니다.

◈ 반복측정 분산분석(Repeated Measures ANOVA)

◈ 시간(시점)에 따라 여러 번 해당 결과를 반복하여 측정한 자료분석

◈ 반복측정 자료는 변수 상호간에는 독립적일 수 있지만, 변수 내에서는 독립적이지 않고 상관성이 있는 특성

◈ 반복적으로 측정된 자료를 일반적인 t-test 나 ANOVA 로 수행할 경우 오류가 증가하며, 결국엔 결과의 신뢰성이 저하 되므로 주의해야 한다.

◈ 상호작용 효과검증

◈ 반복측정 분산분석의 이해

t-test 및 ANOVA 는 위의 그림과 같이 집단이 독립표본일 때 가능하다.

2 표본일 때 t -test, 3 표본일 때 ANOVA를 사용하지만,

2 표본이라고 해서 ANOVA를 사용 못하는 것은 아니다.

2 표본, 3표본 모두 F 값을 이용해서 ANOVA를 분석할 수 있다.

∨ 동일 집단 내 사전,사후(2가지 요인) 분석은 Paired t-test 사용

∨ 2가지 이상의 요인( 사전, 한달 후, 두달 후) Repeated Measures ANOVA 사용

∨일반적인 분산분석이 독립변수가 한개 일 경우 One-way ANOVA로 표기하듯이 반복측정 분산분석 역시

독립변수가 한개 일때 One-way RM ANOVA 독립변수가 2개이면 Two-way RM ANOVA

Two- way Repeated Measures AVONA 예제

◈ 웨이트 트레이닝이 중년여성 골퍼의 드라이브 수행력에 미치는 영향

∨ 연구방법: 트레이닝 전,후 드라이브 수행력 측정

∨자료처리: 대응표본 t- 검정을 통하여 사전, 사후 평균 차이분석 후

상호작용 효과검증을 위한 Two- way Repeated Measures AVONA 실시

◈ 연구가설

H0 : 웨이트 트레이닝이에 따른 골프 수행력차이는 없을 것이다.

H1 : 웨이트 트레이닝이에 따른 골프 수행력차이는 있을 것이다.

◈ SPSS 분석방법

① 데이터 입력 & 변인 설정 ▶ 정규성검증 <분석(A) ▶ 기술통계(E) ▶ 탐색(E) 유의확률 값이 P>.05 이므로 정규성 검정을 만족

② 분석(A) ▶ 일반선형모형(G) ▶ 반복측정(R)

③ 반복측정 요인 정의 창이 나타남/ 요인에 시기로 입력

수준의 수는 사전,사후2번 측정으로 2를 입력 후 추가를 클릭/ 정의 클릭

④ 범주형 변수인 집단을 개체 간 요인으로 이동

연속형 변수인 사전,사후를 개체 내 변수로 이동

⑤ 도표를 클릭/ 시기를 수평축, 집단을 선구분 변수로 이동

(시간의 흐름에 따른 집단의 그래프 생성)

⑥ 두 집단 이상의 분산분석의 경우 사후분석

요인항목의 집단을 사후검정변수로 이동, 사후분석 방법 체크

⑦ 옵션 메뉴에서 주효과 비교와 동질성 검정 체크 확인

SPSS 분석 결과 확인

기술통계 표를 통해 평균과 표준편차를 확인

분산의 동일성에 대한 검정 결과

H0 : 집단 간 분산 구조는 동일하다.

H1 : 집단 간 분산 구조는 동일하지 않다

유의확률 P 값이 0.194로서 0.05보다 크기 때문에 그룹 간 분산의 구조는 동일한 것으로 볼 수 있다

즉, 등분산성을 만족한다는 얘기이다.

반복측정 분산분석(Repeated Measures ANOVA)

Prerequisites

이 포스팅의 내용을 잘 이해하기 위해선 아래의 내용에 대해 알고 오시는 것을 추천합니다.

ANOVA를 생각하는 또 다른 관점

분산분석을 공부할 때 있어서 제곱합이라는 개념이 가장 큰 걸림돌이 된다. 처음 들으면 다소 생소한 개념일 수 있으나 제곱합의 개념은 분산 분석에서 아주 중요한 개념이다. 일단은 제곱합을 왜 사용해야 할까?

보통 분산 분석에서 제곱합이라고 하는 것은 좀 더 정확히 쓰자면 편차 제곱합(sum of squares of difference)라고 쓰는 것이다. 이 이름을 보면 우리가 생각해봐야 하는 것은 두 가지이다. 왜 편차에 관심을 가져야 하고 제곱합에 관심을 가져야 할까?

우선, 편차에 대해 생각해보자. 어떤 비교든지 간에 비교의 시작은 빼기(-)를 수행해줘야 비교할 수 있다. 그렇게 어려울 것이 없다. 비교를 위해서 편차를 생각하는 것은 자연스러운 논리적 흐름이라고 할 수 있다.

그럼 제곱은 왜 해줄까? 우선은 부호를 제거해주기 위한 목적이 있다. 편차는 양수, 음수 모두 나올 수 있기 때문에 합해주는 과정에서 복잡함이 생긴다. 절대값을 씌워줄 수도 있지만 그것보다는 제곱을 취하는 편이 계산에 편리하다. 따라서, 부호에 관계 없이 ‘변동’의 의미만을 남기고자 하는 것이다.

그런데, 제곱합을 이용하는 것이 끝까지 살아남은 이유는 전체 제곱합은 특별한 의미를 지닌 제곱합들로 쪼개 생각할 수 있기 때문이다. 무슨 말인지 감이 오지 않을텐데, 뒤에서 더 설명할 “ANOVA를 SS 관점에서 이해해보기”를 들여다보면 더 깊게 이해할 수 있을 것이다.

이 시점부터는 제곱합을 SS(Sum of Squares)라고 줄여 적도록 하겠다.

용어 정리

SS를 이용해 ANOVA를 이해해보기에 앞서 용어를 미리 정리하고 넘어가도록 하자.

처음보는 용어들이기 때문에 계속해서 이 부분을 참고해가면서 이해한다면 도움이 될 것이라 믿는다. 각 용어에 대한 자세한 설명은 아래의 유도 과정을 따라가면서 붙여나갈 것이다.

$SS_\text{something}$이라고 쓰면 something에 의해서 설명되는 제곱합이다.

자유도(degree of freedom; DF)는 주어진 조건 안에서 통계적인 추정을 할 때에 표본이 되는 자료 중에 모집단에 대한 정보를 주는 독립적인 자료의 수를 말한다. $DF_\text{something}$이라고 쓰면 something이라는 조건에 관한 자유도를 말한다.

평균 제곱(mean square; MS)은 SS의 평균으로써, 산술적 평균이 아니라 SS를 자유도로 나눈 값이다. 즉, 평균적인 편차라는 의미에서 일종의 분산 역할을 한다. 다만 분산과 개념을 구분시켜 생각하는 이유는 MS는 여러가지 이유로 자유도가 수정되면 수정될 수 있는 통계치이기 때문이다.

One-way ANOVA를 SS의 관점에서 이해해보기

우리는 F-value의 의미와 분산분석 편에서 분산분석을 수행하는 과정을 확인해보았다.

분산분석은 기본적으로 모든 샘플 집단이 하나의 모집단에서 나왔다는 귀무가설을 가지고 진행된다.

그리고 ANOVA에서는 이 귀무가설을 확인하기 위해 두 가지 방법으로 분산을 추정한다. 첫 번째는 각 샘플 집단들이 가지고 있는 분산값을 이용하는 것이고 두 번째는 각 샘플 그룹의 평균값들이 퍼진 정도를 이용해서 분산을 추정하는 것이다. 만약 집단 내의 분산에 비해 샘플 집단 평균 간의 분산이 너무 크다면 우리는 귀무가설이 맞기 어려울 것이라고 보고 귀무가설을 기각해 적어도 하나의 샘플 집단은 다른 모집단에서 추출되었을 것이라고 볼 수 있다고 했다.

이 때, 분산의 비율값을 F 값이라고 불렀다. 즉, F 값을 수식으로 쓰면,

\[F=\frac{s^2_\text{bet}}{s^2_\text{wit}}\]

이다. 여기서

\[s^2_\text{bet}\]

는 그룹들의 평균값을 이용해 추정한 분산값,

\[s^2_\text{wit}\]

는 각 그룹 내 표준오차를 이용해 추정한 분산값 말한다.

F 값의 확률 분포는 잘 알려져 있기 때문에 주어진 샘플 그룹으로부터 계산한 F 값이 얼마나 상대적으로 큰 값인지 계산할 수 있는 것이고 이를 통해 통계적 유의성을 검증한다.

(만약 위 내용이 잘 이해되지 않는다면 F-value의 의미와 분산분석 편을 보시는 것을 추천드립니다.)

F-value의 의미와 분산분석 수행해보았던 계산을 다시 한번 수행해보자.

다만, SS를 이용해서 ANOVA의 계산식을 새롭게 써보려고 하기 때문에 이전 ANOVA 포스팅의 내용에 비해 계산 과정은 훨씬 더 복잡할 것이다. 같은 결과를 얻기 위해 이런 복잡한 과정을 거치는 일이 꼭 필요한가 싶겠지만, 좀 더 복잡한 조건을 갖는 ANOVA를 수행하기 위해선 이런 과정은 불가피하다고 할 수 있다.

주어진 데이터 셋은 아래와 같이 표로 정리된 값으로 생각해보도록 하자.

그림 1. 분산분석에 사용되는 데이터를 표와 기호로 정리한 것

그룹 내 분산($s^2_\text{wit}$)은 각 treatment 그룹 별 분산을 평균낸 것으로 볼 수 있다고 하였으므로 다음과 같이 계산할 수 있는 값이다. 각 treatment 그룹의 분산을 $s_1^2, s_2^2, s_3^2$ 등이라고 한다면 아래와 같이 계산될 수 있다.

\[s^2_\text{wit}=\frac{1}{3}\left(s_1^2 + s_2^2 + s_3^2\right)\] \[=\frac{1}{3}\left( \frac{\sum_s\left(X_{1s}-\bar{X}_1\right)^2}{n-1} + \frac{\sum_s\left(X_{2s}-\bar{X}_2\right)^2}{n-1} + \frac{\sum_s\left(X_{3s}-\bar{X}_3\right)^2}{n-1} \right)\]

여기서

\[SS_1 = \sum_s\left(X_{1s}-\bar{X}_1\right)^2\] \[SS_2 = \sum_s\left(X_{2s}-\bar{X}_2\right)^2\] \[SS_3 = \sum_s\left(X_{3s}-\bar{X}_3\right)^2\]

와 같이 써주면, (여기서 아랫첨자 $s$는 subject, $t$는 treatment를 의미할 것이다.)

그룹 내 분산 값은

\[s^2_\text{wit}=\frac{1}{3}\left( \frac{SS_1}{n-1} + \frac{SS_2}{n-1} + \frac{SS_3}{n-1} \right)\]

과 같고, 조금 더 요약해보면,

\[s^2_\text{wit}=\frac{1}{3}\left( \frac{SS_1+SS_2+SS_3}{n-1} \right)=\frac{\sum_t SS_t}{3(n-1)}=\frac{\sum_t \sum_s\left(X_{ts}-\bar{X}_t\right)^2}{3(n-1)}\]

과 같다. 여기서 $SS_1+SS_2+SS_3$이 각 treatment 그룹 내에서 평균으로부터 각 샘플값이 떨어진 정도의 제곱합을 의미하므로 $SS_\text{wit}$라고 쓰자. 그리고 각 그룹별 표본의 개수는 $n$개, 그룹의 수는 $m$개라고 한다면,

\[s^2_\text{wit}=\frac{SS_{wit}}{m(n-1)}=\frac{SS_\text{wit}}{DF_\text{wit}}\]

과 같다. 그러므로 그룹 내 분산 값은 $SS_\text{wit}$을 자유도 $DF_\text{wit}=m(n-1)$로 나눈 값과 같다는 것을 알 수 있다.

그렇다면 이번에는 그룹 간 분산을 생각해보자. 우리는 각 그룹의 평균값을 알고 있기 때문에 각 그룹의 평균값이 갖는 표준 오차를 생각해볼 수 있다.

\[s^2_{\bar{X}}=\frac{s^2_\text{bet}}{n}\]

여기서 $S_{\bar{X}}$는 각 treatment 평균이 퍼진 정도, 즉 표준 오차를 얘기한다.

그러므로,

\[s^2_{\bar{X}} = \frac{(\bar{X}_1-\bar{X})^2+(\bar{X}_2-\bar{X})^2+(\bar{X}_3-\bar{X})^2}{m-1}\] \[=\frac{\sum_t(\bar{X}_t-\bar{X})^2}{m-1}\]

임을 알 수 있다. 한편 식 (12)를 살짝만 틀어서 생각해주면

\[s^2_\text{bet}=ns^2_{\bar{X}}\]

이므로,

\[s^2_{\text{bet}}=\frac{n\sum_t(\bar{X}_t-\bar{X})^2}{m-1}\]

과 같이 $s^2_{\text{bet}}$을 계산할 수 있다는 점을 알 수 있으며, 더군다나 분자의

\[n\sum_t(\bar{X}_t-\bar{X})^2\]

이라는 식이 가져다주는 의미가 grand mean $\bar{X}$로부터 각 treatment의 평균값이 떨어진 정도라는 것을 알 수 있다. 그리고 m개의 그룹으로부터 분산을 계산할 때의 자유도는 m-1이다는 사실 또한 생각할 수 있다. 그러므로,

\[s^2_{\text{bet}}=\frac{n\sum_t(\bar{X}_t-\bar{X})^2}{m-1}=\frac{SS_\text{bet}}{DF_\text{bet}}\]

과 같이 $s^2_{\text{bet}}$을 SS를 이용해 써볼 수 있다는 점 또한 알 수 있다.

자, 지금까지 알아본 SS를 정리해보면 다음과 같이 정리할 수 있다.

\[SS_\text{wit}=\sum_t\sum_s\left(X_{ts}-\bar{X}_t\right)^2\] \[SS_\text{bet}=n\sum_t\left(\bar{X}_t-\bar{X}\right)^2\]

그리고 마지막으로 우리는 각 샘플들이 grand mean $\bar{X}$로부터의 편차 제곱합인

\[SS_\text{tot}=\sum_t\sum_s\left(X_{ts}-\bar{X}\right)^2\]

을 생각할 수도 있다.

앞서 제곱합(Sum of squares, SS)에 대해 설명할 때 제곱합을 이용하는 방법이 끝까지 살아남은 이유는 전체 제곱합은 특별한 의미를 지닌 제곱합들로 쪼개 생각할 수 있기 때문이라고 했다. 아래 꼭지에서 증명할 수 있듯이 $SS_\text{tot}$은 $SS_\text{bet}$와 $SS_\text{wit}$로 나눠 쓸 수 있다.

\[SS_{\text{tot}}=SS_{\text{bet}} + SS_{\text{wit}}\]

그 뿐인가? 자유도(degree of freedom)도 마찬가지 구조로 쪼개 생각할 수 있다.

\[DF_{\text{tot}}=DF_{\text{bet}} + DF_{\text{wit}}\]

그림 2. one-way ANOVA에서 제곱합, 자유도의 분해(partitioning)

이 쯤 되면 ANOVA를 공부하는데 왜 제곱합(Sum of Squares, SS)이 필요한지 조금은 이해할 수 있을 것이다.

SS를 공부하는 것은 total SS를 특정한 의미를 갖는 SS로 분해할 수 있기 때문에 사용한다.

그리고, 그것이 말해주는 것은 특정한 그 의미 때문에 발생하는 변동에 관한 것이므로, 이 변동이 우리가 알 수 없는 error에 의해 발생하는 변동에 비해 얼마나 큰지를 체크할 수 있게 해준다.

거기에 F 값을 계산할 때는 제곱합을 그대로 사용해주는 것은 아니고 제곱합으로 표현된 변동을 자유도로 나눠주어서 샘플 수 혹은 그룹 수가 늘어나게 되어 발생할 수 있는 오류를 미연에 방지해준다.

이번에는 total SS를 between traetment SS와 within treatment SS로 나눌 수 있다는 것을 수식적으로 증명해보고, 그 다음에는 예제 문제를 풀어보도록 하자.

(skip 가능) ANOVA Sum of Squares의 분할 (증명)

※ $SS_\text{tot}=SS_\text{bet} + SS_\text{wit}$의 증명과정은 필수적인 것은 아닙니다. 너무 복잡하다고 생각되시면 skip하세요.

$SS_\text{tot}=SS_\text{bet} + SS_\text{wit}$임을 확인하기 위해 $SS_\text{tot}$의 괄호 안에 있는 식을 아래와 같이 분할해 생각해보자.

\[(X_{ts}-\bar{X}) = (\bar{X}_t – \bar{X}) + (X_{ts}-\bar{X}_t)\]

여기서 양변을 제곱하면,

\[(X_{ts}-\bar{X})^2 = (\bar{X}_t – \bar{X})^2 + (X_{ts}-\bar{X}_t)^2 + 2(\bar{X}_t-\bar{X})(X_{ts}-\bar{X}_t)\]

과 같다.

여기서 모든 샘플에 대한 합을 구하면 total SS를 구하는 것과 같다는 점을 알 수 있다.

\[SS_\text{tot} = \sum_t\sum_s(X_{ts}-\bar{X})^2\] \[=\sum_t\sum_s(\bar{X}_t – \bar{X})^2 + \sum_t\sum_s(X_{ts}-\bar{X}_t)^2 + \sum_t\sum_s2(\bar{X}_t-\bar{X})(X_{ts}-\bar{X}_t)\]

위 식에서 첫 번째 항의 괄호 내부 식은 $s$와 관계없는 식이므로,

\[\sum_t\sum_s(\bar{X}_t-\bar{X})^2=n\sum_t(\bar{X}_t-\bar{X})^2\]

이며 이것은 $SS_\text{bet}$와 같다.

한편, 세 번째 항은 다음과 같이 쓸 수 있는데,

\[\sum_t\sum_s2(\bar{X}_t-\bar{X})(X_{ts}-\bar{X}_t) =2\sum_t\left( (\bar{X}_t-\bar{X})\sum_s(X_{ts}-\bar{X}_t) \right)\]

여기서 가장 내부의 $\sum_s$에 관한 식을 보면,

\[\sum_s(X_{ts}-\bar{X}_t)=\sum_sX_{ts}-\sum_s\bar{X}_t\] \[=\sum_sX_{ts}-n\bar{X}_t\]

과 같이 풀어 쓸 수 있는데, $\bar{X}_t$는 정의상

\[\bar{X}_t=\frac{1}{n}\sum_sX_{ts}\]

이므로,

\[\Rightarrow \sum_s(X_{ts}-\bar{X}_t)=\sum_sX_{ts}-n\frac{1}{n}\sum_sX_{ts} = 0\]

이다.

그러므로

\[SS_\text{tot} = \sum_t\sum_s(X_{ts}-\bar{X})^2\] \[=\sum_t\sum_s(\bar{X}_t – \bar{X})^2 + \sum_t\sum_s(X_{ts}-\bar{X}_t)^2 + \sum_t\sum_s2(\bar{X}_t-\bar{X})(X_{ts}-\bar{X}_t)\] \[=n\sum_t(\bar{X}_t – \bar{X})^2 + \sum_t\sum_s(X_{ts}-\bar{X}_t)^2 + 0\] \[=SS_\text{bet}+SS_\text{wit}\]

이다.

One-Way ANOVA 예시 문제

아래와 같은 데이터가 주어져 있다고 생각해보자.

이 때, 네 그룹 중 한 그룹이라도 다른 모집단에서 추출되었을 가능성이 있는지 타진해보도록 하자.

각 그룹의 샘플들은 모두 독립적으로 추출되었다고 생각하면 One-Way ANOVA를 이용해볼 수 있다.

그룹 1 그룹 2 그룹 3 그룹 4 4.6 4.6 4.3 4.3 4.7 5.0 4.4 4.4 4.7 5.2 4.9 4.5 4.9 5.2 4.9 4.9 5.1 5.5 5.1 4.9 5.3 5.5 5.3 5.0 5.4 5.6 5.6 5.6

앞서 공부한 방식을 그대로 이용하기 위해 그룹 내 분산과 그룹 간 분산을 Sum of Squares를 이용해 계산하자.

먼저 그룹 내 분산 $s^2_\text{wit}$을 계산해보자.

각 그룹별로 평균을 내고, 평균에서 얼마만큼 떨어져있는지를 계산하자.

각 그룹별로 평균은

\[\bar{X}_1 = 4.9571, \bar{X}_2 = 5.2286, \bar{X}_3 = 4.9286, \bar{X}_4 = 4.8000\]

과 같다.

그러므로 각 그룹 별 그룹 내 sum of squares인 $SS_1, SS_2, SS_3, SS_4$를 구하면,

\[SS_1 = (4.6-\bar{X}_1)^2 + (4.7 – \bar{X}_1) ^2 + (4.7 – \bar{X}_1) ^2 + \cdots + (5.4-\bar{X}_1)^2 = 0.5971\] \[SS_2 = (4.6-\bar{X}_2)^2 + (5.0 – \bar{X}_2) ^2 + (5.2 – \bar{X}_2) ^2 + \cdots + (5.6-\bar{X}_2)^2 = 0.7343\] \[SS_3 = (4.3-\bar{X}_3)^2 + (4.4 – \bar{X}_3) ^2 + (4.9 – \bar{X}_3) ^2 + \cdots + (5.6-\bar{X}_3)^2 = 1.2943\] \[SS_4 = (4.3-\bar{X}_4)^2 + (4.4 – \bar{X}_4) ^2 + (4.5 – \bar{X}_4) ^2 + \cdots + (5.6-\bar{X}_4)^2 = 1.2000\]

이므로 $SS_\text{wit}$는

\[SS_\text{wit}=\sum_t SS_t = 0.5971+0.7343+1.2943+1.2000 = 3.8257\]

이고 $DF_\text{wit}$는

\[DF_\text{wit} = m(n-1) = 4\times(7-1) = 24\]

이므로 $MS_\text{wit}$는

\[MS_\text{wit} = \frac{SS_\text{wit}}{DF_\text{wit}}=\frac{3.8257}{24}=0.1594\]

이다.

이번에는 그룹 간 분산 $s^2_\text{bet}$을 계산해보자.

각 그룹 별 평균은 앞서 확인했기 때문에 이 그룹 별 평균들이 전체 평균(grand mean)으로부터 얼마나 떨어져있는지를 파악함으로써 그룹 간 분산을 구할 수 있다.

전체 평균은

\[\bar{X}= 4.9786\]

이므로,

\[SS_\text{bet}=n \sum_{t}(\bar{X}_t-\bar{X})^2\] \[= 7\times \left((4.9571-4.9786)^2+(5.2286-4.9786)^2 +(4.9286-4.9786)^2 + (4.8000-4.9786)^2\right)

otag\] \[=0.6814\]

이고,

\[DF_\text{bet}=m-1 = 3\]

이므로,

\[MS_\text{bet}=\frac{SS_\text{bet}}{DF_\text{bet}}=0.2271\]

임을 알 수 있다.

따라서, 우리가 구하고자 하는 F 값은

\[F = \frac{MS_\text{bet}}{MS_\text{wit}}=\frac{0.2271}{0.1594}=1.4249\]

임을 알 수 있으며, 분자, 분모의 자유도는 각각 3, 24이므로 이 때 대응되는 우리의 $F$값의 p-value는 0.26에 불과하다.

One-way ANOVA의 결과를 정리하면 다음과 같다.

Source SS df MS F Prob > F Between 0.68143 3 0.22714 1.42 0.26 Within 3.82571 24 0.1594 Total 4.50714 27

One-Way RM ANOVA

Motivation 파트에서 설명했듯이 Repeated Measures ANOVA(이후 RM ANOVA)는 피험자 한 명이 여러 번의 treatment를 받은 경우에 적용할 수 있는 분석 기법이다.

One-Way ANOVA에서는 전체 제곱합(Sum of Squares 이하 SS)이 그룹 간 변동($SS_\text{bet}$)과 그룹 내 변동($SS_\text{wit}$)으로 나눠졌다고 하면

RM ANOVA에서는 전체 제곱합이 피험자 간 변동(between subject SS)과 피험자 내 변동(within subject SS)로 나뉘며, 피험자 내 변동이 treatment에 의해 생기는 변동과 그 외 잔여 변동으로 한 번 더 나뉘게 된다.

그림 3. 반복측정 분산 분석에서 변동 및 자유도의 분해(partitioning)

선뜻 보기에는 변동이 더 복잡하게 많이 나눠지니까 이해하기 어려울 수도 있겠다 생각이 들지만, 가장 중요하게 다루어야 하는 문제는 우리가 어떤 변동에 관심이 있는지를 정확히 캐치하는 것이다.

만약 100명의 헬스장 회원들이 3회에 걸쳐 체지방을 측정한다고 했을 때, 우리는 어떤 변동에 집중해야 할까?

회원들 간의 변동량(between subjects variation), 회차에 따른 체지방 측정량의 변화(between treatments variation), 잔여 변동(residual variation) 세 가지를 놓고 생각해보자.

여기서 우리는 회차에 따른 체지방 측정량의 변화에 대해 관심이 있다.

그리고 이것을 통계적으로 처리하기 위해 마치 t-test를 공부할 때 그룹 간 차이를 불확실성으로 나누어주었듯이

시간에 따른 체지방 측정량의 변동값을 잔여 변동으로 나누어준 값을 가지고 어떤 결과를 내는 것이 우리의 관심사가 될 수 있다는 것을 알 수 있다. 잔여 변동이라는 말이 우리가 측정할 수 없는 error에 대한 변동이라는 말을 내포하고 있기 때문이다.

따라서 우리는 F-value를 계산할 때 시간에 따른 체지방 측정량의 변동값과 잔여 변동량을 나누어 계산해준 뒤 유의성을 판단하면 되는 것이다.

RM ANOVA의 계산 수행 과정

앞서 간략하게 소개한 RM ANOVA의 분석 과정을 구체적으로 계산해보면서 진행해보자.

우선은 RM ANOVA를 이용해 분석할 수 있는 반복측정 데이터의 구조를 살펴보자.

그림 4. 반복측정 데이터를 표와 기호로 정리한 것

그림 4에서는 반복측정 데이터를 표와 기호로 정리했다. 선뜻 보기에는 그림 1의 데이터와 다를게 없어보이지만 가장 핵심적인 차이는 그림 4에서 주어진 데이터들은 각 treatment 그룹에 있는 subject들이 같은 subject들이라는 것이다. 가령 그림 1에서는 데이터의 첫 번째 행에 있는 값들($X_{11}, X_{21}, X_{31}$)은 서로 다른 1번 피험자들이 수행하여 얻은 값이지만, 그림 4에서는 데이터 첫 번째 행에 있는 값들($X_{11}, X_{21}, X_{31}$)은 모두 동일한 피험자가 세 차례에 걸쳐 획득한 데이터가 되는 것이다.

그리고 그림 4에서는 Subject mean이라는 값도 존재한다. $\bar{S}_1, \bar{S}_2, \cdots$ 등으로 쓰인 값이며 각각은 다음과 같이 계산된다.

\[\bar{S}_s=\frac{\sum_t X_{ts}}{m}\]

비슷한 방식으로 treatment mean 값이 있다. $\bar{T}_1, \bar{T}_2, \cdots$ 등으로 쓰인 값이며 각각은 다음과 같이 계산된다.

\[\bar{T}_t=\frac{\sum_s X_{ts}}{n}\]

또, 전체 평균(grand mean) 값이 있으며,

\[\bar{X}=\frac{\sum_t\sum_s X_{ts}}{mn}\]

이로부터 total SS를 계산할 수 있다.

\[SS_\text{tot}=\sum_t\sum_s\left(X_{ts}-\bar{X}\right)^2\]

total SS에 대응되는 자유도는 $mn-1$이다.

이제 One-Way ANOVA를 공부할 때 total SS를 그룹 간 SS와 그룹 내 SS로 분할할 수 있었던 것 처럼 RM ANOVA에서도 total SS를 분할해보자.

RM ANOVA에서는 total SS를 크게 within subject SS와 between subjects SS로 나눌 수 있다.

먼저 within subject SS에 대해 알아보자. within subject SS는 말 그대로 각 피험자들이 받은 treatment에 대한 반응값이 각각의 피험자들의 평균값에서 얼마나 떨어졌는지에 관한 값이다.

가령, 1번 피험자의 within subject SS는 아래와 같이 계산할 수 있다.

\[SS_\text{wit subj 1} = \sum_t(X_{t1}-\bar{S}_1)^2\]

2번 피험자의 경우에도 비슷한 방법으로 아래와 같이 within subject SS를 계산할 수 있을 것이다.

\[SS_\text{wit subj 2} = \sum_t(X_{t2}-\bar{S}_2)^2\]

따라서, 모든 피험자들에 대한 within subject SS는 다음과 같다.

\[SS_\text{wit subjs} = SS_\text{wit subj 1}+SS_\text{wit subj 2}+SS_\text{wit subj 3}+SS_\text{wit subj 4}\] \[=\sum_t\sum_s(X_{ts}-\bar{S}_s)^2\]

within subject SS의 자유도는 각각의 피험자가 갖는 자유도가 $m-1$이므로 $n$명의 피험자에 대해서는 $n(m-1)$이 된다.

다음으로 between subjects SS를 계산해보자. between subjects SS는 각 피험자들의 평균값들이 grand mean으로부터 얼마나 떨어져있는지를 계산하는 값이므로 다음과 같이 계산할 수 있게 된다.

\[SS_\text{bet subjs} = m \sum_t(\bar{S}_s-\bar{X})^2\]

여기서 앞에 m이 곱해지는 것은 각 피험자들의 평균값은 m 개의 처치에 대한 평균적 반응이기 때문에 곱해지는 것이라고 볼 수 있다.

(이런 방식으로 생각하는 것은 one-way ANOVA에서 between group SS를 계산할 때 그룹 개수를 곱해주는 것과 같은 이치이다.)

피험자수가 n이므로 between subjects SS의 자유도는 $n-1$이 된다.

일단 여기까지 계산해보면 total SS를 다음과 같이 분할할 수 있는데 필요한 두 개의 SS 값들을 얻은 것이다.

\[SS_\text{tot} = SS_\text{bet subjs} + SS_\text{wit subjs}\]

이제 마지막으로 within subject SS를 treatment에 의한 SS와 나머지(residual) SS로 분할해보자.

treatment에 의한 SS는 각각의 treatment 평균들이 grand mean으로부터 떨어진 정도를 이용하면 되기 때문에,

\[SS_\text{treat} = n \sum_t(\bar{T}_t -\bar{X})^2\]

라고 쓸 수 있다. $n$이 앞에 곱해지는 것은 between subjects SS를 구할 때와 마찬가지 이유로 $\bar{T}_t$는 어찌되었건 평균값이기 때문에 평균의 표준 오차를 이용해 분산을 구해주는 과정을 이용하는 것이기 때문에 $n$이 붙는 것이다.

treatment에 의한 SS의 자유도는 $m-1$이 된다.

언급한대로 within subject SS는 다음과 같이 쪼개서 쓸 수 있게 된다.

\[SS_\text{wit subjs} = SS_\text{treat} + SS_\text{res}\]

그러므로 우리가 직접 계산할 수 없는 $SS_\text{res}$는 다음과 같이 얻을 수 있으며,

\[SS_\text{res}=SS_\text{wit subjs} – SS_\text{treat}\]

residual의 자유도 역시 다음과 같이 계산할 수 있다.

\[DF_\text{res} = DF_\text{wit subjs} – DF_\text{treat} = n(m-1) – (m-1) = (n-1)(m-1)\]

이로써 최종적으로 우리가 궁금해하는 treatment의 변동에 의해 계산되는 F 값을 계산해보면 다음과 같다.

\[F = \frac{SS_\text{treat}/DF_\text{treat}} {SS_\text{res}/DF_\text{res}}=\frac{MS_\text{treat}}{MS_\text{res}}\]

다시 말해 이 F 값을 이용하면 여러 회에 걸쳐 측정한 처치가 모든 시점에서 통계적으로 유의한 차이가 없다는 귀무가설을 검증할 수 있게 되는 것이다.

용어 상의 주의점

RM ANOVA를 공부할 때 어려운 점 중 하나는 One-way ANOVA를 공부할 때 생긴 between variance, within variance라는 용어 때문이다.

RM ANOVA를 수행해주게 되면 모든 Sum of Squares를 해석하는 관점은 treatment에 관한 것이 아니고 subject에 관한 것으로 바뀐다.

아래의 그림을 보자.

그림 5. One-way ANOVA 와 RM ANOVA를 이용할 때의 데이터 구조 및 SS 계산

One-way ANOVA를 공부할 때 막연히 between variance라고 했던 것의 방향은 그림 5의 윗쪽 테이블에서 좌우방향이다. 그런데, 그림 5의 아랫쪽 테이블을 보자. 좌우방향으로 계산해주는 sum of squares는 within subject SS가 된다.

생각해보면 아랫쪽 테이블에선 각 행들이 한 명 한 명의 피험자들을 뜻하기 때문에 within subject에 관한 Sum of Squares를 계산한다는 것을 알 수 있지만, within subject라는 말을 딱 보았을 때 within treatment에 관한 것으로 착각하지는 않았는가?

One-way ANOVA를 공부할 때 막연히 within, between 이렇게만 용어를 외워왔다면 이 부분에서 RM ANOVA를 공부할 때 헷갈리는 점이 분명 있었을 것이라 생각하여 노파심에 주의를 주고자 한다.

구형성

※ 구형성에 대한 자세한 내용은 Laerd Statistics의 글을 참고하여 작성한 것입니다. 더 자세한 내용은 해당 글을 읽는 것을 추천드립니다.

통계 프로그램을 이용해 RM ANOVA 분석을 수행하면 구형성 검정이라는 것을 수행해준다.

구형성을 가정한다고 하는 것은 모든 treatment 차이들을 조합(combination)해서 보았을 때 모든 조합 간의 차이 분산이 동일한 경우를 말한다.

차이의 분산값을 굳이 보려는 이유는 사후 분석 시 시점 조합 간 paired t-test를 수행해주게 될 것이고 이 때 t-value의 분모에 차이의 분산을 이용한 표준오차가 이용되기 때문이다.

아래의 그림을 보면서 얘기를 계속 이어나가 보자.

그림 6. 구형성이 만족되지 못하는 경우의 데이터

출처: sphericity, Laerd statistics

위 그림 6의 경우에는 세 번 반복측정한 데이터에 대해 확인하였으며, (Time 1 – Time 2), (Time 1 – Time 3), (Time 2 – Time 3)의 차이를 계산하고 이 차이값들의 분산을 확인 및 비교해 본 것이다.

육안으로 보기에도 세 개의 분산(13.9, 17.4, 3.1) 중 세 번째 분산 값이 확연히 작은 것을 볼 수 있다. 이런 경우에 우리는 구형성 가정이 위배되었다(violated)고 말한다.

구형성 가정이 위배 되게 되면 1종 오류가 증가할 수 있다. 즉, 실제로는 차이가 없는데 차이가 있다고 결과를 잘못 내게 될 가능성이 커진다는 것이다. 그 이유는 시점 간 차이를 확인할 때 불공평한 비교가 수행되기 때문이다.

이에 대해 그림 6의 경우를 가지고 계속 설명해보자면, Time 1과 Time 2를 비교할 때 보다 Time 2와 Time 3을 비교할 때 더 쉽게 유의한 차이를 볼 수 있게 될 것이다.

그런데 그 이유가 Time 2와 Time 3의 그룹 평균의 차이가 컸기 때문이 아니라 Time 2와 Time 3 간의 차이의 분산이 작기 때문에 유의한 차이를 보게 될 것이라는 것이다.

즉, paired t-test를 수행하게 될 때 t-value의 분모에는 표준 오차가 들어가고, 이 표준 오차는 차이의 분산에 비례하는 값이기 때문이다.

그래서 RM ANOVA 분석 시에 구형성이 가정이 위배되면 1종 오류는 증가한다. 실제로는 시점 간 평균 차이가 없는데, 특정 시점 간 비교 시에는 차이의 분산이 작아서 (paired) t-value가 커 보일 수 있다.

Mauchly’s test (모클리 테스트)

Mauchly’s test는 구형성을 검정해주는 테스트이다. SPSS나 기타 통계 프로그램을 이용해서 RM ANOVA를 테스트하면 Mauchly’s test 결과를 보여주게 되어 있다.

이 때, Mauchly’s W는 1에 가까울 수록 데이터가 구형성 가정을 만족하는 것임을 말해준다.

또, Mauchly’s test의 귀무가설은 구형성 가정을 만족한다는 것이기 때문에 결과물 중 p-value가 0.05보다 크다면 구형성을 만족하는 것이고, p-value가 0.05보다 작으면 구형성을 만족하지 못한다고 해석할 수 있는 것이다.

Epsilon 보정

RM ANOVA을 이용시 데이터가 구형성을 만족하지 못한다면 자유도를 보정해줌으로써 분석을 진행한다.

즉, Mauchly’s test에서 p-value가 0.05보다 작아서 구형성을 만족하지 못한다고 판단하는 경우 RM ANOVA의 결과에서 자유도를 수정해주면 되는 것이다.

이 때 자유도를 수정하기 위해 곱해주는 상수값이 epsilon이다. epsilon의 종류는 크게 Greenhouse-Geisser (G-G)의 epsilon과 Huyhn-Feldt (H-F)의 epsilon 두 가지가 있다.

epsilon 값은 1보다 작거나 같은 값인데, 그러다보니 구형성을 만족하지 못하면 자유도를 떨어뜨리는 방식으로 보정이 진행된다는 것을 알 수 있다.

생각해보면 일리 있는 방식인 것이, 구형성을 만족하지 못하면 앞서 언급한대로 1종 오류가 증가하므로 자유도를 떨어뜨려 같은 F 값이더라도 쉽게 유의성을 만족하지 못하게 만들어 버리는 것이다.

이로써 높아진 1종 오류율을 만회할 수 있게 하는 것이다.

G-G epsilon과 H-F epsilon 중 어떤 값을 사용해야 할지 고민이 된다면 아래의 flow chart를 참고해보자.

그림 7. 그림 6에서 제시된 데이터의 측정 시간 별 boxplot 도시

관례적으로 Mauchly’s test에서 구형성 가정이 위배된다고 했을 때 G-G의 epsilon 값이 0.75보다 작으면 G-G epsilon을 사용해 자유도를 수정해준다.

반면, Mauchly’s test에서 구형성 가정이 위배되었는데, G-G의 epsilon 값이 0.75보다 크면 H-F의 epsilon 값을 사용해 자유도를 수정한다.

RM ANOVA 예시 문제

우리는 그림 6에서 사용되었던 데이터를 그대로 이용해 RM ANOVA를 수행해보도록 하자.

우선 그림 6에서 주어진 데이터를 측정 시점 별로 boxplot을 이용해 그려주면 다음과 같은 것을 알 수 있다.

그림 8. 그림 6에서 제시된 데이터의 측정 시간 별 boxplot 도시

눈으로 보기에도 각 시점별로 데이터 값이 평균적으로 상승한다는 것을 짐작할 수 있다.

우리는 세 개의 Sum of Squares를 계산해야 하는데, 각각은 between subject SS, within subject SS treatment SS 이다.

이를 계산하기 위해 grand mean $\bar{X}$와 측정 시점 그룹 별 평균, 피험자 평균값을 계산해보면 다음과 같다.

\[\bar{X} = 45.94\] \[\bar{T}=\begin{bmatrix}42.83 & 45.33 & 49.66\end{bmatrix}\] \[\bar{S} = \begin{bmatrix}50.00\\43.00\\40.00\\38.00\\55.00\\49.66\end{bmatrix}\]

여기서 데이터를 보면 피험자 수 $n=6$이고, 시점의 수 $m=3$임을 알 수 있다.

세 가지 SS 중 between subject SS를 먼저 구해보면 다음과 같다.

\[SS_\text{bet subj}= m \sum_t(\bar{S}_s-\bar{X})^2 = 658.2778\]

그리고 within subject SS는

\[SS_\text{wit subj} = \sum_t\sum_s(X_{ts}-\bar{S}_s)^2 = 200.6667\]

마지막으로 treatment SS는

\[SS_\text{treat}=n \sum_t(\bar{T}_t -\bar{X})^2 = 143.4444\]

와 같다.

그리고 within subject SS와 treatment SS의 차이를 이용해 residual SS를 구할 수 있으므로,

\[SS_\text{res}=SS_\text{wit subj} – SS_\text{treat} = 57.2222\]

와 같이 계산된다.

한편, between subject, within subject, treatment, residual에 대한 DF는 각각 다음과 같다.

\[DF_\text{bet subj}=n-1 = 5\] \[DF_\text{wit subj}=n(m-1) = 12\] \[DF_\text{treat}=m-1 = 2\] \[DF_\text{res} = (n-1)(m-1) = 10\]

최종적으로 관심사인 $F$ 값은 다음과 같이 계산될 수 있다.

\[F=\frac{SS_\text{treat}/DF_\text{treat}}{SS_\text{res}/DF_\text{res}}=\frac{MS_\text{treat}}{MS_\text{res}} = 12.5340\]

자유도가 (2, 10)인 경우의 p-value = 0.95에 해당하는 F 값은

\[F_{p=0.95}(2,10)=4.1028\]

인데, 우리에게 주어진 $F$ 값은 12.5340으로 4.1028보다 크므르 우리의 데이터는 최소한 한 시점에서는 유의한 차이를 보이는 것이라고 결론지을 수 있다.

Jamovi

Repeated Measures ANOVA를 수행해줄 수 있는 소프트웨어는 많이 있으나 GUI 기반으로 되어 있는 소프트웨어를 꼽자면 Jamovi를 추천하고 싶다.

다른 이유는 없고 무료로 쓸 수 있기 때문이다. SPSS나 Python 등에서도 RM ANOVA는 모두 수행이 가능하다.

Jamovi에서는 아래와 같이 그림 6의 데이터를 입력해주고 RM ANOVA를 수행하면 된다.

그림 9. Jamovi를 이용해 얻은 그림 6의 데이터를 입력한 것

RM ANOVA 분석 결과를 보면 앞서 손으로 계산한 RM ANOVA의 F 값과 같은 결과를 얻은 것을 알 수 있다.

그림 10. Jamovi를 이용해 얻은 RM ANOVA 분석 결과

다만, 추가적으로 구형성에 대한 Mauchly’s test 결과물과 G-G epsilon 혹은 H-F epsilon 값이 적용된 경우에 대해서도 다루어주고 있다.

구형성에 대한 테스트 및 epsilon 값은 손으로 계산하기가 워낙에 어렵기 때문에 통계 소프트웨어를 활용하는 것을 더 추천한다.

참고문헌

Primer of biostatistics, 7th ed., S. Glantz / Ch. 9 Experiments when each subject receives more than one treatment

sphericity, Leard statistics

아래는 Jamovi 프로그램에 관련된 참고문헌 리스트입니다.

키워드에 대한 정보 반복 측정 분산 분석

다음은 Bing에서 반복 측정 분산 분석 주제에 대한 검색 결과입니다. 필요한 경우 더 읽을 수 있습니다.

이 기사는 인터넷의 다양한 출처에서 편집되었습니다. 이 기사가 유용했기를 바랍니다. 이 기사가 유용하다고 생각되면 공유하십시오. 매우 감사합니다!

사람들이 주제에 대해 자주 검색하는 키워드 7-1 Repeated Measure ANOVA (반복 측정 분산분석)이란?

  • 통계
  • 통알못
  • 기초통계학
  • 분산분석
  • 반복측정 분산분석
  • ANOVA
  • Repeated Measure ANOVA
  • 논문
  • 논문통계
  • 실험논문
  • p값
  • 통계튜브

7-1 #Repeated #Measure #ANOVA #(반복 #측정 #분산분석)이란?


YouTube에서 반복 측정 분산 분석 주제의 다른 동영상 보기

주제에 대한 기사를 시청해 주셔서 감사합니다 7-1 Repeated Measure ANOVA (반복 측정 분산분석)이란? | 반복 측정 분산 분석, 이 기사가 유용하다고 생각되면 공유하십시오, 매우 감사합니다.

See also  Peinados Para Caballos De Crin Corta | Cómo Trenzar A Tu Caballo. Paso A Paso 모든 답변

Leave a Comment