P Value 구하기 | 1-3 왜 유의할까? – 도대체 P-값(P-Value)는 무엇인가? – 11208 명이 이 답변을 좋아했습니다

당신은 주제를 찾고 있습니까 “p value 구하기 – 1-3 왜 유의할까? – 도대체 p-값(p-value)는 무엇인가? –“? 다음 카테고리의 웹사이트 th.taphoamini.com 에서 귀하의 모든 질문에 답변해 드립니다: th.taphoamini.com/wiki. 바로 아래에서 답을 찾을 수 있습니다. 작성자 Sapientia a Dei 이(가) 작성한 기사에는 조회수 48,118회 및 좋아요 1,040개 개의 좋아요가 있습니다.

Pvalue = P(Z > z | H) , H1 : μ > μ
  1. 가설검정에서 표본의 관측치를 바탕으로 얻은 유의확률이 유의수준α 보다 작거나 같으면 귀무가설을 기각한다
  2. 유의확률이 지정된 유의수준 α이하로 나타나면,
  3. 이는 귀무가설에 대한 반증의 강도가 지정된 수준보다 강하다는 것을 의미

Table of Contents

p value 구하기 주제에 대한 동영상 보기

여기에서 이 주제에 대한 비디오를 시청하십시오. 주의 깊게 살펴보고 읽고 있는 내용에 대한 피드백을 제공하세요!

d여기에서 1-3 왜 유의할까? – 도대체 p-값(p-value)는 무엇인가? – – p value 구하기 주제에 대한 세부정보를 참조하세요

통알못을 위한 통계튜브 – 기초편 –
통알못(통계를 알지 못하는 사람)을 위한 통계튜브 기초편입니다.
이런분들에게 적합합니다.
1. p값이 0.05보다 큰지 작은지만 말할 수 있는 분
2. 그런데 p값이 뭔지 모르는 분
3. 논문작성을 위한 통계를 아무리 들어도 어렵기만 하고 이해가 안되는 분
4. 대학원에서 통계 강의 들을 때마다 C학점을 벗어나지 못하는 분
5. 논문을 쓰려고 설문지도 돌리고 데이터도 다 코딩했는데 이제 어떻게 해야할지 모르겠는 분
6. 통계가 배우고 싶은데 아무리 공부해 봐도 어려운 증명만 나와 무슨 말인지 모르겠는 분
7. 문송한데 통계까지 죄송할까봐 아예 통계는 들여다 볼 엄두도 못 내는 분
어려운 수학 하나 없이 최대한 산수 수준에서 문송한 분들을 위한 통계 강의
개념을 이해해야 통계가 보이는데, 무조건 계산하고 풀어서 답을 맞추라고 하니 통계가 어려웠습니다
통계를 보다 쉽게 잘 이해하도록 돕기위해 만든 통계 채널입니다
통계가 왜 어려웠는지에서부터 기초적인 것들부터 시작해서 통계의 핵심을 마스터 합니다.
처음부터 차근차근 들어보세요.
통계가 쉬워집니다.
중고등학생들도 쉽게 통계를 이해하고 분석할 수 있습니다!!
빅데이터 분석을 하고 싶은데 통계를 몰라서 못하겠다고요?
여기서 부터 시작해 보세요!!
천리 길도 한 걸음부터!!
하루에 한 클립씩만 차근 차근 봅시다!!
사용 통계 소프트웨어: JAMOVI
다운로드: https://www.jamovi.org/download.html
#기초통계 #논문통계

p value 구하기 주제에 대한 자세한 내용은 여기를 참조하세요.

[Statistics] p-value 구하는 원리 + 가설검정에서 p-value 활용

이럴경우에는 그럼 p-value 계산에 사용할 Probability를 못구하는거 아니냐? -> 그래서 대안으로 통계분포 (statistical distribution)의 형태를 …

+ 여기에 더 보기

Source: komok.tistory.com

Date Published: 9/24/2021

View: 1101

p value를 직접 계산해 보는 숙연함.

그러니까, p value = 앞면이 두번 나올 확률 + 같은 정도의 극단치 (뒷면이 두번 나올 확률) + 앞의 두 값보다 더 극단치가 나올 확률 = 0.25 + 0.25 + 0 …

+ 여기에 표시

Source: recipesds.tistory.com

Date Published: 5/17/2022

View: 7776

[기초통계] 유의확률이란? P-value란? – 슈퍼짱짱 – Tistory

유의확률(P-value)란? 이전에 주어진 유의수준을 갖는 기각역을 구하는 방법을 알아보았다. 표본으로부터 계산된 Z의 값으로부터 그 값이 기각역에 …

+ 자세한 내용은 여기를 클릭하십시오

Source: leedakyeong.tistory.com

Date Published: 9/3/2021

View: 6155

갈아먹는 통계 기초[4] 가설, 검정, p-value

이를 표준 정규 분포표를 통해서 계산해보면 p-value는 0.0062가 됩니다. 앞서 우리는 귀무가설이 틀릴 수 있는 확률 α를 0.05로 고정해놓았습니다.

+ 여기에 더 보기

Source: yeomko.tistory.com

Date Published: 2/16/2022

View: 9431

p-value 다들 어떻게 구하시나요 – BRIC

실제로 n수를 많이 늘려서 한 경우 오히려 더 손쉽게 p-value가 훨씬 좋은 값을 보이면서 구해졌습니다. 실험을 단 한번만하고 통계적 유의성이 확보되는데 아무리 …

+ 여기에 표시

Source: www.ibric.org

Date Published: 2/30/2022

View: 1142

p-값 구하기 및 해석의 예 – Minitab – Support

특정 자동차 등급의 연비가 갤런당 25마일(mpg)인 경우 이 연구의 가설은 H 0: μ = 25 and H A: μ ≠ 25입니다. 1-표본 t-검정에서 p-값 구하기. 자동차 35대를 검사하여 …

+ 여기에 보기

Source: support.minitab.com

Date Published: 1/26/2022

View: 2979

가설 검정과 P Value(유의 확률)에 대하여 알아보자.

5) 4)에서 계산된 값을 이용하여 가설을 검정한다. 가설 검정은 모수(초등학교 3학년 수학 평균 점수)에 대한 가설을 모집단(초등학교 …

+ 여기에 보기

Source: zephyrus1111.tistory.com

Date Published: 5/11/2022

View: 5071

엑셀에서 p-value구하기

회귀모델(regression model)에서 p-value를 구해본다. 예: F-통계량에서 p-value 구하기. 위의 데이터에 대해 데이터> 데이터 분석 …

+ 여기를 클릭

Source: loadtoexcelmaster.tistory.com

Date Published: 1/10/2021

View: 940

주제와 관련된 이미지 p value 구하기

주제와 관련된 더 많은 사진을 참조하십시오 1-3 왜 유의할까? – 도대체 p-값(p-value)는 무엇인가? –. 댓글에서 더 많은 관련 이미지를 보거나 필요한 경우 더 많은 관련 기사를 볼 수 있습니다.

1-3 왜 유의할까? - 도대체 p-값(p-value)는 무엇인가? -
1-3 왜 유의할까? – 도대체 p-값(p-value)는 무엇인가? –

주제에 대한 기사 평가 p value 구하기

  • Author: Sapientia a Dei
  • Views: 조회수 48,118회
  • Likes: 좋아요 1,040개
  • Date Published: 2018. 12. 5.
  • Video Url link: https://www.youtube.com/watch?v=5Xke4ao1g9E

[통계-14] 가설검정(유의확률_P-Value)의 개념 & 모비율의 검정)

기초 통계 [통계-14] 가설검정(유의확률 _P-Value) 의 개념 & 모비율의 검정) YSMARTER ・ URL 복사 본문 기타 기능 공유하기 신고하기 이전 포스팅에서는 검정통계량의 기각역을 이용한 검정방법을 알아봤다. 1cm Everyday : 네이버 블로그 끄적끄적 blog.naver.com 이번에는 유의확률을 이용한 검정방법을 살펴보자. ​ 시작하기에 앞서 이것만 알아두고 시작하자! 유의확률의 계산은 매우 복잡하고 어렵기에, 우리가 실제로 계산을 해야하는 경우는 많지 않다. ​ 통계 툴 (R, SPSS, Excel 등)을 통해 유의확률을 자동적으로 계산되기에, 우리는 단지 유의확률이 어떤 의미이고 어떻게 쓰이는 지 알면 된다! 유의확률 (P-value) – 귀무가설이 참 일 때, 검정통계량이 표본에서 계산된 값과 같거나 그 값보다 대립가설 방향으로 더 극단적인 값을 가질 확률을 의미함 ​ – 유의확률이 작을수록 표본으로부터 얻은 결과가, H 0 가 사실이 아니다라는 확실한 증거가 될 수 있다 ​ ​ 다음 예제를 통해 좀 더 자세하게 알아보자 ​ (예제) 우리나라 대학생의 지능지수의 평균이 110이라는 주장에 대해 어떤 사람이 그렇게 높지 않을 것이라고 반박했다고 하자. 검정을 하기 위해 우리나라 대학생의 지능지수는 표준편차가 10인 정규분포를 따른다고 가정하고, n = 16명의 대학생을 임의로 뽑아 지능지수를 측정한 결과 표본평균 X̄ 의 관측값이 X̄=102 일 때, 유의수준 5%에서 가설 검정하여라 ​ 가정: 귀무가설이 참 ( μ = 100) ⊙ 유의확률 (P-value) ​= 표본평균 X̄ 가 표본에서 얻은 관측치가 102이하일 확률 ​⊙ μ = 110일 때, X̄의 분포는 N(110, (10)2/16 ) ​ P-value = P( X̄ ≤ 102) = P( Z ≤ [(102 – 110) ÷ (10/4)] ) = P(Z ≤ -3.2) = 0.0007 ​ ​ 매우 작은 유의확률 = 귀무가설이 틀리다는 것의 확실한 근거 → H 0 기각 즉, 유의확률은 귀무가설이 참일 때, 현재 가지고 있는 자료가 나올 확률을 의미 ​ 다시 말해, 유의확률이 작다는 것은 귀무가설이 참이라고 하면, 나올 가능성이 매우 적으므로, 귀무가설을 기각하고 대립가설을 지지 ​ 정확하게 말하면 : 유의확률은 귀무가설이 참( μ = 100)일 때, 검정통계량이 현재 가지고 있는 자료로부터 계산한 검정통계량의 값보다 대립가설 방향으로 더 극단적으로로 나올 확률로, 검정통계량을 알고 있기 때문에 유의확률을 사용할 수 있다. ​ 즉, 주어진 자료로부터 계산된 검정통계량의 값이 Z 라 하면, 유의확률은 귀무가설이(μ = 110) 참 일 때, 검정통계량이 주어진 자료로 계산된 값보다 극단적일 확률이다. ​ 예를들어 대립가설이 μ가 μ 0 보다 크다 이면 , p-value는 H 0 일 때 z 통계량이 계산된 값 z보다 클 확률로 정의된다 P-value = P(Z > z | H 0 ) , H 1 : μ > μ 가설검정에서 표본의 관측치를 바탕으로 얻은 유의확률이 유의수준α 보다 작거나 같으면 귀무가설을 기각한다 유의확률은 검정통게량의 분포를 이용하여 구하는데, 유의확률이 지정된 유의수준 α이하로 나타나면, 유의수준 α 에서 유의하다고 하며 이는 귀무가설에 대한 반증의 강도가 지정된 수준보다 강하다는 것을 의미 (α는 주로 0.1, 0.05, 0.01을 주로 사용한다) 모집단이 정규분포를 따르고 모분산을 알고 있을 때 대립가설에 따른 기각역과 유의확률은 다음과 같다 ▶ 유의확률 p기 α보다 작거나, 관측값 z가 기각역에 포함되면, 귀무가설 H 0 를 기각(대립가설 H 1 을 채택) 할 수 있다. ​ 다음예제를 통해 자세히 알아보자. 예제) 9명의 학생에게 IQ검사를 한 결과 평균이 92이었다. 모분산을 144라 할 때 전체 학생의 평균 IQ가 100보다 작다고 할 수 있는가? 전체 학생의 IQ가 정규분포를 따른다고가정하고 유의수준 5%에서 검정하라. ​ ⊙ 귀무가설&대립가설 = H0 : μ = 100, H1 : μ > 100 ⊙ 귀무가설이 참이면, X̄는 평균이 100이고 표준편차가 12/√9 인 정규분포를 따르며 ⊙ 검정통계량 Z도 표준정규분포를 따른다 ⊙ 대립가설이 좌측방향으로, 유의확률은 표본평균 X̄가 표본에서 계산된 표본평균의 값 ​ X̄=92보다 작을 확률이 됨 위 예제에서 유의수준이 0.01이라면, 유의확률(0.0228)이 유의수준 0.01보다 크므로 귀무가설을 기각할 수 없음 위 예제에서 유의수준이 0.0228이라면, 유의확률이 유의수준과 같으므로 귀무가설을 기각할 수 있음 ​ 이 처럼, 유의확률 = 귀무가설을 기각할 수 있는 유의수준의 최소값이다. (예를들어) 유의확률이 0.03이라면, 유의수준이 0.03보다 클 때 귀무가설을 기각할 수 있다 다음 예제를 풀어보자 예제) 어느 회사에서 생산되는 다이어트 식품이 체중 감소에 도움이 되는지 알아보기 위해 10명의 지원자에게 3개월간 복용케 한 후 체중감소량을 측정한 결과 다음의 자료를 얻었다. (모집단은 정규분포라 가정) 문제 ① 이 다이어트 식품은 효과가 있다고 확신할 수 있는가? ② 유의수준 5%에서 검정하여라 ​ 예제 풀이 유의수준 α가 0.05보다 작으므로 귀무가설을 기각 = 평균 체중감소량이 0보다 크므로, 다이어트 효과가 통계적으로 유의함 검정통계량 대신에 p-값을 활용한 검정방법의 장점 ​ ⊙ 검정통계량을 이용해서 유의수준 0.05에서 귀무가설을 기각한다고 하면 더 낮은 유의수준에서도 귀무가설을 기각할 수 있는지 알기 어려움. 다른 수치의 유의수준에서 귀무가설 기각여부를 알기 위해서는 다시 임계치를 찾고 이를 검정통계량의 값과 비교해야하기 때문이다. ​ 그러나 ⊙ 유의확률(p-value)를 사용하면 이러한 문제점을 보완할 수 있다. 예를들어, p-값이 0.03 일 때 귀무가설이 유의수준 0.05에서는 기각되고 0.03 미만에서는 기각되지 않는다는 사실을 바로 알 수 있다. ​ 즉, p-값을 활용하면 개인의 판단기준에 따른 귀무가설의 채택/기각 여부를 바로 알 수 있다. ​ ​ ​ 대립가설 형태에 따른 기각역과 유의확률의 정리 모비율에 대한 가설검정 모비율 H 0 : p = p 0 에 대한 가설검정을 하는 방법 ⊙ 검정통계량의 분포는 귀무가설 하에서 근사적으로 정규분포를 따름 Z ~ HoN( 0, 1) ⊙ 검정통계량의 분포를 이용하여 기각역과 유의확률 계산가능 ​ ​ 다음 예제를 통해 알아보자 예제) 어느 국회의원 입후보자가 선거구 유권자 가운데 300명을 임의로 추출하여 조사한 결과, 138명이 자신을 지지하였다. 지지율이 50% 미만이라고 확신할 수 있는지 유의수준 5%에서 검정하여라 ​ ⊙ 모비율의 추정치는 표본비율로 구할 수 있음 ⊙ p = 실제 지지율이라 할 때, 실제 지지율이 50%미만이라고 주장하고자 하기 때문에, 귀무가설과 대립가설은 H0 : μ = 0.5 H1 : p < 0.5 ​ ⊙ 표본비율은 중심극한정리에 의해 ⊙ 검정통계량과 귀무가설이 참(p = 0.5) 일 때, 검정통계량의 분포 고려할 수 있고 ⊙ 표본으로부터의 검정통계량 관측값은 다음과 같다 ⊙ 검정통계량의 관측값은 기각역보다 크므로 기각할 수 없음 = 실제 지지율이 50%라 할 수 없다 ​ ​ 유의확률을 구해봐도 동일한 결론이 나온다 ⊙ 검정통계량 Z가 표본으로부터 계산된 값 -1.39보다 작을 확률(대립가설 방향) p-value = P(Z ≤ -1.39 | H0) ≒ 0.082 ​ ⊙ 유의수준 0.05보다 크므로 귀무가설 기각할 수 없음 가설검정과 신뢰구간의 관계 모평균 μ에 대한 양측가설에 대한 기각역 ​ ⊙ 신뢰구간은 대응되는 검정의 채택역에 의해 유도될 수 있다 - 귀무가설에 대응되는 값이 신뢰구간에 포함되면 귀무가설을 기각할 수 없음 ​ ⊙ 귀무가설의 μ 0 가 100(1-α)% 신뢰구간에 포함되면 - 유의수준 α에서 귀무가설 기각할 수 없음 ​ ⊙ 귀무가설의 μ 0 가 100(1-α)% 신뢰구간에 포함되지 않으면 - 유의수준 α에서 귀무가설을 기각할 수 있다 ​ 이는 모평균뿐 아니라 다른 모수에 대해서도 적용 가능하다 ​ ​ 다음 예제를 통해 가설검정을 실시해보자 예제) 중산층에서 100가구를 임의로 뽑아 조사하였더니 그들의 1년 의료비 지출의 평균이 35만 원이고, 표준편차는 12만 원이었다. 연간 평균 의료비의 95% 신뢰구간을 구하고, 유의수준 5%에서 연간 의료비 지출이 평균 30만 원인가에 대한 가설검정을 실시하여라. ​ ​ μ 를 연간 평균 의료비 지출로 하면: ​ 평균 의료비 지출이 30만 원인지에 대한 가설은 다음과 같다 H0 : μ = 30​ H1 : μ ≠ 30 ​ 위 양측 가설의 신뢰구간이 귀무가설의 검정값 μ 0 =30 만 원을 포함하지 않아, 유의수준 5%에서 귀무가설 기각 ​ 95% 신뢰구간이 30만 원을 포함하지 않으므로 실제 의료비의 평균을 30만 원이라고 결론 내릴 수 없음 ​ 이는 다음과 같은 유의수준 5%에서의 검정결과가 같음을 확인할 수 있다 ​ X̄ = 35, s = 12, n = 100 - 유의수준 α = 0.05에서 기각역 : z > z 0.05 = 1.645이므로, z = -4.167 > 1.645이므로 기각역에 속함 즉, 유의수준 5%에서 귀무가설 H 0 기각 최종정리 1. 유의확률 ⊙ 귀무가설이 참일 때, 검정통게량이 표본에서 계산된 값과 같거나 그 값보다 대립가설의 방향으로 더 극단적인 값 을 가질 확률을 그 검정에서의 유의확률(p-value)이라 함 ⊙ 유의확률이 주어진 유의수준 보다 작으면 귀무가설을 기각 ​ 2. 모비율에 대한 가설검정 ⊙ 모집단이 정규분포이고, 모분산을 알 때, 기각역과 유의확률은 아래와 같다 ​ ⊙ 모비율 p에 대한 가설검정 대립가설 형태에 따른 기각역과 유의확률를 정리하면 아래와 같다 ​ ​ 3. 가설검정과 신뢰구간의 관계 ⊙ 양측대립가설 일 때, 95% 신뢰구간이 귀무가설의 검정값 μ 0 을 포함하면 유의수준 5%에서 귀무가설을 기각할 수 없음 ​ ⊙ 신뢰구간이 귀무가설 검정값을 포함하지 않으면, 유의수준 5%에서 귀무가설을 기각함 ​ ​ 인쇄

[Statistics] p-value 구하는 원리 + 가설검정에서 p-value 활용

1. What is the p-value?

– 생물학을 포함한 데이터 다루는 일을 하다보면 통계학은 뗄래야 뗄 수 없고, 그 중에 p-value와 0.05라는 숫자는 “유의성 있는” 데이터를 선별하는 general threshold로 등장

– p-value = probability value?

: 결론부터 말하면 No! 그럼 p value의 정의를 살펴보자 (그림1, Thanks to StatQuest again!)

그림1. p-value의 정의 (ref: Youtube채널 StatQuest)

– 그림1에서 볼 수 있듯,

p-value는 (특정한 경우의 수가 발생할 가능성) + (그것과 동일한 확률이 나올 가능성) + (그것보다 희귀한 경우가 발생할 가능성)의 합이다. (단, 양측검정일 경우에 해당. 단측검정에 대해선 따로 다루겠다.)

– 즉, 특정한 사건이 일어날 확률과 그 사건의 p-value는 서로 다르다.

– 그리고 동일한 확률이 나올 다른 가능성이나 그것보다 희귀한 경우 발생할 가능성을 더해주는 이유는, 구하고자 하는 사건의 p-value에 해당 사건이 특별한 일이어보여도, 그것과 같은 확률값을 가지거나 그것보다 희귀한 사건들이 존재할 경우 그 사건의 특별함이 떨어진다는 것을 의미하고, 이에 대한 정보를 함께 반영해주기 위함

– 아래의 동전 예시를 보면 이해가 쉽다.

– 그림2는 5번의 동전뒤집기 중 4번의 앞면과 1번의 뒷면 (4Heads and 1 Tail case, 4H1T)에 대한 probability(Pr)와 p-value를 각각 나타낸다.

그림2. 4H1T의 사례로 보는 probability와 p-value의 차이 (ref: StatQuest)

– Pr(4H1T) = 5C1 / (2^5) = 5 / 32 = 0.15625

반면, p_value(4H1T) = Pr(4H1T) + Pr(1H4T) + Pr(5H) + Pr(5T) = 5/32 +5/32 + 1/32 + 1/32 = 12/32 = 0.375

2. Biological sample에서의 p-value

– 위 동전사례가 이산형 확률분포(앞면 or 뒷면)를 가지는 범주형 변수(categorical data, discrete variable)라면,

많은 biological data는 연속형 변수 (continuous variable)가 많다. ex) 키, 유전자 발현량 등등.

– 이럴경우에는 그럼 p-value 계산에 사용할 Probability를 못구하는거 아니냐?

-> 그래서 대안으로 통계분포 (statistical distribution)의 형태를 지닌 “density”곡선을 이용하여 특정 사건 a에 대한 p-value를 계산한다. (그림3)

그림3. 연속형 변수에 대한 p-value를 계산하는데 사용하는 density 곡선 (ref: StatQuest)

– 위 그림3에서 사람 키 142~169cm인 구간의 area가 전체의 95%를 차지하는데,

이는 곧 측정값들의 95%가 해당 구간 내에 존재한다는 말이고,

동시에! 새로운 사람을 만났을 때 그 사람이 저 142~169cm일 확률이 95%라는 뜻 이다.

– 키가 142cm인 사람의 p-value 값은,

앞서 언급한 정의에 의해 Pr(=<142) + Pr(>=169) = 0.05이다 (그림 4).

그림 4. 142cm인 사람의 p-value 계산의 예 (ref: StatQuest)

– 그리고 이는 “142cm미만 사람인 경우, 파란색 분포의 값에서 유래되었다”라는 귀무가설을 기각시킬 수 있다는 말이 된다.

– 다른 말로, “141cm인 사람이 있으면, 이는 파란색 분포에서 관찰되는데 꽤나 특별한 케이스이다”라고 말할 수 있고,

– 동시에, 좀 더 낮은 평균의 통계 분포 곡선이 있다면 그것에서 유래되었다고 보는 것이 더 적합하다”고 할 수 있다.

3. 가설검정에서의 p-value 활용법

3.1. 가설검정과 임계값, p-value

– 가설검정에서는 검정의 대상이 되는 “귀무가설”과 그와 대립되는 “대립가설”이 존재

– 귀무가설은 옳다고 가정 -> 기각이 목표 (반대로 대립가설은 채택이 목표)

– 이때 판단의 기준점을 “임계값”(critical value)이라 부름

– 임계값의 정의

: 주어진 유의수준에서 귀무가설의 채택/기각 의사결정의 기준이 되는 값

– 위 정의에서 유의수준(level of significance)가 나오는데, 귀무가설이 옳은데 기각할 오류의 확률(=제1종 오류의 확률)를 뜻함

– 모집단을 알 경우에는, 표준정규분포를 이용하여 z값 변환 후 임계값을 구할 수 있음

– 가설검정에는 임계값을 활용하는 방법과 p-value를 활용하는 방법이 있음

1) 임계값 활용법

: 위에서 말한 방법으로 유의수준(ex)0.05)에 해당하는 임계값 구한 후, 그것보다 표본평균이 더 극단적인 값일 경우 대립가설 채택

2) p-value 활용법

: 표본평균의 검정통계량에 대한 누적확률을 구한 후 그것의 나머지 면적 (= 1-표본평균의 누적확률)로 p-value 구함 -> p-value가 유의수준보다 낮다면 대립가설 채택

3.2. 생물학에서의 가설검정, p-value<0.05의 의미 - 귀무가설로 흔히 "두 그룹간 차이가 없다" 혹은 "두 특징 사이에 상관관계가 없다"로 설정 - p-value<0.05이면 두 그룹간 차이가 없다는 가정이 틀릴 확률이 5%미만이라는 뜻이고 , 귀무가설의 기각 근거로 사용됨(=두 값이 서로 다른 분포에서 유래되었다, 동시에 100번 실험해서 거짓양성이 나올 확률이 5% 미만) - 0.05라는 값을 많이 사용하는데는 큰 이유는 없음 (옛날부터 통용되어서 쓰이는 것일뿐, 주관적으로 설정가능) References [1] Youtube, StateQuest with Josh Starmer, False Discovery Rates,FDR,clearly explained [2] blog.naver.com/mykepzzang/220884858347 [3] Youtube, StateQuest with Josh Starmer, p-values: What they are and how to interpret them Copyright 2021. komok’s sight All Rights Reserved.

p value를 직접 계산해 보는 숙연함.

p value 유의확률은 귀무가설이 맞다는 가정 아래, 우리가 표본을 통해 관측한 통계 값 또는 관심 있는 통계 값을 포함해서 더 극단적인 값을 관측할 확률을 말합니다. 가설검정에서 Significance Probability라고하고 유의확률이라는 표현을 씁니다.

이전에도 강조했지만 여기에서 진짜 진짜 중요한 얘기는 귀무가설이 맞다는 가정 아래라는 말이 정말 정말 중요합니다.

그렇긴 한데, 이렇게 얘기해 봐야 감이 잘 안올테니까, 실제로 p value가 어떻게 계산하는지 한번 보시죠. 여기에서는 p value의 정의와 p value를 어떻게 계산하는지에만 신경 쓰도록 합시다. 의미까지 생각하면 매우 복잡해 지니까, 조금 익숙해진 후에 살펴보도록 하기로 하고요.

“그래도 궁금하긴 한데..”

“조금만 참아”

예를 들어, 우리 회사의 동료중 1명이 너무나 지각을 많이 해서 조금은 주의를 주고 싶었는데, 막상 조사해 보니, 지각하는 시간이 평균 20분이었습니다. 사장님에게 고소하게도 혼쭐이 났습니다. 그래서 이 동료가 억울한 나머지, 아무리 생각해도 20분보다는 일찍 오고 있다고 주장하고, 임의의 10일간의 지각 시간을 평균을 내보니 15분을 지각했으니 20분 지각은 아닙니다라고 주장하고 있습니다. – 어차피 지각인데, 15분과 20분이 무슨 의미가 있겠습니까만.. –

아래의 데이터는 사장님이 몰래 회사 동료가 입사한 이래 임의의 10일간의 평균 지각 시간들을 40개의 데이터로 모아 둔 것입니다. (히스토그램-표본 분포입니다.)

자, 분포가 준비되었고요. 이때 15분 이하일 때의 p value를 계산해 봅시다.

참고로,

귀무가설 Null Hypothesis는 $\mu \geq 20$

대립가설 Alternative Hypothesis는 $\mu \lt 20$

입니다. 귀무가설과 대립가설 설정이 이제는 헷갈리지 않을 거라 생각합니다. – 여기에서 우리가 분포를 그렇다 치고~라고 가정할 수 있는 경우는 지각이 평균 20분이라는 주장입니다. 대립가설은 귀무가설이 기각되었을 때 자연스럽게 채택되는 가설이므로 20분보다는 작다로 설정해야겠군요. –

그러면 관측된 15분 이하인 경우를 따져보면 전체 40개 중에 15분 4개, 13분 1개 해서 5개가 15분을 포함하면서 더 극단적인 값을 의미합니다.

그러니까, $\frac{4+1}{40} = 0.125$가 되므로, 이때의 p value는 0.125입니다. 다시 말해 12.5% 정도가 관측한 15분 이하의 값이라고 보면 되겠습니다.

p value를 계산하는 방법이 굉장히 단순하죠? 모든 p value는 이런 식으로 계산합니다.

한 가지 더 위의 예를 이용해서 살펴본다면,

귀무가설은 $\mu = 20$이고,

대립가설이 $\mu

eq 20$이라면 어떻게 p value를 구할까요?

이때는 양쪽으로 같은 정도의 관측치와 더 극단적인 값으로 보면 됩니다.

그러니까, 왼쪽으로는 15 이하이고, 오른쪽으로는 25 이상을 보면 됩니다.

그러면 전체 40중에 5+3 이니까, p value는 0.2입니다.

아쉬우니까 한 가지 예를 더 들어봅시다.

언제나 빠질 수 없는 동전의 예인데요, 귀무가설, 대립가설까지 설정하는 것을 한번 해 보는 것도 도움이 되겠습니다.

동전을 던졌을 때, 2번 모두 앞면이 나왔다가 치자고요. 우리의 귀무가설은 동전은 fair 하니까 앞면, 뒷면이 나올 확률이 모두 $\frac{1}{2}$로 같다고 할 수 있습니다. 사실 이 표현도 좀 애매한데 앞면이 나올 확률 $P(H) = \frac{1}{2}$를 귀무가설이라고 해야겠네요. 그러면 일반적인 상황에서 분포를 가정할 수 있으니까요. $P(H)

eq \frac{1}{2}$가 대립가설이 됩니다. 그러면 귀무가설이 참이라고 가정하고, 동전을 2번 던졌더니 두 번 모두 앞면이 나온 것을 관측했습니다. 귀무가설이 참이라는 가정아래, 2번 모두 앞면이 나올 확률을 구해보면 $\frac{1}{2}\times \frac{1}{2} = 0.25$ 입니다. p value를 구하기 위해서는 같거나, 더 극단적인 경우를 구해야 하니까, 같은 정도의 경우는 두번 모두 뒷면이 나오는 경우, 0.25입니다. – 더 극단치가 나오는 경우는 이 경우에는 없으니까, 0 입니다. –

그러니까, p value = 앞면이 두번 나올 확률 + 같은 정도의 극단치 (뒷면이 두번 나올 확률) + 앞의 두 값보다 더 극단치가 나올 확률 = 0.25 + 0.25 + 0 = 0.5입니다.

이렇게 말하긴 했지만 간단한 듯하면서 어렵죠. 왜 더 극단적인 값을 관측할 확률이 p value에 포함되어야 하는가 하는 것은 곧바로 다시 다뤄보기로 하고, 간단하게 이야기하자면, 유의수준과 비교하기 위해서 더 극단적인 값을 포함해야만 그 확률을 비교할 수 있기 때문입니다.

참고로, 지각의 예에서 사실 0.125이라는 값이 유의수준을 5%로 보았을 때, 0.05보다 크기 때문에 평균이 20분이라는 귀무가설을 기각할 수 없다고 할 수 있으므로 평균 15분 지각이 관측되었더라도 평균 지각 시간은 20분이다라는 p value의 해석이 덧붙여졌다면 좋았겠지만, 지금은 p value 자체를 계산하는 것에 포커스를 맞추고 있으니까. 그런대로 넘어가 주세요.

동전의 예에서도 p value만 계산해 보려고 했지만, 기왕 p value 검정의 결론까지 살짝 본다면, 0.5는 이런 경우가 생길 확률이 대단히 큰 경우로서, 귀무가설이 참인 경우에 흔히 생길 수 있는 일이므로 동전이 fair하지 않다고 말하기 어렵다는 결론에 이르릅니다.

[기초통계] 유의확률이란? P-value란?

반응형

유의확률(P-value)란?

이전에 주어진 유의수준을 갖는 기각역을 구하는 방법을 알아보았다.

표본으로부터 계산된 Z의 값으로부터 그 값이 기각역에 포함되면 \(H_{0}\)를 기각하고, 그렇지 않으면 \(H_{0}\)를 기각하지 않는다.

예를 들어) 유의수준 5%를 갖는 기각역으로 \(R : Z \le -1.645\)를 구하였다고 하자.

표본으로부터 Z를 계산하여 z=-1.95로 얻었다면 \(H_{0}\)를 기각할 수 있고, z=-1.42를 얻었다면 \(H_{0}\)를 기각할 수 없다.

이 수치는 기각의 여부 뿐 아니라 얼마나 확실하게 기각할 수 있는가를 판단할 수도 있다.

예를 들어 z=-2.22로 얻어졌다면, \(\alpha\)를 0.05에서 0.025로 줄여도 (\(R:Z \le -1.645\) -> \(R:Z \le -1.96\)) 여전히 \(H_{0}\)를 기각할 수 있다.

즉, 얻어진 Z의 값으로부터 \(H_{0}\)를 기각할 수 있게 하는 최소의 유의수준이 작을수록 더욱 확실하게 \(H_{0}\)를 기각하게(\(H_{1}\)을 채택하게) 된다.

그렇다면, 얻어진 Z의 값을 가지고 기각할 수 있게 하는 최소의 유의수준은 어떻게 구할 수 있을까?

예를 들어) 콜레스테롤 수치를 낮춰주기 위해 신약을 개발했다고 하자. 이 약이 효과가 있는지, 없는지 검증하는 과정에서 z=-2.22의 값이 얻어졌다고 하자. 이 때 이 값으로 \(H_{0}\)를 기각하기 위한 최소의 유의수준은 \(P(Z \le -2.22)=0.0132\) 이다. 즉, 이 예시에서 표본으로부터 관측된 Z값으로 \(H_{0}\)를 기각할 수 있는 최소의 유의수준은 0.0132이며, 이를 P-값(P-value) 혹은 유의확률(significance probability)라 한다.

P-value란? 주어진 검정통계량의 관측치로부터 \(H_{0}\)를 기각하게 하는 최소의 유의수준

* Z=z일 때 각 기각역의 형태에 따라 P-value 구하는 방법

$$ R : Z \le d \quad P-value=P(Z \le z) $$ $$ R : Z \ge d \quad P-value=P(Z \ge z) $$ $$ R : \left|Z \right| \le d \quad P-value=P(\left|Z \right| \le z) $$

이에 따라, 계산된 P-value값이 원하는 유의수준보다 작으면 \(H_{0}\)를 기각할 수 있고, 유의수준보다 크면 \(H_{0}\)를 기각할 수 없다.

예를 들어) 계산된 P-value값이 0.024라 할 때, 원하는 유의수준이 0.01이면 기각할 수 없고, 0.05이면 기각할 수 있다.

실제로 많은 통계 프로그램들이 P-value를 output으로 떨군다. 기각역을 일일히 계산하기 보단 P-value 위주로 계산한다.

또한, 계산된 P-value는 \(H_{1}\)을 채택하는 근거의 척도로도 볼 수 있다. P-value가 0.024일 때보다 0.002일 때 더 확실히 \(H_{0}\)를 기각할 수 있다.

위의 예시를 그림으로 그리면 다음과 같다.

유의수준(\(\alpha\)) = 0.05에서 기각역(c) = -1.645 이고, 표본으로부터 계산된 z=-2.22일 때 P-value=0.0132이다.

이 예시에서 P-value = 0.0132는 유의수준 0.05보다 작기때문에 \(H_{0}\)를 기각할 수 있음을 알 수 있다.

반응형

P값을 계산하는 방법: 7 단계 (이미지 포함)

P 값 은 과학자들이 가설의 진위를 판단하는데 도움을 주는 통계적 수단이다. P값은 실험의 결과과 관찰된 사건에 관한 정상범주에 해당하는지를 결정하기 위하여 사용된다. 통상적으로 만약 한 세트의 데이타에 대한 P 값이 미리 결정된 구체적 값(예를 들어, 0.05) 이하라면, 과학자들은 그들의 실험에서 귀무가설(영가설)을 기각할 것이다. – 다시 말해, 그들은 그들의 실험의 값들이 결과에 대해 의미있는효과가 없다는 가설을 배제할 것이다. 오늘날 P값은 통상 처음에 카이제곱값을 계산하면서 참조테이블에서 발견할 수 있다.

갈아먹는 통계 기초[4] 가설, 검정, p-value

지난 글

갈아먹는 통계 기초[1] 확률 분포 정리

갈아먹는 통계 기초[2] 공분산과 피어슨 상관계수

갈아먹는 통계 기초[3] 표본 추출

들어가며

우리는 지금까지 데이터를 특정한 확률 분포를 가진 확률 변수로 모형화 하였습니다. 그리고 모집단의 표본에서 얻은 통계량을 통해 모집단의 통계적 특성을 추측해보았습니다. 이러한 과정을 논리적으로 전개하기 위해서 필요한 것이 가설과 검정입니다.

가설(hypothesis)란 확률 분포에 대한 어떠한 주장이며 이를 증명하는 행위를 검정(testing)이라 합니다. 특히 확률 분포의 모수 값에 대한 가설을 검정하는 것을 모수 검정(parameter testing)이라 부릅니다.

귀무 가설과 대립가설

귀무 가설(null hypothesis, 영 가설)은 처음부터 버릴 것을 예상하는 가설입니다. 기본적으로 참으로 추정되며 이를 거부하기 위해서는 증거가 반드시 필요합니다. 예를들어 형사가 용의자를 잡았을 경우에도 무죄 추정의 원칙에 따라서 ‘이 용의자는 무죄일 것이다’ 라는 가설을 먼저 세우게 됩니다.[1] 귀무 가설을 세울 때에는 특별한 증거가 없다면 참으로 여겨지는 가설을 귀무 가설로 세우게 됩니다.

대립 가설(alternative hypothesis)는 귀무 가설과 대립되는 가설을 말합니다. 위 예시를 대입해보면 ‘이 용의자가 범인일 것이다!’가 됩니다. 일반적으로 연구자는 연구를 통해 귀무 가설을 검증하게 되고, 이를 통해서 대립 가설이 입증되기를 기대합니다. 즉, 용의자가 무죄일 것이다를 전제로 하고 이를 깨기 위해 열심히 증거를 찾게 되는 것입니다.

귀무 가설과 대립 가설을 기호로 표현하면 아래와 같습니다.

가설 설정의 규칙

통계적 가설을 세울 때에는 다음의 규칙을 따라야 합니다.[3]

1. 귀무 가설은 모수를 특정한 값으로 표현한다. H0:θ=θ0

2. 대립 가설은 귀무 가설에서 지적한 모수의 값이 아닌 어떤 영역으로 나타내는데, 양쪽을 다 고려하는 양측 검정과 한쪽만 고려하는 단측 검정이 있다.

검정과 검정 오류

가설은 맞다, 틀리다로 이분법적으로 답을 내릴 수 있는 문제가 아닌 정도의 문제입니다. 귀무 가설이 틀릴 확률이 얼마이므로 이를 기각한다 / 기각하지 못한다와 같은 형태로 표현할 수 있습니다. 이렇듯 우리는 가설이 틀릴 가능성에 초점을 맞추고 검정을 진행하게 되는데 이 때, 가설이 틀릴 가능성에 대해서 제 1종 오류와 제 2종 오류로 구분합니다.

제 1종 오류(type 1 error)란 귀무 가설이 맞는데도 이를 잘못 기각하여 발생하는 오류입니다. 용의자가 무죄가 맞지만 잘못하여 유죄 판결을 내리는 것과 같습니다. 제 2종 오류(type 2 error)란 대립 가설이 사실임에도 불구하고 귀무가설을 기각하지 못하는 오류를 말합니다. 용의자가 범인이 맞지만 무죄가 아니라는 것을 입증해내지 못하는 것을 말합니다.

제 1종 오류가 발생할 확률을 α라고 표기하고 검정의 유의수준(significance level)이라 합니다. 반대로 제 2종 오류가 발생할 확률을 β라고 표기합니다. 대립 가설이 사실일 때 귀무 가설을 기각할 확률 (1- β)를 검정력이라고 표현합니다. 표로 나타내면 아래와 같습니다.

가설의 검정에서는 이 두 가지 오류인 α, β를 최소로 하는 임계값 c를 결정하고 기각역을 설정하는 것이 중요합니다. 하지만 임계값을 높게 설정하면 β가 커지고, 그렇다고 낮게 설정하면 α가 커지는 모순 관계에 놓여 있습니다. 그렇기 때문에 α를 고정시키고, 이를 만족 시키는 기각역 중에 β를 최소화하는 기각역을 선택하게 되고, 그렇기 때문에 1- β를 검정력이라고 부르는 것입니다. 고정시키는 α 값은 학문 분야에 따라서 다른데 사회과학 분야는 보통 0.05, 자연 과학 분야는 0.01이라는 가이드라인을 제시한다고 합니다.

출처: 정보통신용어해설

이제 귀무 가설을 기각하여 일만 남았으며, 우리는 두 가지 방법을 사용할 수 있습니다.

· p-value 사용하기

· 기각역(rejection area) 사용하기

개념만 말로 설명하기엔 다소 까다로울 수 있으므로 예제를 하나 풀어보면서 진행하도록 하겠습니다. [3]

Q: 한 쪽은 한국 청소년들의 TV 시청 시간이 평균 3시간이라고 주장합니다. 다른 측은 3시간보다 작을 것이라 주장합니다. 어느 편이 맞는지 알아보기 위해 임의로 추출한 100명을 조사한 결과 평균 2.75 시간이었습니다. TV 시청 시간은 정규 분포를 하며 분산은 과거 조사에서 1로 알려져 있습니다.

p-value(유의 확률)를 사용한 검정

먼저 p-value를 사용하여 귀무 가설을 기각해보도록 하겠습니다. p-value란 귀무 가설이 맞다고 가정할 때 얻은 결과보다 극단적인 결과가 관측될 확률입니다. 귀무 가설이 맞다고 치면 평균 TV 시청 시간은 3시간입니다. 이를 정규화하여 표준 정규 분포 상으로 그려보면 아래와 같습니다.

파란색 직선은 검정 통계량, 즉 실제 표본의 관측을 통해서 얻은 표본 평균의 z-score입니다. 실제로 관측해본 결과 TV 시청 시간의 평균의 Z-score는 -2.5라는 의미입니다. 파란색 직선 왼쪽의 영역은 대립가설의 방향으로 치우쳐서 발생하는 사건의 확률이며 아래 그래프에서 파란색 영역에 해당합니다. 이 확률 값을 p-value라고 부릅니다.

이를 표준 정규 분포표를 통해서 계산해보면 p-value는 0.0062가 됩니다. 앞서 우리는 귀무가설이 틀릴 수 있는 확률 α를 0.05로 고정해놓았습니다. 자 그렇다면 실제 관측을 진행할 때 파란색 직선 좌측에 해당하는 값이 등장했다고 생각해보겠습니다. 귀무 가설이 옳았더라면 이러한 값이 나올 확률은 0.0062입니다. 하지만 이보다는 귀무 가설이 옳지 않았을 확률인 0.05가 더 높습니다. 이는 곧 귀무 가설이 옳지 않았다라는 주장이 더 설득력이 있으므로 귀무 가설이 기각되는 것입니다.

위의 예시는 단측 검정이었기 때문에 정규 분포의 왼쪽 꼬리 부분만 고려하였습니다. 만일 양측 검정이라면 양쪽 양향으로 극단적인 값이 등장할 확률을 계산해야하며, 아래 그래프 상에서 빨간색 면적에 해당합니다.

양측 검정 시의 p-value

p-value를 쉬운 말로 간단히 설명하고 넘어가겠습니다. 유의 확률이라는 말에서 알 수 있듯이 이는 가설이 얼마나 그럴듯 한지를 나타내주는 값이며 0부터 1 사이의 값을 가집니다. p 값이 0에 가까울수록 귀무가설의 설득력은 점점 약해지고 이를 기각하고 우리가 입증하고 싶은 대립 가설의 설득력은 점점 강해지게 됩니다.

기각역을 사용한 검정

앞서 p-value를 사용하여 귀무 가설을 기각했을 때 우리는 귀무 가설이 틀릴 확률 α 값을 사용하였습니다. 그리고 p-value가 α보다 작다면 귀무 가설을 기각하였습니다. 그렇다면 반드시 p-value를 구하지 않고서도 α만으로 귀무 가설이 기각될 수 있는 영역을 찾아낼 수 있지않을까요?

위 그래프에서 파란색 면적에 해당하는 부분이 귀무 가설이 틀릴 확률 α에 해당합니다. 만일 검정 통계량이 저 파란색 영역에 속하게 된다면 p-value가 α값보다 작아지므로 귀무가설이 기각되게 됩니다. 즉, 파란색 영역은 귀무 가설이 기각되는 기각역(rejection region)에 해당합니다. 예제에서 검정 통계량의 z-score는 -2.5로 기각 역에 속하게 되므로 귀무 가설을 기각할 수 있습니다.

마치며

지금까지 통계학에서 가설을 어떻게 세우고 검정을 어떻게 진행하는지 알아보았습니다. 그리고 p-value와 기각역을 사용하여 귀무 가설을 기각하는 방법을 알아보았습니다. 사실 p-value에 대한 설명이 교과서나 외부 자료에서도 지나치게 복잡하게 설명되어 있는 감이 있어서 최대한 직관적으로 이해할 수 있게끔 설명해보고자 노력해 보았는데 어떨지 모르겠네요…ㅎㅎ설명이 부족하다고 느껴지시면 댓글로 알려주세요!

감사합니다.

Reference

[1] 귀무 가설, https://ko.wikipedia.org/wiki/%EA%B7%80%EB%AC%B4_%EA%B0%80%EC%84%A4, wikipedia

[2] 검정과 유의확률, https://datascienceschool.net/view-notebook/37a330dfc8de45e9ba475cbbd201ab53/, 데이터 사이언스 스쿨

[3] 통계학 입문, 강상욱 외 8인

p-value 다들 어떻게 구하시나요 ?

안녕하세요? 석사 2년차 대학원생입니다.

모두 좋은 결과 얻어 멋진 논문 쓰시기를 바랍니다.

다름이 아니라 student t-test를 통해서 p-value를 구할때 다들 어떻게 하시는지 궁금해서 이렇게 글을 올리게 되었네요

저는 동일한 실험을 2~3번 정도 한 뒤, 각각의 평균값에 대해서 각 실험마다 비교를 하여 p-value를 얻었습니다.

하지만 n수를 늘려 p-value를 구해도 된다 라고 주변 사람들이 이야기를 하는데요.

실제로 n수를 많이 늘려서 한 경우 오히려 더 손쉽게 p-value가 훨씬 좋은 값을 보이면서 구해졌습니다.

실험을 단 한번만하고 통계적 유의성이 확보되는데 아무리 생각해도 편법인거 같은데

이러한 것이 말은 하지 않아도 어느 정도 묵인되고 퍼블리쉬 하는건가요?

감사합니다.

p-값 구하기 및 해석의 예

새 가솔린 첨가제가 연비에 영향을 미치는지 여부를 확인하려고 합니다. 특정 자동차 등급의 연비가 갤런당 25마일(mpg)인 경우 이 연구의 가설은 H 0 : μ = 25 and H A : μ ≠ 25입니다.

자동차 35대를 검사하여 연비(갤런당 마일) 범위가 14.4 – 28.8이라는 것을 알았습니다. 이 데이터를 MPG 열에 넣은 후 Minitab의 t-검정(메뉴 명령또는 세션 명령)을 수행하여 다음과 같은 결과를 얻습니다.

p-값 해석

결과를 보면 자동차 표본 35대의 평균은 23.657입니다. 그러나 이 유형의 모든 자동차의 평균 연비(μ)는 여전히 25일 수 있습니다. H 0 를 기각하기에 충분한 표본 증거가 있는지 여부를 알아야 합니다. 가장 일반적인 방법은 p-값을 유의 수준 α(알파) 값과 비교하는 것입니다(α는 H 0 가 참일 때 H 0 를 기각할 확률입니다). 이 경우 모평균이 실제로는 25mpg인데 25mpg이 아니라는 결론을 내릴 확률입니다.

p-값은 데이터 내 H 0 에 반하는 증거의 강도입니다. 일반적으로 p-값이 작을수록 H 0 를 기각하기 위한 표본 증거가 강합니다. 구체적으로 말하면 p-값은 H 0 기각을 초래하는 가장 작은 α 값입니다. 모든 p-값이 α보다 큰 경우 H 0 를 기각할 수 없으며 모든 p-값이 α인 경우 H 0 를 기각합니다.

이 t-검정 예에서는 검정 통계량이 평균의 함수이며 p-값이 0.026입니다. 이는 μ = 25인 모집단에서 추출한, 크기가 35인 표본의 2.6%가 μ가 25와 같지 않다는, 현재 표본만큼 강력한(또는 더 강력한) 증거를 제공하는 평균을 생성한다는 것을 나타냅니다. μ = 25인데 우연히 매우 비정상적인 표본을 선택했는지, 아니면 μ가 25와 같지 않은 것인지 생각해 보십시오.

p-값은 일반적으로 연구 분야에 따라 0.05 또는 0.01보다 작은 α 값과 비교합니다. 허용되는 값은 해당 분야의 저널 항목을 확인하십시오.

이 예에서 α 값을 0.05로 가정합니다. 0.026의 p-값은 이 유형의 모든 자동차(연구에 포함된 자동차 35대의 평균뿐만이 아님)의 연비가 25와 같지 않다는 것을 나타냅니다. 이 내용을 보다 통계적으로 정확하게 기술하려면 “유의 수준 0.05에서 평균 연비가 25와 유의하게 다른 것으로 보입니다”로 설명합니다.

해당 분야에서 허용되는 α 값, 사용 중인 검정의 귀무 가설과 대립 가설 등 두 가지 중요 사항을 알면 p-값을 쉽게 사용할 수 있습니다.

가설 검정과 P Value(유의 확률)에 대하여 알아보자.

얼마전 회사에서 기초통계 강의를 했었다. 강의 주제는 가설 검정이었는데 그 중에서 P Value는 중요하다고 생각해서 여기에도 포스팅하려고 한다. 가설 검정은 일반적인 내용을 소개하고 모평균 검정, 독립 이표본 평균 비교 검정 등의 특수한 내용은 추후 따로 포스팅하겠다.

먼저 P Value를 알기 위해선 가설 검정과 그 절차를 알아야한다. 이에 대해 알아보자.

1. 가설 검정 이란?

가설 검정은 다음과 같이 정의할 수 있다.

모수에 대한 가설을 모집단으로부터 추출된 표본의 통계량을 이용하여 검정하는 일련의 과정이다.

아래 그림은 가설 검정의 예를 나타낸 것이다.

위 예를 이용하여 가설 검정 절차는 다음과 같다.

1) 만약 어느 초등학교의 3학년 수학 평균이 80점이라는 주장 또는 가설을 세웠다고 하자.

2) 여기서 모집단은 초등학교 3학년 전체가 되고 모수는 수학 평균 점수가 된다.

3) 이때 모집단을 전체 조사하는 것(비록 이 예제의 경우는 아니지만)은 시간과 비용이 많이 들기 때문에 현실적으로 힘들고 표본을 추출하여 3학년 수학 평균을 추정하게 된다.

4) 추출된 표본으로부터 통계량 즉, 3학년 수학 평균을 계산한다.

5) 4)에서 계산된 값을 이용하여 가설을 검정한다.

가설 검정은 모수(초등학교 3학년 수학 평균 점수)에 대한 가설을 모집단(초등학교 3학년)으로부터 추출된 표본(3학년 1반 학생)의 통계량(3학년 1반 학생의 수학 평균 점수)를 이용하여 가설을 검정하는 절차인 것이다.

이제 가설 검정 절차를 알아보고 가설이 참인지 거짓인지 통계적으로 판단하는 방법에 대해서 알아보자.

2. 가설 검정 절차

가설 검정 절차는 보통 다음과 같이 7단계 과정을 거친다.

각 과정에 대해서 자세히 알아보자.

2.1 가설 수립

가설 수립 단계에서는 귀무 가설과 대립가설을 설정한다.

“귀무 가설”은 일반적으로 믿어왔던 사실을 가설로 설정하는 것으로, 영(0)가설이라고도 한다.

“대립 가설”은 귀무 가설과 대립되는 즉, 기존에 사실로 받아들여진 현상에 대립되는 가설을 의미한다.

귀무 가설은 영 가설이라는 의미에서 $H_0$로 표시하고 대립 가설은 대립을 뜻하는 “Alternative”의 앞글자를 따서 $H_a$로 표시하며 $H_1$으로 나타내기도 한다.

아래 그림은 가설 수립의 예를 나타낸 것이다.

※ 귀무 가설을 영(0) 가설이라고 하는 이유 ※

귀무 가설이 사실임을 밝히더라도

이는 일반적으로 모두가 인정하고 받아들이는 사실이기 때문에

그 파급효과가 제로(영)이기 때문

2.2 유의 수준 결정

유의 수준은 다음과 같이 정의한다.

유의 수준이란 제 1종 오류 확률의 최대 허용치이다.

유의 수준은 보통 $\alpha$로 표시한다. 유의 수준의 정의를 제대로 알려면 가설 검정에서 발생할 수 있는 오류를 먼저 알아야한다.

가설 검정도 결국 표본을 이용하여 의사결정을 하기 때문에 오류가 발생할 수 있다. 가설 검정에서 발생할 수 있는 오류는 다음과 같다.

위 표에서 보면 귀무 가설 $H_0$가 참이지만 이를 기각하는 제 1종 오류(Type I Error)와 귀무 가설 $H_0$이 거짓이지만 이를 채택하는 제 2종 오류(Type II Error)가 있다. 이를 수식으로 표현하면 다음과 같다.

제 1종 오류 = $P(H_0\text{ reject}|H_0\text{ true})$

제 2종 오류 = $P(H_0\text{ accept}|H_0\text{ false})$

전통적인 통계 가설 검정은 주로 귀무 가설을 기각하는 용도로 사용되었다. 하지만 무작정 기각하면 안될 것이다. 왜냐하면 귀무 가설이 참인 경우가 있기 때문이다. 즉, 제 1종 오류를 발생시킬 가능성이 있기 때문이다.

따라서 통계학자들은 특정 기준값을 정해두고 제 1종 오류를 범할 가능성이 어느 기준치 이상이라면 기각하지 않고 기준치 미만이라면 기각해도 좋다는 검정 시스템을 만들어 둔것이다. 이러한 기준은 제 1종 오류 확률의 최대 허용치이며 이것이 바로 유의 수준인 것이다.

반응형

2.3 검정 통계량 선택 및 계산

이 단계에서는 모집단의 대해서 가정하고 표본으로 부터 검정 통계량을 계산한다.

모집단의 대해서 가정한다는 것은 모집단의 확률 분포와 모수에 대해서 가정하겠다는 것을 의미한다(예 : 정규분포, 모분산은 알려지지 않음 등). 모집단에 대한 가정을 하는 이유는 P Value를 쉽게 계산하기 위함이다. 이러한 가정이 없다면 Bootstrap과 같은 방법을 이용하여 P Value를 구할 수 있다.

검정 통계량은 앞에서 소개할 P Value를 계산하기 위한 통계량이다.

2.4 P Value 계산

드디어 오늘의 주인공 P Value가 나왔다. P Value의 정의는 다음과 같다.

P Value란 우리가 관측한 데이터가 알려주는 (최대) 1종 오류 확률이다.

데이터가 알려준다는 것은 P Value가 데이터 표본으로 부터 계산된다는 의미이다. 이제 P Value가 왜 (최대)제 1종 오류 확률인지 알아보자. 이를 위해 모평균 단측 검정을 예로 들어서 설명하겠다. 먼저 P Value를 수식으로 표현하면 다음과 같다.

P Value = $P(H_0 \text{ reject with Data} | H_0 \text{ true})$

모분산 $\sigma^2$은 알려져있고 모평균 단측 검정에서 모평균 $\mu$가 $0$보다 작은지를 검정하고 싶다면 귀무가설과 대립가설은 다음과 같이 설정한다.

$$H_0 : \mu \geq 0 \text{ } vs \text{ } H_a : \mu < 0$$ 만약 우리가 귀무 가설을 기각한다고 했을 때 제 1종 오류 확률은 얼마나 될까? 귀무 가설을 기각한다는 것은 $\mu < 0$인 경우이다. 실제로 $\mu$와 0을 비교하면 되지만 $\mu$를 알 수 없기 때문에 $\mu$의 점 추정량 $\bar{X}$와 비교를 해야한다. 귀무 가설을 기각하기 위해선 $\bar{X}$가 0보다 적당히 작으면 안될 것이고(Sampling Variance 때문에) 충분히 작아야할 것이다. 즉, $\bar{X}$가 특정값 $c$보다 작은 경우에 기각할 것이다. 이제 $\bar{X} < c$에서 귀무 가설을 기각한다고 했을 때 제 1종 오류 확률을 계산해보자. $$\begin{align} P(H_0 \text{ reject} | H_0 \text{ true}) &= P(\bar{X} < c|\mu\geq 0) = P\left( \frac{\bar{X}-\mu}{\sigma/\sqrt{n}}<\frac{c-\mu}{\sigma/\sqrt{n}}|\mu\geq 0\right) \\ &= P\left(Z<\frac{c-\mu}{\sigma/\sqrt{n}} |\mu\geq 0 \right) \end{align}$$ 세 번째 등식에서 $Z$는 표준 정규 분포를 따르는 확률 변수이다. 이때 확률값은 마지막 부등식은 $\mu=0$일 때 최대값이 된다. 즉, $$P\left(Z<\frac{c-\mu}{\sigma/\sqrt{n}} |\mu\geq 0 \right)\leq P\left(Z<\frac{c}{\sigma /\sqrt{n}} \right)$$ 위 수식을 해석하면 다음과 같다. $\bar{X} < c$에서 귀무 가설을 기각한다고 했을 때 제 1종 오류 확률의 최대값은 $P\left(Z<\frac{c}{\sigma /\sqrt{n}} \right)$라는 것이다. 이때 P Value는 $c=\bar{x}$인 경우로서 다음과 같이 계산된다. $$P - Value = P\left( Z < \frac{\bar{x}}{\sigma/\sqrt{n}} \right)$$ 이때 $\bar{x}/(\sigma/\sqrt{n})$는 검정 통계량 계산값인 것을 알 수 있다. 즉, P Value는 표본 평균값을 기준으로 기각한다고 했을 때 제 1종 오류 확률의 최대값인 것이다. 이제 P Value의 정의를 되새겨보자. P Value는 데이터가 말해주는 (최대) 제 1종 오류 확률이다. 위키백과나 인터넷 글을 보면 P Value를 귀무 가설이 참일 때 관측값보다 더 극단값을 가질 확률로 정의하는 것을 알 수 있다. 이는 P Value의 수식을 그대로 번역한 것에 불과하며 이렇게 정의하면 언뜻 P Value와 제 1종 오류와 관계가 없어보일 수도 있다. 이것이 왜 문제냐하면 P Value와 유의 수준을 비교할 때 비교하는 이유를 모를 수 있기 때문이다. 유의 수준은 제 1종 오류 확률의 최대 허용치인데 제 1 종 오류와 관련이 없어보이는 P Value와 도대체 왜 비교하는지 모를 수 있다는 것이다. P Value를 "데이터가 알려주는 (최대) 제 1종 오류 확률이다"라고 이해하는 것이 가설 검정 절차를 이해하는데 있어서 수월하다. 2.5 P Value와 유의수준 비교 및 의사 결정 P Value가 유의 수준 $\alpha$보다 크면 귀무 가설을 채택하고 작다면 귀무 가설을 기각한다. P Value가 유의 수준보다 크다는 것은 우리가 허용할 수 있는 제 1종 오류 확률을 넘어섰다는 의미이며 이는 실제로 제 1종 오류를 범할 가능성이 크다는 것이다. 따라서 이러한 오류를 범하는 것을 막기 위해 귀무 가설을 기각하면 안된다는 것이다. 따라서 귀무 가설을 기각하지 않는다. 반대로 P Value가 유의 수준보다 작다는 것은 귀무 가설을 기각한다고 해도 제 1종 오류 확률의 가능성이 낮기 때문에 이는 기각해도 무방하다는 뜻이다. 즉, 귀무 가설을 기각해도 좋다는 뜻이다. 아래 그림은 P Value가 유의 수준보다 큰 경우와 작은 경우에 대한 설명을 나타낸 것이다. 이번 포스팅에서는 가설 검정과 P Value에 대해서 알아보았다. 강의 준비할 때 공부하면서 준비했는데 가설 검정 개념을 다시 한번 새길 수 있어서 좋았다. 추후에 기회가 되면 통계 검정에 대해서 포스팅하려고 한다.

엑셀에서 p-value구하기

F-test는 F-통계량을 생성한다. p-value는 F-통계량과 관련돼있다.

=F.DIST.RT(x, degree_freedom1, degree_freedom2)

x: F-통계량 값

degree_freedom1: 분자 자유도

degree_freedom2: 분모 자유도

F-통계량에서 p-value를 구해본다.

F-통계량 5.4, 분자 자유도 2, 분모 자유도 9이다.

p-value는 0.02878이다.

F-통계량은 회귀모델(regression model)에서 가장 흔히 쓰인다.

회귀모델(regression model)에서 p-value를 구해본다.

예: F-통계량에서 p-value 구하기

위의 데이터에 대해 데이터> 데이터 분석> 회귀분석을 실시한다.

X -공부시간, 시험

Y – 점수

F-통계량은 5.090515

분자의 자유도 2,

분모의 자유도 9,

회귀분석에서 자동으로 구해준 p-value는 0.033202이다.

=F.DIST.RT(x, degree_freedom1, degree_freedom2) 함수를 써서 구해본 값과 동일하다.

키워드에 대한 정보 p value 구하기

다음은 Bing에서 p value 구하기 주제에 대한 검색 결과입니다. 필요한 경우 더 읽을 수 있습니다.

이 기사는 인터넷의 다양한 출처에서 편집되었습니다. 이 기사가 유용했기를 바랍니다. 이 기사가 유용하다고 생각되면 공유하십시오. 매우 감사합니다!

사람들이 주제에 대해 자주 검색하는 키워드 1-3 왜 유의할까? – 도대체 p-값(p-value)는 무엇인가? –

  • 통계
  • 기초통계학
  • 통알못
  • 유의
  • 유의하다
  • p-값
  • p-value
  • 0.05
  • 5%
  • 논문
  • 논문통계
  • 통계튜브

1-3 #왜 #유의할까? #- #도대체 #p-값(p-value)는 #무엇인가? #-


YouTube에서 p value 구하기 주제의 다른 동영상 보기

주제에 대한 기사를 시청해 주셔서 감사합니다 1-3 왜 유의할까? – 도대체 p-값(p-value)는 무엇인가? – | p value 구하기, 이 기사가 유용하다고 생각되면 공유하십시오, 매우 감사합니다.

See also  고 벽돌 타일 | 청고벽돌타일 셀프시공 초보용 242 개의 가장 정확한 답변

Leave a Comment