당신은 주제를 찾고 있습니까 “상관 계수 r – rstat101 week5 – 상관계수(correlation coefficient) 손으로 구하기“? 다음 카테고리의 웹사이트 https://you.charoenmotorcycles.com 에서 귀하의 모든 질문에 답변해 드립니다: https://you.charoenmotorcycles.com/blog. 바로 아래에서 답을 찾을 수 있습니다. 작성자 슬기로운통계생활 이(가) 작성한 기사에는 조회수 3,330회 및 좋아요 44개 개의 좋아요가 있습니다.
상관 계수 r 주제에 대한 동영상 보기
여기에서 이 주제에 대한 비디오를 시청하십시오. 주의 깊게 살펴보고 읽고 있는 내용에 대한 피드백을 제공하세요!
d여기에서 rstat101 week5 – 상관계수(correlation coefficient) 손으로 구하기 – 상관 계수 r 주제에 대한 세부정보를 참조하세요
이번 강의에서는 데이터가 주어졌을 때, 상관계수를 직접 손으로 구해봅니다.
또한 R 프로그램에서 제공하는 cor() 함수의 값이 어떻게 계산 되는지 이해합니다.
강의자료 사이트:
https://www.theissaclee.com/ko/courses/rstat101/week5/
상관 계수 r 주제에 대한 자세한 내용은 여기를 참조하세요.
상관 계수 | 통계 소개 – JMP
상관 계수는 상관관계 분석에서 두 변수 간에 선형 관계의 정도를 수량화하는 측도입니다. 계수는 상관관계 보고서에서 r로 기호화합니다. 상관 계수는 어떻게 사용되나요?
Source: www.jmp.com
Date Published: 10/24/2022
View: 4532
상관계수 :: R 기초 통계 – 마인드스케일
상관계수(correlation coefficient): 두 변수가 함께 변하는 정도를 -1 ~ 1 범위의 수로 나타낸 것. 피어슨 상관계수. 칼 피어슨(Karl Pearson)이 개발한 상관계수 …
Source: mindscale.kr
Date Published: 11/15/2021
View: 1770
[R] 상관관계 분석(Correlation Analysis)
상관계수 -> 피어슨(Pearson) R계수 이용 관련성 유무. 상관관계 분석척도 : 피어슨 상관계수(Pearson correlation coefficient : r). – 상관계수 r과 …
Source: kerpect.tistory.com
Date Published: 4/4/2022
View: 3714
상관 분석 – 위키백과, 우리 모두의 백과사전
… 를 상관관계(Correlation, Correlation coefficient)라 한다. 상관분석에서는 상관관계의 정도를 나타내는 단위로 모상관계수로 ρ를 사용하며 표본 상관 계수로 r …
Source: ko.wikipedia.org
Date Published: 10/17/2021
View: 7397
R) 통계-상관분석
R을 활용하여 두 변수간의 선형관계. 즉, 선형성(linearity)을 알아보는 상관분석에 대해 알아보자.
Source: datadoctorblog.com
Date Published: 7/3/2021
View: 1339
5.17 R로 상관계수(피어슨) 구하기 – 네이버 블로그
이번 포스팅에서는 두 변수의 선형적 관계를 수치적으로 파악할 수 있는 상관계수(피어슨 상관계수)를 R에서 구하는 방법을 알아볼려고 합니다.
Source: m.blog.naver.com
Date Published: 9/11/2021
View: 1249
상관계수 – 나무위키:대문
심지어 스피어만 상관 계수나 파이, r(b)같은 다른 상관계수들도 피어슨 상관계수의 변형이니 말 다했다.[3]이 상관계수는 측정하려는 두 변수의 상관관계 …
Source: namu.wiki
Date Published: 3/9/2021
View: 2125
[R] 상관분석(Correlation Analysis), [산점도, 공분산, 상관계수 …
[R] 상관분석(Correlation Analysis), [산점도, 공분산, 상관계수, 상관계수의 검정]. JKyun 2017. 3. 1. 18:07. 안녕하세요. 우주신입니다.Source: ordo.tistory.com
Date Published: 8/12/2021
View: 2441
R 상관분석 (R correlation test) – BioinformaticsAndMe
Pearson 상관분석은 변수들이 얼마나 직선적인 관계를 가지는지 분석하는 기법으로 상관계수를 이용하여 측정한다. # 상관계수: Correlation …
Source: bioinformaticsandme.tistory.com
Date Published: 2/25/2021
View: 1173
4. 상관계수 정리
상관계수(r) 공식 (피어슨 상관계수 – Pearson’s correlation coefficent). 공분산(Covariance) : 두 숫자형 변수가 같은 방향으로 움직이는 정도, …
Source: nittaku.tistory.com
Date Published: 3/4/2022
View: 9132
주제와 관련된 이미지 상관 계수 r
주제와 관련된 더 많은 사진을 참조하십시오 rstat101 week5 – 상관계수(correlation coefficient) 손으로 구하기. 댓글에서 더 많은 관련 이미지를 보거나 필요한 경우 더 많은 관련 기사를 볼 수 있습니다.
주제에 대한 기사 평가 상관 계수 r
- Author: 슬기로운통계생활
- Views: 조회수 3,330회
- Likes: 좋아요 44개
- Date Published: 2020. 3. 29.
- Video Url link: https://www.youtube.com/watch?v=pv24Hoh2BIQ
상관 계수
상관 계수란 무엇인가요?
상관 계수는 상관관계 분석에서 두 변수 간에 선형 관계의 정도를 수량화하는 측도입니다. 계수는 상관관계 보고서에서 r로 기호화합니다.
상관 계수는 어떻게 사용되나요?
변수 2개에 관한 공식은 변수 평균으로부터 각 데이터 점의 거리를 비교하고 이 값을 사용하여 변수 간 관계가 데이터를 통해 그려진 가상선에 얼마나 밀접하게 적합할 수 있는지 알려 줍니다. 상관관계가 선형 관계를 고려한다는 것이 바로 이것입니다.
고려해야 할 제한 사항은 무엇이 있나요?
상관관계는 가까운 변수 2개만 고려하며 이변량 데이터 이외의 관계를 파악하지 않습니다. 이 검정은 데이터에서 이상치를 감지하지 않으므로 이상치에 의해 왜곡될 수 있어 곡선 관계를 제대로 감지할 수 없습니다.
[R] 상관관계 분석(Correlation Analysis)
728×90
반응형
상관관계 분석(Correlation Analysis) – 관련성
: 변수 간 관련성 분석 방법으로 하나의 변수가 다른 변수와 관련성 분석하는 방법입니다.
ex) 광고비와 매출액 사이의 관련성 등 분석
* 상관분석 자세한 설명
더보기 확률론과 통계학에서 두 변수간에 어떤 선형적 관계를 갖고 있는 지를 분석하는 방법이다. 두변수는 서로 독립적인 관계로부터 서로 상관된 관계일 수 있으며, 이때 두 변수간의 관계의 강도를 상관관계(Correlation, Correlation coefficient)라 한다. 상관분석에서는 상관관계의 정도를 나타내는 단위로 모상관계수 ρ를 사용한다. 상관관계의 정도를 파악하는 상관계수(Correlation coefficient)는 두 변수간의 연관된 정도를 나타낼 뿐 인과관계를 설명하는 것은 아니다. 두 변수간에 원인과 결과의 인과관계가 있는지에 대한 것은 회귀분석을 통해 인과관계의 방향, 정도와 수학적 모델을 확인해 볼 수 있다.
상관 관계 분석 중요사항
– 회귀분석 전 변수 간 관련성 분석(가설 검정 전 수행)
– 상관계수 -> 피어슨(Pearson) R계수 이용 관련성 유무
상관관계 분석척도 :
피어슨 상관계수(Pearson correlation coefficient : r)
– 상관계수 r과 상관관계 정도
기술 통계량 구하기
– 데이터 가져오기
result <- read.csv("C:/workspaces/R/data/product.csv", header=TRUE) head(result) # 친밀도 적절성 만족도(등간척도 - 5점 척도) - 출력값 - 제품_친밀도 제품_적절성 제품_만족도 1 3 4 3 2 3 3 2 3 4 4 4 4 2 2 2 5 2 2 2 6 3 3 3 - 기술 통계량 summary(result) # 요약통계량 - 출력값 - 제품_친밀도 제품_적절성 제품_만족도 Min. :1.000 Min. :1.000 Min. :1.000 1st Qu.:2.000 1st Qu.:3.000 1st Qu.:3.000 Median :3.000 Median :3.000 Median :3.000 Mean :2.928 Mean :3.133 Mean :3.095 3rd Qu.:4.000 3rd Qu.:4.000 3rd Qu.:4.000 Max. :5.000 Max. :5.000 Max. :5.000 sd(result$제품_친밀도); sd(result$제품_적절성); sd(result$제품_만족도) - 출력값 - [1] 0.9703446 [1] 0.8596574 [1] 0.8287436 sd 표준편차 : 평균을 기준으로 분포되어있는 정도를 보여줍니다. 상관계수(coefficient of correlation) : 두 변량 X,Y 사이의 상관관계 정도를 나타내는 수치(계수) cor(result$제품_친밀도, result$제품_적절성) 출력값 : 0.4992086 -> 다소 높은 양의 상관관계 cor(result$제품_친밀도, result$제품_만족도) 출력값 : 0.467145 -> 다소 높은 양의 상관관계
전체 변수 간 상관계수 보기
cor(result, method=”pearson”)
방향성 있는 색상으로 표현
install.packages(“corrgram”) library(corrgram) corrgram(result) # 색상 적용 – 동일 색상으로 그룹화 표시
수치(상관계수) 추가(위쪽)
corrgram(result, upper.panel=panel.conf)
수치(상관계수) 추가(아래쪽)
corrgram(result, lower.panel=panel.conf)
차트에 밀도 곡선, 상관성, 유의확률(별표) 추가
install.packages(“PerformanceAnalytics”) library(PerformanceAnalytics)
– 상관성, p값(*), 정규분포 시각화 – 모수 검정 조건
chart.Correlation(result, histogram=, pch=”+”)
spearman : 서열척도 대상 상관계수
cor(result, method=”spearman”)
728×90
반응형
위키백과, 우리 모두의 백과사전
상관 분석(相關 分析, Correlation analysis)은 확률론과 통계학에서 두 변수 간에 어떤 선형적 관계를 갖고 있는 지를 분석하는 방법이다. 두 변수는 서로 독립적인 관계이거나 상관된 관계일 수 있으며 이때 두 변수간의 관계의 강도를 상관관계(Correlation, Correlation coefficient)라 한다. 상관분석에서는 상관관계의 정도를 나타내는 단위로 모상관계수로 ρ를 사용하며 표본 상관 계수로 r 을 사용한다.
상관관계의 정도를 파악하는 상관 계수(相關係數, Correlation coefficient)는 두 변수간의 연관된 정도를 나타낼 뿐 인과관계를 설명하는 것은 아니다. 두 변수간에 원인과 결과의 인과관계가 있는지에 대한 것은 회귀분석을 통해 인과관계의 방향, 정도와 수학적 모델을 확인해 볼 수 있다.
기본 가정 [ 편집 ]
선형성: 두 변인 X와 Y의 관계가 직선적인지를 알아보는 것으로 이 가정은 분포를 나타내는 산점도를 통하여 확인할 수 있다.
동변량성: X의 값에 관계없이 Y의 흩어진 정도가 같은 것을 의미한다. 이분산성이 반대어이다.
두 변인의 정규분포성: 두 변인의 측정치 분포가 모집단에서 모두 정규분포를 이루는 것이다.
무선독립표본: 모집단에서 표본을 뽑을 때 표본대상이 확률적으로 선정된다는 것이다.[1]
분석 방법 [ 편집 ]
단순히 두 개의 변수가 어느 정도 강한 관계에 있는가를 측정하는 단순상관분석(simple correlation analysis), 2개 이상의 변수간 관계 강도를 측정하는 다중상관분석(multiple correlation analysis)이 있다. 다중상관분석에서 다른 변수와의 관계를 고정하고 두 변수의 관계 강도를 나타내는 것을 편상관분석(partial correlation analysis)이라고 한다.
이때 상관관계가 0<ρ≤+1 이면 양의 상관, -1≤ρ<0 이면 음의 상관, ρ=0이면 무상관이라고 한다. 하지만 0인 경우 상관이 없다는 것이 아니라 선형의 상관관계가 아니라는 것이다. 피어슨 상관 계수 [ 편집 ] 피어슨 상관 계수(Pearson correlation coefficient 또는 Pearson's r)는 변수들간의 관련성을 구하는 이변량 상관분석(bivariate analysis 또는 bivariate correlation analysis)에서 보편적으로 이용된다. 개념은 다음과 같다. r = X와 Y가 함께 변하는 정도 / X와 Y가 각각 변하는 정도 결과의 해석 r 값은 X 와 Y 가 완전히 동일하면 +1, 전혀 다르면 0, 반대방향으로 완전히 동일 하면 –1 을 가진다. 결정계수(coefficient of determination)는 r 2 {\displaystyle r^{2}} 로 계산하며 이것은 X 로부터 Y를 예측할 수 있는 정도를 의미한다. 일반적으로 r이 -1.0과 -0.7 사이이면, 강한 음적 선형관계, r이 -0.7과 -0.3 사이이면, 뚜렷한 음적 선형관계, r이 -0.3과 -0.1 사이이면, 약한 음적 선형관계, r이 -0.1과 +0.1 사이이면, 거의 무시될 수 있는 선형관계, r이 +0.1과 +0.3 사이이면, 약한 양적 선형관계, r이 +0.3과 +0.7 사이이면, 뚜렷한 양적 선형관계, r이 +0.7과 +1.0 사이이면, 강한 양적 선형관계 로 해석한다. 스피어만 상관 계수 [ 편집 ] 스피어만 상관 계수(Spearman correlation coefficient)는 데이터가 서열척도인 경우 즉 자료의 값 대신 순위를 이용하는 경우의 상관 계수로서, 데이터를 작은 것부터 차례로 순위를 매겨 서열 순서로 바꾼 뒤 순위를 이용해 상관 계수를 구한다. 두 변수 간의 연관 관계가 있는지 없는지를 밝혀주며 자료에 이상점이 있거나 표본크기가 작을 때 유용하다. 스피어만 상관 계수는 -1과 1 사이의 값을 가지는데 두 변수 안의 순위가 완전히 일치하면 +1이고, 두 변수의 순위가 완전히 반대이면 -1이 된다. 예를 들어 수학 잘하는 학생이 영어를 잘하는 것과 상관있는지 없는지를 알아보는데 쓰일 수 있다. 크론바흐 알파 계수 신뢰도 [ 편집 ] 크론바흐 알파 계수(Cronbach's alpha)의 신뢰도 계수 α는 검사의 내적 일관성을 나타내는 값으로서 한 검사 내에서의 변수들 간의 평균상관관계에 근거해 검사문항들이 동질적인 요소로 구성되어 있는지를 분석하는 것이다. 동일한 개념이라면 서로 다른 독립된 측정 방법으로 측정했을 때 결과가 비슷하게 나타날 것이라는 가정을 바탕으로 한다. 예를 들어 설문지 조사의 경우, 같은 내용의 질문을 다른 형태로 반복하여 질문한 다음 같게 대답했는지를 검사하여 신뢰도를 알아 볼 수 있다. 일반적으로는 요인분석을 하여 요인들을 추출하고 이들 요인들이 동질 변수들로 구성되어 있는지를 확인할 때 이용한다. 사전조사나 같은 속성의 질문을 반복하여 신뢰도를 높일 수 있다. 같이 보기 [ 편집 ]
R) 통계-상관분석
R을 활용하여 두 변수간의 선형관계. 즉, 선형성(linearity)을 알아보는 상관분석에 대해 알아보자.
Statistics
※ bike.csv 다운받기 [클릭]
개요
상관분석은 두 변수간 선형 관계(linear relationship, 직선적 관계)가 존재하는지, 존재하면 얼마나 강한지 알아보는 알아보는 분석 기법이다. 상관분석을 한다고 하면 보통 피어슨 상관계수(Pearson’s Correlation Coefficient)를 떠올린다. 하지만 피어슨 상관계수 말고도 어떤 속성의 자료간 비교가 이루어지는가에 따라서 알맞는 분석 기법을 선택해야 한다. 다음의 표를 참고하도록 하자.
Quantitiative Ordinal Nominal Quantitiative Pearson’s Biserial Point Biserial Ordinal Biserial Spearman/Kendall Rank Biserial Nominal Point Biserial Rank Biserial Phi, L, C Lambda
상관계수의 값에 따른 두 연속형 변수의 대략적인 분포는 다음과 같다. 모양이 직선에 가까울수록 1 또는 -1에 가까워짐을 알 수 있다.
※ 출처: https://en.wikipedia.org/wiki/Pearson_correlation_coefficient
Pearson’s Correlation
정식 명칭은 피어슨의 곱적률 상관(Pearson’s product-moment correlation)은 두 변수의 선형 관계가 존재할 경우 그 관계가 얼마나 강한지 알 수 있는 값이며 두 변수가 연속형 양적 변수일 경우에 사용가능한 방법이다. 상관계수는 공분산으로 부터 유도되며, 이를 제곱하는 경우 단순선형회귀의 결정계수와 같다. 그리고 상관계수의 값 범위는 -1 에서 1사이 이며 부호가 양수인 경우 “양의 상관 관계” 음수인 경우 “음의 상관 관계” 라고 한다.
이론
피어슨 상관계수는 다음과 같이 계산한다.
$$r = \frac{\sum{(x_i – \bar{x})(y_i – \bar{y})}}{\sqrt{\sum{(x_i – \bar{x})^2 \times \sum{(y_i – \bar{y})^2}}}}$$
검정통계량 t는 다음과 같이 계산한다.
$$t = \frac{r\sqrt{n – 2}}{\sqrt{1 – r^2}}$$
p-value는 $2 \times P(T>t)$로 계산하며 여기서 T는 자유도가 n – 2인 t 분포를 따른다.
가설
● 귀무가설($𝐻_0$): 두 변수간 선형관계가 존재하지 않는다. (r = 0)
● 대립가설($𝐻_1$): 두 변수간 선형관계가 존재한다. (r ≠ 0)
Spearman’s Correlation
스피어만 상관분석은 두 변수가 순서형 변수일 경우에 사용가능한 방법이며 두 변수가 정규성을 따르지 않는 경우에도 사용할 수 있는 비모수적 방법이다. 상관계수는 각 변수의 순위를 매긴 후 그 순위의 차를 활용하여 계산한다. 그리고 상관계수의 값 범위는 -1 에서 1사이 이며 부호가 양수인 경우 “양의 상관 관계” 음수인 경우 “음의 상관 관계” 라고 한다.
이론
스피어만 상관계수는 다음과 같이 계산한다.
$$\rho = 1 – \frac{6\sum{d_i ^2}}{n^3 – n}$$
검정통계량 t는 다음과 같이 계산한다.
$$t = \frac{\rho\sqrt{n – 2}}{\sqrt{1 – \rho^2}}$$
가설
● 귀무가설(𝐻_0): 두 변수간 선형관계가 존재하지 않는다. (rho = 0)
● 대립가설(𝐻_1): 두 변수간 선형관계가 존재한다. (rho ≠ 0)
Kendall Correlation
상관분석은 두 변수가 순서형 변수일 경우에 사용가능한 방법이며 두 변수가 정규성을 따르지 않는 경우에도 사용할 수 있는 비모수적 방법이다. 그리고 상관계수의 값 범위는 -1 에서 1사이 이며 부호가 양수인 경우 “양의 상관 관계” 음수인 경우 “음의 상관 관계” 라고 한다.
이론
켄달 상관계수는 다음과 같이 계산한다.
$$\tau_A = \frac{n_c – n_d}{n_0}, \, \tau_B = \frac{n_c – n_d}{\sqrt{(n_0 – n_1)(n_0 – n_2)}}$$
$$ \begin{align} n_0 &= n(n – 1)/2\\ n_1 &= \sum{t_i(t_i – 1)/2}\\ n_2 &= \sum{u_j(u_j – 1)/2}\\ n_c &= Number\,of\,concordant\,pairs\\ n_d &= Number\,of\,discordant\,pairs\\ t_i &= Number\,of\,tied\,values\,in\,the\,i^th\,group\,of\,ties\,for\,the\,first\,quantity\\ u_j &= Number\,of\,tied\,values\,in\,the\,j^th\,group\,of\,ties\,for\,the\,second\,quantity\\ \end{align} $$
$$\tau_C = \frac{2(n_c – n_d)}{n^2 \frac{m – 1}{m}}$$
$$ \begin{align} n_c &= Number\,of\,concordant\,pairs\\ n_d &= Number\,of\,discordant\,pairs\\ r &= Number\,of\,rows\\ c &= Number\,of\,columns\\ m &= min(r,c)\\ \end{align} $$
검정통계량 z는 다음과 같이 계산한다.
$$z_A = \frac{3(n_c – n_d)}{\sqrt{n(n – 1)(2n + 5) / 2}}, \, z_B = \frac{n_c – n_d}{\sqrt{v }}$$
$$ \begin{align} v &= (v_0 – v_t – v_u)/18 + v_1 + v_2\\ v_0 &= n(n – 1)(2n + 5)\\ v_t &= \sum{t_i(t_i – 1)(2t_i + 5)}\\ v_u &= \sum{u_j(u_j – 1)(2u_j + 5)}\\ v_1 &= \sum{t_i(t_i – 1)}\sum{u_j(u_j – 1)/2n(n – 1)}\\ v_2 &= \sum{t_i(t_i – 1)(t_i – 2)}\sum{u_j(u_j – 1)(u_j – 2)}/(9n(n – 1)(n – 2))\\ \end{align} $$
가설
● 귀무가설(𝐻_0): 두 변수간 선형관계가 존재하지 않는다. (tau = 0)
● 대립가설(𝐻_1): 두 변수간 선형관계가 존재한다. (tau ≠ 0)
실습
데이터 준비
“bike.csv” 데이터를 읽어오자
※ 포스팅 상단에서 다운로드 받을 수 있다.
1
2
3
4
5
df = read.csv( “bike.csv” )
head(df, 2 )
cor() 함수
간단하게 상관계수를 확인하려면 cor() 함수를 쓸 수 있다.
1
2
cor(df$temp, df$atemp)
기온과 체감온도는 매우 높은 양의 상관관계가 있다는 것을 알 수 있다. 그리고 기본적으로 계산되는 상관계수는 피어슨 상관계수이다. cor() 함수는 총 3개의 상관분석을 제공하는데 피어슨 상관계수가 기본값이며 “kendall” 또는 “spearman”을 method 인자에 할당하면 캔달 또는 스피어만 상관분석을 실시할 수 있다.
순서형 데이터로 간주할 수 있는 weather 변수와 humidity 변수를 대상으로 순위 상관분석을 실시하고 그 상관계수를 확인하는 코드는 다음과 같다.
1
2
3
4
5
cor(df$weather, df$humidity, method = “kendall” )
cor(df$weather, df$humidity, method = “spearman” )
그리고 여러 변수를 한 번에 넣게되면 상관계수 행렬을 산출해주며 이 결과를 활용하여 향후 상관계수행렬도(correlation coefficient plot)를 그리는데 활용할 수 있다.
1
2
3
4
5
cor(df[, c( “temp” , “atemp” , “casual” )])
cor.test() 함수
단순히 상관계수를 산출하는 것이 아닌 가설검정을 하여 제대로 p-value까지 확인하고싶다면 cor.test() 함수를 사용하면 된다.
1
cor.test(df$temp, df$atemp)
Pearson’s product-moment correlation data: df$temp and df$atemp t = 594.48, df = 10884, p-value < 2.2e-16 alternative hypothesis: true correlation is not equal to 0 95 percent confidence interval: 0.9843763 0.9854992 sample estimates: cor 0.9849481 여기서 p-value가 2.2e-16으로 매우 작다. 이는 유의수준 5%로 검정할 경우 귀무가설을 기각하고 대립가설을 채택하여 산출된 피어슨 상관계수 0.9849481이 유의미하다고 할 수 있다.
5.17 R로 상관계수(피어슨) 구하기
피어슨 상관계수를 구할 때, 몇 가지 기본 가정들이 성립해야 정확한 측정값을 구할 수 있으며, 기본 가정은 다음과 같습니다.
– 동변량성 : X의 값에 관계없이 Y의 흩어진 정도가 같은 것을 의미한다. 이분산성이 반대어이다.
– 두 변수의 정규성 : 두 변인의 측정치 분포가 모집단에서 모두 정규분포를 이루는 것이다.
– 무선독립표본 : 모집단에서 표본을 뽑을 때 표본대상이 확률적으로 선정된다는 것이다.
여기서 가장 중요한 가정은 “두 변수의 정규성”인데 기본적으로 두 변수가 모두 정규분포인 것이 바람직하지만 한가지 예외가 있는데 한 변수가 범주가 단 두 개뿐인 범주형변수이면 두 변수의 정규성가정을 무시할 수 있습니다. 또한 변수가 구간 수준에서 측정한 것이 아니면, 다른 종류의 상관계수나 부트스트랩 방법을 이용할 수도 있습니다.3)
3. R로 피어슨 상관계수 구하기
R에는 피어슨 상관계수를 구할 수 있는 cor() 함수, cor.test() 함수가 기본적으로 내장되어 있으며 Hmisc 패키지에 rcorr() 함수를 통해 구할 수도 있습니다. 다만 이들 함수들의 결과값과 스피어만이나 켄달 상관계수를 구할 때는 사용할 수 없는 함수도 있습니다. 아래 표는 위의 3개 함수 특성을 비교한 것이니 참고하시길 바랍니다.
[R] 상관분석(Correlation Analysis), [산점도, 공분산, 상관계수, 상관계수의 검정]
안녕하세요. 우주신 입니다.
이번 포스팅과 다음 포스팅에서는 매우 중요한 상관분석(correlation analysis)과 회귀분석(regression analysis)에 대해 정리해보겠습니다.
plot(), corrplot(), cov(), cor(), cor.test()
우리는 종종 어떤 두 사건 간의 연관성을 분석해야 할 경우가 많습니다. 둘 또는 그 이상의 변수들이 서로 관련성을 가지고 변화할 때 그 관계를 분석하는데 사용되는 방법 중에서 가장 잘 알려진 것이 상관분석(correlation analysis)과 회귀분석(regression analysis)입니다.
GDP와 기대수명 간의 관계, 키와 몸무게 간의 관계 등을 예로 들 수 있는데 여기에서 두 사건, 즉 두 변수 간의 선형적 관계를 상관(correlation)이라고 하며, 이러한 관계에 대한 분석을 상관분석(correlation analysis)이라고 합니다.
먼저 상관분석에 쓸 데이터를 불러서 확인해보겠습니다.
df <- read.csv("http://goo.gl/HKnl74") 그대로 복사해서 데이터프레임 df에 입력하시면 됩니다. str() 함수를 통해 항상 데이터 구조를 확인하는 습관! 놀이동산에 대한 만족도가 주말이용여부, 동반자녀수, 놀이공원까지의 거리, 놀이기구에 대한 만족도, 게임에 대한 만족도, 대기시간에 대한 만족도, 청결상태에 대한 만족도 그리고 전체만족도로 구성되어 있습니다. 상관분석을 할 때 결측값(NA)가 있으면 결과가 NA 값이 나오게 되므로 이를 꼭 확인하여 처리해야 합니다. (결측값 처리는 http://ordo.tistory.com/19를 확인) 다행히도, 이번 데이터프레임에는 결측값이 하나도 없네요~ 그럼, 저는 '놀이기구에 대한 만족도(rides)'와 '전체만족도(overall)' 간의 관계 를 분석해보겠습니다. 아마도 놀이기구에 대한 만족도가 높으면 전체 만족도 또한 높지 않을까 예상을 해보면서, 산점도(scatterplot)부터 그려보겠습니다. 1. 산점도(Scatter plot) https://ko.wikipedia.org/wiki/산점도 상관계수를 파악하기 전에 우선, 산점도(scatterplot)로부터 두 변수 간에 관련성을 그림을 이용하여 시각적으로 파악할 수 있습니다. plot(Y~X) 함수의 Y, X에 변수를 입력하면 위와 같이 산점도가 그려집니다. 대략 봤을 때, 양의 관계를 이루고 있는 것 같죠? 좀 더 그림을 이쁘게 그려본다면, -main="Overall~Rides": 그림의 main 제목 입력 -xlab="Satisfaction with Rides": x축 레이블 입력 -ylab="Overall Satisfaction": y축 레이블 입력 -cex=1: 출력되는 점들의 크기 결정 -pch=1: 출력되는 점의 형태 (기본형태는 빈원) -col='red': 색상 지정 그 외에 -xlim=: x축 값의 출력범위 지정 -ylim=: y축 값의 출력범위 지정 -lty: 출력되는 선의 형태를 지정 2. 공분산(Covariance) 및 상관계수(Correlation Coefficient) 산점도 이용하면 두 변수간의 직선적인 관계를 개략적으로 파악할 수는 있지만, 두 변수 사이의 관계를 보다 정확히 숫자로 나타낼 수 없기 때문에 공분산 및 상관계수를 이용합니다. 공분산 은 2개의 확률변수의 상관정도를 나타내는 값인데, 만약 2개의 변수 중 하나의 값이 상승하는 경향을 보일 때 다른 값도 상승하면 공분산의 값은 양수, 반대로 다른 값이 하강하는 경향을 보이면 공분산의 값은 음수가 나옵니다. cov() 함수를 통해 공분산 값을 쉽게 구할 수 있습니다. 50.82939는 양수이므로 두 변수 간의 상관관계는 상승하는 경향이라고 이해할 수 있죠? 그러나 공분산은 상관관계의 상승 혹은 하강하는 경향을 이해할 수는 있으나 2개 변수의 측정 단위의 크기에 따라 값이 달라지므로 절대적 정도를 파악하기에는 한계가 있습니다. 즉 50.82939가 어느정도의 양의 상관관계인지를 가늠하기가 쉽지 않습니다. 이 때, 공분산을 표준화 시킨 상관계수를 통해 파악할 수 있습니다! cor( ) 함수를 통해 두 변수 간의 선형관계의 강도를 알 수 있습니다. -use='complete.obs': 결측값을 모두 제거된 상태에서 상관계수를 계산 -method='pearson': 피어슨 상관계수 지정 (가장 많이 사용) 나머지 기능들은 ?cor 입력하여 더 자세히 보시기 바랍니다. 상관계수는 -1 ~ 1 사이의 값을 가지며 0일 경우에는 두 변수 간의 선형관계가 전혀 없다는 것을 뜻 합니다. 보통 0.3과 0.7 사이이면, 뚜렷한 양적 선형관계로 0.7과 1.0 사이이면, 강한 양적 선형관계로 간주하니, 위에 나온 0.5859 상관계수 값을 통해 놀이기구에 대한 만족도와 전체 만족도는 뚜렷한 양적 선형관계를 이루고 있다고 볼 수 있습니다. 주의할 점은 특이 값에 민감하게 반응하기 때문에 데이터 값에 항상 주의를 기울여야 합니다. 또한 상관관계는 두 변수 간의 관련성을 의미할 뿐, 원인과 결과의 방향을 알려주지는 못 합니다. 3. 상관계수의 검정 상관계수의 가설 검정은 cor.test() 함수를 사용하면 됩니다. 귀무가설 "상관관계가 없다"에 대한 검정 결과 p-value < 2.2e-16 값이 나왔으므로 귀무가설을 기각 할 수 있음을 알 수 있습니다. 그 외에 검정통계량의 값(t), 95% 신뢰구간, 표본상관계수 등을 확인할 수 있습니다. 4. 그 외 이번에는 전체만족도와 놀이기구에 대한 만족도, 게임에 대한 만족도, 대기시간에 대한 만족도, 청결상태에 대한 만족도 간의 상관관계를 한 눈에 파악해보겠습니다. 변수를 지정하여 산점도를 나타내봤습니다. 그 후, cor() 함수를 통해 상관계수를 나타냈습니다. 'corrplot' 패키지에 들어있는 corrplot() 함수를 통해 한 눈에 시각적으로 파악했습니다. 끝. 다음 시간에는 회귀분석에 대해 다뤄보겠습니다. 수고하셨습니다~
R 상관분석 (R correlation test)
R 상관분석 (R correlation test ) Start.
BioinformaticsAndMe
# R을 이용한 상관분석(correlation test)을 시작해보자.
(상관분석에 대한 개념정리는 아래의 ‘Statistic’ 카테고리에 있으니, 먼저 선행하고 오면 좋을 듯하다..!)
http://bioinformaticsandme.tistory.com/58?category=808983
# Pearson 상관분석은 변수들이 얼마나 직선적인 관계를 가지는지 분석하는 기법으로 상관계수를 이용하여 측정한다.
# 상관계수: Correlation coefficient
# 아이리스 예제데이터 불러오기
> attach(iris)
# cor() 함수 사용하여 상관계수 확인
> cor(Sepal.Length, Petal.Width)
[1] 0.8179411# Pearson 상관계수: 0.8179
# cor.test() 함수로 Sepal.length와 Petal.Width간 상관계수 및 p-value, 신뢰구간을 구할 수 있다.
> cor.test(Sepal.Length, Petal.Width)
Pearson’s product-moment correlation
data: Sepal.Length and Petal.Width
t = 17.2965, df = 148, p-value < 2.2e-16 alternative hypothesis: true correlation is not equal to 0 95 percent confidence interval: 0.7568971 0.8648361 sample estimates: cor 0.8179411 # iris 데이터의 4가지 변수에 대해서 (Species를 제외한) 상관계수를 구해보자. > head(iris) Sepal.Length Sepal.Width Petal.Length Petal.Width Species 1 5.1 3.5 1.4 0.2 setosa 2 4.9 3.0 1.4 0.2 setosa 3 4.7 3.2 1.3 0.2 setosa 4 4.6 3.1 1.5 0.2 setosa 5 5.0 3.6 1.4 0.2 setosa 6 5.4 3.9 1.7 0.4 setosa
#4×4 상관계수 행렬 ( 자기자신과의 상관계수는 항상 1이므로 대각선 element의 값은 모두 1.0000 )
> cor( iris[, 1:4] ) Sepal.Length Sepal.Width Petal.Length Petal.Width Sepal.Length 1.0000000 -0.1175698 0.8717538 0.8179411 Sepal.Width -0.1175698 1.0000000 -0.4284401 -0.3661259 Petal.Length 0.8717538 -0.4284401 1.0000000 0.9628654 Petal.Width 0.8179411 -0.3661259 0.9628654 1.000000
#시각화
pairs( iris[, 1:4] )
# 상관분석시, 결측치(Missing value)가 존재하는 경우 ##############
> iris.na.test <- iris[ ,1:4] > iris.na.test[1, 1] <- NA > iris.na.test[3, 2] <- NA > iris.na.test[4, 3] <- NA > head(iris.na.test)
Sepal.Length Sepal.Width Petal.Length Petal.Width
1 NA 3.5 1.4 0.2
2 4.9 3.0 1.4 0.2
3 4.7 NA 1.3 0.2
4 4.6 3.1 NA 0.2
5 5.0 3.6 1.4 0.2
6 5.4 3.9 1.7 0.4
# cor() 함수의 결과는 모두 결측치를 반환한다. (NA가 연산에 포함되는 순간 그 결과값은 무조건 NA다.)
> cor( iris.na.test ) Sepal.Length Sepal.Width Petal.Length Petal.Width Sepal.Length 1 NA NA NA Sepal.Width NA 1 NA NA Petal.Length NA NA 1 NA Petal.Width NA NA NA 1
# 결측치(NA)가 존재하는 데이터 row 벡터를 삭제하는 방법 > cor( iris.na.test, use=” complete.obs “) Sepal.Length Sepal.Width Petal.Length Petal.Width Sepal.Length 1.0000000 -0.1094799 0.8678973 0.8121441 Sepal.Width -0.1094799 1.0000000 -0.4246671 -0.3610068 Petal.Length 0.8678973 -0.4246671 1.0000000 0.9615075 Petal.Width 0.8121441 -0.3610068 0.9615075 1.0000000
# 결측치(NA)가 존재하는 위치에서의 연산만 넘어가는 방법 > cor( iris.na.test, use=” pairwise.complete.obs “)
Sepal.Length Sepal.Width Petal.Length Petal.Width Sepal.Length 1.0000000 -0.1097160 0.8696945 0.8169612 Sepal.Width -0.1097160 1.0000000 -0.4299167 -0.3654865 Petal.Length 0.8696945 -0.4299167 1.0000000 0.9624433 Petal.Width 0.8169612 -0.3654865 0.9624433 1.0000000
R 상관분석 (R correlation test ) End.
BioinformaticsAndMe
키워드에 대한 정보 상관 계수 r
다음은 Bing에서 상관 계수 r 주제에 대한 검색 결과입니다. 필요한 경우 더 읽을 수 있습니다.
이 기사는 인터넷의 다양한 출처에서 편집되었습니다. 이 기사가 유용했기를 바랍니다. 이 기사가 유용하다고 생각되면 공유하십시오. 매우 감사합니다!
사람들이 주제에 대해 자주 검색하는 키워드 rstat101 week5 – 상관계수(correlation coefficient) 손으로 구하기
- ADP/ADsP
- 데이터자격시험
- 대학통계
- 상관계수
rstat101 #week5 #- #상관계수(correlation #coefficient) #손으로 #구하기
YouTube에서 상관 계수 r 주제의 다른 동영상 보기
주제에 대한 기사를 시청해 주셔서 감사합니다 rstat101 week5 – 상관계수(correlation coefficient) 손으로 구하기 | 상관 계수 r, 이 기사가 유용하다고 생각되면 공유하십시오, 매우 감사합니다.