상관 관계 분석 사례 | 상관관계분석의 의미 (논준모) 215 개의 새로운 답변이 업데이트되었습니다.

당신은 주제를 찾고 있습니까 “상관 관계 분석 사례 – 상관관계분석의 의미 (논준모)“? 다음 카테고리의 웹사이트 you.charoenmotorcycles.com 에서 귀하의 모든 질문에 답변해 드립니다: https://you.charoenmotorcycles.com/blog. 바로 아래에서 답을 찾을 수 있습니다. 작성자 논준모연구소 이(가) 작성한 기사에는 조회수 15,812회 및 좋아요 173개 개의 좋아요가 있습니다.

Table of Contents

상관 관계 분석 사례 주제에 대한 동영상 보기

여기에서 이 주제에 대한 비디오를 시청하십시오. 주의 깊게 살펴보고 읽고 있는 내용에 대한 피드백을 제공하세요!

아래 동영상 보기

d여기에서 상관관계분석의 의미 (논준모) – 상관 관계 분석 사례 주제에 대한 세부정보를 참조하세요

논문에서 상관관계분석의 의미는 뭘까요?

상관 관계 분석 사례 주제에 대한 자세한 내용은 여기를 참조하세요.

상관 관계 분석 사용 사례 | Adobe Analytics

시장에서 적합한 종속 상관관계를 정의하는 것은 상관분석의 본질입니다. 이러한 사용 사례에서는 Pearson 상관 계수의 과학에 적용된 상관 계수(correlation point)로 …

+ 여기에 더 보기

Source: experienceleague.adobe.com

Date Published: 12/11/2022

담뱃값 오르면 흡연율 낮아질까? 상관관계vs.인과관계, 헷갈리죠

이번 글에서는 현실 속에서 자주 혼동하는 상관관계와 인과관계를 다양한 사례와 … 잘 반영하는가는 입시 성적과 입학 후 성적의 상관관계를 통해 분석할 수 있다.

+ 여기를 클릭

Source: dbr.donga.com

Date Published: 6/13/2022

[SPSS 리서치] 11. 상관관계 분석 (correlation)

상관관계(correlation) 분석은 연구 대상인 변수들간의 관련성을 분석하기 … 이를 보다 잘 이해하기 위하여 실제 사례를 가지고 같이 상관계수를 …

+ 여기에 보기

Source: sooupforlee.tistory.com

Date Published: 5/6/2021

상관 계수 공분산 상관분석 사례 상관관계 분석 사례 공분산 공식

상관 계수 공분산 상관분석 사례 상관관계 분석 사례 공분산 공식. 댐벼봐라 2019. 10. 2. 00:17. – 상관 계수 공분산. 공분산Covariance과 상관계수Correlation.

+ 여기에 보기

Source: tico87862.tistory.com

Date Published: 2/1/2022

상관관계 분석의 의의(correlation analysis) – KOCw

상관관계분석의 사례. ✓ 예시. – 오성 카드 회사는 카드 수와 외식빈도 사이에. 관계가 있는지,. 있다면 어느 정도의 관련성을 지니는지 알아보고자.

+ 자세한 내용은 여기를 클릭하십시오

Source: contents2.kocw.or.kr

Date Published: 7/15/2022

11장 상관관계분석.hwp

상관관계분석은 두 연속변수 간의 선형관계의 강도와 방향을 기술하기 위해 … 제한된 범위의 사례를 사용한 상관계수는 전체 범위의 상관계수와 다른 경우가 많다.

+ 여기를 클릭

Source: mm.inje.ac.kr

Date Published: 11/21/2021

상관관계분석 > 통계연구 | KSI 02 3394 7223 – 새롬

⑤ Spearman의 R계수는 사례수가 많거나 두 변수간의 순위의 차이가 커서 계산이 길 때 사용합니다. ⑥ Kendall`s tau(캔달의 타우)도 독립변수와 종속변수가 서열척도로 …

+ 여기에 더 보기

Source: www.6025.co.kr

Date Published: 10/23/2022

[통계] 상관관계 사례 논문 분석 – 네이버 블로그

상관관계 사례 논문 분석. 최인호 외 (2011). 신문의 대기업 호의보도와 광고의 상관관계. 한국언론학보, 55(3), 248-270. ※ 초록 발췌.

+ 더 읽기

Source: m.blog.naver.com

Date Published: 9/8/2022

13. 상관분석

데이터 내의 두 변수간의 관계를 알아보기 위한 분석방법이며 상관계수를 이용 … 상관관계의 유무, 정도에 따라 회귀분석 실시 … 상관분석의 사례.

+ 더 읽기

Source: analysis-flood.tistory.com

Date Published: 10/8/2021

주제와 관련된 이미지 상관 관계 분석 사례

주제와 관련된 더 많은 사진을 참조하십시오 상관관계분석의 의미 (논준모). 댓글에서 더 많은 관련 이미지를 보거나 필요한 경우 더 많은 관련 기사를 볼 수 있습니다.

주제에 대한 기사 평가 상관 관계 분석 사례

Author: 논준모연구소
Views: 조회수 15,812회
Likes: 좋아요 173개
Date Published: 2016. 4. 21.
Video Url link: https://www.youtube.com/watch?v=yzUHSZg95Pg

새로운 검색, 검색 기능 개선

상관 관계 분석 사용 사례

시장에서 적합한 종속 상관관계를 정의하는 것은 상관분석의 본질입니다.

이러한 사용 사례에서는 Pearson 상관 계수의 과학에 적용된 상관 계수(correlation point)로 관계를 식별하는 기술을 강조합니다.

소셜 미디어 및 웹 사이트 상관 관계

디지털 게시자는 소셜 미디어 활동과 웹 사이트 방문 간 잠재적인 관계에 대한 이해를 극대화하려고 합니다. 예를 들어 디지털 게시자는 2주 동안 시간별 Twitter 언급 및 방문 간 상관 관계 보고서를 실행합니다. 상관 관계는 r = 0.28이며, Twitter 언급 및 웹 사이트 방문 간의 중간, 긍정적인 관계를 나타냅니다.

E-소매업체를 위한 최적화

E-소매업체에서는 매출 증가에 관심을 보이고 있습니다. 예를 들어, e-retail에서는 많은 보조 성공 이벤트(예: 파일 다운로드, 제품 세부 사항 페이지 보기, 내부 검색 클릭스루 등)를 비교하려고 합니다. 주간 웹 매출. 또한 최적화 영역을 나타낼 수 있는 가장 높은 상관 관계(r = 0.46)를 갖는 내부 검색 클릭스루를 빠르게 식별할 수 있습니다.

담뱃값 오르면 흡연율 낮아질까? 상관관계vs.인과관계, 헷갈리죠

Article at a Glance –자기계발

미국에서 조사된 결과를 보면 대학 졸업 여부와 소득 사이에는 상관관계가 존재한다. 즉 대학 졸업자는 대체로 소득이 높은 경향을 보인다. 하지만 상관관계를 인과관계와 혼동해서는 안 된다. 즉 두 요인 사이에 상관성이 있다고 해서 그것을 원인과 결과로 치환할 수 있다고 착각해서는 안 된다. 예컨대 대학을 나와야 소득이 높아진다고 해석하는 것은 오류다. 실제로는 소득이 높아서 대학에 진학한 것일 수도 있고, 대학을 안 나와도 높은 소득을 얻을 수도 있다. 상관관계와 인과관계를 명확히 구분해야 하는 이유다.

담뱃값이 2500원에서 4500원으로 무려 80% 인상된 지 한 달여가 지났다. 정부는 OECD 국가들보다 높은 흡연율을 낮추고 국민건강을 증진시키기 위해 부득이 담뱃값을 올릴 수밖에 없다고 주장한다. 이 말 속에는 담뱃값과 흡연율 사이에 상관관계는 물론 인과관계까지 존재한다는 판단이 들어 있다. 즉 담뱃값과 흡연율은 상관이 있으며 담뱃값을 인상하면 흡연율을 낮출 수 있다는 것이다. 과연 그럴까? 여러 나라들의 실제 사례를 보면 담뱃값과 흡연율 사이에는 어느 정도 상관이 있는 것으로 나타나고 있다. 하지만 담뱃값이 오르면 흡연율이 낮아지는지에 대한 인과적 결론은 나지 않은 상태다. 흡연율은 담뱃값 인상율의 폭과 경제상황, 개인소득 등 다른 요인에 의해서도 영향을 받기 때문이다. 예를 들어 과거에 담뱃값이 2000원에서 2500원으로 인상된 것과 이번처럼 2500원에서 4500원으로 크게 인상된 것은 전혀 다른 상황이다. 더욱이 경기가 활성화되고 소득이 높아지는 상황에서의 담뱃값 인상과 요즘처럼 경제가 어렵고 고용이나 개인소득이 불안한 상황에서의 인상은 그 영향이 전혀 다를 것이다. 이번 글에서는 현실 속에서 자주 혼동하는 상관관계와 인과관계를 다양한 사례와 함께 다뤄본다. 1)

사람들은 이것과 저것이 ‘관계가 있다’ 혹은 ‘관계가 없다’라는 표현을 자주 쓴다. 통계적으로 어떤 것들끼리의 관계는 상관관계로 나타낸다. 상관관계는 어떤 변수가 증가할 때 다른 변수가 함께 증가하는지, 혹은 감소하는지 관찰해서 파악한다. 예를 들어 체중과 신장 사이에는 양의 상관관계가 있다고 할 수 있다. 키가 커지면 대체적으로 체중이 증가한다는 의미다. 어떤 상품의 가격과 수요 사이에는 음의 상관관계가 있다고 할 수 있다. 가격이 오르면 대개 그 상품에 대한 수요가 줄어든다. 이런 상관관계가 얼마나 밀접한가는 상관계수로 표시하는데 상관계수는 -1에서 1까지의 값을 갖는다. 상관계수가 음수면 음의 상관을, 반대로 양수면 양의 상관을 갖는다. 상관계수가 0이라면 서로 관계가 전혀 없음을 의미한다. 2)

꽤 오래 전부터 사람들은 상관관계의 개념을 이해하고 생활에 적용해 왔던 것 같다. 그중에서도 주로 여러 가지 현상을 설명하기 위한 하나의 방법으로 그것을 그전에 일어났던 다른 사건과 관련시켜왔다. 그렇게 해서 좋은 일이나 나쁜 일에 대한 징조를 미리 알고 대처하려는 목적이었을 것이다. 소크라테스는 재채기를 그의 악처(惡妻)가 발작하는 조짐으로 믿어서 재채기가 나기 무섭게 집을 빠져나갔다고 한다. 유사한 경험이 다른 사람에게도 반복되면 특정 개인으로부터 시작된 조짐이 모든 사람에게 해당되는 징조로 발전한다. 거울이 깨지면 나쁜 일이 일어난다든지, 상여가 지나가는 것을 보면 좋은 일이 일어난다든지 하는 믿음이 그 예다. 상관관계에 대한 추측이 더 많이 축적된 경험을 바탕으로 상당히 세련된 체계를 갖추게 될 때도 있다. 별들의 움직임과 세상의 일을 관련짓는 점성술을 비롯해 골상(骨相), 수상(手相), 관상(觀相), 족상(足相) 등이 그 예다. 그중에서도 주역(周易)은 출생의 사주(四柱)가 동양사상의 근본이 되는 음양(陰陽)이론과 접목되면서 가장 세련되고 정교한 체계를 갖춘 것으로 볼 수 있다.

상관관계가 활용되는 사례는 많다. 예를 들어 자동차보험에 가입하려면 먼저 운전자에 대한 여러 가지 정보를 제공해야 한다. 그중에서도 나이, 성별, 결혼 여부 등은 보험료를 산정하는 데 중요한 기준이 된다. 나이가 25세 미만이면 보험료가 올라가고 운전자가 여자라면 보험료가 낮아진다. 왜일까? 나이와 성별이 사고율과 상관관계를 갖기 때문이다. 즉 젊을수록 사고율이 높고 여자들은 남자에 비해 사고를 덜 낸다. 대학 입시에서는 내신 성적과 수학능력시험이 함께 고려된다. 과연 어떤 성적이 학생의 학력을 더 잘 반영하는가는 입시 성적과 입학 후 성적의 상관관계를 통해 분석할 수 있다. 최근 한 대학교 학생들을 대상으로 조사한 연구에 따르면 내신 성적이 대학에서의 성적과 상관관계가 더 높게 나타났다. 다른 대학의 자료에서도 유사한 결과가 나온다면 수학능력시험을 굳이 치르지 않고 내신 성적만으로 입시가 충분하다는 주장의 근거가 될 수도 있다.

인과관계의 조건

발이 큰 사람에게는 종종 도둑놈 발을 가졌다는 말을 한다. 확인할 길은 없지만 아마도 과거에 도둑 중에는 발 큰 사람이 많았다는 인식이 전해진 탓일 것이다. 비슷한 예로 코가 크면 무엇도 크다는 말이 있다. 이런 상관관계는 구체적인 자료로 입증되지 않은 우스갯소리에 불과할 수도 있고 오랫동안 축적된 경험에 근거한 상관관계로 볼 수도 있다. 하지만 이 말 속에는 어떤 인과관계가 암시돼 있지는 않는 듯하다. 발이 크니까 도둑이 될 것이라든가, 코가 크니까 그것이 클 것이라든가 하는 말을 심각하게 받아들이는 사람은 없을 것이다.

관상에서 나온 말이지만 거의 상식처럼 받아들여지는 말 중에 ‘인중(人中)이 길면 오래 산다’는 말이 있다. 인중이란 코와 윗입술 사이의 오목한 부분을 말한다. 이 말을 어떻게 해석할 수 있을까? ‘오래 사는 사람 중에는 인중이 긴 사람이 많다’고 해석하면 단순히 둘 사이에 상관관계가 있다는 것을 인정하는 것이다. 그러나 ‘인중이 긴 사람은 오래 산다’고 해석한다면 둘 사이의 인과관계를 가정하고 있는 것이다. 그렇다면 상관관계는 원인과 결과의 관계를 나타내는 것일까? 절대 아니다! 상관관계는 어떤 것들 사이의 관계가 밀접하다는 것을 나타낼 뿐이며 어느 것이 원인이고 어느 것이 결과인지에 대해서는 아무 증거를 제공하지 않는다. 문제는 상관관계를 제대로 이해하지 못하는 사람들이 종종 상관관계가 인과관계를 나타낸다고 추측하는 데 있다. 즉 상관이 있으면 그중 하나가 원인이 되고 다른 것은 그 원인으로 인해 생기는 결과라고 해석하는 잘못을 범하는 것이다.

1) 이 글에 제시되는 사례들은 필자의 졸저 <우리가 정말 알아야할 통계상식 백가지(현암사, 1996)>와 <괴짜 통계학(한국경제신문, 2008)>을 참조.

2) 상관계수는 선형(線形: linear) 상관만 측정하므로 상관계수가 0이라는 말은 선형관계가 존재하지 않는다는 의미와 같다.

인과관계는 매우 복잡한 개념으로 학자들의 견해도 다양하게 변해왔다. 그중에서도 철학자 밀(John S. Mill)은 인과관계 성립조건으로 다음의 3가지를 제시했다. 3) 첫째, 원인이 결과보다 시간적으로 앞서야 하고, 둘째, 원인과 결과는 관련이 있어야 하며, 셋째, 결과는 원인이 되는 변수만으로 설명이 돼야 하고 다른 변수에 의한 설명은 제거돼야 한다는 것이다. 그러나 이런 조건들이 만족됐다 하더라도 그것은 인과관계를 추론하는 데 합리적 근거가 될 수는 있지만 인과관계의 존재가 입증됐다고 할 수는 없다. 다른 데이터로부터 축적된 유사한 결과와 연구자의 경험적인 판단이 인과관계를 확인하는 데 중요한 추가적 역할을 한다. 이 과정에서 사람들은 단순한 상관관계를 인과관계로 해석하는 오류를 많이 범한다.

현실에서 아무렇게나 고른 두 변수를 조사했을 때 두 변수가 전혀 관계 없는 경우보다 작게라도 상관관계를 나타내는 경우가 더 흔하다.

우연한 상관관계

두 개의 변수들은 상관관계를 갖지만 4) 그저 우연의 일치일 뿐 서로 인과관계가 없을 때도 많다. 다시 말해 현실에서 아무렇게나 고른 두 변수를 조사했을 때 두 변수가 전혀 관계 없는 경우보다 작게라도 상관관계를 나타내는 경우가 더 흔하다. 통계학에서는 이를 허위(spurious) 관련성이라고 하는데 이런 상관을 확인하려면 다음의 변수들을 연도별로 조사해서 상관관계를 구해보면 된다. 담배소비량, 피부암 환자 수, 청소원의 월급, 단층촬영기계의 수, 의치 생산량, 대학생 총수 등등. 놀랍게도 이들 변수 간에는 대부분 상관관계가 존재할 것이다. 이런 상관관계는 대부분 우연에 의해 얻어지는 상관일 뿐이다. 문제는 이런 상관관계를 어떤 인과관계가 있는 것처럼 해석할 때 생긴다.

인과관계를 잘못 판단한 가장 엉터리 주장의 예를 들어보자. 미국의 한 과학자는 남자아이들의 지능과 바지 길이 사이에 아주 높은 상관관계가 있다는 것을 알아냈다. 그래서 그는 남자아이들의 지능을 높일 수 있는, 비교적 적은 비용의 방법으로 바지 길이를 늘리라고 제안했다. 아무리 숫자에 자신이 없는 수문맹인 사람이라도 이 제안이 어딘가 이상하다는 것을 느낄 수 있을 것이다. 미니스커트 길이와 경기상황과는 상관관계가 있다. 심지어는 이를 이용해서 미니스커트의 길이로 그해의 경기를 예측하기도 한다. 즉 미니스커트 길이가 무릎 위로 올라갈수록 경기가 좋아지고 반대로 무릎 아래로 내려갈수록 경기가 나빠질 것이라고 예측한다. 여기에 그럴듯한 이유까지 덧붙인다. 치마길이는(혹은 노출의 정도는) 여자들의 낙관적인 혹은 비관적인 전망의 상대적인 정도를 나타낸다고 억측하고, 또한 소비의 많은 부분은 여자들에 의해 결정되므로 여성들의 전망에 따라 경기 방향이 결정된다는 것이다. 실제로 스커트 길이와 경기지수 사이에 상관관계가 입증됐는지는 확인할 수 없으나 만약 상관이 있더라도 그것은 그저 우연일 뿐이다.

뉴스거리를 찾는 언론에 상관관계는 흥미 있는 기삿거리가 된다. 담뱃값과 흡연율이 관계를 갖는다든지, 태양의 흑점활동과 테러리스트의 활동이 관계를 갖는다든지, 학교 성적과 사회에서의 성공 사이에 상관이 있다든지, 흡연이 성생활에 관련이 있다든지 하는 것은 주간지 지면을 최소한 한두 면 차지할 만하다. 그러나 이런 기사의 대부분은 그저 흥밋거리로 읽는 것에 족하다. 이런 상관관계에 지나치게 관심을 갖거나 이를 토대로 인과관계를 가정하는 것은 현명하지 못하다. 우연한 상관은 너무나 흔하기 때문이다.

인과관계의 조건 중 하나가 원인은 결과에 앞서 발생한다는 것이다. 그러나 이는 여러 조건 중 하나일 뿐이며 따라서 이 조건을 만족한다고 해도 인과관계가 있다고 단정 지을 수는 없다. 즉 A가 일어난 다음 B가 일어났다고 해서 A가 B의 원인이라고 결론짓는 것은 명백한 오류이며 이를 전후인과의 오류(post hoc fallacy)라고 한다. 벽에 나란히 걸려 있는 두 개의 시계 A, B가 있다고 하자. 시계 A가 시간을 알리면 이어서 시계 B도 땡땡땡 종을 울린다. 그렇기 때문에 시계 A가 원인으로 작용해 시계 B가 종을 친다고 생각하는 것이 바로 이 오류다. 우리가 흔히 쓰는 표현에 ‘오비이락(烏飛梨落)’, 즉 ‘까마귀 날자 배 떨어진다’라는 말이 있다. 까마귀가 날아간 후에 우연히 배가 떨어졌을 뿐이지 까마귀가 원인이 돼서(배를 쪼아서) 배가 떨어진 것으로 생각하면 안 된다. 시간적 발생에 따라 인과를 해석하려는 오류를 경계해야 한다. 이런 경고에도 불구하고 전후인과의 오류는 종종 일어난다.

‘닭 모가지를 비틀어도 새벽은 온다’라는 말이 있다. 예전에 민주화를 위해 투쟁하던 많은 사람들이 고난을 겪을 때 믿고 의지하며 구호처럼 사용하던 말이다. 닭이 운 다음에 새벽이 오니까 새벽이 오지 않게 하려고 닭 목을 비튼다면 전후인과의 오류를 범하는 것이다. 민주화는 역사적 순리에 따라 이뤄지게 돼 있으므로 민주화 투사를 탄압한다고 민주화를 막을 수 있는 것은 아니다. 그러나 전후인과의 오류가 쉽게 두드러지지 않으면 이런 오류에 설득당하기 쉽다. 한 학자가 흡연을 하는 학생의 대학 성적이 비흡연 학생에 비해 나쁜가를 공들여 조사한 적이 있다. 5) 조사결과 그렇다는 사실이 드러났다. 이 결과는 많은 사람들에게(특히 금연운동가들) 흡연의 단점을 강조하는 데 중요한 근거로 활용됐다. ‘성적을 올리려면 담배를 끊어라’든가, 혹은 조금 과장해서 ‘담배는 지능을 저하시킨다’고 주장했다. 이런 주장을 어떻게 받아들여야 할까? 첫째, 이런 상관관계가 별 의미 없는, 우연한 것일 수 있다. 둘째, 상관관계가 우연한 것이 아니라면 인과관계를 추정하는 데 있어 전후인과의 오류를 범하고 있을 수도 있다. 흡연하기 때문에 성적이 나빠졌다는, 그래서 흡연이 성적 불량의 원인이라고 일방적으로 판단하는 것은 문제다. 반대의 결론도 얼마든지 생각해볼 수 있다. 즉 성적 불량을 고민하면서 담배를 물기 시작했을 수도 있다. 상호작용의 가능성도 있다. 성적 불량이 흡연으로 이어지고, 흡연은 다시 성적 불량을 부르는 구조다. 그 외에도 제3의 요인들이 작용할 수 있다. 예를 들어 사교적인 사람, 외향적인 사람은 흡연을 할 확률이 더 높을 것이며 이런 사람들은 외부 활동에 많이 참여하다 보니 공부를 소홀히 할 수 있다. 이런 경우들을 하나씩 생각해보자.

3) Cook, Thomas D. and Donald T. Campbell(1979), Quasi-Experimentation, Boston: Houghton Mifflin Co., 18쪽.

4) 여기서부터 언급되는 상관관계는 모두 통계적으로 유의한(significant) 상관관계를 말한다.

5) Huff, Darrell(1954), How to Lie with Statistics, New York: Norton & Company Inc., 87쪽.

인과관계의 방향

흡연과 성적 불량에 인과관계가 있다면 흡연이 성적 불량의 원인이 아니라 성적 불량이 흡연의 원인이라고 인과관계를 반대로 해석할 수 있다. 이런 결론은 금연주의자들의 금연 운동에는 도움이 안 되겠지만 충분히 가능한 해석이다. 이처럼 상관관계가 있다고 할 때 흔히 생각하는 것과 반대방향으로 인과관계가 작용할 수도 있다는 것을 알아야 한다. 한 스포츠 평론가가 칼럼에서 승률이 낮은 대학의 미식축구팀은 감독을 너무 쉽게 해고한다고 주장했다. 6) 주장을 뒷받침하기 위해 그는 감독을 자주 바꾼 대학이 한 사람이 오래 감독한 대학보다 승률이 낮다는 통계자료를 제시했다. 이 논리가 맞는 것일까? 감독을 바꾸는 것이 잦은 패배의 원인이 될 수는 없다. 원인과 결과가 반대로 자리 잡은 셈이다. 즉 팀이 지면 그 다음 해 감독을 갈아 치울 확률이 높기 때문에 감독의 해고는 연패(連敗)의 결과라고 봐야 한다.

원인과 결과가 사람들의 생각과 반대방향으로 작용하지만 그것이 쉽게 드러나지 않을 때도 있다. 미국 통계를 보면 대학 졸업 여부와 소득 사이에 상관관계가 높은 것으로 입증돼 있다. 7) 그렇지 않은 유명 인사들의 예외도 적지 않지만 이 상관은 일반적으로 매우 높고 명백한 것으로 인식된다. 사람들은 이 상관관계를 보고 대학을 나온 사람이 소득이 높은 것은 대학을 나왔기 때문이라고 생각한다. 과연 그럴까? 반대로 소득이 높기 때문에 대학을 나왔다고 해석할 수도 있다. 이를 입증해주는 사실도 있다. 미국에서 대학을 가는 학생에는 두 종류가 있다. 머리가 좋거나 집이 부유한 학생이다. 머리가 좋은 학생은 대학에 가지 않더라도 높은 소득을 올릴 수 있는 능력을 가졌을 것이다. 부유한 집안의 학생은 대학에 가든 그렇지 않든 어차피 고소득층에 포함될 것이다.

승용차가 한 대 있는 가정에서 차를 한 대 더 구입한다고 하자. 상식적으로는 차량당 주행거리가 줄어들 것이라고 생각된다. 그러나 실제로는 그렇지 않다. 미국의 통계를 보면 가정의 차량 보유대수가 늘면 차량당 평균주행거리도 증가하는 것으로 나타난다. 8) 사람들은 이 상관관계를 ‘차량보유대수가 늘어날수록 차를 몰고 싶은 마음이 증가한다’고 해석한다. 하지만 실제로는 그 반대로 해석하는 편이 자연스럽다. 즉 운전을 많이 하는 가정에서 차량 사용의 필요성이 크고 그래서 차를 한 대 더 구입하는 것이다.

이혼이 많이 늘어서 이제는 결혼하는 3쌍 중 한 쌍이 이혼을 한다. 그런데 이혼을 하면 8∼10년 일찍 죽는다는 조사 결과가 방송과 신문의 지면을 장식하면서 화제가 된 적이 있다. 1999년 삼육대 사회복지학과의 천성수 교수가 대한보건협회 학술지에 발표한 논문에 따르면 이혼 남녀의 평균수명이 배우자가 있는 남녀보다 8∼10년 짧은 것으로 조사됐다. 이 연구는 1995년 인구센서스 자료, 인구동태 자료, 사망원인, 통계연보, 생명표 등을 자료로 했다. 분석한 결과를 보면 남성의 평균수명은 배우자가 있는 경우 75세, 이혼자 65세, 여성의 평균수명은 배우자가 있는 경우 79세, 이혼자 71세로 이혼 남녀의 평균수명이 남자는 10년, 여자는 8년이 짧았다. 논문을 쓴 천성수 교수는 이 같은 평균수명 차이의 원인에 대해 ‘이혼자는 심리적 갈등을 해소할 기회가 적기 때문’이라고 분석했다.

하지만 평균수명 차이를 다른 각도에서 해석할 수도 있다. 이 논문은 사망한 사람들을 배우자가 있는 사람과 이혼한 사람으로 나눠서 평균수명을 분석했다. 조사대상자(사망자)의 평균수명을 70세로 보고 이 사람들의 결혼 연령을 평균 30세로 본다면 이들은 40년 전, 그러니까 1950년대 후반에 결혼을 했을 것이다. 이혼은 결혼 후 10년 안쪽에서 많이 이뤄지니까 이혼한 시기는 대개 1960년대 중반 정도라고 볼 수 있다. 그 시절을 한번 생각해 보자. 그 시절엔 이혼이 그리 많지 않았다. 이혼하면 난리가 나는 것처럼 생각되던 시절이었고 웬만한 일에도 여자가 삼종지도의 인내력을 발휘하며 참던 시절이었다. 그 시절에 실제로 이혼을 했다는 것은 결혼을 지속할 수 없는 어떤 중대한 이유가 있었을 것으로 생각할 수 있다. 그리고 그 이유 중에는 배우자의 건강상 문제도 중요한 비중을 차지했을 것이다. 그렇다면 논문 결과의 해석을 반대로 할 수도 있다. 이혼을 해서 일찍 사망한 것이 아니라 원래 건강상의 문제로 이혼을 했고 그래서 일찍 사망한 것일 수도 있다. 이렇게 추정하는 것이 이혼 당시의 관습적 상황을 고려할 때 더욱 설득력이 있지 않을까?

상관관계가 있지만 어느 것이 원인이고 어느 것이 결과인지 명백하지 않을 때가 있다. 원인과 결과가 시간에 따라 뒤바뀌기도 하고 양쪽이 동시에 원인이면서 결과일 수도 있다. 광고와 매출액 사이에는 상관관계가 있다. 흔히 사람들은 광고를 많이 하면 매출액이 증가한다고 생각한다. 그러나 두 변수는 서로 상호작용을 해서 원인도 되고 결과도 된다고 해석하는 것이 현실에 더 가깝다. 즉 광고가 매출액을 증가시키면 다시 매출액 증가로 인해 광고비를 더 지출할 수 있는 여유가 생기고 광고를 더 많이 한다. 따라서 초기에는 광고가 매출액 증가의 원인일 수 있지만 나중에는 매출액 증가가 광고 증가의 원인이 되는 것이다. 개인소득과 개인이 보유한 주식의 수 사이에는 상관관계가 있다. 이 상관관계도 원인과 결과가 상호작용을 하는 것으로 해석해야 한다. 즉 소득이 많을수록 주식을 많이 사고, 주식을 많이 사면 배당 등으로 인해 소득이 늘어날 것이다. 이런 상호작용이 연속적으로 일어나므로 소득이나 주식 보유 수는 원인도 되고 결과도 될 수 있다.

남태평양에 있는 뉴 헤브리디스(New Hebrides) 섬 주민들은 몸의 이가 건강의 원인이라고 믿고, 건강하려면 몸에 이를 많이 지녀야 한다고 생각했다. 9) 건강한 사람에게는 이가 있지만 환자에게는 이가 없는 경우가 많다는 과거 수세기에 걸친 경험과 관찰을 토대로 이런 결론을 내린 것이다. 그러나 나중에 판명된 바에 따르면 이 섬에는 이가 득실거려서 대부분의 사람들이 몸에 이를 지니고 있었다. 그러다 이가 옮기는 열병에 걸리면 체온이 올라가서 이가 살기 어려운 조건이 되므로 이가 환자의 몸에서 달아난다. 즉 건강하면 이가 꼬이고, 이가 열병을 옮기고, 열병이 이를 쫓아내고, 이가 없어지면 열병이 낫고, 건강해지면 다시 이가 꼬이는 순환이 반복되므로 원인과 결과가 뒤죽박죽 엉킨다. 뉴 헤브리디스 섬의 주민들보다 불충분한 정보를 갖고 잘못된 인과관계를 추정하는 일이 우리 생활 속에서도 종종 일어난다. 심지어는 전문성이 있는 학술연구에서도 이런 일이 벌어진다. 명확한 상관관계가 존재하더라도 인과관계를 추정하는 것은 이처럼 쉽지 않은 일이다.

6) Hooke, Robert(1983), How to Tell the Liars from the Statisticians, Marcel Dekken Inc., 132쪽.

7) Huff, Darrell, 앞의 책, 93쪽.

8) Campbell, Stephen(1974), Flaws and Fallacies in Statistical Thinking, New Jersey: Prentice Hall Inc., 170쪽.

9) Huff, Darrell, 앞의 책, 98쪽.

원인은 다른 곳에

두 변수 사이에 상관관계가 있더라도 원인은 숨겨진 다른 곳에 있는 경우도 있다. 이런 경우에는 상관관계로부터 상식과 동떨어진 원인을 추정하기 쉽다. 실제로는 다른 요인이 원인이고 상관성을 보이는 두 변수는 단지 결과로서 나타나는 현상일 뿐인 경우다. 대표적인 사례가 한 도시에서 아이스크림 판매량이 늘면 익사사고율이 높아지는 관계다. 아이스크림을 먹어서 익사자가 증가하는 것은 아니고 그 반대는 더더욱 아니다. 사실은 폭염 때문에 아이스크림 판매와 익사자가 증가하는 것이다. 다른 예를 들어보자. 교회 수가 늘어나면 범죄 발생률이 높아진다. 교회가 범죄 증가의 원인이라는 말인가? 진짜 원인은 인구 증가에 있다. 인구가 늘면 교회가 많아지고 범죄도 증가하는 것이다. 마찬가지로 경찰관 수가 증가하면 범죄가 늘지만 이것 역시 인구가 증가할 때 나타나는 현상이다. 라인 강변에 있는 프랑스 도시 스트라스부르그(Strasburg)에서는 황새의 둥지 수와 출생률 사이의 상관관계가 높은 것으로 나타났다. 10) 그렇다고 이 상관관계가 ‘황새가 어린아이를 물어온다’는 옛 전설을 뒷받침해주는 것은 아니다. 단지 인구가 증가하면 출생률이 상승하고, 주택이 많아지므로 황새가 둥지를 틀 곳도 많아지는 것뿐이다.

앞에서 남자아이들의 지능과 바지 길이 사이에 아주 높은 상관관계가 존재한다는 사례를 언급했다. 이와 비슷하게 아이들 신발의 크기와 지능도 높은 상관을 나타낸다. 하지만 이것 역시 다른 원인이 작용했을 가능성이 높다. 나이가 들수록 아이들의 신발은 커지고 바지는 길어진다. 이와 비례해서 지능도 높을 가능성이 높다. 차를 마시는 사람들은 폐암에 걸릴 확률이 낮다고 한다. 차의 어떤 성품이 폐암에 걸리는 것을 막아주는 것은 아니다. 단지 차를 마시는 사람들은 담배를 덜 피우기 때문에 폐암의 위험에 덜 노출될 뿐이다.

미국 메사추세츠 장로교 목사의 월급과 쿠바 하바나의 럼(rum)주 가격 사이에는 높은 상관관계가 있다. 목사들이 술 무역으로 돈을 벌고 있다고 생각하면 어리석은 일이다. 세월의 흐름에 따라 거의 모든 물가와 월급은 올라가기 마련이다. 공립 도서관 수와 마약 사범도 상관관계를 갖지만 이들 역시 시간의 흐름에 따라 증가한다. 우리나라의 냉장고 보급률과 위암 환자의 수 사이에도 큰 상관관계가 있다. 냉장고에서 보관된 음식을 먹는 것이 위암의 원인이 된다고 생각한다면 역시 어리석은 일이다. 소득이 올라가면서 냉장고 보급이 늘고, 평균수명이 높아지고, 의료서비스가 확산되면서 당국에 보고되는 위암 환자의 수가 증가하는 것이다. 역시 시간의 흐름이라는 제3의 요인이 작용한 결과다.

한 의학논문에서 우유를 마시면 암에 걸릴 확률이 높아진다는 놀라운 결과를 발표한 적이 있다. 11) 우유가 많이 생산되고 소비되는 미국 동북부와 중부, 남부의 여러 주, 스위스에서는 암이 놀랄 만큼 자주 발생하는데 우유를 마시지 않는 스리랑카에서는 암이 거의 발생하지 않는다는 것이 이 논문의 근거자료였다. 또한 우유를 많이 마시는 영국 여자들이 거의 마시지 않는 일본 여자들보다 18배나 더 많이 암에 걸린다는 사실이 증거에 추가됐다. 그러나 조금만 파헤쳐 보면 이런 결과는 다른 요인으로 설명할 수 있다는 것을 알 수 있다. 암이란 중년 이후에 걸리기 쉬운 병이다. 처음 예를 든 미국 여러 주나 스위스는 평균수명이 길어서 노년층이 많은 공통점을 갖고 있었다. 조사 당시 영국 여자들의 평균수명도 일본 여자들보다 12년이나 길었다. 평균수명이 길면 당연히 암에 걸리는 사람 수가 많아질 수밖에 없다.

상관관계가 인과관계를 명백히 나타내더라도 그것을 해석할 때는 주의해야 한다. 흡연자가 비흡연자에 비해 폐암에 걸릴 확률이 높다는 것은 사실이다. 즉 흡연이 폐암을 유발할 가능성이 높다. 그러나 문제는 이런 사실을 너무 단순화해서 성급화게 일반화하는 것이다. 다시 말해 흡연이 폐암 발생의 유일한 원인인 것처럼 해석해서는 안 된다는 것이다. 폐암 환자 중에는 흡연을 전혀 하지 않는 사람이 15%나 된다는 사실에 비춰볼 때, 폐암의 원인에는 여러 가지 다른 중요한 원인이 있을 수 있다. 미국 암협회 대변인이 폐암으로 인한 사망자 수의 감소는 담배 소비의 감소와 관계가 있다고 발표한 적이 있다. 12) 그는 금연이 폐암으로 인한 사망 감소의 유일한 원인인 것처럼 말했다. 그러나 담배 소비 감소 이외에도 다른 중요한 원인들이 폐암으로 인한 사망 감소에 작용했을 수 있다. 공장의 공기오염물질 배출 규제, 자동차 배기가스 규제, 공기여과기를 이용한 사무실과 집에서의 공기 정화, 건강에 대해 높아진 관심과 정기적인 건강 진단으로 인한 폐암 조기 발견, 폐암 치료방법의 발달 등도 폐암으로 인한 사망을 줄이는 데 한몫을 담당했을 것이다.

성급한 단순화의 오류 중에 가장 대표적인 것은 ‘사용 전’ ‘사용 후’의 사진을 보여주는 광고다. 신문이나 잡지에 흔히 등장하는 비만치료에 대한 광고에는 사용 전의 뚱뚱한 모습과 사용 후의 날렵한 모습이 확연하게 차이를 보인다. 두 사진의 인물이 동일한 사람인지 확인하기도 어렵고 대부분 사용 전 사진은 흐리기 일쑤다. 이런 광고는 변화의 유일한 원인이 특정 치료제(또는 치료방법)라고 주장한다. 사진에 등장한 사람이 이 치료제 외에 살을 빼기 위해 동시에 행한 여러 가지 노력(식사조절, 운동 등)의 공(功)은 언급하지 않는다. 이런 왜곡적인 주장은 광고뿐 아니라 정치인의 주장이나 사람들 사이의 대화에도 흔히 나타나므로 그것을 있는 그대로 받아들이지 않도록 주의를 기울여야 한다.

사실 인과관계가 성립하기 위해서는 기본적으로 엄격한 조건을 만족해야 한다. 그러나 이런 조건들이 만족됐다고 하더라도 인과관계의 존재가 입증됐다고는 할 수 없다. 연구자의 경험적인 판단과 다른 데이터로부터 축적된 유사한 결과가 이 인과관계를 확인하는 데 추가적으로 중요한 역할을 차지한다.

10) Campbell, Stephen, 앞의 책, 173쪽.

11) Huff, Darrell, 앞의 책, 95쪽.

12) Mauro, John(1992), Statistical Deception at Work, New Jersey: LEA, Inc., 75쪽.

김진호 서울과학종합대학원 빅데이터 MBA 주임교수

[SPSS 리서치] 11. 상관관계 분석 (correlation)

728×90

1. 상관관계 분석의 필요성

상관관계(correlation) 분석은 연구 대상인 변수들간의 관련성을 분석하기 위하여 사용됩니다. 즉 한 변수와 다른 변수와 어느 정도 관련성을 가지고 같이 변화하는지의 정도를 분석하는 목적으로 사용됩니다. 예를 들어서 광고량과 판매량을 각각 비율척도로 입력하여 상관관계 분석을 하거나, 광고량(광고비로 입력한 비율척도)과 제품에 대한 만족도(5점 등간 척도)를 대상으로 상관관계 분석이 이루어질 수 있습니다. 이처럼 두개 변수간의 상관관계를 나타내는 것을 ‘단순상관관계’라고 합니다. 단순상관관계를 분석하는 것만으로도 관리자는 효과적인 의사결정에 필요한 기본적 자료를 얻을 수 있습니다. 일예로 만일 광고량과 제품에 대한 만족도간에 별다른 관련성이 없다면, 고객의 불만이 증가할 때 광고를 늘리는 것은 그다지 현명한 전략이 아닐 것입니다.

상관관계의 분석에 사용되는 변수들은 반드시 등간척도나 비율척도처럼 연속성을 가지고 있는 변수들을 가지고 분석이 이루어집니다. 즉 자동차의 모델명(명목척도)과 연비(비율척도) 간의 상관관계는 이루어질 수 없습니다. 그 이유는 명목 척도는 평균이나 분산을 가질 수 없으므로, 통계적 추정이 필요한 상관관계가 불가능하기 때문입니다.

2. 상관관계 분석의 이해

변수들간의 관련성이 높다 혹은 낮다는 것은 어떻게 측정이 가능할까요? 변수들간의 상호관련성, 즉 상관은 특정 변수의 분산이 다른 변수의 분산과 같이 변화하는 정도에 따라 결정됩니다. 이처럼 같이 같이 공명하며 변동하는 분산을 공분산이라고 합니다.

아래 그림에서 보듯, 같이 변동하는 정도가 적을수록 상관관계는 낮아지면, 같이 변동하는 정도가 클수록 상관관계는 높아집니다. 이때 상관관계의 정도를 나타내주는 것이 상관계수인데, 전혀 상관이 없을 경우의 상관계수는 0이지만, 완전히 변동하는 부분이 일치하는 경우의 상관계수는 -1 혹은 1입니다. 즉 상관계수는 -1 ~ 1 사이의 값을 같습니다.

제시된 산포도를 기준으로 가상적 예를 살펴보면, 학생의 학습시간에 따라 성적이 정확하게 비례하여 증가하는 경우 +1의 완전한 상관관계를 보이고 있지만, 시외버스의 운행 간격과 성적은 상관관계가 거의 존재하지 않는 0의 상관관계를 보입니다. 반면에 학생의 온라인 게임을 즐기는 시간에 비례하여 성적이 정확하게 감소하는 경우 -1의 상관관계를 보이고 있습니다.

그러나 현실 세계에서는 이렇게 +1 혹은 -1의 완전한 상관관계를 보이거나 상관계수가 0인 전혀 상관이 없는 관계는 그렇게 많치 않습니다. 그보다 대부분의 경우는 다소의 상관관계를 가지고 있는 것이 보통입니다. 아래의 가상적 예에서 보듯 대부분의 상관관계는 어느 정도의 강도를 가지고 움직이는 것이 보통입니다. 상관계수의 절대값이 0.2이하면 보통 상관관계가 무시할 수 있을 정도로 미약하다고 판단하며, 02 ~ 0.6 정도면 어느정도 상관관계가 있다고 인정됩니다. 그리고 0.6 이상일 경우 매우 강한 상관관계가 있는 것으로 인정됩니다.

또한 상관계수의 값을 제곱한 것을 ‘결정 계수’라고하며, 이 결정 계수 한 변수가 다른 변수의 변화를 설명할 수 있는 설명력을 의미합니다.

3. 상관관계 계산의 절차

상관관계 계산의 기초적 절차로서 우선 ‘공분산’의 개념을 이해하여야 합니다. 공분산이란 확률변수 X의 증감에 따라 또 다른 확률변수 Y가 증감하는 정도로서, 의 기대값이며 기호로는 cov(X, Y)로 표시합니다. 그러나 위 식에서 보듯, 공분산은 X와 Y의 단위가 커지면 자연스럽게 같이 증대하게 되므로, 공분산을을 표준화할 필요가 있습니다. 이 공분산을 표준화한 것이 상관계수입니다. 즉, 상관계수는 다음과 같으며 -1 ~ 1 사이의값을 갖게 됩니다.

: 1) x와 y의 공분산, 2) x의 표준편차, 3) y의 표준편차

이를 보다 잘 이해하기 위하여 실제 사례를 가지고 같이 상관계수를 구해보도록 하겠습니다.
[사례]
스마트폰을 제작하는 S사는 최근 신제품을 개발하면서 스마트폰 가격이 커짐에 따라 더 많은 고객들이 좋은 평가를 내리는 것을 알게 되었습니다. 이런 경험을 통해서 막연하지만 스마트폰의 높은 가격 이미지가 판매량에 좋은 영향을 주고 있는 것이라고 생각을 하게 되었습니다. 이런 관계를 검증하기 위해서 가격 판매량간의 과거 데이타를 분석하여 그 관계를 파악하고자 합니다.

a. 상관계수를 구하기 위해서는가격(X)과 판매량(Y) 변수의 평균 및 합계를 구해야 합니다. 그 결과는 다음과 같습니다.

b. 구해진 각 변수의 평균을 활용하여 1), 2), 3), 4)를 구합니다. 즉 각 관측치에서 각 변수의 평균을 차감한 값을 활용하여 (1)과 (3)을 각각 구한뒤, 이 값들을 제곱하여 (2)와 (4)를 구한 후 다시 (5)를 구하십시요. 이때 2)와 4)는 곧 가격(X)과 판매량(Y) 각각의 표준편차이며, 5)는 이 두개 변수의 공분산입니다.

c. 상관계수 구하기

이제 가격(X)과 판매량(Y) 각각의 표준편차를 알고 있으며, 이들 변수간의 공분산을 알게 되었습니다. 이를 활용하면 바로 상관계수를 구할 수 있습니다.

즉,

= 0.903의 높은 상관관계가 있는 것으로 나타났습니다. 이 결과의 의미는 스마트폰의 가격과 판매량간에 매우 강력한 상관관계가 존재한다는 것을 의미합니다.

728×90

4. 분석을 위한 설문과 데이타

이처럼 직접 계산을 하여서 상관계수를 구하는 것도 가능하나, SPSS는 이런 중간 단계를 생략하고 바로 상관 관계를 구할 수 있는 편리한 기능을 제공합니다. 즉, 통계적인 지식이 없다고 하더라도 등간척도와 비율척도를 활용하여 매우 간단하게 상관관계를 구할 수 있습니다.

우선 이를 실습하기 위하여 어떤 문항들을 사용할지 실습용 설문지를 참조해 보도록 하겠습니다. 본 분석에 사용될 설문 문항은 설문 22페이지의 가족의 숫자를 묻는 4-9)번 문항과 집에서 보유한 TV의 사이즈를 묻는 10번 문항을 사용하도록 하겠습니다. 즉, 가족이 많으면 많을수록 더 편리하게 보기 위하여 더 큰 사이즈의 TV를 구하고 싶어할 것이라는 가설을 검증해보고자 합니다.

이 두개의 문항은 모두 비율척도로서 상관관계의 분석에 적합한 것으로 판단되었습니다. 추가로, 소득수준 역시 TV의 크기에 영향을 미칠 것이라고 가설을 세울 수 있습니다. 당연히 소득이 많을수록 소비지출이 많으므로 누구나 생각해볼만한 가설입니다. 그러나 소득 수준을 물어보는 22페이지의 문항 7을 살펴보니, 명목척도로 물어보고 있습니다. 충분히 소득수준과 TV의 크기간에는 유의한 상관관계가 실제로 존재하더라도, 조사자가 소득을 이처럼 명목 척도로 물어보았다면 상관관계를 진행할 수 없습니다. 따라서 어떤 연구 방법을 사용할지 여부는 설문지 작성 단계에서부터 고민되고 결정될 필요가 있음을 알 수 있습니다.

만일 소득 수준을 응답자가 직접 넣도록 하는 비율형 척도를 사용하였다면, 이 두변수간의 상관관계 분석은 가능했을 것입니다. 즉, 아래와 같이 물어보았다면 당연히 상관관계 분석이 가능합니다.

5. 상관관계 분석 및 결과

이제 직접 SPSS를 이용한 분석을 해보도록 하겠습니다. 우선 데이타 파일을 여신 후, 가족 수와 TV의 크기와 관련된 변수들을 확인하십시요. 단순상관관계 분석을 위해서는 최소한 2개 이상의 변수가 필요합니다. 만일 변수가 2개 이상인 경우에는 자동적으로 모든 변수의 쌍대 조합을 이용하여 모든 가능한 상관관계 변수를 자동으로 분석해줄 것입니다.

1) 상관분석 메뉴의 실행

상관관계 분석을 수행하기 위해서는 우선 메뉴 바의 분석(A) -> 상관분석(C) -> 이변량 상관계수(B)를 차례데로 클릭해주시기 바랍니다. 이를 모두 실행하면 상관분석 대화상자가 나타납니다.

2) 분석 대상 변수의 선택

아래 그림과 같이 대화상자에서 분석할 변수인 ‘가족 수(변수명: s12)’와 ‘TV의 크기(변수명: s19)’를 선정한 후 화살표를 클릭해서 오른쪽의 변수(V) 상자로 보냅니다.

대화상자를 보면은 Pearson 상관관계 분석으로 지정되어 있는 것을 볼 수 있습니다. 피어슨 상관관계는 바로 위에서 공분산과 표준편차를 이용하여서 구하였던 상관계수와 동일하기 때문에 이를 그대로 놓아두시고 그대로 진행합니다.

3) 옵션의 조정

: 바로 ‘확인’ 버튼을 누르는 것만으로도 성공적으로 상관관계 분석이 완수되지만, 필요시 선택적으로 분석에 필요한 다양한 옵션들을 지정할 수 있습니다. 간략히 어떤 옵션들이 주요 옵션들 위주로 있는지 살펴보도록 하겠습니다.

먼저 ‘옵션’ 버튼을 클릭해보시기 바랍니다. 평균과 표준편차, 공분산등을 추가로 선택할 수 있으며, 기본적으로 결측값이 상관계수 계산시 제외되도록 되어 있습니다. 추가로 필요한 부분이 있으면 선택하신 후 다음 단계로 진행합니다.

4) 분석의 시행 및 결과

이제 상관관계 분석을 시행해보도록 하겠습니다. 도출된 상관계수 표를 보면 크게 상관계수, 유의확율, 그리고 응답자의 수(N)라는 3가지 정보를 주고 있습니다. 우선 상관계수는 0.207로서, 약한 상관관계가 있음을 알 수 있습니다. 그 다음 정보는 유의확율입니다. 유의확률은 보통 p값, sig 등 다양한 형태로 표시되기도 하는데, 가설 검증을 통하여 상관계수가 통계적으로 유의한가에 대한 정보이며, 보통 그 기준은 유의확률이 0.05보다 작은 경우 통계적으로 유의하다고 판단합니다. 분석 결과 유의 확율은 0.000으로서 통계적 유의성이 확보되었습니다.

: 청주대학교 이 원준 ([email protected])

728×90

상관 계수 공분산 상관분석 사례 상관관계 분석 사례 공분산 공식

– 상관 계수 공분산

공분산Covariance과 상관계수Correlation. 진지한 진지환 2017.03.06 1709. 확률변수X가 있을때 우리가 흔히 이 분포를 나타낼때 쓰는것이. 첫번째로 평균이고. 공분산Covariance과 상관계수Correlation

보통 CovX,Y,σXY로 표시함 ㅇ 상관 계수 Correlation Coefficient = 정규화된 공분산 공분산이 각 변량의 단위에 의존하게되어 변동 크기량이 모호하므로, 공분산 공분산

오늘은 공분산covariance과 상관계수correlation coefficient에 대해서 알아보자. ▷ 공분산 공분산은 확률변수 X의 편차평균으로부터 얼마나 공분산과 상관계수의 이해

∞이라 일부 상황에서 적용이 힘들다. 그래서 범위가 11사이인 상관 계수가 쓰인다. 상관 계수는 공분산에 각 X와 Y의 표준편차의 곱을 나누어주어 표준화시킨 것 공분산, 상관계수, 왜도, 첨도

Covariance 은 다음과 같이 정의된다. 단, 상관계수 Correlation coefficient는 다음과 같이 정의된다. 공분산과 상관계수의 중요한 성질을 몇가지 살펴보자. 1 2 공분산과 상관계수

– 상관 계수 상관분석 사례

스피어만 상관 계수Spearman correlation coefficient 는 데이터가 서열척도인 경우 즉 자료의 값 대신 순위를 이용하는 경우 상관 분석

상관계수로 계산하며 r 이라는 문자로 표현합니다. 일반적으로 상관분석Correlation analysis이라고 하면 Pearson 상관분석을 분석사례 . 상관분석Correlation Analysis

이번 글에서는 현실 속에서 자주 혼동하는 상관관계와 인과관계를 다양한 사례와 이런 상관관계가 얼마나 밀접한가는 상관계수로 표시하는데 상관계수는 1에서 1 상관관계

상관계수 1. 상관Correltaion이란? 1. 상관에 대한 정의 우선, 상관분석을 알아보기 전에 상관이란 무엇인지 정의내리는 것이 우선이라고 생각됩니다. 상관은? 1 #6. 심리통계 상관, 공분산, 상관계수

관계 사례 논문 분석 최인호 외 2011. 신문의 대기업 호의보도와 광고의 상관관계5대 그룹의 호의보도량과 광고량을 분석하여 상관관계를 살펴보았다. ※ 연구가설 통계 상관관계 사례 논문 분석

– 상관 계수 상관관계 분석 사례

④ 상관계수의 절대값이 높을수록 두 변수간의 관계가 높다고 할 수 있습니다. ⑤ Spearman의 R계수는 사례수가 많거나 두 변수간의 순위의 차이가 커서 계산이 길 상관관계분석 통계연구 KSI

가계 수입천 단위 항목을 분석 변수 2 끌어놓기 영역으로 끕니다. 다음을 클릭 먼저 상관 관계 테이블에서 이 사례에서 살펴볼 통계 즉 상관 계수를 찾습니다. 예 나이와 가계 수입 간 상관 관계 표시

상관계수 1. 상관Correltaion이란? 1. 상관에 대한 정의 우선, 상관분석을 알아보기Scatter plot 산포도는 선형관계를 잘 나타내는 그래프입니다. X축이 커지면 #6. 심리통계 상관, 공분산, 상관계수

모델을 확인해 볼 수 있습니다. 위키백과 中 피어슨 상관 계수 상관관계 분석에서는 기본적으로 피어슨 상관 계수Pearson correlation coefficient는 두 변수간의 Python 상관관계 분석 correlation

– 상관 계수 공분산 공식

오늘은 공분산covariance과 상관계수correlation coefficient에 공식1 공분산 공분산이 0이면 두 변수 간에는 아무런 상관 관계가 없다. 공분산과 상관계수의 이해

실수값을 지니는 2개의 확률변수 X와 Y에 대해서 공분산의 기댓값 상관관계는 공분산값을 필요로하며, 선형독립의 무차원수로 볼 수 공분산

어렵다. 그래서 상관계수를 구해준다. 상관계수는 1과 1사이의 실수로 선형 연관성의사용될 수 있다. 공분산과 상관계수를 구하는 공식과 관련해서 더 자세한 정보 이산확률변수들의 공분산과 상관계수 구하기

상관계수란? 바로 표준화된 공분산. 여기에 친절한 상관계수 구하는 계산법과 공식이 있다. Pearson 적률상관계수에 의한 계산이다. orrelation coefficient. 연관성 교육학/교육통계 공분산/상관계수 구하는 법계산법, 공식

11장 상관관계분석.hwp

* 본 제품은 한글과컴퓨터의 한/글 문서 파일(.hwp)

공개문서를 참고하여 개발하였습니다.

* 본 문서는 한글과컴퓨터의 한/글 문서 파일(.hwp)을

html로 변환한 파일 이므로 원본과 다소 차이가 있을 수 있습니다.

KSI 02 3394 7223

통계연구 통계연구 통계연구 상관관계분석 게시글의 제목, 작성자, 작성일, 조회수, 작성내용을 보여줌 상관관계분석 최고관리자 17-02-28 13:18 조회수 41,724 목록 다음글 회귀분석

이전글 다변량분산분석(MANOVA)

글쓰기는 회원가입시 가능합니다.

[email protected]로 주시면 바로 확인가능합니다.

[통계] 상관관계 사례 논문 분석

상관관계 사례 논문 분석

최인호 외 (2011). 신문의 대기업 호의보도와 광고의 상관관계. 한국언론학보, 55(3), 248-270.

※ 초록 발췌

본 연구는 신문의 호의보도와 기업의 광고가 상호 대가성을 가지고 교환되는 형태의 프로모셔널 저널리즘이 국내 신문과 대기업 사이에 나타나는지를 실증적으로 검증하기 위해 수행되었다. 이를 위해 IMF 외환위기부터 2009년까지 12년간 조선일보, 경향신문, 매일경제신문에 실린 국내 5대 그룹의 호의보도량과 광고량을 분석하여 상관관계를 살펴보았다.

※ 연구가설

= 연구가설 1 : 국내 주요 3개 신문의 5대 대기업에 대한 호의보도량과 5대 대기업이 낸 광고량은 정의 상관관계를 나타낼 것이다.

= 연구가설 2 : 국내 주요 3개 신문의 5대 대기업에 대한 호의보도량과 5대 대기업이 낸 광고량의 상관관계는 조선일보와 매일경제신문이 경향신문보다 더 높게 나타날 것이다.

※ 데이터 수집방법

1) 분석 대상

– 분석 대상 : 조선일보, 경향신문, 매일경제신문 등 3개 신문

– 분석 대상 기간 : 1998년부터 2009년까지 12년간. 해마다 한 주를 표본으로 정해 해당 주의 월요일부터 토요일까지 6일분의 기사와 광고를 분석. 한 해에 6일씩 12년간 총 72일. 3개 신문 합쳐 216일 분량 분석.

ex. 1998년 1월 첫째 주, 1999년 2월 둘째 주, 2000년 3월 셋째 주, 2001년 4월 넷째 주, 2002년 5월 첫째 주, 2003년 6월 둘째 주, 2004년 7월 셋째 주, 2005년 8월 넷째 주, 2006년 9월 첫째 주, 2007년 10월 둘째 주, 2008년 11월 셋째 주, 2009년 12월 넷째 주.

– 분석 대상 기업 : 삼성, 현대자동차, SK, LG, 롯데 등 5대 그룹

2) 변인의 조작적 정의

– 호의보도의 유형 : ①기획기사 ②인터뷰기사 ③신제품기사 ④실적기사 ⑤이벤트기사

– 호의보도의 측정 : 기사별로 빈도를 측정한 후 최종 합산한 숫자를 호의보도 빈도로 사용

– 광고량의 측정 : 광고의 빈도 측정

3) 분석 방법

– 호의보도량과 광고량의 선형적 연관성을 알아보기 위한 공분산분석 후,

– 피어슨 적률상관계수(Pearson product-moment correlation coefficient). 유의수준 α=.05.

※ 분석 결과

1) 기술통계

2) 전체 호의보도량과 광고량의 상관관계 – 연구가설 1에 대한 결과

► 통계적으로 유의미한 정의 상관관계 (r=0.331, p＜0.05) ⇒ 연구가설 1 지지 3) 신문사별 호의보도량과 광고량의 상관관계 – 연구가설 2에 대한 결과

* 조선일보 호의보도량-광고량 : 통계적으로 유의미한 정의 상관관계 (r=0.469, p＜0.05) * 경향신문 호의보도량-광고량 : 통계적으로 유의미하지 않음 (r=0.065, p＞0.05) * 매경신문 호의보도량-광고량 : 통계적으로 유의미한 정의 상관관계 (r=0.591, p＜0.05) → 상관성 정도 : 조선일보(r=0.469) < 매일경제신문(r=0.591) ⇒ 연구가설 2 지지

13. 상관분석

반응형

안녕하세요. 포스팅하는데 너무 춥네여 커피숍이;;

이번에는 상관분석에 대해 알아보겠습니다.

# 상관분석이란 ?

-데이터 내의 두 변수간의 관계를 알아보기 위한 분석방법이며 상관계수를 이용해서 알아본다.

상관분석은 연속형, 순서형 자료를 대상으로 하고, 범주형은 의미가 없으므로 상관관계 분석이 불가능하다.

# 특성

-두 변수 간의 연관된 정도를 제시하는 것이며 인과관계가 반드시 있는 것은 아니다. 따라서 회귀분석을 통해 두 변수간의

인과 관계를 살펴볼 수 있음.

-등간성이나 비율성이 존재하지 않음

-결정계수(R Square)는 상관계수를 제공하여 나오는 값으로, 회귀분석에서 설명력을 의미.

# 절차

1. 변수들 간의 산점도(Scatter plot)그리기

2. 산점도를 통해 선형결합 파악

3. 상관계수 계산

4. 해석

5. 상관관계의 유무, 정도에 따라 회귀분석 실시

# 종류

1. 피어슨 상관계수분석 : 등간척도 이상으로 측정된 두 변수들의 상관관계 측정 방식

연속형 변수, 정규성 가정 , 대부분 사용함. 피어슨의 r(적률상관계수)

2. 스피어만 순위상관분석 : 서열척도인 두 변수들의 상관관계측정방식. 순서형 변수, 비모수 방법

순위를 기준으로 상관관계 측정 (순위상관계수, (로))

3. 켄달의 타우 : 서열척도인 두 변수들이 상관관계 측정 방식. 순서형 변수, 비모수 방법 ( , 타우)

상관계수는 -1~+1사이의 값을 가집니다.

#결과 해석

1. “상관계수는 0이다” 라는 귀무가설을 기각할 수 있는지 검정

2. “유의 확률(양측검정) < 0.05 인 경우 상관관계가 있다"고 할 수 있음 #상관 관수의 해석 |0.7|이상이면 상관관계가 강함 |0.3|~|0.7|사이면 어느 정도 상관관계가 있다. |0.1|~|0.3|사이면 애매한(약한 상관관계) 0~|0.1| 무시 #상관분석의 사례 #전에 다뤄봤던 airquality 데이터를 가지고 해보겠습니다. data(airquality) summary(airquality) #summary결과를 보시면 NA가 나오고 있습니다. NA를 다루는 방법은 많은데 결측을 대체해야만 한다면 결측을 대체하는 방법도 여러가지가 있는데 아직 그것은 숙련난이도이기 때문에.. na.omit()이라는 함수를 이용해서 결측이 있는 row전체를 다 날려버릴겁니다. aq<-na.omit(airquality) summary(aq) # 써머리를 보시면 NA가 다 없어진걸 알 수 있죠. 자료를 이제 슬쩍 다듬었으니 이제 산점도를 그리고 선을 그려봐야겠죠? 쉽게 상관관계가 있을거같은 오존량과 온도에 대해서 해보겠습니다. 아까처럼 ggplot2를 이용할 겁니다. 껐다 키신분은 다시 설치와 라이브러리 불러들이는거 해주시구요. 저는 그대로 하겠습니다. g<- ggplot(aq, aes(Ozone, Temp)) g + geom_point() + geom_smooth(method="lm") # geom point는 점으로 찍는 것을 의미하고 smooth=lm이것은 선을 표현해주는 겁니다. 딱 봐도 두 오존과 온도량에 선형 상관관계가 있다고 볼 수 있다. ( outlier도 존재하고 있지만 ) # R을 통해서 몇 가지 명령어를 더 써보면, cor(aq$Ozone, aq$Temp) [1] 0.6985414 # 예상했던 대로 오존량과 온도의 상관관계는 높은 편이다. cor(aq[,c(1:4)]) Ozone Solar.R Wind Temp Ozone 1.0000000 0.3483417 -0.6124966 0.6985414 Solar.R 0.3483417 1.0000000 -0.1271835 0.2940876 Wind -0.6124966 -0.1271835 1.0000000 -0.4971897 Temp 0.6985414 0.2940876 -0.4971897 1.0000000 # correlation matrix를 만들어보니까 온도와 오존량이 가장 상관관계가 높았다. cov(aq[,c(1:4)]) Ozone Solar.R Wind Temp Ozone 1107.29009 1056.5835 -72.51124 221.52072 Solar.R 1056.58346 8308.7422 -41.24480 255.46765 Wind -72.51124 -41.2448 12.65732 -16.85717 Temp 221.52072 255.4676 -16.85717 90.82031 # 공분산 행렬을 만들어보니까 오존과 Solar.R과의 공분산이 상대적으로 많이 높은편이였다. 이제 대충 훑어봤으니 상관분석을 해봐야겠죠? 온도와 같은 자료들은 연속형 자료이므로 순서형자료가 아닙니다. 따라서 피어슨상관분석을 해야겟져? aq[,c(1:4)] # 이렇게 치면 Ozone과 Solar.R, Wind, Temp 이 4가지 변수가 쭉 나옵니다 . 이것을 분석해보겠습니다. cor(as.matrix(aq[,c(1:4)]), method="pearson") # 위의 것을 매트릭스로 인식시키고, 피어슨 방식으로 cor를 구해보면, Ozone Solar.R Wind Temp Ozone 1.0000000 0.3483417 -0.6124966 0.6985414 Solar.R 0.3483417 1.0000000 -0.1271835 0.2940876 Wind -0.6124966 -0.1271835 1.0000000 -0.4971897 Temp 0.6985414 0.2940876 -0.4971897 1.0000000 #이렇게 나왔네요. 위에 하나만 cor계산해본것과 값이 똑같죠? 그럼 피어슨방식이 default값이라는 것을 알 수 있습니다. ############################################## 세 가지 상관분석 비교 ######## 이제 세 가지 상관분석 비교를 해볼까요? 서적에서 2013년 프로야구 선수 기록 발췌한 내용을 가지고 직접 타자쳐서 해보겠습니다. Player<-c("LSY","CHW","KHS","BBH","KJH","NJW","CJ") # 선수명 BT<-c(443, 511, 434, 450, 450, 435, 434) # 타석수 H2<-c(24, 28,23,17,21,18,18) #2루타 HR<-c(13,29,16,37,22,21,28) #홈런 BB<-c(30,47,62,92,68,62,64) #볼넷 수 SO<-c(94,91,71,96,109,70,109) #삼진아웃 수 df<-data.frame(BT,H2,HR,BB,SO) rownames(df)<-Player df BT H2 HR BB SO LSY 443 24 13 30 94 CHW 511 28 29 47 91 KHS 434 23 16 62 71 BBH 450 17 37 92 96 KJH 450 21 22 68 109 NJW 435 18 21 62 70 CJ 434 18 28 64 109 # 선수명을 row이름에 각각 넣어줬구요 나머지는 각각 변수로 열에 들어가게 됩니다. 그것을 df라는 변수에 데이터프레임형태로 저장해주구요. 한번 확인하면 잘들어갔죠~? 순위를 기준으로 상관관계 측정을 할 수 있으므로 스피어만, 켄달 방식을 써보는게 좋을 것 같습니다. 일단 피어슨 / 스피어만 / 켄달 세 가지를 모두 해볼까요? > cor(as.matrix(df))

BT H2 HR BB SO

BT 1.0000000 0.7095900 0.3640952 -0.2280972 0.1234326

H2 0.7095900 1.0000000 -0.3470344 -0.7117180 -0.1124650

HR 0.3640952 -0.3470344 1.0000000 0.7011778 0.3706620

BB -0.2280972 -0.7117180 0.7011778 1.0000000 0.1108934

SO 0.1234326 -0.1124650 0.3706620 0.1108934 1.0000000

> cor(as.matrix(df), method=c(“spearman”))

BT H2 HR BB SO

BT 1.00000000 0.2660662 0.5091751 0.02752409 0.1467952

H2 0.26606624 1.0000000 -0.3964125 -0.80909091 -0.2636364

HR 0.50917508 -0.3964125 1.0000000 0.59461873 0.3783937

BB 0.02752409 -0.8090909 0.5946187 1.00000000 0.5454545

SO 0.14679517 -0.2636364 0.3783937 0.54545455 1.0000000

> cor(as.matrix(df), method=c(“kendall”))

BT H2 HR BB SO

BT 1.0000000 0.2051957 0.3504383 0.00000 0.1025978

H2 0.2051957 1.0000000 -0.3903600 -0.65000 -0.1500000

HR 0.3504383 -0.3903600 1.0000000 0.48795 0.1951800

BB 0.0000000 -0.6500000 0.4879500 1.00000 0.2500000

SO 0.1025978 -0.1500000 0.1951800 0.25000 1.0000000

# 그 결과, 세 가지 정말 꽤 다른 상관계수를 보여주고있죠?

일단 피어슨 상관계수를 보면, 타석수와 2루타가 상관관계가 0.71이나 되는 기염(ㅋㅋ)을 토하고있습니다.

볼넷과 홈런 수의 상관계수도 꽤 크게 측정됐네요.

이렇게 방법이 잘못되면 엉뚱한 답이 나올 수도 있다는 점.. 유의해주세요.

그렇다면 스피어만과 켄달방식을 볼까요? 두개 다 타석수에 따라서 어느정도 상관관계를 보여주고 있는데요.

제 생각은 켄달방식이 가장 일리가 있다고 생각되네요. 타석수가 늘어남에 따라서 2루타와 홈런, 삼진아웃의 가능성이 약간씩 있고..

2루타 수와 홈런 수의 값을 집어넣었던 것을 보면 가장..그나마 적절하게 표현된 것이 아닐까 싶네요.

물론 이것은 데이터가 작고, 정확하게 분석하기에는 조금 무리가 있는 감이 있습니다. 정확한 해석은 그 상황을 잘 이해해야 하기 때문이죠..

예제니까 이쯤만 하고 넘어가도록 하겠습니다.

#오늘은 상관분석에 대해서 알아보았는데요~ 참고로, cor()함수로서 여러가지 방식을 할 수도있지만

Hmisc라는 패키지 안에 rcorr()이라는 상관관계를 구하는 함수가 있고, 타입에 따라서 스피어만과 피어슨으로 구할 수 있다고 합니다.

뭔가 기나긴 여정이었네요 항상 쓸 때는 보면 엄청 많이 쓴 것 같은데 올리고보면 별로 안되요 ;;

쨋든.. 다음번에는 회귀분석에 대해 알아보도록 하겠습니다.

반응형

키워드에 대한 정보 상관 관계 분석 사례

다음은 Bing에서 상관 관계 분석 사례 주제에 대한 검색 결과입니다. 필요한 경우 더 읽을 수 있습니다.

이 기사는 인터넷의 다양한 출처에서 편집되었습니다. 이 기사가 유용했기를 바랍니다. 이 기사가 유용하다고 생각되면 공유하십시오. 매우 감사합니다!

사람들이 주제에 대해 자주 검색하는 키워드 상관관계분석의 의미 (논준모)

동영상
공유
카메라폰
동영상폰
무료
올리기

상관관계분석의 #의미 #(논준모)

YouTube에서 상관 관계 분석 사례 주제의 다른 동영상 보기

주제에 대한 기사를 시청해 주셔서 감사합니다 상관관계분석의 의미 (논준모) | 상관 관계 분석 사례, 이 기사가 유용하다고 생각되면 공유하십시오, 매우 감사합니다.

상관 관계 분석 사례 주제에 대한 동영상 보기

d여기에서 상관관계분석의 의미 (논준모) – 상관 관계 분석 사례 주제에 대한 세부정보를 참조하세요

상관 관계 분석 사례 주제에 대한 자세한 내용은 여기를 참조하세요.

상관 관계 분석 사용 사례 | Adobe Analytics

담뱃값 오르면 흡연율 낮아질까? 상관관계vs.인과관계, 헷갈리죠

[SPSS 리서치] 11. 상관관계 분석 (correlation)

상관 계수 공분산 상관분석 사례 상관관계 분석 사례 공분산 공식

상관관계 분석의 의의(correlation analysis) – KOCw

11장 상관관계분석.hwp

상관관계분석 > 통계연구 | KSI 02 3394 7223 – 새롬

[통계] 상관관계 사례 논문 분석 – 네이버 블로그

13. 상관분석

주제와 관련된 이미지 상관 관계 분석 사례

주제에 대한 기사 평가 상관 관계 분석 사례

새로운 검색, 검색 기능 개선

담뱃값 오르면 흡연율 낮아질까? 상관관계vs.인과관계, 헷갈리죠

[SPSS 리서치] 11. 상관관계 분석 (correlation)

상관 계수 공분산 상관분석 사례 상관관계 분석 사례 공분산 공식

11장 상관관계분석.hwp

KSI 02 3394 7223

[통계] 상관관계 사례 논문 분석

13. 상관분석

키워드에 대한 정보 상관 관계 분석 사례

사람들이 주제에 대해 자주 검색하는 키워드 상관관계분석의 의미 (논준모)

Leave a Comment Cancel reply