SPSS
-
복합표본자료분석 - 2. 자료준비 (SPSS)SPSS 2019. 11. 19. 19:49
이전 포스트에서는 복합표본분석 에 대한 기본 개념에 대해 알아보았다. 이제부터 분석을 위한 자료 준비에 들어가 보자. 1. 국건영 자료 다운로드 국건영 홈페이지에 들어가면 간단한 이메일 인증만으로 자료를 다운로드 받을 수 있다. 누누히 얘기 하는 내용이지만 자료 분석 전 홈페이지에 있는 원시자료 이용지침서를 충분히 숙독한 후 분석을 진행해야 한다. 국건영 자료가 굉장히 좋은 자료임에도 불구하고 자료에 대한 이해도가 부족한 상태에서 날림으로 만들어진 논문들이 범람하고 있다. SPSS사용자라면 홈페이지에 있는 SPSS 이용지침서, 그리고 분석하려는 변수가 들어있는 해당 년도 자료의 분석 지침서를 충분히 읽어본 후 분석을 진행해야 한다. 2. 자료의 가로결합 국건영과 같이 대형 자료는 통상적으로 한 해의 분석..
-
생존분석 (SPSS)SPSS 2019. 11. 17. 19:54
생존분석은 의학연구에서 굉장히 흔히 쓰이는 분석기법이지만, 꽤 흔한 빈도로 잘 못 사용되는 분석법 이기도 하다. 언뜻 생존분석은 로지스틱 회귀분석과 비슷하다는 생각이 들 수도 있지만, 생존분석에는 시간이라는 개념이 들어가기 때문에, 시간에 따른 변화를 읽어내지 못한 채 분석을 하게 되면 잘못된 결과를 얻을 수 있다. 거기에다 SPSS의 생존분석에는 이러한 오류를 찾아내고 교정할 수 있는 방법이 결여되어 있어 특히 더 주의를 요한다. 개인적인 생각으로는 생존분석을 시행하는데 SPSS를 쓰지 않는게 좋겠다고 말하고 싶지만 여러 이유로 SPSS를 제외하고는 선택지가 없는 경우도 있기 때문에 무조건 강요하기도 힘든 것이 사실이다. 이에 이번 포스트에서는 생존분석의 실질적인 측면에 대해 살펴보기로 하자. 1. K..
-
로지스틱회귀분석 (SPSS)SPSS 2019. 9. 10. 12:47
분석 > 회귀분석 > 이분형 로지스틱 이전까지는 주로 선형회귀분석방법에 대해 알아보았다. 선형회귀분석법은 다른 분석방법을 배우기 위한 기본과정이기 때문에 많은 시간을 할애해서 배울 필요성이 있기는 하지만, 실제로 논문작성에서 그리 많이 사용되는 방법은 아니다. 하지만 이번에 다룰 로지스틱회귀분석법은 극단적으로 말하자면 관찰연구의 대부분을 차지하는 방법이다. 아마 대부분의 임상의사는 로지스틱회귀분석+생존분석으로 평생 욹어 먹을 가능성이 크다. 그런 만큼 세심히 알아보자. 1. 로지스틱회귀분석의 기본원리 원래 학문적 배경이 수학이나 통계 쪽이 아니라서 숫자 나오면 두통이 발생하기 시작한다. 하지만 그래도 이해를 위해 어쩔 수 없이 알아야 하는 과정이 존재한다. 머리 덜 아프게 그리스식 알파벳은 사용 않고 ..
-
다변수분석법 (SPSS)SPSS 2019. 9. 7. 03:14
탐색적 자료 분석이 끝난 후 본 분석인 다변수 분석을 시행해야 한다. 탐색적 자료 분석을 성실히 시행했으면 다변수 분석 결과는 이미 머릿속에 대충 그려질 것이다. 그 내용을 논문 양식에 맞춰서 제시하는 것이 이번 포스트의 중심 내용이다. 1. 다변수 분석의 필요성 사실 예전에 개인용 컴퓨터가 일반화되지 않았을 때는 통계작업을 전부 수기로 진행했었다고 한다. 그러니 다변수 분석 같은 것은 상상도 하기 힘들고 전문 수학자나 통계학자 같은 경우만 선형 회귀, 로지스틱 회귀 같은 분석을 시행하고, 나머지 대부분의 학자들은 카이 스퀘어 검정 하나에만 목매달고 있었다고 한다. 세월이 지나서 더 이상 수기로 통계 계산을 할 필요가 없어지고 개인용 컴퓨터가 보급되기 시작하면서 학문 영역에서 쓰이는 통계기법도 점점 발달..
-
탐색적 자료분석 3-3. 세 변수의 상호작용 (SPSS)SPSS 2019. 8. 29. 15:26
두 변수의 관계 파악이 끝났으면 세 변수의 상호작용을 살펴본다. 두 변수 관계를 본 후에 세 변수로 넘어가니 혹시 네 변수, 다섯 변수... 이 나올까 걱정할 수도 있겠지만 통상적으로 (상호작용 자체가 연구의 주제가 아닌 한) 세 변수를 넘는 상호작용은 연구에 고려하지 않는다. 이쯤에서 탐색적 자료 분석의 순서를 다시 정리해 보면, Y~x1+x2+x3+A+B+C (x1~3: 연속 변수, A,B,C: 범주형 변수) 대상변수 분석 내용 한 변수 분석 Y, x1, x2, x3, A, B, C 결측치 확인: Y, x1~3, A~C 최대/최소치/ 이상값 확인: Y, x1~3, A~C 정규성 검증 및 정규화: Y, x1~3 두 변수의 관계 파악 (연속변수) Y~x1 / Y~x2 / Y~x3 선형관계 유무 확인 잔차..
-
탐색적 자료분석 3-2. 두 변수의 관계 파악 - 연속 변수 vs 범주형 변수 (SPSS)SPSS 2019. 8. 28. 13:19
이번 주제는 category 변수 형태의 독립변수와 연속 변수 형태의 결과변수의 관계를 분석하는 것이다. 본 주제로 들어가기 전 우선 t-test와 anova에 대해 정리하고 넘어가 보자. 1. 두 군의 평균 비교 어떤 두 그룹을 비교한다고 해보자. 예를 들어 남학생과 여학생의 성적을 비교한다고 해보자. 성적을 비교한다는 것은 어떤 의미일까? 한 명 한 명의 성적을 맞대어 비교해야 하나? 통상적으로 통계분석에서 뭔가를 비교한다는 의미는 "평균"을 비교한다는 의미이다. 평균을 비교하기 위해서는 평균이 어느 집단을 대표할 수 있는 수치가 되어야 하며, 분포가 "정규분포" 하는 것이 그 시작이다. 다시 정리해보면 우리가 사용하는 대부분의 통계기법은 평균의 비교이며, 이게 성립하기 위해서는 정규분포 해야만 한다..
-
탐색적 자료분석 3-1. 두 변수의 관계 파악 - 연속변수 vs 연속변수 (SPSS)SPSS 2019. 8. 26. 20:40
이전 포스트에서 탐색적 자료 분석의 첫 단계로 연속형 변수에 대한 정규성 검증 및 정규 변환을 하는 법에 대해 알아보았다. 그 외에 자료 안에 결측치가 몇 개나 존재하는지? 최대치와 최소치가 어느 정도이며 최소-최댓값의 범위가 상식적인 범위 내인지 확인이 필요하다. 탐색적 자료 분석 과정 자체가 원래 귀찮은 노가다의 연속이지만 쓸만한 결과를 얻기 위해 꼭 필요한 과정이기도 하다. 이전 포스트의 첨부자료인 diamond.sav 파일을 이용해서 분석을 계속해보자. 1. 개별 변수의 확인 (이전 포스트 재탕) 이전 포스트에서 연속변수의 정규성 확인 및 정규 변환을 하면서 개별 변수의 확인 부분을 얼추 다루었다. 그 부분을 다시 확인하면, 분석 > 기술통계량 > 데이터탐색 "도표"항목에서 "검정과 함께 정규성도..
-
탐색적 자료분석 2. 결측치 확인 및 처리 (SPSS)SPSS 2019. 8. 5. 12:43
결측치 확인도 통계분석에서 중요한 부분의 하나이지만, 쉽게 넘어가는 부분이다. 특히 의학 계열 논문에서는 그 정도가 더 심한데, 그 이유 중 하나가 상당수의 의학 계열 논문에서 outlier나 결측치 대체 같은 통계기법 사용을 인정하지 않기 때문이다. 다른 분야에서 일반적으로 사용되는 기법을 인정하지 않는다고 보수적이라고 생각할 수도 있겠지만, 아무래도 연구 대상이 사람인만큼... 정규분포하지 않는 자료가 많기도 하고, 약간 특이하더라도 누군가의 생명을 outlier 취급 하기에는 무리가 따르는 점도 있다. 하여간 여러 이유로 결측치 확인 및 이상값 처리가 일상적이지 않기는 하지만 그렇다고 그냥 무시하고 넘어갈 수도 없느것이 현실이다. 그 이유를 함께 확인해보자. 우선 본 내용으로 들어가기 전에 선형회귀..