r
-
복합표본자료분석 - 3. EDA (R)R 2019. 12. 28. 20:47
이전 포스트에서 EDA에 대해 다루려 했는데, 예제 논문을 따라가다 보니 너무 큰 문제가 보여 더 이상 진행하는 게 의미가 없어 도중에 중단했다. 사실 이런 경우는 굉장히 흔한데, 예상치 못한 일이 발생한 경우 무시하고 넘어가는 것보다 문제를 해결할 방법을 고민하거나 도저히 안 되겠는 경우 중단하는 게 차라리 낫다. 그런 이유로 해외 논문 중 먼저 만들어 놓은 자료를 이용할 수 있는 논문을 찾아서 EDA과정부터 다시 진행해 보려고 한다. Gangwisch, J. E., Malaspina, D., Boden-Albala, B., & Heymsfield, S. B. (2005). Inadequate sleep as a risk factor for obesity: analyses of the NHANES I...
-
복합표본자료분석 - 2½. EDA 도중에 포기한 예 (R)R 2019. 12. 19. 14:46
인터넷 뉴스를 보면 건강 관련 기사가 굉장히 많다. 그중에 일부는 의학이나 보건 관련 연구에 대한 기사이다. 최근 일부 기관에서 구성원들의 연구결과가 언론을 탄 경우 업적평가에 가산점을 주거나 심지어는 인센티브를 제공하는 경우까지 제공하는 경우가 있어서 이런 일들이 점점 더 늘어나는 추세이다. 근데 또 그중의 상당수는 국건영과 같은 공개자료를 이용한 연구이다. 앞에서도 계속 언급했듯이 이러한 공개자료를 사용하는 경우 자료 수집에 드는 노력과 비용을 아낄 수 있으며, 개인적인 노력으로는 국건영과 같은 한국인을 대표하는 자료를 얻을 수 없다는 장점이 있다. 그 반면에 자료에 대한 충분한 이해 없이 공장에서 찍어낸 듯한 저 퀄리티의 연구결과가 난립한다는 점은 오히려 국민건강과 전문가에 대한 국민의 신뢰도를 떨..
-
복합표본자료분석 - 2. 자료준비 (R)R 2019. 12. 18. 21:42
이전 포스트에서는 복합표본분석 에 대한 기본 개념에 대해 알아보았다. 이제부터 분석을 위한 자료 준비에 들어가 보자. 1. 국건영 자료 다운로드 국건영 홈페이지에 들어가면 간단한 이메일 인증만으로 자료를 다운로드 받을 수 있다. 누누히 얘기 하는 내용이지만 자료 분석 전 홈페이지에 있는 원시자료 이용지침서를 충분히 숙독한 후 분석을 진행해야 한다. 국건영 자료가 굉장히 좋은 자료임에도 불구하고 자료에 대한 이해도가 부족한 상태에서 날림으로 만들어진 논문들이 범람하고 있다. 분석에 R을 사용하는 연구자라도 국건영 자료는 SPSS 파일을 받아서 분석을 시행해야 할 뿐 아니라 변수에 대한 세부적인 내용을 파악하기 위해서 홈페이지에 있는 SPSS 이용지침서, 그리고 분석하려는 변수가 들어있는 해당 년도 자료의 ..
-
생존분석 (R)R 2019. 11. 15. 16:14
생존분석은 의학연구에서 굉장히 흔히 쓰이는 분석기법이지만, 꽤 흔한 빈도로 잘 못 사용되는 분석법 이기도 하다. 언뜻 생존분석은 로지스틱 회귀분석과 비슷하다는 생각이 들 수도 있지만, 생존분석에는 시간이라는 개념이 들어가기 때문에, 시간에 따른 변화를 읽어내지 못한 채 분석을 하게 되면 잘못된 결과를 얻을 수 있다. 이번 포스트에서는 생존분석의 실질적인 측면에 대해 살펴보기로 하자. 1. Kaplan-Meier curve 상당수의 의학논문에서 생존분석을 이용해서 분석을 하는 경우, Kaplan-Meier curve를 제시하고 그 후 cox 분석을 주요분석법으로 사용한다. Kaplan curve를 보여주는 이유는 아무래도 단조로운 논문에 그래도 그림이 하나쯤은 필요하기 때문이기도 하지만 더 큰 이유는 co..
-
로지스틱회귀분석 (R)R 2019. 9. 10. 12:47
이전까지는 주로 선형회귀분석방법에 대해 알아보았다. 선형회귀분석법은 다른 분석방법을 배우기 위한 기본과정이기 때문에 많은 시간을 할애해서 배울 필요성이 있기는 하지만, 실제로 논문작성에서 그리 많이 사용되는 방법은 아니다. 하지만 이번에 다룰 로지스틱회귀분석법은 극단적으로 말하자면 관찰연구의 대부분을 차지하는 방법이다. 아마 대부분의 임상의사는 로지스틱회귀분석+생존분석으로 평생 욹어 먹을 가능성이 크다. 그런 만큼 세심히 알아보자. 1. 로지스틱회귀분석의 기본원리 원래 학문적 배경이 수학이나 통계 쪽이 아니라서 숫자 나오면 두통이 발생하기 시작한다. 하지만 그래도 이해를 위해 어쩔 수 없이 알아야 하는 과정이 존재한다. 머리 덜 아프게 그리스식 알파벳은 사용 않고 최대한 쉽게 설명해 보려 한다. 로지스틱..
-
탐색적 자료분석 3-3. 세 변수의 상호작용 (R)R 2019. 8. 28. 13:19
두 변수의 관계 파악이 끝났으면 세 변수의 상호작용을 살펴본다. 두 변수 관계를 본 후에 세 변수로 넘어가니 혹시 네 변수, 다섯 변수... 이 나올까 걱정할 수도 있겠지만 통상적으로 (상호작용 자체가 연구의 주제가 아닌 한) 세 변수를 넘는 상호작용은 연구에 고려하지 않는다. 이쯤에서 탐색적 자료 분석의 순서를 다시 정리해 보면, Y~x1+x2+x3+A+B+C (x1~3: 연속 변수, A,B,C: 범주형 변수) 대상변수 분석 내용 한 변수 분석 Y, x1, x2, x3, A, B, C 결측치 확인: Y, x1~3, A~C 최대/최소치/ 이상값 확인: Y, x1~3, A~C 정규성 검증 및 정규화: Y, x1~3 두 변수의 관계 파악 (연속변수) Y~x1 / Y~x2 / Y~x3 선형관계 유무 확인 잔차..
-
탐색적 자료분석 3-2. 두 변수의 관계 파악 - 연속 변수 vs 범주형 변수 (R)R 2019. 8. 28. 00:40
이번 주제는 category 변수 형태의 독립변수와 연속 변수 형태의 결과변수의 관계를 분석하는 것이다. 본 주제로 들어가기 전 우선 t-test와 ANOVA에 대해 정리하고 넘어가 보자. 1. 두 군의 평균 비교 어떤 두 그룹을 비교한다고 해보자. 예를 들어 남학생과 여학생의 성적을 비교한다고 해보자. 성적을 비교한다는 것은 어떤 의미일까? 한 명 한 명의 성적을 맞대어 비교해야 하나? 통상적으로 통계분석에서 뭔가를 비교 한다는 의미는 "평균"을 비교한다는 의미이다. 평균을 비교하기 위해서는 평균이 어느 집단을 대표할 수 있는 수치가 되어야 하며, 분포가 "정규분포" 하는 것이 그 시작이다. 다시 정리해보면 우리가 사용하는 대부분의 통계기법은 평균의 비교이며, 이게 성립하기 위해서는 정규분포 해야만 한..
-
탐색적 자료분석 3-1. 두 변수의 관계 파악 - 연속변수 vs 연속변수 (R)R 2019. 8. 5. 14:32
이전 포스트에서 탐색적 자료 분석의 첫 단계로 연속형 변수에 대한 정규성 검증 및 정규 변환을 하는 법에 대해 알아보았다. 그 외에 자료 안에 결측치가 몇 개나 존재하는지? 최대치와 최소치가 어느 정도이며 최소-최댓값의 범위가 상식적인 범위 내인지 확인이 필요하다. 탐색적 자료 분석 과정 자체가 원래 귀찮은 노가다의 연속이지만 쓸만한 결과를 얻기 위해 꼭 필요한 과정이기도 하다. 이전 포스트의 첨부자료인 normal.Rdata 파일을 이용해서 분석을 계속해보자. library(car) library(psych) library(dplyr) library(ggplot2) 1. 개별 변수의 확인 (이전 포스트 재탕) 이전 포스트에서 연속변수의 정규성 확인 및 정규 변환을 하면서 개별 변수의 확인 부분을 얼추 ..