전체 글
-
탐색적 자료분석 3-1. 두 변수의 관계 파악 - 연속변수 vs 연속변수 (R)R 2019. 8. 5. 14:32
이전 포스트에서 탐색적 자료 분석의 첫 단계로 연속형 변수에 대한 정규성 검증 및 정규 변환을 하는 법에 대해 알아보았다. 그 외에 자료 안에 결측치가 몇 개나 존재하는지? 최대치와 최소치가 어느 정도이며 최소-최댓값의 범위가 상식적인 범위 내인지 확인이 필요하다. 탐색적 자료 분석 과정 자체가 원래 귀찮은 노가다의 연속이지만 쓸만한 결과를 얻기 위해 꼭 필요한 과정이기도 하다. 이전 포스트의 첨부자료인 normal.Rdata 파일을 이용해서 분석을 계속해보자. library(car) library(psych) library(dplyr) library(ggplot2) 1. 개별 변수의 확인 (이전 포스트 재탕) 이전 포스트에서 연속변수의 정규성 확인 및 정규 변환을 하면서 개별 변수의 확인 부분을 얼추 ..
-
탐색적 자료분석 2. 결측치 확인 및 처리 (SPSS)SPSS 2019. 8. 5. 12:43
결측치 확인도 통계분석에서 중요한 부분의 하나이지만, 쉽게 넘어가는 부분이다. 특히 의학 계열 논문에서는 그 정도가 더 심한데, 그 이유 중 하나가 상당수의 의학 계열 논문에서 outlier나 결측치 대체 같은 통계기법 사용을 인정하지 않기 때문이다. 다른 분야에서 일반적으로 사용되는 기법을 인정하지 않는다고 보수적이라고 생각할 수도 있겠지만, 아무래도 연구 대상이 사람인만큼... 정규분포하지 않는 자료가 많기도 하고, 약간 특이하더라도 누군가의 생명을 outlier 취급 하기에는 무리가 따르는 점도 있다. 하여간 여러 이유로 결측치 확인 및 이상값 처리가 일상적이지 않기는 하지만 그렇다고 그냥 무시하고 넘어갈 수도 없느것이 현실이다. 그 이유를 함께 확인해보자. 우선 본 내용으로 들어가기 전에 선형회귀..
-
의학 논문에서의 표 작성법의학논문작성 2019. 8. 4. 01:31
아마 하루에 발간되는 의학논문이 족히 수 천 건은 될 것이며, 저널 와치 같은 사이트에 가입되어 있으면 친절하게 내 관심분야에 대해 매주마다 수십 종의 논문을 메일로 보내 준다. 거기에 평소에 관심 가지던 (논문을 냈거나 앞으로 낼 예정인) 학술지에 실리는 논문들도 체크해야 하다 보니 이것도 하다 보면 중노동이 된다. 그러다 보니 꾀가 생기게 되는데 그 방법이 1) 우선 Abstract 읽어서 관심 분야인지 확인하고, 2) 연구대상 및 방법을 확인 한 다음, 3) Table을 확인해서 제대로 된 연구과정을 거쳤는지 확인한다. 이 과정을 무사히 통과해야 원문을 인쇄해서 천천히 확인한다. SCI급의 국외 학술지는 대개 이 과정에서 반 정도가 탈락하게 되며, 국내 학술지의 경우 탈락비율이 더 높아진다. 진짜 ..
-
탐색적 자료분석 1. 정규성 검정 (SPSS)SPSS 2019. 8. 2. 06:31
논문 자료 분석할 때 초보자들이 하기 쉬운 가장 흔한 실수중의 하나가 탐색적 자료분석 (Explanatory Data Analysis)에 들이는 시간을 아까워 한다는 점이다. 언뜻 보기에는 화면 전체에 복잡한 숫자와 p-value들이 난무하는 다변수 분석이 뭔가 하는 것 같고 멋있어 보이겠지만, 대부분의 결과는 그 이전에 이미 결정되어 있는 경우가 많다. 1. 정규성 검정이란? 정규분포 자료는 위의 그림과 같이 종모양이며 평균을 중심으로 양쪽으로 예쁘게 분포되어 있는 자료를 말한다. 정규분포가 중요한 이유는, 우리가 다루는 대부분의 통계적 분석법은 자료(특히 결과변수)가 정규분포를 만족한다고 가정하고 진행하는 것이기 때문이다. 2. 중심극한정리 (Central Limit Theorem) 확률론과 통계학에..
-
탐색적 자료분석 1. 정규성 검정 (R)R 2019. 8. 2. 04:30
논문 자료 분석할 때 초보자들이 하기 쉬운 가장 흔한 실수중의 하나가 탐색적 자료분석 (Explanatory Data Analysis)에 들이는 시간을 아까워 한다는 점이다. 언뜻 보기에는 화면 전체에 복잡한 숫자와 p-value들이 난무하는 다변수 분석이 뭔가 하는 것 같고 멋있어 보이겠지만, 대부분의 결과는 그 이전에 이미 결정되어 있는 경우가 많다. 1. 정규성 검정이란? 정규분포 자료는 위의 그림과 같이 종모양이며 평균을 중심으로 양쪽으로 예쁘게 분포되어 있는 자료를 말한다. 정규분포가 중요한 이유는, 우리가 다루는 대부분의 통계적 분석법은 자료(특히 결과변수)가 정규분포를 만족한다고 가정하고 진행하는 것이기 때문이다. 2. 중심극한정리 (Central Limit Theorem) 확률론과 통계학에..