처음 시작하는 R 데이터 분석 본문

Programming

처음 시작하는 R 데이터 분석

halatha 2018. 10. 10. 09:51

최근 계속해서 R책을 보고 있다. 결국 원하는 건 세이버매트릭스 분석을 따라해보고 싶은건데, 꾸준히 안 본 탓도 있지만, R코드가 왠지 눈에 잘 들어오지 않아서 그렇기도 하다(특히 index가 1부터 시작하는 부분은 굉장히 어색함). 그래서 더 초보용 책을 보는 중인데, 이번에 보게 된 책은 정말 초보자들에게 유용할 거 같다. 물론 프로그래밍을 모르는 사람이 보면 다를 수도 있겠지만, 이 정도면 솔직히 떠먹여주는 급이 아닐까 생각한다.

초보용 책이라고 하더라도 그 안에서 다시 난이도가 나뉜다고 생각하는데, 이 책은 그 중에서도 낮은 난이도를 갖는다. 책의 품질이 안 좋다는 게 아니라 오히려 보기 쉽게 잘 정리해서 품질이 좋다는 뜻이다. 각 장마다 연습문제가 있는 걸 보면 교재용으로도 의도한 거 같은데, 이 역시 목적 달성을 위해 좋다. 소소하게는 전체가 컬러로 되어 있는 점도 보기 좋다고 생각한다.

실습

초보자용 책이기도 하고 프로그래밍 책이기 때문에 설치부터 설명을 하는데, 지난 번 다른 책을 보면서, mro version 설치를 하다 문제가 생겼고, 시간이 없어 재설치를 못해 R Studio를 사용할 수 없는 상황이었다. 어떻게 할까 하다가 우연히 https://rstudio.cloud를 알게 되어서, 이 참에 테스트를 해봐야겠단 생각이 들어 여기서 실습을 진행해봤고, 한글 문제만 제외하면 초보자들에겐 정말 적절한 사이트란 생각이 들었다. 아래 스크린샷처럼 대부분의 코드가 잘 동작했다.

p55, 기본 변수 설정
p81
p81, readxl 설치
p81, readxl 설치 후 엑셀 파일을 읽어 살펴보기
p105, 엑셀 파일 속성, 행/열 개수, 열 제목 확인
p107, dplyr 설치 후 ID를 ID_NUM이라고 변경해봄
p168, R에 내장된 airquality data set을 이용해 reshape2 기본 동작 테스트
p225, R에 내장된 economics data set을 ggplot2로 사선 그리기

실습 프로젝트

마지막에는 4가지의 실습 프로젝트 코드를 보여주는데, 간단한 분석이라면 이런 코드를 가지고 조금만 수정하면 잘 쓸 수 있을 거 같다. 3번째 project는 한글이 깨져서 워드 클라우드를 그려봐야 제대로 나오지 않으므로 하지 않았고, 4번째 project는 csv file을 그냥 upload하면 encoding 문제로 사용할 수 없어 iconv로 utf8로 바꾼 후 해봤지만 결국 실패했다. R studio 문제를 해결하면 다시 해보고 싶다.

project 1

treemap에서 한글이 깨진 점만 제외하면 실행이 잘 된다

project 2

역시 boxplot에서 한글이 깨지는 점만 빼면 잘 된다

기타

책에 나온 실습 코드를 진행하면서 psych, descr, reshape2, extrafont, wordcloud2, ggplot2, googleVis, ggmap, treemap은 전부 설치하고 실행하는 데 문제가 없었고, 딱 하나 문제가 발생했다. 한글 분석을 위한 “KoNLP”인데, 오류가 발생해서 몇 가지 시도를 했지만 결국 실패를 했다. 이 부분 역시 R Studio문제를 해결하면 다시 해보고 싶다.

KoNLP 설치 실패
locale을 바꿔서 다시 해보려 했으나 역시 실패
localeToCharset()의 결과를 보면 되야 할 거 같으나 실패

KoNLP 문제 해결을 위해 참고했던 link들
https://github.com/haven-jeon/KoNLP/issues/53
http://hreeman.tistory.com/174
http://euriion.com/?p=154
http://r-bong.blogspot.com/2016/03/rstudio_26.html

Comments