전체 글
-
[R] 랜덤포레스트(Random Forest )통계방법론 2019. 7. 19. 14:06
머신러닝 기법을 사용할 일이 있었는데, 그 중에서 나는 Random Forest를 맡게 되었다. 사용해본 적이 없어, 혼자 공부하고 적용해본 예시를 공유코자 한다. 랜덤 포레스트는 주어진 데이터로부터 여러 개의 모델을 학습한 다음, 예측 시 여러 모델의 예측 결과들을 종합해서 사용하여 정확도를 높이는 기법 중의 하나다. 특히, 랜덤 포레스트는 분석 도구로서 의사결정나무 모델을 사용한다. 즉, 랜덤포레스트란 여러 개의 의사결정트리를 만들고, 투표를 시켜 다수결로 결과를 결정하는 방법이다. 1. 장점 1) 개별 의사결정나무가 과대적합을 만드는 단점을 해소할 수 있다. 2) 특별한 매개변수 튜닝 없이도 높은 정확도를 가지고 있다. 2. 단점 1) 의사결정나무와 비교하였을 때, 예측 과정을 시각적으로 보여주기 ..
-
[R] rCharts > nplot데이터시각화 2019. 6. 24. 19:52
rCharts 패키지 중 nPlot으로 그래프를 그려보았다. (여기서 subset으로 HairEyeClor로부터 Sex가 Male인 데이터만 뽑아 따로 hair_eye_male 객체로 지정했으며, 해당 데이터는 아래와 같이 생겼다. ) 위와 같이 예쁘게 나왔다. 대단한 건, 위의 Stacked를 누르면 그래프가 아래와 같이 바뀐다는 점이다. 다른 옵션을 한 번 적용해보았다. multiBarChart 자리에 scatterChart를 넣어보았다. 의미를 알 수 없는 그래프가 출력되었다. 아무래도 scatterChart 옵션은 nPlot의 x measure 자리에 continous 데이터만 읽을 수 있는 듯하다. 그래서 연속형 변수를 임의로 하나 추가한 후에 x measure 자리에 임의로 추가한 연속형 변수..