YeongRong's Blog

R) tidyverse를 활용한 손쉬운 데이터 재구조화

해들리 위캄이 데이터 처리의 효율성을 위해서 만든 패키지를 합쳐 타이디벌스라고 지칭합니다. 이에 포함되는 대표적인 패키지는 저번에 포스팅한 dplyr이며 여기에 추가적으로 tidyr도 자주 쓰인다고 합니다. 따라서 이 두가지 패키지를 활용한 데이터 전처리 방법엔 무엇이 있는지 정리해봤습니다. 1. bind_cols(=cbind)와 bind_rows(=rbind) 데이터를 열방향으로 병합할때 쓰는 cbind와 행방향으로 병합할때 쓰는 rbind의 역할을 하는 dplyr...

August 7, 2018

in R&python

R) 강력한 데이터 전처리 패키지 dplyr

R을 활용해서 데이터를 핸들링 하는 과정에서 R에 내장된 함수 및 기존에 쓰이던 패키지를 활용한 핸들링을 주로 해왔었습니다. 하지만, dplyr 패키지를 활용한 데이터 먼징 작업은 훨씬 직관적이고 활용하기 쉬운 문법으로 인해 R로 데이터를 처리하는 과정의 표준 방법이 되어 가고 있습니다. 따라서 이 방법에 대해 조금 더 숙달해보고자 이 포스팅을 작성하게 됐습니다....

August 5, 2018

in R&python

2017 BigContest) 2. 모델링 과정 및 결과

데이터 전처리와 파생변수 생성을 마친 뒤 적용해야될 알고리즘을 비교해가면서 데이터 특성에 맞는 모델링을 적용하고자 노력했습니다. 1) 모델링 과정 (1) 차원 축소 : PCA(주성분 분석) 변수 간의 상관관계가 높아서 작은 Dimension 으로 축소하는 방법을 고려했으나, 적은 주성분으로는 전체 변동을 충분히 설명할 수 없었음 (2) 샘플링 방법 : Under Sampling, Over Sampling,...

August 2, 2018

in Datacompetition

2017 BigContest) 1. 데이터 정의 및 전처리

대회 과정에서 데이터를 통해 파악할 수 있었던 내용과 이를 바탕으로 진행한 전처리 과정에 대해서 기록해보고자 합니다. 1) 데이터 정의 신용평가사, 보험사, 통신사의 결합 데이터 (비식별화) 100,000건 지도 학습을 통해 TARGET 변수 (대출 연체여부 : 연체(1), 비연체(0))를 정확히 맞추는 것이 주요 목표 데이터 셋이 크고, 변수도 매우 다양해서 이를 팀원 끼리...

August 1, 2018

in Datacompetition

머신러닝 프로젝트 진행에서 중요 사항

머신러닝 프로젝트를 진행함에 있어서 가장 기본이자 중요한 파트가 전체적인 프로세스를 이해하는 것 이라고 생각합니다. 실제로 분석을 진행하다보면 지엽적인 문제 해결에 갇힐 때가 발생하는 등, 분석의 최종적인 목표가 무엇인지 흐려질 때가 발생합니다. 따라서 전체적인 흐름을 이해하고 단계를 확실히 나누어서 단계 별로 목표를 명확히 하고 이를 통해 최종적인 목표를 달성하는 것이 프로젝트에서...

July 31, 2018

in Machinelearning