저는 현재 AI 회사에서 빅데이터 분석가로 활동하면서 컨설팅을 하고 있는 직장인입니다.
약 2년차가 되어가고 있는 중인데요, 현업에 들어가 빅데이터 분석을 하면 가장 기본적인데도 급하게 하다보니 놓치기 쉬운 것들이 많았답니다.😂
그래서 저도 기억할 겸, 분석을 할 때 가장 기본적이고, 먼저 파악해야 하는 것들은 무엇인지 정리해보고, 나중에는 이와 관련된 포스팅도 지속적으로 해보려고 합니다:)
1. 데이터의 각 컬럼마다 타입 지정하기
현업에서 일을 하다 보면 데이터를 받는 방법이 크게 두가지가 있었습니다.
- 하둡 등 DB에서 직접 내려받는 법
- csv로 내린 후 불러오는 법
사실 python이나 R에서 db connection으로 직접 불러오는 것은 타입이 지정된 대로 불러와지기 때문에 큰 문제가 안되지만, csv 로 받는 순간 숫자로 나열되어있는 문자열들이 숫자형으로 불러와지고, 그러다보면 코드성 문자열들(01, 02 등)이 앞에 0이 사라진채로 불러와지는 현상들이 있었습니다. 엑셀에서 csv를 열어도 그럴때 많죠?ㅎㅎ
그래서 항상 test성으로 몇줄만 불러온 후 타입을 확인하고, read_csv()할 때 타입을 지정해서 불러오는 것이 좋습니다.
그리고 만약 내가 데이터를 저장하는 사람의 입장이라면, 타입 보존을 위해 csv보단 pickle등 다른 형태로 내리는 것을 추천합니다.(이와 관련된 포스팅은 추후 첨부)
2. 데이터의 결측치 확인하기
학부생 시절에는 결측치라고 하면 NULL 또는 NaN만 있는 줄 알았어요😂
그런데 현업에 와보니 참 다양한 결측값들이 많아 찾기 힘들더라구요ㅠㅠ
흔히 'null'(문자열로 null이라 쓰여진 경우) 또는 ' '(단순공백) 등 지정된 형태가 아닌 다른 형태의 것들은 결국 데이터 분석에서 결측치, 아웃라이어라는 사실!
그러니 데이터 탐색을 할 때 isnull() 만 해보는 것이 아니라 여러방법으로 na값을 검색해보시기 바랍니다!
3. 저장할 때 파일명, 확장자 통일시키기
이건 정말 기본적이지만, 좋은게 나타났다 싶으면 바로 적용하는 저의 조금 안좋은 습관 중 하나였어요! 금방 바꾸면 될 것 같았는데, 협업을 하는 사람에게는 변동했을때 서로 소통하며 저장하는 것이 매우 중요하더라구요!
그리고 저장 경로, 파일 명들을 통일시켜서 나중에 찾기 편하도록, 하드코딩이 거의 필요 없을 정도로 만드는 것이 아주 중요합니다.
'study Data' 카테고리의 다른 글
[ML&DL Study] Chapter 1. 인공지능에 대하여 (0) | 2020.06.25 |
---|
댓글