2019-10-07 TIL 데이터프레임 중복 제거

2019. 10. 7. 13:29

쿼리에서 조건을 줘서 걸러내는 작업을 줄이고, 데이터를 가져오는 기준이 변경되면서

이전에 쿼리에서 하던 '데이터에서 중복을 제거하는 것'을 파이썬으로 처리하게 되었다.

업무에서 시험하는 데이터가 많다 보니, 어떤 데이터가 중복되었는지 찾아내는 것 조차 어렵다.

(작게는 5만건, 많게는 200만건.. )

한 번 시험할 때 확인해야 할 양이 많다.

이유는 모르겠지만.. 중복 데이터가 4개 정도 더 발생되는게 문제였다.

디버깅 하며 어디서 불필요한 데이터가 남아있는지 찾아냈다.

쿼리가 해결해주지 못한 부분이 어디인지 찾아내는 과정이 답답했다. 왜냐하면 데이터가 많으니깐 시간이 오래걸렸기 때문이다.

해결한 내용

데이터프레임 끼리 merge를 진행 한 후에, 중복을 제거하고 인덱스를 다시 붙였다.

drop_duplicates 를 진행할 때, 어떤 칼럼(들)을 기준으로 중복을 제거할 지 설정했더니 중복제거가 원하는 대로 됬다!

데이터프레임을 추출, 병합, 조인한 후에 데이터프레임의 길이와 내용을 잘 확인하자는 교훈(?)을 얻었다.

728x90

2019-11-01 TIL python dataframe 2개 이상 컬럼으로 조인 (0)	2019.11.01
2019-10-08 TIL 파이썬 순열 (0)	2019.10.08
2019-09-30 TIL 파이썬을 파이썬답게 (0)	2019.09.30
2019-09-23 TIL Iterable 다루기 (0)	2019.09.23
2019-09-22 TIL 문자열 정렬 (0)	2019.09.23

JArchive 프로그래밍 일기