쿼리에서 조건을 줘서 걸러내는 작업을 줄이고, 데이터를 가져오는 기준이 변경되면서

이전에 쿼리에서 하던 '데이터에서 중복을 제거하는 것'을 파이썬으로 처리하게 되었다. 

 

업무에서 시험하는 데이터가 많다 보니, 어떤 데이터가 중복되었는지 찾아내는 것 조차 어렵다. 

(작게는 5만건, 많게는 200만건.. )

한 번 시험할 때 확인해야 할 양이 많다. 

 

이유는 모르겠지만.. 중복 데이터가 4개 정도 더 발생되는게 문제였다. 

디버깅 하며 어디서 불필요한 데이터가 남아있는지 찾아냈다. 

 

쿼리가 해결해주지 못한 부분이 어디인지 찾아내는 과정이 답답했다. 왜냐하면 데이터가 많으니깐 시간이 오래걸렸기 때문이다. 

 

해결한 내용

 

데이터프레임 끼리 merge를 진행 한 후에, 중복을 제거하고 인덱스를 다시 붙였다. 

drop_duplicates 를 진행할 때, 어떤 칼럼(들)을 기준으로 중복을 제거할 지 설정했더니 중복제거가 원하는 대로 됬다!

참고한 포스팅  https://nittaku.tistory.com/124

 

데이터프레임을 추출, 병합, 조인한 후에 데이터프레임의 길이와 내용을 잘 확인하자는 교훈(?)을 얻었다. 

 

 

 

728x90

+ Recent posts