쿼리에서 조건을 줘서 걸러내는 작업을 줄이고, 데이터를 가져오는 기준이 변경되면서
이전에 쿼리에서 하던 '데이터에서 중복을 제거하는 것'을 파이썬으로 처리하게 되었다.
업무에서 시험하는 데이터가 많다 보니, 어떤 데이터가 중복되었는지 찾아내는 것 조차 어렵다.
(작게는 5만건, 많게는 200만건.. )
한 번 시험할 때 확인해야 할 양이 많다.
이유는 모르겠지만.. 중복 데이터가 4개 정도 더 발생되는게 문제였다.
디버깅 하며 어디서 불필요한 데이터가 남아있는지 찾아냈다.
쿼리가 해결해주지 못한 부분이 어디인지 찾아내는 과정이 답답했다. 왜냐하면 데이터가 많으니깐 시간이 오래걸렸기 때문이다.
해결한 내용
데이터프레임 끼리 merge를 진행 한 후에, 중복을 제거하고 인덱스를 다시 붙였다.
drop_duplicates 를 진행할 때, 어떤 칼럼(들)을 기준으로 중복을 제거할 지 설정했더니 중복제거가 원하는 대로 됬다!
참고한 포스팅 https://nittaku.tistory.com/124
데이터프레임을 추출, 병합, 조인한 후에 데이터프레임의 길이와 내용을 잘 확인하자는 교훈(?)을 얻었다.
728x90
'일상 > Today I Learn(TIL)' 카테고리의 다른 글
2019-11-01 TIL python dataframe 2개 이상 컬럼으로 조인 (0) | 2019.11.01 |
---|---|
2019-10-08 TIL 파이썬 순열 (0) | 2019.10.08 |
2019-09-30 TIL 파이썬을 파이썬답게 (0) | 2019.09.30 |
2019-09-23 TIL Iterable 다루기 (0) | 2019.09.23 |
2019-09-22 TIL 문자열 정렬 (0) | 2019.09.23 |