728x90
unique()는 파이썬의 판다스(Pandas) 라이브러리에서 제공되는 메서드로, 주어진 시리즈(Series) 또는 데이터 프레임의 열에서 고유한(unique) 값을 추출하는 함수이다. 고유한 값이란 중복되지 않는 값을 의미한다. 이 메서드를 사용하면 해당 열에 있는 고유한 값들을 배열로 반환한다.
A B C
0 1 2 2
1 3 4 6
2 1 2 8
3 5 6 2
여기에서 df['A'].unique()를 호출하면, 열 'A'에 있는 고유한 값인 [1, 3, 5]가 반환된다. 마찬가지로 df['B'].unique()는 [2, 4, 6]을 반환하고, df['C'].unique()는 [2, 6, 8]을 반환한다.
데이터 프레임에서 이진 변수(Binary variable)를 찾는 코드
bin_var = []
for k in df.keys():
if len(df[k].unique()) == 2:
bin_var.append(k)
# bin_var = [k for k in df.keys() if len(df[k].unique()) == 2] 리스트 컴프리헨션
이진 변수를 값으로 가진 컬럼이 bin_var에 저장된다.
print(bin_var) # ['Street', 'Utilities', 'CentralAir']
728x90
'AI' 카테고리의 다른 글
비용 함수(Cost Function, 또는 손실 함수) (1) | 2023.08.19 |
---|---|
Celluloid (0) | 2023.08.19 |
조건부 확률 분포 (0) | 2023.08.14 |
결합 확률 분포, 주변 확률 분포 (0) | 2023.08.14 |
KNN(K-Nearest Neighbors) 알고리즘 (0) | 2023.07.30 |