Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
Tags
- 식별자
- skip connection
- get_dummies()
- SQL
- CROSS JOIN
- 인접행렬
- numpy
- SQLD 후기
- mobilenet
- depthwise convolution
- feature map
- 연산량 감소
- Inductive Bias
- 1x1 Convolution
- 백준
- 인접리스트
- pytorch
- 그래프
- bottleneck
- BFS
- outer join
- 엔터티
- dp
- 데이터모델링
- 정규화
- Two Pointer
- SQLD
- resnet
- Depthwise Separable Convolution
- dfs
Archives
- Today
- Total
목록Data analysis/이론 정리 (1)
SJ_Koding
Data Dictionary (데이터 딕셔너리)
AI경진대회에서 범주형 데이터의 가변수화를 진행할때, get_dummies()를 test셋에 사용하면 Data Leakage부정행위에 해당된다. test셋은 볼 수 없다는 가정에 위배되기 때문이다. 따라서 Train셋을 기반으로 fit을 진행한 후, Test셋에 대해 transfrom을 진행하는 One-Hot Encoder등을 사용할 수 있다. 이렇게 되면 Train셋을 기반으로 가변수화가 진행되기 때문에 test를 보지 않아도 가능하다. 그런데 문득, 실제 상황에서의 데이터가 떠올랐는데 예를 들어 영화 장르를 기반으로 관객 평점 예측하는 예제를 떠올려보자. '액션', '드라마', '코미디' 장르의 영화 데이터를 사용할 하여 모델이 학습되었다고 할 때, 'SF영화'가 입력으로 들어올 경우에는 어떻게 처리..
Data analysis/이론 정리
2023. 11. 29. 12:56