Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
Tags
- 연산량 감소
- 인접리스트
- dfs
- outer join
- depthwise convolution
- get_dummies()
- bottleneck
- BFS
- 그래프
- SQL
- SQLD
- 1x1 Convolution
- 엔터티
- pytorch
- 식별자
- Two Pointer
- Inductive Bias
- 백준
- resnet
- dp
- mobilenet
- SQLD 후기
- 인접행렬
- 정규화
- feature map
- 데이터모델링
- skip connection
- numpy
- Depthwise Separable Convolution
- CROSS JOIN
Archives
- Today
- Total
목록Data analysis/이론 정리 (1)
SJ_Koding
Data Dictionary (데이터 딕셔너리)
AI경진대회에서 범주형 데이터의 가변수화를 진행할때, get_dummies()를 test셋에 사용하면 Data Leakage부정행위에 해당된다. test셋은 볼 수 없다는 가정에 위배되기 때문이다. 따라서 Train셋을 기반으로 fit을 진행한 후, Test셋에 대해 transfrom을 진행하는 One-Hot Encoder등을 사용할 수 있다. 이렇게 되면 Train셋을 기반으로 가변수화가 진행되기 때문에 test를 보지 않아도 가능하다. 그런데 문득, 실제 상황에서의 데이터가 떠올랐는데 예를 들어 영화 장르를 기반으로 관객 평점 예측하는 예제를 떠올려보자. '액션', '드라마', '코미디' 장르의 영화 데이터를 사용할 하여 모델이 학습되었다고 할 때, 'SF영화'가 입력으로 들어올 경우에는 어떻게 처리..
Data analysis/이론 정리
2023. 11. 29. 12:56