일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- mobilenet
- feature map
- 연산량 감소
- CROSS JOIN
- numpy
- resnet
- 인접행렬
- get_dummies()
- 인접리스트
- Depthwise Separable Convolution
- SQLD 후기
- 정규화
- 1x1 Convolution
- 엔터티
- bottleneck
- Inductive Bias
- pytorch
- 데이터모델링
- dp
- BFS
- Two Pointer
- SQLD
- 백준
- 식별자
- 그래프
- dfs
- outer join
- depthwise convolution
- skip connection
- SQL
- Today
- Total
목록Data analysis (11)
SJ_Koding
AI경진대회에서 범주형 데이터의 가변수화를 진행할때, get_dummies()를 test셋에 사용하면 Data Leakage부정행위에 해당된다. test셋은 볼 수 없다는 가정에 위배되기 때문이다. 따라서 Train셋을 기반으로 fit을 진행한 후, Test셋에 대해 transfrom을 진행하는 One-Hot Encoder등을 사용할 수 있다. 이렇게 되면 Train셋을 기반으로 가변수화가 진행되기 때문에 test를 보지 않아도 가능하다. 그런데 문득, 실제 상황에서의 데이터가 떠올랐는데 예를 들어 영화 장르를 기반으로 관객 평점 예측하는 예제를 떠올려보자. '액션', '드라마', '코미디' 장르의 영화 데이터를 사용할 하여 모델이 학습되었다고 할 때, 'SF영화'가 입력으로 들어올 경우에는 어떻게 처리..
OpenCV 명령어 정리 1. cv2.namedWindow(winname[, flags]) à None 설명: 윈도우 이름을 설정한 후, 해당 이름으로 윈도우 생성 winname(str): 윈도우 이름 flags(int): 윈도우의 크기조정 cv2.WINDOW_NORMAL | 값 0 | 윈도우 크기 재조정 가능 cv2.WINDOW_AUTOSIZE | 값 1 | 표시될 행렬의 크기에 맞춰 자동 조정 2. cv2.imshow(winname, mat) à None 설명: winname 이름의 윈도우에 mat행렬을 영상으로 표시함. 생성된 윈도우가 없으면, winname 이름으로 윈도우를 생성하고 영상을 표시한다. mat(numpy.ndarray) 윈도우에 표시되는 영상 (행렬이 화소값을 밝기로 표시) 3. c..
Confused matrix (혼동행렬) Retrieved? (양성으로 예측했니?) Relevant? (실제 양성이니?) YES NO YES TP FN NO FP TN T의 의미: 예측이 성공한 것 TP: 참으로 예측한 것이 실제로 참 (적중) TN: 거짓으로 예측한 것이 실제로 거짓 (적중) F의 의미: 예측을 실패한 것 FP: 참으로 예측한 것이 실제로 거짓 (오답) FN: 거짓으로 예측한 것이 실제로 참 (오답) 정밀도와 재현율을 공부할 때, 식을 외우는게 아니라 단어의 의미를 파악하는것이 중요. 이해를 위해 코로나바이러스로 예를 들겠습니다. Precision(정밀도)와 Recall(재현율) Precision (정밀도) : 양성으로 예측한 것중 실제로 양성인 비율 ex) 확진자로 분류된 사람이 실제..
Numpy 라이브러리를 사용하면 배열 데이터를 파일로 저장하거나 파일에서 불러올 수 있습니다. 이를 위해 np.save()와 np.savez() 함수를 사용할 수 있습니다. 1. 단일 Numpy배열 저장하기 np.save('경로/파일명.npy', numpy데이터) - save 함수는 배열을 1개만 저장할 수 있습니다. - save 시 확장자는 .npy 를 사용합니다. array = [1, 3, 5, 7, 9, 2, 4, 6, 8, 0] np.save('array.npy', array) new_array = np.load('array.npy') new_array 2. 복수 Numpy 저장하기 np.savez('경로/파일명.npz', numpy데이터 = 이름 , ---) - savez 함수는 여러 개의 배열..
Matplotlib을 사용하다보면 그래프를 세로로 나열하지 않고 아래의 그림과 같이 n by m 형태로 출력하고 싶은 경우가 대부분입니다. 이번 게시글은 Matplotlib의 subplot에 대해 알아봅니다. subplot은 plt.subplot(n, m, idx) 형태로 존재합니다. 여기서 n은 행의 개수, m은 열의 개수를 의미하며 subplot(4, 4, idx)는 4 x 4 의 형태로 그래프들을 나누어 출력하겠다! 라는 뜻이됩니다. 여기서 idx는 4x4의 바둑판이 있을때 몇 번째에 그래프를 출력할건지의 값입니다. idx가 6이라면 2행의 2번째에 올것입니다. * 주의사항: subplot의 idx는 0이 아닌 1부터 시작입니다. 즉 1행의 1번째는 0이아닌 1입니다!. 코드로 설명합니다. impo..
pandas 패키지는 자동으로 범주형 데이터에 대해 One-Hot인코딩을 진행하는 메소드가 존재합니다. pd.get_dummies() 결과를 미리 보여드립니다. df_train = pd.get_dummies(df_train) 컬럼의 수가 10개에서 15개로 증가하였고, string형에 대한 데이터들에 대해 모두 One-Hot인코딩이 진행된 모습입니다. 사용 방법은 위에 제시되었지만 자세히 알려드립니다. 먼저 예시로 제시된 데이터는 데이콘에서 진행되는 '펭귄 몸무게 예측 경진대회'에서 제공된 데이터 셋입니다. https://dacon.io/competitions/official/235862/data 펭귄 몸무게 예측 경진대회 - DACON 좋아요는 1분 내에 한 번만 클릭 할 수 있습니다. dacon.io..
안녕하세요, 성지코딩입니다! 이번 게시글은 Numpy 인덱싱에 대해 알아봅니다. Index는 행렬, 배열, 리스트 등에서 특정 요소를 빠르게 참조할 수 있습니다. Numpy Array Indexing 리스트 혹은 다른 언어에서의 배열같은 경우 일반적으로 정수 값을 사용하고 정수는 특정 요소의 위치(순서)를 의미합니다. 파이썬에서 시퀀스 자료형에서 사용한 것과 동일하게 대괄호([])를 사용하여 특정 요소에 접근이 가능합니다. 기존 파이썬의 시퀀스 자료형에는 차원에 따라 대괄호를 여러번 사용 했지만 Numpy 에서 대괄호는 한 번만 사용됩니다. 단 차원의 구분자로 ,를 사용합니다. 예) 2차원 리스트에서 데이터 접근: list[0][1] 예) 2차원 Numpy Array에서 데이터 접근 : array[0, ..
안녕하세요, 성지코딩입니다! 이번 게시글은 Numpy의 연산에 대해 알아봅니다. 여기서 Broadcast의 개념은 Pandas에서도 이어지니 꼭 알아두셔야합니다. 어쩌면 Numpy의 꽃이라고 볼 수 있겠네요. Numpy Array의 연산은 Broadcast(Element Wise)연산으로 이루어집니다. Array간의 연산은 각 요소별 연산이 이뤄지며 연산 함수 또는 연산자를 이용합니다. Array와 Scalar간의 연산은 Scalar 값이 Array 각 요소별로 계산합니다. 그림으로 설명합니다. 2 by 2 Array간의 연산입니다. 여기서 리스트로 연산을 진행할 때의 단점이 부각됩니다. 리스트간의 + 연산은 값을 더하는 것이 아니라 그저 이어 붙일 뿐입니다. 리스트로 진행 할 경우에는 반복문을 사용해서..