๋ชฉ๋กget_dummies() (2)

SJ_Koding

Data Dictionary (๋ฐ์ดํ„ฐ ๋”•์…”๋„ˆ๋ฆฌ)

AI๊ฒฝ์ง„๋Œ€ํšŒ์—์„œ ๋ฒ”์ฃผํ˜• ๋ฐ์ดํ„ฐ์˜ ๊ฐ€๋ณ€์ˆ˜ํ™”๋ฅผ ์ง„ํ–‰ํ• ๋•Œ, get_dummies()๋ฅผ test์…‹์— ์‚ฌ์šฉํ•˜๋ฉด Data Leakage๋ถ€์ •ํ–‰์œ„์— ํ•ด๋‹น๋œ๋‹ค. test์…‹์€ ๋ณผ ์ˆ˜ ์—†๋‹ค๋Š” ๊ฐ€์ •์— ์œ„๋ฐฐ๋˜๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค. ๋”ฐ๋ผ์„œ Train์…‹์„ ๊ธฐ๋ฐ˜์œผ๋กœ fit์„ ์ง„ํ–‰ํ•œ ํ›„, Test์…‹์— ๋Œ€ํ•ด transfrom์„ ์ง„ํ–‰ํ•˜๋Š” One-Hot Encoder๋“ฑ์„ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๋‹ค. ์ด๋ ‡๊ฒŒ ๋˜๋ฉด Train์…‹์„ ๊ธฐ๋ฐ˜์œผ๋กœ ๊ฐ€๋ณ€์ˆ˜ํ™”๊ฐ€ ์ง„ํ–‰๋˜๊ธฐ ๋•Œ๋ฌธ์— test๋ฅผ ๋ณด์ง€ ์•Š์•„๋„ ๊ฐ€๋Šฅํ•˜๋‹ค. ๊ทธ๋Ÿฐ๋ฐ ๋ฌธ๋“, ์‹ค์ œ ์ƒํ™ฉ์—์„œ์˜ ๋ฐ์ดํ„ฐ๊ฐ€ ๋– ์˜ฌ๋ž๋Š”๋ฐ ์˜ˆ๋ฅผ ๋“ค์–ด ์˜ํ™” ์žฅ๋ฅด๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ๊ด€๊ฐ ํ‰์  ์˜ˆ์ธกํ•˜๋Š” ์˜ˆ์ œ๋ฅผ ๋– ์˜ฌ๋ ค๋ณด์ž. '์•ก์…˜', '๋“œ๋ผ๋งˆ', '์ฝ”๋ฏธ๋””' ์žฅ๋ฅด์˜ ์˜ํ™” ๋ฐ์ดํ„ฐ๋ฅผ ์‚ฌ์šฉํ•  ํ•˜์—ฌ ๋ชจ๋ธ์ด ํ•™์Šต๋˜์—ˆ๋‹ค๊ณ  ํ•  ๋•Œ, 'SF์˜ํ™”'๊ฐ€ ์ž…๋ ฅ์œผ๋กœ ๋“ค์–ด์˜ฌ ๊ฒฝ์šฐ์—๋Š” ์–ด๋–ป๊ฒŒ ์ฒ˜๋ฆฌ..

pandas, Ont-Hot์ธ์ฝ”๋”ฉ ํ•˜๋Š” ๋ฒ• (pd.get_dummies())

pandas ํŒจํ‚ค์ง€๋Š” ์ž๋™์œผ๋กœ ๋ฒ”์ฃผํ˜• ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•ด One-Hot์ธ์ฝ”๋”ฉ์„ ์ง„ํ–‰ํ•˜๋Š” ๋ฉ”์†Œ๋“œ๊ฐ€ ์กด์žฌํ•ฉ๋‹ˆ๋‹ค. pd.get_dummies() ๊ฒฐ๊ณผ๋ฅผ ๋ฏธ๋ฆฌ ๋ณด์—ฌ๋“œ๋ฆฝ๋‹ˆ๋‹ค. df_train = pd.get_dummies(df_train) ์ปฌ๋Ÿผ์˜ ์ˆ˜๊ฐ€ 10๊ฐœ์—์„œ 15๊ฐœ๋กœ ์ฆ๊ฐ€ํ•˜์˜€๊ณ , stringํ˜•์— ๋Œ€ํ•œ ๋ฐ์ดํ„ฐ๋“ค์— ๋Œ€ํ•ด ๋ชจ๋‘ One-Hot์ธ์ฝ”๋”ฉ์ด ์ง„ํ–‰๋œ ๋ชจ์Šต์ž…๋‹ˆ๋‹ค. ์‚ฌ์šฉ ๋ฐฉ๋ฒ•์€ ์œ„์— ์ œ์‹œ๋˜์—ˆ์ง€๋งŒ ์ž์„ธํžˆ ์•Œ๋ ค๋“œ๋ฆฝ๋‹ˆ๋‹ค. ๋จผ์ € ์˜ˆ์‹œ๋กœ ์ œ์‹œ๋œ ๋ฐ์ดํ„ฐ๋Š” ๋ฐ์ด์ฝ˜์—์„œ ์ง„ํ–‰๋˜๋Š” 'ํŽญ๊ท„ ๋ชธ๋ฌด๊ฒŒ ์˜ˆ์ธก ๊ฒฝ์ง„๋Œ€ํšŒ'์—์„œ ์ œ๊ณต๋œ ๋ฐ์ดํ„ฐ ์…‹์ž…๋‹ˆ๋‹ค. https://dacon.io/competitions/official/235862/data ํŽญ๊ท„ ๋ชธ๋ฌด๊ฒŒ ์˜ˆ์ธก ๊ฒฝ์ง„๋Œ€ํšŒ - DACON ์ข‹์•„์š”๋Š” 1๋ถ„ ๋‚ด์— ํ•œ ๋ฒˆ๋งŒ ํด๋ฆญ ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. dacon.io..

Data analysis/Pandas 2022. 1. 6. 20:19