๋ชฉ๋ก์ „์ฒด ๊ธ€ (87)

SJ_Koding

pandas, Ont-Hot์ธ์ฝ”๋”ฉ ํ•˜๋Š” ๋ฒ• (pd.get_dummies())

pandas ํŒจํ‚ค์ง€๋Š” ์ž๋™์œผ๋กœ ๋ฒ”์ฃผํ˜• ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•ด One-Hot์ธ์ฝ”๋”ฉ์„ ์ง„ํ–‰ํ•˜๋Š” ๋ฉ”์†Œ๋“œ๊ฐ€ ์กด์žฌํ•ฉ๋‹ˆ๋‹ค. pd.get_dummies() ๊ฒฐ๊ณผ๋ฅผ ๋ฏธ๋ฆฌ ๋ณด์—ฌ๋“œ๋ฆฝ๋‹ˆ๋‹ค. df_train = pd.get_dummies(df_train) ์ปฌ๋Ÿผ์˜ ์ˆ˜๊ฐ€ 10๊ฐœ์—์„œ 15๊ฐœ๋กœ ์ฆ๊ฐ€ํ•˜์˜€๊ณ , stringํ˜•์— ๋Œ€ํ•œ ๋ฐ์ดํ„ฐ๋“ค์— ๋Œ€ํ•ด ๋ชจ๋‘ One-Hot์ธ์ฝ”๋”ฉ์ด ์ง„ํ–‰๋œ ๋ชจ์Šต์ž…๋‹ˆ๋‹ค. ์‚ฌ์šฉ ๋ฐฉ๋ฒ•์€ ์œ„์— ์ œ์‹œ๋˜์—ˆ์ง€๋งŒ ์ž์„ธํžˆ ์•Œ๋ ค๋“œ๋ฆฝ๋‹ˆ๋‹ค. ๋จผ์ € ์˜ˆ์‹œ๋กœ ์ œ์‹œ๋œ ๋ฐ์ดํ„ฐ๋Š” ๋ฐ์ด์ฝ˜์—์„œ ์ง„ํ–‰๋˜๋Š” 'ํŽญ๊ท„ ๋ชธ๋ฌด๊ฒŒ ์˜ˆ์ธก ๊ฒฝ์ง„๋Œ€ํšŒ'์—์„œ ์ œ๊ณต๋œ ๋ฐ์ดํ„ฐ ์…‹์ž…๋‹ˆ๋‹ค. https://dacon.io/competitions/official/235862/data ํŽญ๊ท„ ๋ชธ๋ฌด๊ฒŒ ์˜ˆ์ธก ๊ฒฝ์ง„๋Œ€ํšŒ - DACON ์ข‹์•„์š”๋Š” 1๋ถ„ ๋‚ด์— ํ•œ ๋ฒˆ๋งŒ ํด๋ฆญ ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. dacon.io..

Data analysis/Pandas 2022. 1. 6. 20:19
01. [Dacon basic], ํŽญ๊ท„ ๋ชธ๋ฌด๊ฒŒ ์˜ˆ์ธก ๊ฒฝ์ง„๋Œ€ํšŒ ์ฐธ๊ฐ€ ์ฝ”๋“œ[์ตœ์ข… 26์œ„ / 725๋ช…, private score : 308.10401(RMSE)]

์ €๋Š” ์˜ค๋Š˜ ์ฒ˜์Œ์œผ๋กœ Dacon AI๊ฒฝ์ง„๋Œ€ํšŒ๋ฅผ ์ฐธ๊ฐ€ํ•ด๋ณด์•˜์Šต๋‹ˆ๋‹ค. ์ฃผ์ œ๋Š” ํŽญ๊ท„ ๋ชธ๋ฌด๊ฒŒ ์˜ˆ์ธก์œผ๋กœ, ๋จธ์‹ ๋Ÿฌ๋‹ ์ž…๋ฌธ์ž๋ฅผ ์œ„ํ•œ Basic ๋Œ€ํšŒ์ž…๋‹ˆ๋‹ค. (์ž‘์„ฑ์ผ ๊ธฐ์ค€, ์ €ํ•œํ…Œ ๋งž๋Š” ์ˆ˜์ค€์ž…๋‹ˆ๋‹ค ใ…Ž) https://dacon.io/competitions/official/235862/overview/description ํŽญ๊ท„ ๋ชธ๋ฌด๊ฒŒ ์˜ˆ์ธก ๊ฒฝ์ง„๋Œ€ํšŒ - DACON ์ข‹์•„์š”๋Š” 1๋ถ„ ๋‚ด์— ํ•œ ๋ฒˆ๋งŒ ํด๋ฆญ ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. dacon.io ๊ตฌ๊ธ€ ์ฝ”๋žฉ์—์„œ CPUํ™˜๊ฒฝ์œผ๋กœ ์ง„ํ–‰์„ ํ•˜์˜€์œผ๋ฉฐ skleran ๋ชจ๋“ˆ์„ ์ด์šฉํ•˜์—ฌ ๋ชจ๋ธ์„ ๊ตฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ ํ‰๊ฐ€ ์ง€ํ‘œ๋กœ RMSE๋ฅผ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. Mean Squared Error์— Root๋ฅผ ์”Œ์šด ๊ฐ’์œผ๋กœ ํ‰๊ฐ€๋ฅผ ์ง„ํ–‰ํ•ฉ๋‹ˆ๋‹ค. ๋ฐ์ดํ„ฐ๋Š” 3๊ฐœ์˜ csvํŒŒ์ผ๋กœ ์ฃผ์–ด์ง‘๋‹ˆ๋‹ค. 1. train.csv : ํ•™์Šต ๋ฐ์ดํ„ฐ i..

AI Competition 2022. 1. 6. 15:52
Numpy ์ธ๋ฑ์‹ฑ(์ •์ˆ˜ ์ธ๋ฑ์‹ฑ, ์กฐ๊ฑด ์ธ๋ฑ์‹ฑ, ํŒฌ์‹œ ์ธ๋ฑ์‹ฑ)

์•ˆ๋…•ํ•˜์„ธ์š”, ์„ฑ์ง€์ฝ”๋”ฉ์ž…๋‹ˆ๋‹ค! ์ด๋ฒˆ ๊ฒŒ์‹œ๊ธ€์€ Numpy ์ธ๋ฑ์‹ฑ์— ๋Œ€ํ•ด ์•Œ์•„๋ด…๋‹ˆ๋‹ค. Index๋Š” ํ–‰๋ ฌ, ๋ฐฐ์—ด, ๋ฆฌ์ŠคํŠธ ๋“ฑ์—์„œ ํŠน์ • ์š”์†Œ๋ฅผ ๋น ๋ฅด๊ฒŒ ์ฐธ์กฐํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. Numpy Array Indexing ๋ฆฌ์ŠคํŠธ ํ˜น์€ ๋‹ค๋ฅธ ์–ธ์–ด์—์„œ์˜ ๋ฐฐ์—ด๊ฐ™์€ ๊ฒฝ์šฐ ์ผ๋ฐ˜์ ์œผ๋กœ ์ •์ˆ˜ ๊ฐ’์„ ์‚ฌ์šฉํ•˜๊ณ  ์ •์ˆ˜๋Š” ํŠน์ • ์š”์†Œ์˜ ์œ„์น˜(์ˆœ์„œ)๋ฅผ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค. ํŒŒ์ด์ฌ์—์„œ ์‹œํ€€์Šค ์ž๋ฃŒํ˜•์—์„œ ์‚ฌ์šฉํ•œ ๊ฒƒ๊ณผ ๋™์ผํ•˜๊ฒŒ ๋Œ€๊ด„ํ˜ธ([])๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ํŠน์ • ์š”์†Œ์— ์ ‘๊ทผ์ด ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค. ๊ธฐ์กด ํŒŒ์ด์ฌ์˜ ์‹œํ€€์Šค ์ž๋ฃŒํ˜•์—๋Š” ์ฐจ์›์— ๋”ฐ๋ผ ๋Œ€๊ด„ํ˜ธ๋ฅผ ์—ฌ๋Ÿฌ๋ฒˆ ์‚ฌ์šฉ ํ–ˆ์ง€๋งŒ Numpy ์—์„œ ๋Œ€๊ด„ํ˜ธ๋Š” ํ•œ ๋ฒˆ๋งŒ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค. ๋‹จ ์ฐจ์›์˜ ๊ตฌ๋ถ„์ž๋กœ ,๋ฅผ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ์˜ˆ) 2์ฐจ์› ๋ฆฌ์ŠคํŠธ์—์„œ ๋ฐ์ดํ„ฐ ์ ‘๊ทผ: list[0][1] ์˜ˆ) 2์ฐจ์› Numpy Array์—์„œ ๋ฐ์ดํ„ฐ ์ ‘๊ทผ : array[0, ..

Data analysis/Numpy 2022. 1. 2. 14:25
Numpy์˜ ์—ฐ์‚ฐ, Broadcast(Element Wise)

์•ˆ๋…•ํ•˜์„ธ์š”, ์„ฑ์ง€์ฝ”๋”ฉ์ž…๋‹ˆ๋‹ค! ์ด๋ฒˆ ๊ฒŒ์‹œ๊ธ€์€ Numpy์˜ ์—ฐ์‚ฐ์— ๋Œ€ํ•ด ์•Œ์•„๋ด…๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์„œ Broadcast์˜ ๊ฐœ๋…์€ Pandas์—์„œ๋„ ์ด์–ด์ง€๋‹ˆ ๊ผญ ์•Œ์•„๋‘์…”์•ผํ•ฉ๋‹ˆ๋‹ค. ์–ด์ฉŒ๋ฉด Numpy์˜ ๊ฝƒ์ด๋ผ๊ณ  ๋ณผ ์ˆ˜ ์žˆ๊ฒ ๋„ค์š”. Numpy Array์˜ ์—ฐ์‚ฐ์€ Broadcast(Element Wise)์—ฐ์‚ฐ์œผ๋กœ ์ด๋ฃจ์–ด์ง‘๋‹ˆ๋‹ค. Array๊ฐ„์˜ ์—ฐ์‚ฐ์€ ๊ฐ ์š”์†Œ๋ณ„ ์—ฐ์‚ฐ์ด ์ด๋ค„์ง€๋ฉฐ ์—ฐ์‚ฐ ํ•จ์ˆ˜ ๋˜๋Š” ์—ฐ์‚ฐ์ž๋ฅผ ์ด์šฉํ•ฉ๋‹ˆ๋‹ค. Array์™€ Scalar๊ฐ„์˜ ์—ฐ์‚ฐ์€ Scalar ๊ฐ’์ด Array ๊ฐ ์š”์†Œ๋ณ„๋กœ ๊ณ„์‚ฐํ•ฉ๋‹ˆ๋‹ค. ๊ทธ๋ฆผ์œผ๋กœ ์„ค๋ช…ํ•ฉ๋‹ˆ๋‹ค. 2 by 2 Array๊ฐ„์˜ ์—ฐ์‚ฐ์ž…๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์„œ ๋ฆฌ์ŠคํŠธ๋กœ ์—ฐ์‚ฐ์„ ์ง„ํ–‰ํ•  ๋•Œ์˜ ๋‹จ์ ์ด ๋ถ€๊ฐ๋ฉ๋‹ˆ๋‹ค. ๋ฆฌ์ŠคํŠธ๊ฐ„์˜ + ์—ฐ์‚ฐ์€ ๊ฐ’์„ ๋”ํ•˜๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ ๊ทธ์ € ์ด์–ด ๋ถ™์ผ ๋ฟ์ž…๋‹ˆ๋‹ค. ๋ฆฌ์ŠคํŠธ๋กœ ์ง„ํ–‰ ํ•  ๊ฒฝ์šฐ์—๋Š” ๋ฐ˜๋ณต๋ฌธ์„ ์‚ฌ์šฉํ•ด์„œ..

Data analysis/Numpy 2022. 1. 1. 01:05
Numpy ๋ฐฐ์—ด ํ˜•ํƒœ ๋ณ€๊ฒฝ(reshape)๊ณผ ๋ฐ์ดํ„ฐ ์œ ํ˜• ๋ณ€๊ฒฝ (dtype, astype)

์•ˆ๋…•ํ•˜์„ธ์š”! ์„ฑ์ง€์ฝ”๋”ฉ์ž…๋‹ˆ๋‹ค. ์ด๋ฒˆ ๊ฒŒ์‹œ๊ธ€์€ Numpy์˜ ๋ฐฐ์—ด ํ˜•ํƒœ ๋ณ€๊ฒฝ๊ณผ ๋ฐ์ดํ„ฐ ์œ ํ˜• ๋ณ€๊ฒฝ์— ๋Œ€ํ•ด ์•Œ์•„๋ด…๋‹ˆ๋‹ค. Numpy ๋ฐฐ์—ด ํ˜•ํƒœ ๋ณ€๊ฒฝ Numpy Array์˜ ๊ฐ€์žฅ ํฐ ์žฅ์ ์€ ํ˜•ํƒœ(shape)๋ฅผ ์ž์œ ์ž์žฌ๋กœ ๋ณ€๊ฒฝ์ด ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค. - ๋‹จ, ๋ณ€๊ฒฝ ์ „ ๋ฐ์ดํ„ฐ ๊ฐœ์ˆ˜์™€ ๋ณ€๊ฒฝ ํ›„ ๋ฐ์ดํ„ฐ์˜ ๊ฐœ์ˆ˜(size)๋Š” ๊ฐ™์•„์•ผ ํ•ฉ๋‹ˆ๋‹ค. Numpy Array์˜ ํ˜•ํƒœ๋ฅผ ๋ฐ”๊พธ๊ธฐ ์œ„ํ•ด์„œ๋Š” reshape ํ•จ์ˆ˜๋ฅผ ์ด์šฉํ•ฉ๋‹ˆ๋‹ค. reshape์—์„œ (-1, x)์˜ ํ˜•ํƒœ๋ฅผ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. -1์€ ๋”ฑ ํ•œ ๋ฒˆ๋งŒ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ ์ž๋™์œผ๋กœ ์ ์ ˆํ•œ ํ˜•ํƒœ๋ฅผ ๊ณ„์‚ฐํ•ฉ๋‹ˆ๋‹ค. ๋‹จ, (-1์ž๋ฆฌ์˜ ๋“ค์–ด์˜ฌ ๊ฐ’) * x ๊ฐ€ ์›์†Œ์˜ ๊ฐœ์ˆ˜์™€ ๋™์ผํ•ด์•ผ๋งŒ ์‚ฌ์šฉ์ด ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด (18, ) ์‚ฌ์ด์ฆˆ์˜ numpy๋ณ€์ˆ˜ num์ด ์žˆ๋‹ค๊ณ  ํ•  ๋•Œ ex) num.reshape(..

Data analysis/Numpy 2021. 12. 31. 02:27
Numpy์˜ ์†์„ฑ

์•ˆ๋…•ํ•˜์„ธ์š”! ์„ฑ์ง€์ฝ”๋”ฉ์ž…๋‹ˆ๋‹ค. ์ด๋ฒˆ ๊ฒŒ์‹œ๊ธ€์€ Numpy์˜ ์†์„ฑ์— ๋Œ€ํ•ด ์•Œ์•„๋ด…๋‹ˆ๋‹ค. *์ฐธ๊ณ ์‚ฌํ•ญ: ์ฝ”๋“œ ๋ฐ ํšŒ์ƒ‰๊ธ€์”จ๋Š” ์ถœ๋ ฅ ๊ฒฐ๊ณผ๋ฅผ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค. Numpy Array ์†์„ฑ Numpy ๋ฐฐ์—ด์—์„œ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๋Š” ์†์„ฑ์€ ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค. ndim : ndarray์˜ ์ฐจ์›์„ ๋‚˜ํƒ€๋ƒ„ shape : ๊ฐ ์ฐจ์›์˜ ndarray ํฌ๊ธฐ๋ฅผ ํŠœํ”Œ ํ˜•ํƒœ๋กœ ๋‚˜ํƒ€๋ƒ„ (๊ฐ€์žฅ ์ค‘์š”) shape์˜ ๊ฒฝ์šฐ, ์ •๋ง ๋งŽ์€ ๊ณณ์—์„œ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค. ํŠนํžˆ, ๋‚˜์ค‘์— ๊ฒŒ์‹œ๊ธ€๋กœ ๋‹ค๋ฃจ์–ด์งˆ ๋”ฅ๋Ÿฌ๋‹ ๋ถ„์•ผ์—์„œ ์ž์ฃผ ์“ฐ์ด๋Š” DataFrameํ˜•, Tensorํ˜•์—์„œ๋„ ์ž์ฃผ ์“ฐ์ด๊ฒŒ๋ฉ๋‹ˆ๋‹ค. ๊ผญ ์•Œ์•„๋‘์…”์•ผ ํ•ฉ๋‹ˆ๋‹ค. size : ndarray์— ์žˆ๋Š” ์š”์†Œ์˜ ์ด ์ˆ˜ dtype : ndarray์˜ ๋ฐ์ดํ„ฐ ์œ ํ˜• unit8 ~ unit64, int8 ~ int64, float16 ~ flo..

Data analysis/Numpy 2021. 12. 31. 02:06
Numpy์˜ ๊ฐœ์š”์™€ ์ƒ์„ฑ

์•ˆ๋…•ํ•˜์„ธ์š”! ์„ฑ์ง€์ฝ”๋”ฉ์ž…๋‹ˆ๋‹ค. ๋ธ”๋กœ๊ทธ ๊ฐœ์‹œ ํ›„ ์ฒซ ๊ธ€์ž…๋‹ˆ๋‹ค. ์ด ๊ธ€์ด ์„ฑ์ง€๊ฐ€ ๋  ์ˆ˜ ์žˆ์„์ง€๋Š” 3๋…„๋’ค์— ํ™•์ธํ•ด๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค. :) ์ œ ๊ธ€๋“ค์€ ๋ˆ„๊ตฐ๊ฐ€์˜ ๊ฐ•์˜์— ์ฃผ ๋ชฉ์ ์„ ๋‘”๋‹ค๊ธด ๋ณด๋‹ค๋Š” ์„ค๋ช…ํ•˜๋Š” ์–ดํˆฌ๋กœ ์“ฐ๋ฉด์„œ ์ œ ๊ณต๋ถ€๋ฅผ ํ•˜๋Š” ๊ฒƒ์ด ์ฃผ ๋ชฉ์ ์ž…๋‹ˆ๋‹ค. ํ‰์†Œ ๋ˆ„๊ตฐ๊ฐ€๋ฅผ ๊ฐ€๋ฅด์น˜๋ฉฐ ์ € ๋˜ํ•œ ํ•™์Šต์ด ๋˜์—ˆ๋˜ ๊ฒฝํ—˜์ด ๋งŽ์•˜๊ธฐ ๋•Œ๋ฌธ์— ์ด๋Ÿฌํ•œ ๋ฐฉ๋ฒ•์„ ํƒํ–ˆ์Šต๋‹ˆ๋‹ค. ์ œ ์ฒซ ๊ฒŒ์‹œ๊ธ€์€ Numpy์˜ ๊ฐœ์š”์— ๋Œ€ํ•ด ์•Œ์•„๋ณด๋„๋ก ํ•ฉ๋‹ˆ๋‹ค. Numpy๋ž€? Numpy๋Š” Numeric(์ˆซ์ž) Python์˜ ์ค€ ๋ง๋กœ, Python์„ ์‚ฌ์šฉํ•œ ๊ณผํ•™ ์ปดํ“จํŒ…์˜ ๊ธฐ๋ณธ ํŒจํ‚ค์ง€์ž…๋‹ˆ๋‹ค. ์ œ๋ชฉ์—์„œ ์•Œ ์ˆ˜ ์žˆ๋“ฏ ์—ฌ๋Ÿฌ ์ˆซ์ž๋“ค์„ ์ฒ˜๋ฆฌํ•˜๋Š”๋ฐ ์‚ฌ์šฉ๋˜๋Š” ํŒจํ‚ค์ง€์ž…๋‹ˆ๋‹ค. Python์„ ์‚ฌ์šฉํ•˜๋Š” ํ”„๋กœ๊ทธ๋ž˜๋จธ๋ผ๋ฉด ์ ˆ๋Œ€ ๋น ์งˆ ์ˆ˜ ์—†๋Š” ํŒจํ‚ค์ง€ ์ด๊ธฐ ๋•Œ๋ฌธ์— ํ•„์ˆ˜์ ์œผ๋กœ ์•Œ์•„๋‘์…”์•ผํ•ฉ๋‹ˆ๋‹ค. ๋‚˜์ค‘์— ๋ฐฐ์›Œ๋ณผ P..

Data analysis/Numpy 2021. 12. 31. 00:34