์ง์ ์ ์์
๋ง์ฝ, ๋ ๋ชจ๋ค์ด๋ ์นดํ๋ฅผ ์ด์ํ๋ค๊ณ ๊ฐ์ .
์ค๋ ๋ช ์์ ๋ ๋ชจ๋ค์ด๋๊ฐ ํ๋ฆด์ง ์์ธกํ๊ณ ์ถ๋ค๋ฉด?
์จ๋์ ํ๋งค๋์ ๋ฐ์ดํฐ๋ก ํํ → ํ์ค์ ๋ฐ์ดํฐ๋ก ํํํ๋ ๊ฒ!
ํ์ค์ ๋ฐ์ดํฐ๋ก ํํํ ์๋ง ์๋ค๋ฉด, ์ปดํจํฐ๋ ์์ฒญ๋ ํ์ผ๋ก ๋ฐ์ดํฐ๋ฅผ ์ฒ๋ฆฌํ ์ ์๋ค.
์ด์ฒ๋ผ ๋ณต์กํ ํ์ค์์ ๋ฐ์ดํฐ๋ฅผ ์ฐพ์๋ด ํ์ค์ ๋ณํ์ํค๋ ๊ฒ → '๋ฐ์ดํฐ ์ฐ์ '
๋ฐ์ดํฐ ์ฐ์ ์ ํฌ๊ฒ 2๊ฐ์ง๋ก ๋๋๋ค.
- ๋ฐ์ดํฐ ๊ณผํ(Data Science): ๋ฐ์ดํฐ๋ฅผ ๋ง๋ค๊ณ , ์ด์ฉํ๋ ์ผ. (์ฑ ์ ๋น์ ํ๋ค๋ฉด, ์๊ฐ)
- ๋ฐ์ดํฐ ๊ณตํ(Data Engineering): ๋ฐ์ดํฐ๋ฅผ ๋ค๋ฃจ๋ ๋๊ตฌ๋ฅผ ๋ง๋ค๊ณ , ๋๊ตฌ๋ฅผ ๊ด๋ฆฌํ๋ ์ผ.
(์ฑ ์ ๋น์ ํ๋ค๋ฉด, ์ข ์ด, ์ฐํ, ์ฑ ์ ๋ง๋๋ ๊ฒ)
์ด ๋์ ํ์ชฝ์ด ์์ผ๋ฉด ๋ค๋ฅธ ํ์ชฝ์ด ์กด์ฌํ ์ ์๊ธฐ ๋๋ฌธ์ ์ฌ์ค์ ํ๋์ด๋ค.
ํ
ํ๋ ํ๊ณผ ์ด๋ก ๋ฐ์ดํฐ๋ฅผ ํํ.
์์ , DB ๊ฐ์ ๋๊ตฌ์ ํ๋ฅผ ์ฎ๊ฒจ๋ด์ผ๋ฉด ์ปดํจํฐ๊ฐ ๋น ๋ฅด๊ฒ ์ฒ๋ฆฌ ๊ฐ๋ฅ.
ํ๋ ๋ฐ์ดํฐ๋ค์ ๋ชจ์ == ๋ฐ์ดํฐ ์ (Data Set)์ด๋ผ๊ณ ๋ ๋ถ๋ฅธ๋ค.
๋ฐ์ดํฐ ์ฐ์ ์์๋ ํ๊ณผ ์ด์ด๋ผ๋ ํํ ๋์ ๋ค๋ฅธ ํํ์ ์ฌ์ฉ.
- ํ(row)
- ๊ฐ์ฒด(instance)
- ๊ด์ธก์น(observed value)
- ๊ธฐ๋ก(record)
- ์ฌ๋ก(example)
- ๊ฒฝ์ฐ(case)
- ์ด(column)
- ํน์ฑ(feature)
- ์์ฑ(attribute)
- ๋ณ์(variable)
๋ ๋ฆฝ๋ณ์์ ์ข ์๋ณ์
์ฌ๋ฆฌ์
'AI' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
๋จธ์ ๋ฌ๋ ์ผํ - 1์ผ์ฐจ (0) | 2021.01.04 |
---|---|
pycloud ํ๊ธ ์๋ ๋, ํ๊ธ ์๋ ํด๋ผ์ฐ๋ ์์ฑํ๊ธฐ (0) | 2020.07.29 |
AI ์ฑ๋ด ๊ฐ๋ฐ 1์ผ์ฐจ (0) | 2020.07.27 |