๐ ๋ธ๋ก๊ทธ ๊ธ๊ท: "ํ ํฌ๋์ด์ ๋ ๋ฌด์์ธ๊ฐ์?"
์์ฐ์ด ์ฒ๋ฆฌ์์ ์์ฃผ ๋ค๋ฆฌ๋ ๋จ์ด, "ํ ํฌ๋์ด์ (Tokenizer)".
ํ์ง๋ง ์ฒ์ ์ ํ๋ฉด ๋ฌด์์ ํ๋ ๋๊ตฌ์ธ์ง, ์ ํ์ํ์ง ํท๊ฐ๋ฆด ์ ์์ด์.
์ฌ๋์ ๊ธ์๋ฅผ ๋ณด๊ณ ๋ฐ๋ก ์ดํดํ ์ ์์ง๋ง,
AI ๋ชจ๋ธ์ ํ
์คํธ๋ฅผ ๊ทธ๋๋ก ์ดํดํ์ง ๋ชปํฉ๋๋ค.
AI์๊ฒ๋ ์ฐ๋ฆฌ๊ฐ ์ด ๋ฌธ์ฅ์ ์ซ์๋ก ๋ฐ๊ฟ์ค์ผ ํ๋๋ฐ,
์ด ์ญํ ์ ํด์ฃผ๋ ๊ฒ ๋ฐ๋ก ํ ํฌ๋์ด์ ์์.
์๋ฅผ ๋ค์ด,
"AI๊ฐ ์ธ์์ ๋ฐ๊พผ๋ค"๋ผ๋ ๋ฌธ์ฅ์ ์
๋ ฅํ๋ฉด,
ํ ํฌ๋์ด์ ๋ ์ด๋ฅผ ๋ค์๊ณผ ๊ฐ์ ์ซ์ ๋ฐฐ์ด๋ก ๋ฐ๊ฟ๋๋ค:
[10321, 283, 5192, 2019]
์ด ์ซ์๋ค์ด ๋ฐ๋ก ๋ชจ๋ธ์ด ์ดํดํ๋ **"ํ ํฐ(Token)"**์
๋๋ค.
๋ง์น ์ฌ๋์ด ์ธ๊ตญ์ด๋ฅผ ๋ฐฐ์ฐ๊ธฐ ์ํด ๋จ์ด์ฅ์ ๋ง๋๋ ๊ฒ์ฒ๋ผ,
๋ชจ๋ธ๋ ๋ฌธ์ฅ์ ์ดํดํ๋ ค๋ฉด **๋ฏธ๋ฆฌ ์ ์๋ ๋จ์ด ๋ชฉ๋ก(ํ ํฐ ์ฌ์ )**์ด ํ์ํ์ฃ .
๋ํ ํ ํฌ๋์ด์ ๋ ๋จ์ด๋ฅผ ์ชผ๊ฐ๋ ๋ฐฉ์๋ ๋ด๋นํฉ๋๋ค.
์๋ฅผ ๋ค์ด "๋ฐ๊พผ๋ค"๋ผ๋ ๋จ์ด๋ฅผ "๋ฐ", "๊พผ๋ค"์ฒ๋ผ ๋๋ ์ ์ฒ๋ฆฌํ ์๋ ์์ด์.
์ด๋ ๊ฒ ํ๋ฉด ํฌ๊ท ๋จ์ด๋ ์ ์ฒ๋ฆฌํ ์ ์๊ณ ,
๋ชจ๋ธ์ ํจ์จ๋ ๋์์ง๋๋ค.
ํ ํฌ๋์ด์ ์ ํต์ฌ ๊ธฐ๋ฅ์ ๋ค์๊ณผ ๊ฐ์์:
- โ๏ธ ํ ์คํธ๋ฅผ ํ ํฐ(์ซ์)์ผ๋ก ๋ฐ๊พธ๊ธฐ (Encode)
- ๐ ํ ํฐ์ ๋ค์ ํ ์คํธ๋ก ๋๋๋ฆฌ๊ธฐ (Decode)
- ๐ ๋ฌธ์ฅ์ ์ธ๋ถ ๋จ์๋ก ๋๋๊ธฐ (Tokenize)
- ๐ง ํน์ ํ ํฐ(</s>, [PAD], <BOS> ๋ฑ) ์๋ ์ฒ๋ฆฌ
LLM์ ์ง์ ์คํํ๊ฑฐ๋ ํ์ฉํ ๋,
ํ ํฌ๋์ด์ ๋ ๋ชจ๋ธ๊ณผ ์ฌ์ฉ์ ์ฌ์ด๋ฅผ ์ด์ด์ฃผ๋ ํต์ญ์ฌ ๊ฐ์ ์ญํ ์ ํฉ๋๋ค.
์ฆ,
๐ค ๋ชจ๋ธ์ ์๊ฐ๋ณด๋ค ๋๋ํ์ง๋ง, ์ฐ๋ฆฌ์ ์ธ์ด๋ฅผ ๋ฐ๋ก ์ดํดํ์ง ๋ชปํด์.
๊ทธ๋์ ํ ํฌ๋์ด์ ๋ผ๋ ๋ค๋ฆฌ๋ฅผ ๊ฑด๋์ผ๋ง ์ ๋๋ก ์ํตํ ์ ์์ต๋๋ค.
๐ LLM์ ์ฒ์ ๋ค๋ค๋ณด์ ๋ค๋ฉด,
๋ชจ๋ธ๋ณด๋ค ๋จผ์ 'ํ ํฌ๋์ด์ '๋ฅผ ์ดํดํ๋ ๊ฒ์ด ์ง์ง ์ค์ํ ์ถ๋ฐ์ ์ด ๋ ์ ์์ด์.
'AI ( Artificial Intelligence )' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[ ์์๋ธ ( ๋๋คํฌ๋ ์คํธ, ๊ทธ๋๋์ธํธ ๋ถ์คํ , XGBoost ) ] (1) | 2025.04.08 |
---|---|
[ Overfitting vs Underfitting ] (0) | 2025.04.08 |
Lexical ๊ฒ์๊ณผ Semantic ๊ฒ์ (0) | 2025.03.30 |
Streaming module (0) | 2024.10.31 |
Retrievers (0) | 2024.10.29 |