AI ( Artificial Intelligence )
Lexical ๊ฒ์๊ณผ Semantic ๊ฒ์
ํฌ๋ผ00
2025. 3. 30. 11:29
๐ง 1. Lexical ๊ฒ์ (๋ฌธ์ ๊ธฐ๋ฐ ๊ฒ์)
**"๋จ์ด ๊ทธ ์์ฒด"**๋ฅผ ๊ธฐ์ค์ผ๋ก ์ผ์นํ๋ ๋ฌธ์๋ฅผ ์ฐพ๋ ๋ฐฉ์์ ๋๋ค.
โ ํน์ง
- ๊ฒ์์ด์ ๋ฌธ์ ๊ทธ๋๋ก ์ผ์นํ๋ ๋จ์ด๊ฐ ํฌํจ๋ ๋ฌธ์๋ฅผ ์ฐพ์
- ๋ํ ์์: TF-IDF, BM25, ์ผ๋ฐ์ ์ธ SQL LIKE ๊ฒ์
โ ์์
์ฌ์ฉ์ ๊ฒ์์ด: "๋์ฅ๊ณ ์ฌ๋ฃ"
→ "๋์ฅ๊ณ ์ ๋ค์ด์๋ ์ฌ๋ฃ๋ฅผ ์ ๋ฆฌํ๋ ๋ฒ" ← โ
๋งค์น๋จ
→ "๋์ฅ๊ณ ์๋ฆฌ" ← โ "์ฌ๋ฃ"๊ฐ ์์ผ๋ ๋ฏธ๋งค์น
โ ์ฅ์
- ๋น ๋ฅด๊ณ ๊ฐ๋จํจ
- ๊ตฌํ์ด ์ฌ์
- ํค์๋๊ฐ ๋ช ํํ ๋ ์ ํ๋ ๋์
โ ๋จ์
- ๋์์ด, ์๋ฏธ ํ์ฅ์ด ์๋จ (ex: "๋์ฅ๊ณ ์์"์ ๋งค์น ์ ๋จ)
- ๋ฌธ์ฅ ๊ตฌ์กฐ๋ ์๋ฏธ๋ ๊ณ ๋ คํ์ง ์์
๐ง 2. Semantic ๊ฒ์ (์๋ฏธ ๊ธฐ๋ฐ ๊ฒ์)
๋จ์ด๋ ๋ฌธ์ฅ์ด ๊ฐ์ง **์๋ฏธ(semantic)**๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ ์ฌํ ๋ฌธ์๋ฅผ ์ฐพ๋ ๋ฐฉ์์ ๋๋ค.
โ ํน์ง
- ๊ฒ์์ด์ ๋ฌธ์์ ์๋ฏธ๊ฐ ๋น์ทํ๋ฉด ์ผ์น๋ก ๊ฐ์ฃผ
- ์๋ฒ ๋ฉ์ ์ฌ์ฉํด์ ์๋ฏธ๋ฅผ ๋ฒกํฐํํ๊ณ ๋น๊ต
- ๋ํ ์์: OpenAI Embeddings, Sentence Transformers, FAISS, Pinecone, Weaviate
โ ์์
์ฌ์ฉ์ ๊ฒ์์ด: "๋์ฅ๊ณ ์์ ๋ญ ์์ด?"
→ "๋์ฅ๊ณ ์ ์ฌ๋ฃ ๋ถ์ ์๋น์ค" ← โ
์๋ฏธ๊ฐ ์ ์ฌํ๋ฏ๋ก ๋งค์น๋จ
→ "๋จ์ ์์์ผ๋ก ์๋ฆฌ ์ถ์ฒํด์ค" ← โ
๊ด๋ จ์ฑ ์์ด ์ ํ๋ ์ ์์
→ "์๋์ฐจ ํ์ด์ด ๊ต์ฒด๋ฒ" ← โ ์๋ฏธ๊ฐ ์ ํ ๋ฌ๋ผ ๋ฏธ๋งค์น
โ ์ฅ์
- ๋์์ด, ๋ฌธ์ฅ ๊ตฌ์กฐ, ํํ ์ฐจ์ด์ ๊ฐํจ
- ์์ฐ์ด๋ก ๋ ์ง๋ฌธ์๋ ์ ๋ฐ์ํจ
- ์ฌ์ฉ์ ์๋์ ๋ง๋ ๊ฒฐ๊ณผ ์ ๊ณต ๊ฐ๋ฅ
โ ๋จ์
- ์ฑ๋ฅ ๋์ด๋ ค๋ฉด LLM or ์๋ฒ ๋ฉ ๋ชจ๋ธ ํ์
- ๊ตฌ์ถ/์ด์ ๋น์ฉ์ด ๋ ํผ
- ๋ฒกํฐ ๊ฒ์ ์ธํ๋ผ ํ์ (FAISS, Pinecone ๋ฑ)
๐ ๋์ ๋น๊ตํด๋ณด๋ฉด?
๊ธฐ์ค | ๋จ์ด ์ผ์น | ์๋ฏธ ์ ์ฌ๋ |
๊ธฐ์ | TF-IDF, BM25, SQL LIKE | ์๋ฒ ๋ฉ + ๋ฒกํฐ ์ ์ฌ๋ |
๋์์ด ์ธ์ | โ ์ ๋จ | โ ์ ๋จ |
๋ณต์ก๋ | ๋ฎ์ | ๋์ |
์ ์ฉํ ์ํฉ | ํค์๋๊ฐ ๋ช ํํ ๊ฒฝ์ฐ | ์ง๋ฌธ์ด ๋ค์ํ๊ณ ์ถ์์ ์ผ ๋ |
๋ํ ์ฌ์ฉ์ฒ | ์ ํต ๊ฒ์ ์์ง, ๋ด์ค ๊ฒ์ | ์ฑ๋ด, RAG, ์ถ์ฒ ์์คํ ๋ฑ |
๐ก ๊ทธ๋์ ์ธ์ ๋ญ ์จ์ผ ๋ผ?
์ํ๋ช , ์ฃผ์, ๋ฒํธ ๋ฑ ์ ํํ ์ผ์นํด์ผ ํ ๋ | ๐น Lexical (BM25) |
์ง๋ฌธ์ด ์ ๋งคํ๊ฑฐ๋ ๋ค์ํ ํํ์ผ๋ก ์ฌ ์ ์๋ ๊ฒฝ์ฐ | ๐น Semantic (์๋ฒ ๋ฉ) |
๋ ๋ค ์ค์ํ ๋ | ๐น ํ์ด๋ธ๋ฆฌ๋ ๊ฒ์ (Lexical + Semantic ์ ์ ์กฐํฉ) |
ํ์ํ์๋ฉด:
- Semantic ๊ฒ์ ๊ตฌ์ถ ์์ (Langchain + FAISS)
- Lexical + Semantic ์กฐํฉ ์ ๋ต
- ์ค์ ๊ฒ์ ํ์ง ๋น๊ต ํ ์คํธ