AI ( Artificial Intelligence )

Lexical ๊ฒ€์ƒ‰๊ณผ Semantic ๊ฒ€์ƒ‰

ํฌ๋ผ00 2025. 3. 30. 11:29

๐Ÿง  1. Lexical ๊ฒ€์ƒ‰ (๋ฌธ์ž ๊ธฐ๋ฐ˜ ๊ฒ€์ƒ‰)

**"๋‹จ์–ด ๊ทธ ์ž์ฒด"**๋ฅผ ๊ธฐ์ค€์œผ๋กœ ์ผ์น˜ํ•˜๋Š” ๋ฌธ์„œ๋ฅผ ์ฐพ๋Š” ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค.

โœ… ํŠน์ง•

  • ๊ฒ€์ƒ‰์–ด์™€ ๋ฌธ์ž ๊ทธ๋Œ€๋กœ ์ผ์น˜ํ•˜๋Š” ๋‹จ์–ด๊ฐ€ ํฌํ•จ๋œ ๋ฌธ์„œ๋ฅผ ์ฐพ์Œ
  • ๋Œ€ํ‘œ ์˜ˆ์‹œ: TF-IDF, BM25, ์ผ๋ฐ˜์ ์ธ SQL LIKE ๊ฒ€์ƒ‰

โœ… ์˜ˆ์‹œ

์‚ฌ์šฉ์ž ๊ฒ€์ƒ‰์–ด: "๋ƒ‰์žฅ๊ณ  ์žฌ๋ฃŒ"

→ "๋ƒ‰์žฅ๊ณ ์— ๋“ค์–ด์žˆ๋Š” ์žฌ๋ฃŒ๋ฅผ ์ •๋ฆฌํ•˜๋Š” ๋ฒ•" ← โœ… ๋งค์น˜๋จ
→ "๋ƒ‰์žฅ๊ณ  ์š”๋ฆฌ" ← โŒ "์žฌ๋ฃŒ"๊ฐ€ ์—†์œผ๋‹ˆ ๋ฏธ๋งค์น˜

โœ… ์žฅ์ 

  • ๋น ๋ฅด๊ณ  ๊ฐ„๋‹จํ•จ
  • ๊ตฌํ˜„์ด ์‰ฌ์›€
  • ํ‚ค์›Œ๋“œ๊ฐ€ ๋ช…ํ™•ํ•  ๋•Œ ์ •ํ™•๋„ ๋†’์Œ

โŒ ๋‹จ์ 

  • ๋™์˜์–ด, ์˜๋ฏธ ํ™•์žฅ์ด ์•ˆ๋จ (ex: "๋ƒ‰์žฅ๊ณ  ์Œ์‹"์€ ๋งค์น˜ ์•ˆ ๋จ)
  • ๋ฌธ์žฅ ๊ตฌ์กฐ๋‚˜ ์˜๋ฏธ๋Š” ๊ณ ๋ คํ•˜์ง€ ์•Š์Œ

๐Ÿง  2. Semantic ๊ฒ€์ƒ‰ (์˜๋ฏธ ๊ธฐ๋ฐ˜ ๊ฒ€์ƒ‰)

๋‹จ์–ด๋‚˜ ๋ฌธ์žฅ์ด ๊ฐ€์ง„ **์˜๋ฏธ(semantic)**๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ์œ ์‚ฌํ•œ ๋ฌธ์„œ๋ฅผ ์ฐพ๋Š” ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค.

โœ… ํŠน์ง•

  • ๊ฒ€์ƒ‰์–ด์™€ ๋ฌธ์„œ์˜ ์˜๋ฏธ๊ฐ€ ๋น„์Šทํ•˜๋ฉด ์ผ์น˜๋กœ ๊ฐ„์ฃผ
  • ์ž„๋ฒ ๋”ฉ์„ ์‚ฌ์šฉํ•ด์„œ ์˜๋ฏธ๋ฅผ ๋ฒกํ„ฐํ™”ํ•˜๊ณ  ๋น„๊ต
  • ๋Œ€ํ‘œ ์˜ˆ์‹œ: OpenAI Embeddings, Sentence Transformers, FAISS, Pinecone, Weaviate

โœ… ์˜ˆ์‹œ

์‚ฌ์šฉ์ž ๊ฒ€์ƒ‰์–ด: "๋ƒ‰์žฅ๊ณ  ์•ˆ์— ๋ญ ์žˆ์–ด?"

→ "๋ƒ‰์žฅ๊ณ  ์† ์žฌ๋ฃŒ ๋ถ„์„ ์„œ๋น„์Šค" ← โœ… ์˜๋ฏธ๊ฐ€ ์œ ์‚ฌํ•˜๋ฏ€๋กœ ๋งค์น˜๋จ
→ "๋‚จ์€ ์Œ์‹์œผ๋กœ ์š”๋ฆฌ ์ถ”์ฒœํ•ด์ค˜" ← โœ… ๊ด€๋ จ์„ฑ ์žˆ์–ด ์„ ํƒ๋  ์ˆ˜ ์žˆ์Œ
→ "์ž๋™์ฐจ ํƒ€์ด์–ด ๊ต์ฒด๋ฒ•" ← โŒ ์˜๋ฏธ๊ฐ€ ์ „ํ˜€ ๋‹ฌ๋ผ ๋ฏธ๋งค์น˜

โœ… ์žฅ์ 

  • ๋™์˜์–ด, ๋ฌธ์žฅ ๊ตฌ์กฐ, ํ‘œํ˜„ ์ฐจ์ด์— ๊ฐ•ํ•จ
  • ์ž์—ฐ์–ด๋กœ ๋œ ์งˆ๋ฌธ์—๋„ ์ž˜ ๋ฐ˜์‘ํ•จ
  • ์‚ฌ์šฉ์ž ์˜๋„์— ๋งž๋Š” ๊ฒฐ๊ณผ ์ œ๊ณต ๊ฐ€๋Šฅ

โŒ ๋‹จ์ 

  • ์„ฑ๋Šฅ ๋†’์ด๋ ค๋ฉด LLM or ์ž„๋ฒ ๋”ฉ ๋ชจ๋ธ ํ•„์š”
  • ๊ตฌ์ถ•/์šด์˜ ๋น„์šฉ์ด ๋” ํผ
  • ๋ฒกํ„ฐ ๊ฒ€์ƒ‰ ์ธํ”„๋ผ ํ•„์š” (FAISS, Pinecone ๋“ฑ)

๐Ÿ” ๋‘˜์„ ๋น„๊ตํ•ด๋ณด๋ฉด?


 

๊ธฐ์ค€ ๋‹จ์–ด ์ผ์น˜ ์˜๋ฏธ ์œ ์‚ฌ๋„
๊ธฐ์ˆ  TF-IDF, BM25, SQL LIKE ์ž„๋ฒ ๋”ฉ + ๋ฒกํ„ฐ ์œ ์‚ฌ๋„
๋™์˜์–ด ์ธ์‹ โŒ ์•ˆ ๋จ โœ… ์ž˜ ๋จ
๋ณต์žก๋„ ๋‚ฎ์Œ ๋†’์Œ
์œ ์šฉํ•œ ์ƒํ™ฉ ํ‚ค์›Œ๋“œ๊ฐ€ ๋ช…ํ™•ํ•œ ๊ฒฝ์šฐ ์งˆ๋ฌธ์ด ๋‹ค์–‘ํ•˜๊ณ  ์ถ”์ƒ์ ์ผ ๋•Œ
๋Œ€ํ‘œ ์‚ฌ์šฉ์ฒ˜ ์ „ํ†ต ๊ฒ€์ƒ‰ ์—”์ง„, ๋‰ด์Šค ๊ฒ€์ƒ‰ ์ฑ—๋ด‡, RAG, ์ถ”์ฒœ ์‹œ์Šคํ…œ ๋“ฑ

๐Ÿ’ก ๊ทธ๋ž˜์„œ ์–ธ์ œ ๋ญ˜ ์จ์•ผ ๋ผ?

 

์ƒํ’ˆ๋ช…, ์ฃผ์†Œ, ๋ฒˆํ˜ธ ๋“ฑ ์ •ํ™•ํžˆ ์ผ์น˜ํ•ด์•ผ ํ•  ๋•Œ ๐Ÿ”น Lexical (BM25)
์งˆ๋ฌธ์ด ์• ๋งคํ•˜๊ฑฐ๋‚˜ ๋‹ค์–‘ํ•œ ํ‘œํ˜„์œผ๋กœ ์˜ฌ ์ˆ˜ ์žˆ๋Š” ๊ฒฝ์šฐ ๐Ÿ”น Semantic (์ž„๋ฒ ๋”ฉ)
๋‘˜ ๋‹ค ์ค‘์š”ํ•  ๋•Œ ๐Ÿ”น ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ๊ฒ€์ƒ‰ (Lexical + Semantic ์ ์ˆ˜ ์กฐํ•ฉ)

ํ•„์š”ํ•˜์‹œ๋ฉด:

  • Semantic ๊ฒ€์ƒ‰ ๊ตฌ์ถ• ์˜ˆ์‹œ (Langchain + FAISS)
  • Lexical + Semantic ์กฐํ•ฉ ์ „๋žต
  • ์‹ค์ œ ๊ฒ€์ƒ‰ ํ’ˆ์งˆ ๋น„๊ต ํ…Œ์ŠคํŠธ