본문 바로가기
AI ( Artificial Intelligence )

Document Loader

by 크라00 2024. 10. 23.

 

  • Document Loaders 정의: 다양한 문서 형식을 불러와서 AI 모델이 처리할 수 있도록 하는 도구.
  • 다양한 문서 형식 지원:
    • PDF, Word, 텍스트 파일, HTML 페이지, CSV 등 여러 형식의 문서를 지원.
  • 구조화된 텍스트 변환:
    • 문서 내용을 AI가 이해할 수 있는 텍스트 데이터로 변환.
  • 연결성:
    • 로컬 파일뿐만 아니라 웹에서 실시간으로 문서를 가져와 사용할 수 있음.
  • 주요 기능:
    • PDFLoader: PDF 파일에서 텍스트를 추출.
    • UnstructuredURLLoader: 웹페이지(HTML)에서 텍스트 추출.
    • CSVLoader: CSV 파일에서 데이터를 로드.
    • DirectoryLoader: 폴더에 있는 여러 문서를 한꺼번에 불러옴.
    • YouTubeLoader: YouTube 자막을 불러와 분석.
  • 주요 활용:
    • 질문 답변 시스템: 문서를 로드하여 질문에 답변할 수 있는 시스템 구축.
    • 문서 요약: 문서 내용을 요약하거나 중요한 정보를 추출.
    • 데이터 분석: 다양한 문서 데이터를 불러와 분석하는 작업 수행.
  • 예시
from langchain.document_loaders import PDFLoader
loader = PDFLoader(file_path="example.pdf")
documents = loader.load()

 

 

 

 

'AI ( Artificial Intelligence )' 카테고리의 다른 글

Retrievers  (0) 2024.10.29
Text Splitters  (3) 2024.10.25
Retrieval-Augmented Generation (RAG)  (1) 2024.10.22
Vector ( 벡터 ) ( AI :: Embeding :: Vector )  (5) 2024.10.18
임베딩(Embedding)  (4) 2024.10.17