- Document Loaders 정의: 다양한 문서 형식을 불러와서 AI 모델이 처리할 수 있도록 하는 도구.
- 다양한 문서 형식 지원:
- PDF, Word, 텍스트 파일, HTML 페이지, CSV 등 여러 형식의 문서를 지원.
- 구조화된 텍스트 변환:
- 문서 내용을 AI가 이해할 수 있는 텍스트 데이터로 변환.
- 연결성:
- 로컬 파일뿐만 아니라 웹에서 실시간으로 문서를 가져와 사용할 수 있음.
- 주요 기능:
- PDFLoader: PDF 파일에서 텍스트를 추출.
- UnstructuredURLLoader: 웹페이지(HTML)에서 텍스트 추출.
- CSVLoader: CSV 파일에서 데이터를 로드.
- DirectoryLoader: 폴더에 있는 여러 문서를 한꺼번에 불러옴.
- YouTubeLoader: YouTube 자막을 불러와 분석.
- 주요 활용:
- 질문 답변 시스템: 문서를 로드하여 질문에 답변할 수 있는 시스템 구축.
- 문서 요약: 문서 내용을 요약하거나 중요한 정보를 추출.
- 데이터 분석: 다양한 문서 데이터를 불러와 분석하는 작업 수행.
- 예시
from langchain.document_loaders import PDFLoader
loader = PDFLoader(file_path="example.pdf")
documents = loader.load()
'AI ( Artificial Intelligence )' 카테고리의 다른 글
Retrievers (0) | 2024.10.29 |
---|---|
Text Splitters (3) | 2024.10.25 |
Retrieval-Augmented Generation (RAG) (1) | 2024.10.22 |
Vector ( 벡터 ) ( AI :: Embeding :: Vector ) (5) | 2024.10.18 |
임베딩(Embedding) (4) | 2024.10.17 |