RECURSIVE ABSTRACTIVE PROCESSING FOR TREE-ORGANIZED RETRIEVAL
(트리로 구성된 검색을 위한 재귀적 추상 처리)

논문: https://arxiv.org/pdf/2401.18059v1.pdf
배경
- 대부분의 기존 방법은 검색 코퍼스에서 짧은 연속 청크만 검색하여 전체 문서 컨텍스트에 대한 전체적인 이해를 제한
- 기존의 검색 증강 접근 방식에도 결함이 있습니다. 우리가 해결하는 것은 대부분의 기존 방법이 몇 개의 짧고 연속적인 텍스트 청크만 검색하여 대규모 담론 구조를 표현하고 활용하는 능력이 제한된다는 것
- 이는 NarrativeQA 데이터셋(Koˇcisk`y et al., 2018)에서와 같이 텍스트의 여러 부분에서 지식을 통합해야 하는 주제별 질문에 특히 관련이 있습니다. 신데렐라의 동화와 "신데렐라는 어떻게 행복한 결말을 맞이했는가?"라는 질문을 생각해 보세요. 상위 k개 검색된 짧은 연속 텍스트에는 질문에 답변할 만큼 충분한 맥락이 포함되지 않습니다.
RAPTOR
- 텍스트 청크를 재귀적으로 임베딩, 클러스터링, 요약하는 새로운 접근 방식을 소개하여 하단에서 상단으로 요약 수준이 다른 트리를 구성
- 추론에 RAPTOR 모델은 이 트리에서 검색하여 다양한 추상화 수준에서 긴 문서의 정보를 통합합니다.
- 통제된 실험에 따르면 재귀적 요약을 통한 검색은 여러 작업에서 기존의 검색 증강 LM보다 상당한 개선을 제공
- RAPTOR 검색을 GPT-4 사용과 결합하면 QuALITY 벤치마크에서 절대 정확도를 20%까지 향상시킬 수 있습니다.
메인 기여는 다양한 규모에서 컨텍스트의 검색 증강을 허용하고, 긴 문서 컬렉션에 대한 실험에서 그 효과를 보여주기 위해 텍스트 요약을 사용한다는 아이디어
성능
GPT-3(Brown et al., 2020) 및 GPT-4(OpenAI, 2023))을 사용한 통제 실험은 RAPTOR가 현재 검색 증강을 능가함을 보여줍니다.