RECURSIVE ABSTRACTIVE PROCESSING FOR TREE-ORGANIZED RETRIEVAL

(트리로 구성된 검색을 위한 재귀적 추상 처리)

Untitled

논문: https://arxiv.org/pdf/2401.18059v1.pdf

배경

  1. 대부분의 기존 방법은 검색 코퍼스에서 짧은 연속 청크만 검색하여 전체 문서 컨텍스트에 대한 전체적인 이해를 제한
  2. 기존의 검색 증강 접근 방식에도 결함이 있습니다. 우리가 해결하는 것은 대부분의 기존 방법이 몇 개의 짧고 연속적인 텍스트 청크만 검색하여 대규모 담론 구조를 표현하고 활용하는 능력이 제한된다는 것
  3. 이는 NarrativeQA 데이터셋(Koˇcisk`y et al., 2018)에서와 같이 텍스트의 여러 부분에서 지식을 통합해야 하는 주제별 질문에 특히 관련이 있습니다. 신데렐라의 동화와 "신데렐라는 어떻게 행복한 결말을 맞이했는가?"라는 질문을 생각해 보세요. 상위 k개 검색된 짧은 연속 텍스트에는 질문에 답변할 만큼 충분한 맥락이 포함되지 않습니다.

RAPTOR

메인 기여는 다양한 규모에서 컨텍스트의 검색 증강을 허용하고, 긴 문서 컬렉션에 대한 실험에서 그 효과를 보여주기 위해 텍스트 요약을 사용한다는 아이디어

성능

GPT-3(Brown et al., 2020) 및 GPT-4(OpenAI, 2023))을 사용한 통제 실험은 RAPTOR가 현재 검색 증강을 능가함을 보여줍니다.