Can Query Expansion Improve Generalization of Strong Cross-Encoder Rankers?

  • Reference: Paper Link
  • 정리 순서: Abstract → Implementation/Idea → Ablation Study/Analysis → Reflections

1. Abstract (간단 정리)

일단 이 페이퍼의 주요 포인트는 이 페이퍼를 반박하는게 전부이다.

물론 페이퍼의 시작에 Query Expansion이 Dense retrieval 위주로만 평가되었다 그래서 reranker와 같이 비싼 모델에서도 연구되어야한다 라고 적긴했지만

위에서 언급한 페이퍼에 대한 반박 페이퍼의 느낌이 매우 강하다.

그렇다하더라도, 참고하면 좋은 방법이 있어 정리한다.

  • proposed:
    • high-quality keyword generation
      • 확장할 쿼리 term을 고 퀄리티로 잘 만들면 된다.
      • 물론 그 방법으로 PRF, LLM, PRF+D2K, Q2D2K 같은 방법들을 모색하고 정교화했다.
      • 그 이후에 filtering하는 단계도 넣었는데 그 방법으로 self-consistency를 활용한다.
    • minimal-disruptive query modification
      • 이 방법이 꽤 괜찮다.
      • 어쨋든 쿼리에 많은 단어들을 추가하게 되면 본래 쿼리의 의미를 퇴색시키면서 distribution shift를 크게 일으킬 수 있다.
      • 이를 방지하기 위해 하나의 텀만을 추가한 여러개의 쿼리를 병렬로 생성.
    • Reciprocal rank weighting
      • 위에서 병렬로 생성한 쿼리를 검색해서 검색결과를 합친다.
      • mean, rank fusion 이 있지만 weighted reciprocal rank funsion을 이페이퍼에서는 제안한다.

2. Idea & Implementation

  • SIGIR 페이퍼다보니 특별히 이렇다 할 아이디어나 메소드는 없다.
  • 대부분이 기존에 있던 방법들이고 그걸 잘 정리하고 다듬은 정도.
  • 구현은 RM3, LLM-PRF를 잘 조합하면 된다.

3. Ablation study/Analysis

  • 두가지를 분석했는데.
    1. LLM을 쓰는 게 좋은가 아니면 PRF를 쓰는 게 좋은가
      • 둘다 비슷 ours가 좋음. 이라고 결론 내림.
      • 내 생각에는 어떤 걸 쓰냐보다는 어떻게 합치냐가 중요해보였는데 아니나 다를까 페이퍼에서도 그게 중요하니 RQ2를 잘 보라고 함.
    1. 어떻게 Keyword Expansion해야하나
      • 일단 그냥 concat 하는 건 매우 별로.
      • 3개부터 성능이 급격하게 떨어짐.
      • 반면에 paper에서 말한 rrf나 mean pooling을 쓰면 2개까지는 성능이 소폭 개선됨.

4. Reflections

  • 페이퍼가 전반적으로 건져갈건 없지만 Related works나 baseline들이 잘 정리되어 있어서 이런 부분들 보면 좋을 듯하다.
    • PRF+D2K, Q2D2K 에 대한 설명이 마음에 들었다. 굉장히 단순한 아이디언데
      • 기존 방식들에서 어떤게 좋고 어떤 게 부족해서 우리가 이걸 잘 조합해서 이렇게 좋게 만들었다.
      • PRF + D2K and Q2D2K are inspired by Q2D [40] and HyDE [13]. These methods are problematic when the generated documents are directly used as queries for cross-encoder rankers due to the query distribution shift, but are useful when the generated documents are summarized into keywords for expansions. The assumption is that documents generated by a well pre-trained LLM can already answer the question or at least contain helpful keywords. The intuition is also similar to recitation-augmented language models [37] where more knowledge can be elicited before fulfilling the task.
  • PRP 공부하기
    • Zhen Qin, Rolf Jagerman, Kai Hui, Honglei Zhuang, Junru Wu, Le Yan, Jiaming Shen, Tianqi Liu, Jialu Liu, Donald Metzler, Xuanhui Wang, and Michael Bendersky. 2024. Large Language Models are Effective Text Rankers with Pairwise Ranking Prompting. In Findings of the Association for Computational Linguistics: NAACL 2024.