Chain of Verification (CoVe)
Chain-of-Verification Reduces Hallucination in Large Language Models
Introduction
- Hallucinations occur when the answer appears plausible but is factually incorrect.
- Meta AI → CoVe
- 4 스텝
- Initial baseline response creation
- 걍 baseline
- verification question generation: 확인하는 질문을 생성을 하네
- prefix로 original query와 baseline response를 받고, verify하는 질문을 생성
- execute verification
- external tool(web search)
- approaches
- joint: 질문 생성과 확인 답변을 같이
- 2 step: 질문 생성 + 확인 답변
- factored: answering each question separately(이해 못함)
- factored + revise: check if the answers match with the baseline response. Compare the answers to the baseline response.
- final refined answer generation
- Initial baseline response creation
- Large Language Model (LLM) can be used to validate itself (self-verification)
- Implementation (Python 🐍 + Langchain 🔗 + OpenAI 🦾 + Search Tool🔍)
- verification 질문은 3가지
- Wiki Data & Wiki Category List: 엔티티 목록을 표시하는 형태의 답변
- Multi-Span QA: 서로 다른 인접하지 않은 섹션에서 나온 여러 개의 독립적인 답변
- Long-form Generation: biographical questions
- Routing mechanism으로 질문 카테고리에 따라 적절한 chain으로 연결
- 질문 생성과 확인 실행 부분이 나와있긴 한데, 잘 이해가 안됨.
- how to improve?
- prompt engineering
- external tools
- more chains
- haman in loop (HIL)
- 인간 전문가가 인공지능 학습 과정 중에 중간 결과물을 확인하고, 학습 데이터를 조정하는 과정
instruction에 따라 3가지로 나누고, 다른 chain of thoughts 방법을 사용하는 것이 신기하네.
- 인간 전문가가 인공지능 학습 과정 중에 중간 결과물을 확인하고, 학습 데이터를 조정하는 과정
- Limitation
- Incomplete Removal of Hallucinations
- Limited Scope of Hallucination Mitigation
- Increased Computational Expense
- Upper Bound on Improvement