Image DeepLearning Engineer입니다. AI 모든 분야에 관심이 많습니다. NLP 연구개발 공부하고 관심갖는 사람으로서 논문과 정리된 내용을 좀 더 쉽게 이해하는데 집중하여 작성하였습니다.
LLM-as-a-Judge의 평가 문제
최근 LLM을 활용한 모델 평가 방식인 LLM-as-a-Judge가 사용되고 있습닏.
하지만 이 방법은 평가에 내용에 편향(Bias)가 발생하고 있습니다.
- 위치 편향(Position Bias)로 LLM이 특정 위치의 답변을 선호하는 경향성이 나타나는 현상입니다.
- 길이 편향(Length Bias) or 장황함 편향(Verbosity Bias)에 문제가 나타나고 있습니다. (긴 답변을 더 선호하는 경향)
- 자기 중심 편향(Egocentric Bias) or 자기 강화 편향(Self-enhancement Bias)으로 LLM에서 출력된 것을 선호하는 문제가 발생
- 수학 및 추론 문제 채점 능력 한계(Limited capability in grading math and reasoning questions)가 있어 잘못된 결과의 판단
Paper: Preference Leakage - A Contamination Problem in LLM-as-a-Judge라는 논문에서는 위와 같은 문제를 Preference Leakage(선호도 유출)로 정의하여 설명하고 있습니다.
LLM-as-a-Judge란?
- LLM-as-a-Judge는 생성된 데이터셋과 실제 데이터셋을 비교하여 평가하고, 이를 통해 모델의 응답 품질을 지속적으로 개선하는 평가방식을 뜻합니다.
- LLM-as-a-judge로 Chatbot Arena를 MT-bench 방식으로 LLM 평가함.
- 논문에 결과에 따르면 MT-bench의 전문가 투표와 Chatbot Arena에서 수집된 크라우드 투표 결과를 비교했을 때, GPT-4 judge와 사람의 평가에 대한 선호의 일치도가 80% 이상 사람간의 평가와 유사한 성능을 보여주었습니다. (https://arxiv.org/abs/2306.05685)
- LLM-as-a-Judge 장점
- Scalability: 사람이 평가하는 작업보다 효과적으로 시간과 비용을 절감하여 대규모 평가 작업을 효율적으로 수행할 수 있습니다.
- Explainble: LLM이 제공하는 평가 결과에서는 결과에 대한 이유가 설명될 수 있어, 평가 과정이 투명하고 이해하기 용이.
- Same human preference: LLM을 사용한 평가가 인간의 평가와 높은 일치 상관성이 보이므로 평가 신뢰성을 갖을 수 있습니다..
- LLM-as-a-Judge 프로세스
-
- 평가 기준 파악하기 - 먼저 hallucination, toxicity, accuracy 또는 기타 특성 등을 결정합니다.
-
- 평가 프롬프트 작성 - 평가를 안내할 프롬프트 템플릿을 작성합니다. 이 템플릿은 출력을 효과적으로 평가하기 위해 초기 프롬프트와 LLM의 응답 모두에서 필요한 변수를 명확하게 정의합니다.
-
- 평가 LLM 선택 - 특정 평가를 수행하기 위해 사용 가능한 옵션 중에서 가장 적합한 LLM을 선택합니다.
-
- 평가 생성 및 결과 보기 - 데이터 전체에서 평가를 실행합니다. 프로세스를 통해 수동적인 주석을 하지 않고 포괄적인 테스트가 가능해집니다. 또한, 신속하게 반복하고 LLM의 프롬프트를 구체화
이 방법은 특히 RAG(질문 응답 생성) 시스템의 평가에도 유용하게 사용될 수 있습니다.
Preference Leakage란?
LLM이 데이터 생성과 동시 평가를 수행할 때 발생하는 평가 오염문제를 나타냄 데이터 생성과 평가 모델이 연관성을 갖을 경우, 평가 모델이 모델 자신과 관련된 출력을 더 선호하는 현상이 발생합니다.
기존 데이터 오염(Data Contamination)문제와 유사하나 더 알아채기 어렵게 발생하여 검출하기 어려움이 있습니다.
LLM-as-a-Judge 프로세스
LLM-as-a-Judge는 다음과 같은 과정을 거쳐 사용됩니다:
- 평가 기준 파악하기 - 먼저 hallucination, toxicity, accuracy 또는 기타 특성 등 무엇을 평가할지 결정합니다.
- 평가 프롬프트 작성 - 평가를 안내할 프롬프트 템플릿을 작성하세요. 이 템플릿은 출력을 효과적으로 평가하기 위해 초기 프롬프트와 LLM의 응답 모두에서 필요한 변수를 명확하게 정의해야 합니다.
- 평가 LLM 선택 - 특정 평가를 수행하기 위해 사용 가능한 옵션 중에서 가장 적합한 LLM을 선택합니다.
- 평가 생성 및 결과 보기 - 데이터 전체에서 평가를 실행합니다. 이 프로세스를 사용하면 수동으로 주석을 달 필요 없이 포괄적인 테스트를 수행할 수 있으므로 신속하게 반복하고 LLM의 프롬프트를 구체화할 수 있습니다.
이 방법은 특히 RAG(질문 응답 생성) 시스템의 평가에도 유용하게 사용될 수 있습니다.
LLM-as-a-judge의 한계
- Position bias(위치 편향)
LLM이 특정 위치의 답변을 선호하는 경향성을 나타낼 때 발생합니다.
- Verbosity bias(장황함 편향)
LLM 심사위원이 더 짧고 명확하며 고품질이거나 정확한 답변보다 더 길고 장황한 답변을 선호하는 경향이 있습니다.
- Self-enhancement bias(자기 강화 편향)
일부 LLM 심사위원이 특정 모델을 선호하는 것을 관찰할 수 있었으나 데이터가 제한적이고 차이가 작기 때문에 이 연구에서는 모델이 자기 강화 편향을 나타내는지 여부를 결정할 수 없었습니다.
- Limited capability in grading math and reasoning questions(수학 및 추론 문제 채점 능력 제한)
GPT-4는 (별도로 질문할 경우) 문제를 풀 수 있음에도 불구하고 제공된 답변에 의해 잘못된 판단을 내렸습니다.
Preference Leakage의 주요 원인
- 논문에서는 LLM 데이터 생성기(Generator)와 평가자(Judge) 간의 세 가지 유형의 관련성(Relatedness)을 정의함.
-
- 동일한 모델(Same Model)
- 데이터 생성과 평가를 같은 LLM이 수행. 예: GPT-4가 데이터를 생성하고, 다시 GPT-4가 이를 평가하는 경우.
- 동일한 모델(Same Model)
-
- 계승 관계(Inheritance Relationship)
- 데이터 생성 모델이 평가 모델에서 파생됨.
- 예: GPT-4가 데이터를 생성하고, 이를 기반으로 Mistral-7B를 학습한 뒤, 다시 GPT-4가 이를 평가하는 경우.
- 계승 관계(Inheritance Relationship)
같은 모델 계열(Same Model Family)
- 동일한 모델 패밀리(GPT, Gemini, LLaMA 등) 내에서 데이터 생성과 평가가 이루어집니다.
- 예: GPT-4가 데이터를 생성하고, GPT-3.5가 이를 평가하는 경우.
- Preference Leakage가 발생하는 이유
-
데이터 생성기와 평가 모델이 같은 특성을 공유하기 때문입니다. 데이터 생성 과정에서 특정 스타일, 형식, 표현 방식이 반영되며, 평가 모델이 이를 인식하고 선호하는 경향이 발생.
-
특히 Supervised Fine-Tuning(SFT) 과정에서 이러한 편향이 더 심해집니다.
-
실험 및 주요 결과
- 실험 설정
- 데이터 생성 및 평가 모델로 사용된 LLMs:
- GPT-4o (2024-11-20)
- Gemini-1.5-flash
- LLaMA-3.3-70B-Instruct-turbo
- 데이터 생성 및 평가 모델로 사용된 LLMs:
실험 대상 학생 모델(Student Models):
- Mistral-7B-v0.1
- Qwen-2.5-14B
평가 데이터셋:
- Arena-Hard
- AlpacaEval 2.0
측정 지표: Preference Leakage Score (PLS)
- 평가 모델이 자신의 관련 모델을 얼마나 더 선호하는지를 정량적으로 측정.
- 값이 클수록 평가 편향이 심함.
실험 결과
- Preference Leakage는 실제로 발생하며, 심각한 문제가 있습니다. .
- 대부분의 모델 조합에서 평가 모델이 자신의 관련 모델을 더 선호하는 경향을 보입니다.
- 예를 들어, GPT-4o는 LLaMA-3.3을 더 선호하는 경향을 보였습니다.
- 모델의 크기와 성능이 높을수록 Preference Leakage가 더 심해집니다.
- *Qwen-2.5-14B (더 큰 모델)**이 Mistral-7B보다 더 높은 Preference Leakage Score를 기록했습니다.
- 이는 성능이 좋은 모델이 더 강하게 패턴을 학습하기 때문으로 추정됩니다.
- Supervised Fine-Tuning(SFT)이 가장 큰 Preference Leakage를 유발합니다.
- SFT 방식으로 학습한 모델은 Preference Leakage Score가 23.6%로 가장 높았습니다.
- 반면, DPO(Direct Preference Optimization)는 5.2%, ICL(In-Context Learning)은 -2.7%로 훨씬 낮았습니다.
- 데이터 혼합(Data Mixing) 전략이 Preference Leakage에 영향을 줍니다.
- 합성 데이터(Synthetic Data) 비율이 높을수록 Preference Leakage Score가 증가.
- 70% 합성 데이터가 포함된 경우 Preference Leakage Score가 최대 30%까지 증가.
- 평가 모델은 자신의 학생 모델 출력을 정확히 인식하지 못하지만, 특정 패턴을 학습합니다.
- LLM 평가자는 학생 모델의 출력을 직접 식별하는 능력이 낮았습니다.
- 하지만 BERT 기반 분류 모델을 학습하면 학생 모델의 출력을 높은 정확도로 구분할 수 있었습니다 → 학생 모델이 특정 스타일, 형식을 계승하고 있습니다.
해결 방법 및 시사점
해결 방안
- 평가 모델과 데이터 생성 모델을 분리해야 합니다.
- 예: GPT-4가 데이터를 생성하면, 평가에는 Gemini-1.5를 사용합니다.
- Supervised Fine-Tuning(SFT)보다 DPO, ICL 같은 학습 방법 사용합니다.
- SFT는 Preference Leakage를 심화시키므로, DPO(Direct Preference Optimization)가 더 적합합니다.
- 합성 데이터의 비율을 줄이고, 다양한 모델에서 생성한 데이터를 혼합합니다.
- 특정 모델이 생성한 데이터만 학습할 경우, 편향이 심화됩니다.
- 새로운 평가 벤치마크 개발.
- 현재 AlpacaEval 2.0, Arena-Hard 등도 Preference Leakage 영향을 받고 있습니다.
- 편향을 줄이기 위한 새로운 데이터셋 및 평가 방식 필요합니다 .
시사점
- LLM-as-a-Judge는 비용 효율적이지만, 모델 편향(Bias) 문제를 해결하지 않으면 신뢰할 수 없습니다.
- 특히 Preference Leakage는 기존의 데이터 오염(Data Contamination) 문제보다 더 은밀하고 검출하기 어려움이 있습니다.
- 평가 모델의 공정성을 확보하려면 데이터 생성과 평가 모델을 분리하고, 새로운 학습 기법과 평가 기준을 개발해야 합니다.
References:
- https://devocean.sk.com/blog/techBoardDetail.do?ID=166628&boardType=techBlog
- https://kashnep.tistory.com/30