본문 바로가기
Natural Language Processing/Large Language Model (LLM)

[LLM 평가 지표] Elo Ratings으로 LLM모델들을 랭킹하는 방법

by 지구킹 2023. 7. 3.
728x90

Elo 등급 시스템은 원래 체스 선수의 순위를 매기기 위해 고안된 방법이다. 다양한 LLM 모델들을 비교하기 위해 Elo 시스템을 활용하여 일대일 비교를 통해 LLM을 평가하고 순위를 매긴다.



 

Elo rating이란?

 

Elo rating은 전 세계 체스 플레이어의 순위를 매기기 위해 만들어 졌다. 플레이어는 1000앨로(초보자)에서 2800엘로 이상(프로) 사이의 등급으로 시작한다. 플레이어가 경기에서 승리하면 상대방의 엘로 등급에 따라 등급이 올라간다.

 

쉽게 예를들어 설명한다면, 내가 1000엘로 등급으로 시작하여 2882 등급의 선수를 이긴다면, 나의 등급은 1032엘로로 32포인트 상승하고, 선수의 등급은 2850으로 32포인트 하락하게 된다.

 

등급의 상승과 하락은 공식에 따라 결정된다. 이 공식을 위한 라이브러리가 존재하기 때문에 직접 구현하지 않고 쉽게 사용할 수 있다. (간단하게 하단에 있는 코랩 링크에 접속해 계산할 수 있다.)

 

기존의 Elo 등급은 두 명의 선수를 비교하기 위해 고안되었지만, LLM의 경우 다양한 모델을 비교해 순위를 매겨야 한다. 이를 위해 Elo 등급 시스템을 조정할 수 있다. 조정하기 위해 Danny Cunningham’s awesome method 을 활용해 구하면 된다.


이를 통해 각 모델이 다른 모델과 어떻게 비교되는지 보다 포괄적으로 파악할 수 있다. 다양한 조합에서 모델의 성능을 비교함으로써 특정한 task에 맞는 데이터를 기반으로 평가해 가장 효과적인 모델을 결정할 수 있다.

 

 

실험하는 방법

 

성능을 측정하기 위해 프롬프트를 준비하고, 각 모델이 동일한 프롬프트에 대한 결과를 생성한다. 출력을 csv 파일에 저장하고 해당 파일에 프롬프트 각 LLM 모델들에 대한 결과를 저장한다. 이후 원하는 결과 문장이 생성되었는지 확인하고 비교한다. 

 

해당 과정들을 거쳐서 Elo rating을 측정할 수 있다.

 

현재는 한국어는 없고 아래 링크에 Elo Rating을 비교한 사이트가 있다.

 

https://lmsys.org/blog/2023-05-03-arena/

 

Chatbot Arena: Benchmarking LLMs in the Wild with Elo Ratings | LMSYS Org

<p>We present Chatbot Arena, a benchmark platform for large language models (LLMs) that features anonymous, randomized battles in a crowdsourced manner. In t...

lmsys.org

 

아래 링크에서는 직접 참여할수도 있다.

https://chat.lmsys.org/?arena 

 

Gradio

Build & Share Delightful Machine Learning Apps

gradio.app

 

728x90

댓글