본문 바로가기
728x90

Natural Language Processing20

[LLM 평가 지표] Elo Ratings으로 LLM모델들을 랭킹하는 방법 Elo 등급 시스템은 원래 체스 선수의 순위를 매기기 위해 고안된 방법이다. 다양한 LLM 모델들을 비교하기 위해 Elo 시스템을 활용하여 일대일 비교를 통해 LLM을 평가하고 순위를 매긴다. Elo rating이란? Elo rating은 전 세계 체스 플레이어의 순위를 매기기 위해 만들어 졌다. 플레이어는 1000앨로(초보자)에서 2800엘로 이상(프로) 사이의 등급으로 시작한다. 플레이어가 경기에서 승리하면 상대방의 엘로 등급에 따라 등급이 올라간다. 쉽게 예를들어 설명한다면, 내가 1000엘로 등급으로 시작하여 2882 등급의 선수를 이긴다면, 나의 등급은 1032엘로로 32포인트 상승하고, 선수의 등급은 2850으로 32포인트 하락하게 된다. 등급의 상승과 하락은 공식에 따라 결정된다. 이 공식을.. 2023. 7. 3.
[Paper Review] Dense Passage Retrieval for Open-Domain Question Answering 란 Background ORQA가 등장하기 전에는 TF-IDF/BM25를 능가하는 Dense Retrieval이 없었다. 하지만 ORQA 역시 약점을 가지고 있다. ICT(inverse cloze task) pre-training을 활용하였는데 이 방식은 연산량이 많다. ORQA의 경우 BERT로 쪼개진 wiki문장에서 10%의 임의 문장을 가져오는데, 이 문장이 질문으로 적합한지가 애매하다. Passage Encoder를 fine-tuning하지 않기 때문에, 이는 최적화된 방법이 아니다. Question과 Passages(or Answer)만 가지고 추가적인 pretraining없이 더 나은 dense embedding model을 학습할 수 있을까? 위 질문을 기반으로 Dense Passage Retr.. 2023. 6. 28.
[QA task] QA task, Open-domain QA Question Answering 방식은 Method 관점과 Domain 관점으로 분류할 수 있다. Question Answering - Method Method에 기반한 QA 방식은 Extraction-based와 Generation-based로 카테고리를 나눌 수 있다. Extraction-based QA Context 내에 질문에 대한 답변이 존재 Context 내 답변이 위치하는 start/end token의 위치를 예측하는 등의 분류 수행 정답과의 Exact Match (EM), F1 score로 평가 Example) Quesion: 북태평양 기단과 오호츠크해 기단이 만나 국내에 머무르는 기간은? Context: 올여름 장마가 17일 제주도에서 시작됐다. 서울 등 중부지방은 예년보다 사나흘 정도.. 2023. 6. 27.
[LLM] LLaMA 공개 이후 - #Self-Instruct #Alpaca Language Model은 크게 4가지 부류로 나눠서 설명할 수 있다. Statisical Language Modeling (SLM): 1990년도에 나와 단순히 n-gram 기법으로 주변 문맥을 고려해 다음에 어떤 단어가 올지 예측하는 방법이다. Neural Language Models (NLM): RNNs, LSTMs, GRUs, word2vec과 같이 neural network를 사용한 기법이다. Pretrained Language Models (PLM): ELMo, BERT, BART, GPT-2 Large Language Models (LLM): larger PLMs like GPT-4, ChatGPT, PaLM, Sparrow, Claude, Microsoft 365's AI, etc 위 4.. 2023. 6. 9.
728x90