본문 바로가기

728x90

Natural Language Processing/Large Language Model (LLM)6

[Paper 간단 리뷰] Platypus: Quick, Cheap, and Powerful Refinement of LLMs 몇일 전, Open LLM 리더보드를 갱신한 새로운 LLM 모델이 공개되었다. 모델 뿐만 아니라 데이터도 공개되었다. Backbone 모델은 공개된 LLAMA2 를 활용했으며, 해당 논문에선 아래와 같이 3가지 주제를 설명하고 있다. 공개적으로 활용할 수 있는 curated Open-Platypus dataset 특정 도메인 지식을 반영하기 위해 LoRA 모듈을 fine-tuning하고 merge하는 프로세스 test data의 유출 및 train 데이터의 오염을 확인하는 방법에 대한 설명 눈여겨 볼만한 점은 13B 모델은 A100 GPU 1대에서 5시간 동안 2만 5천개의 질문을 사용해 fine-tuning을 진행했다는 점이다. 따라서 공개된 데이터 셋의 우수성을 입증하며 적은 데이터 셋으로도 강력한 .. 2023. 8. 18.

[LLM 평가 지표] Elo Ratings으로 LLM모델들을 랭킹하는 방법 Elo 등급 시스템은 원래 체스 선수의 순위를 매기기 위해 고안된 방법이다. 다양한 LLM 모델들을 비교하기 위해 Elo 시스템을 활용하여 일대일 비교를 통해 LLM을 평가하고 순위를 매긴다. Elo rating이란? Elo rating은 전 세계 체스 플레이어의 순위를 매기기 위해 만들어 졌다. 플레이어는 1000앨로(초보자)에서 2800엘로 이상(프로) 사이의 등급으로 시작한다. 플레이어가 경기에서 승리하면 상대방의 엘로 등급에 따라 등급이 올라간다. 쉽게 예를들어 설명한다면, 내가 1000엘로 등급으로 시작하여 2882 등급의 선수를 이긴다면, 나의 등급은 1032엘로로 32포인트 상승하고, 선수의 등급은 2850으로 32포인트 하락하게 된다. 등급의 상승과 하락은 공식에 따라 결정된다. 이 공식을.. 2023. 7. 3.

[LLM] LLaMA 공개 이후 - #Self-Instruct #Alpaca Language Model은 크게 4가지 부류로 나눠서 설명할 수 있다. Statisical Language Modeling (SLM): 1990년도에 나와 단순히 n-gram 기법으로 주변 문맥을 고려해 다음에 어떤 단어가 올지 예측하는 방법이다. Neural Language Models (NLM): RNNs, LSTMs, GRUs, word2vec과 같이 neural network를 사용한 기법이다. Pretrained Language Models (PLM): ELMo, BERT, BART, GPT-2 Large Language Models (LLM): larger PLMs like GPT-4, ChatGPT, PaLM, Sparrow, Claude, Microsoft 365's AI, etc 위 4.. 2023. 6. 9.

[LLM 모델 간단 Review] LLaMA: Open and Efficient Foundation Language Models 올해 초 Meta에서 오픈소스로 공개한 파운데이션 모델, LLaMA에 대해 간략히 리뷰하고자 한다. ※ 파운데이션 모델: 대용량의 unlabeled dataset으로 사전학습하고 다양한 다운스트림 태스크에 파인튜닝하여 응용할 수 있는 모델 Abstract Meta에서 7B에서 65B개의 파라미터를 가지는 LLM 모델인 LLaMA를 공대했다. 수조개에 달하는 토큰을 기반으로 학습시켰으며, 비공개 데이터 셋이 아닌 공개된 데이터 셋으로 훈련했을 때 SOTA model이 되었다. LLaMA-13B 모델은 GPT-3 (175B) 모델보다 성능이 더 좋았으며 이전에 공개된 Chinchilla-70B, PaLM-540B 모델 보다도 성능이 좋았다. 해당 모델은 연구 목적으로 공개되어 활용할 수 있다. Dataset.. 2023. 6. 8.

이전 1 2 다음

728x90

티스토리툴바