본문 바로가기
728x90

Natural Language Processing/Large Language Model (LLM)6

[강의 후기] 한국어 LLM 민주화의 시작 KoAlpaca! - 이준범 KoAlpaca를 제작한 이준범님께서 AI factory를 통해 강연을 "한국어 LLM 민주화의 시작 KoAlpaca!"라는 주제로 진행하셨다. 목차는 아래와 같이 구성되어 진행되었다. LLAMA와 Polyglot-ko 그리고 Alpaca 소개 KoAlpaca 데이터셋 제작 및 모델 학습 KoAlpaca의 현재와 미래 1. LLAMA와 Polyglot-ko 그리고 Alpaca소개 LLM 이전에는 LM이 있었다. 먼저 이 둘의 차이는 LM의 경우 문장이 주어진 경우 다음에 어떤 단어가 올지 예측하는 task이고, LLM의 경우 Instruction (대 용량의 질문과 답변 set)이 주어질 경우, 입력한 문장에 대해 답변을 예측하는 task라고 볼 수 있다. 그렇다면 LLM이 인기가 많아진 이유는 무엇일까.. 2023. 6. 1.
Illustrating Reinforcement Learning from Human Feedback (RLHF)이란 배경 좋은 텍스트 생성 모델을 만들기 위해 BLEU 또는 ROUGE와 같은 사람이 직접 평가한 메트릭을 정의해 평기를 진행해왔다. 따라서 생성된 텍스트에 대해 인간의 피드백을 성능 측정에 활용하고, 피드백을 기반으로 손실을 사용해 모델을 최적화 하면 어떨까? 라는 아이디어에서 RLHF(Reinforcement Learning from Human Feedback)의 개념이 나왔다. 아이디어의 기본은 강화 학습의 방법을 사용하여 사람의 피드백으로 언어 모델을 직접 최적화 한 것이다. 이 개념은 ChatGPT에서 사용되었다. RLHF: Let’s take it step by step 인간 피드백을 통한 강화학습은 어려운 컨셉이다. 왜냐하면 다중 모델의 훈련 과정과 각 단계마다 다른 배포 과정을 거쳐야 하기 때.. 2023. 5. 9.
728x90