본문 바로가기
728x90

Natural Language Processing20

[LLM 모델 간단 Review] LLaMA: Open and Efficient Foundation Language Models 올해 초 Meta에서 오픈소스로 공개한 파운데이션 모델, LLaMA에 대해 간략히 리뷰하고자 한다. ※ 파운데이션 모델: 대용량의 unlabeled dataset으로 사전학습하고 다양한 다운스트림 태스크에 파인튜닝하여 응용할 수 있는 모델 Abstract Meta에서 7B에서 65B개의 파라미터를 가지는 LLM 모델인 LLaMA를 공대했다. 수조개에 달하는 토큰을 기반으로 학습시켰으며, 비공개 데이터 셋이 아닌 공개된 데이터 셋으로 훈련했을 때 SOTA model이 되었다. LLaMA-13B 모델은 GPT-3 (175B) 모델보다 성능이 더 좋았으며 이전에 공개된 Chinchilla-70B, PaLM-540B 모델 보다도 성능이 좋았다. 해당 모델은 연구 목적으로 공개되어 활용할 수 있다. Dataset.. 2023. 6. 8.
[강의 후기] 한국어 LLM 민주화의 시작 KoAlpaca! - 이준범 KoAlpaca를 제작한 이준범님께서 AI factory를 통해 강연을 "한국어 LLM 민주화의 시작 KoAlpaca!"라는 주제로 진행하셨다. 목차는 아래와 같이 구성되어 진행되었다. LLAMA와 Polyglot-ko 그리고 Alpaca 소개 KoAlpaca 데이터셋 제작 및 모델 학습 KoAlpaca의 현재와 미래 1. LLAMA와 Polyglot-ko 그리고 Alpaca소개 LLM 이전에는 LM이 있었다. 먼저 이 둘의 차이는 LM의 경우 문장이 주어진 경우 다음에 어떤 단어가 올지 예측하는 task이고, LLM의 경우 Instruction (대 용량의 질문과 답변 set)이 주어질 경우, 입력한 문장에 대해 답변을 예측하는 task라고 볼 수 있다. 그렇다면 LLM이 인기가 많아진 이유는 무엇일까.. 2023. 6. 1.
[LLM Bootcamp 리뷰] Learn to Spell: Prompt Engineering 리뷰 Introduction 이번 강의에서는 언어 모델을 사용하기 위해서 어떤 방식을 활용해야 하는지 2가지 챕터로 나눠서 설명한다. 첫번째는, 프롬프트 형식들이 어떻게 발전해왔는지 프롬프트의 아이디어는 무엇이 있는지 "PROMPTS ARE MAGIG SPELL"이라는 제목으로 설명한다. 두번째는, 언어 모델을 통해서 원하는 결과를 얻기 위해 어떻게 텍스트를 입력해야 하는지 "PROMPTING TECHNIQUES"라는 제목으로 설명한다. LM are "just" statistical models of text 프롬프트는 선형대수 알고리즘을 기반으로 한다. 따라서 언어 모델은 텍스트를 기반한 통계적인 모델이다. 즉, 어떤 문장이 입력되면 그 다음에 어떤 단어가 올지 예측하도록 학습한 "Auto-regreesiv.. 2023. 5. 30.
[Data Augmentation in NLP] 1. NLP에서 데이터 증강 하는 방법 자언어 처리 프로젝트를 진행하다보면, 성능을 높이기 위해 고려되는 방법 중 하나로 "데이터 증강" 이 있다. 데이터 증강에도 여러가지 방법이 있는데, 하나씩 알아보면서 실제 모델을 만들고 패키지로 제공하려고 한다. Paraphrasing-based methods 데이터를 증강하기 위해 아래 그림과 같이, 단어 레벨, 구문 레벨, 문장 레벨로 데이터를 증강하는 방법이 있다. 그 중, 첫번째로 Thasaurus방식에 대해 먼저 알아보고자 한다. Thasaurus (유의어로 대체) 문장이 있을 때, 특정 단어를 비슷한 의미를 가진 단어로 대체하는 방법이 있다. 예를 들어, "나는 정말 굉장한 일을 하고 있어" 라는 문장이 주어졌을 때, "굉장한" 이라는 단어를 "엄청난" 이라는 단어로 바꾸는 것이다. 따라서 .. 2023. 5. 25.
728x90