728x90 Natural Language Processing20 Self-paced Learning Curriculum Learning Key Point 인간의 학습 프로세스를 모방하여 쉬운 것 부터 학습하고, 점차 어려운 것까지 학습하는 것 빠른 수렴 속도 확보 및 Local minimal에 빠지는 경향성 감소 최종 학습 모델을 효율적으로 학습하여 고성능 성과 확보 실제 학습 과정으로 학습 난이도가 낮은 샘플들만으로 여러 epoch을 학습하고, switch epoch 이후 학습 난이도가 높은 샘플들로 여러 epoch을 학습 https://ronan.collobert.com/pub/2009_curriculum_icml.pdf 이때, Curriculum Learning을 적용하기 위해선, "데이터 학습 난이도"라는 사전학습 지식이 필요하다. 따라서 위 문제를 해결하기 위해 Self-paced Learni.. 2023. 10. 31. [Paper 간단 리뷰] Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks 기존의 BERT와 RoBERTa 모델은 sentence classification과 sentence-pairregression task에서 SOTA를 달성했다. 하지만, sentence similarity를 탐색하는 task에서는 두 개의 문장을 network에 입력해야 하고, 많은 연산량을 요구하게 된다. 따라서 위 문제점을 해결하기 위해, siamese/triplet network를 이용하여 보완한 SBERT 방법을 제안한다. Introduction 위에서도 잠깐 언급했지만, BERT와 RoBERTa 모델이 sentence-pairregression task에서 SOTA를 달성했지만, 두 개의 문장이 transformer network입력으로 들어가게 되므로(cross encoder) 오버헤드가 발생.. 2023. 8. 25. [Paper 간단 리뷰] Platypus: Quick, Cheap, and Powerful Refinement of LLMs 몇일 전, Open LLM 리더보드를 갱신한 새로운 LLM 모델이 공개되었다. 모델 뿐만 아니라 데이터도 공개되었다. Backbone 모델은 공개된 LLAMA2 를 활용했으며, 해당 논문에선 아래와 같이 3가지 주제를 설명하고 있다. 공개적으로 활용할 수 있는 curated Open-Platypus dataset 특정 도메인 지식을 반영하기 위해 LoRA 모듈을 fine-tuning하고 merge하는 프로세스 test data의 유출 및 train 데이터의 오염을 확인하는 방법에 대한 설명 눈여겨 볼만한 점은 13B 모델은 A100 GPU 1대에서 5시간 동안 2만 5천개의 질문을 사용해 fine-tuning을 진행했다는 점이다. 따라서 공개된 데이터 셋의 우수성을 입증하며 적은 데이터 셋으로도 강력한 .. 2023. 8. 18. [ODQA] RAG 이후 간단 리뷰 RAG 이후 나온 논문들은 Retriever-Generator 구조를 취하고 있다. 이는 별도의 Pretrain을 거치지 않고 학습된 Retriever인 DPR을 사용하며 초기 Retriever로 BM25를 사용하는 경우가 있다. 이때, Retriever가 Passage를 산출하는 방식은 REALM과 동일하다. 또한 k개의 Passage에 대해 Reader가 아 Generator의 Encoder가 생성한, 각각의 Passage가 생성 Hidden Representation을 concat을 한다. 이후 concat한 Hidden Representation에 대해서 Decoder가 다 cross attention을 수행해서 Answer를 생성하게된다. 즉, ODQA에서 RAG이전의 논문들은 span을 pre.. 2023. 8. 11. 이전 1 2 3 4 5 다음 728x90