728x90 Deep Learning3 [논문리뷰] LoRA: Low-Rank Adaptation of Large Language Models 이번에 리뷰할 논문은 모델 Efficency를 개선하는 측면 중 Parameter-Efficient Fine-Tuning (PEFT)에 근간이 될 수 있는 LoRA 논문에 대해 리뷰하려고 한다. Background Pre-trained 모델은 다양한 downstream task에 적용할 수 있다. 이러한 downstream task들은 pre-trained된 모델을 fine-tuning함으로써 성능을 높일 수 있다. ※ Dowmstream task? Summarization, Machine Reading Comprehension 등 그렇다면 fine-tuning은 어떠한 과정으로 이루어 지는것일까? Fine-tuning과정에서 모델은 pre-trained된 weight를 초기화 한 다음, object f.. 2023. 6. 11. [Transformer optimize scheduler] Huggingface에서 제공하는 함수 Huggingface에서 제공하는 transformer optimize scheduler중 가장 많이 사용되는 함수에 대해 간략히 정리해보고자 한다. get_constance_schedule 학습률을 일정한 상수로 유지하는 역할을 수행. 따라서 입력된 optimizer에 대한 learning rate scheduler를 생성하고 반환한다. 학습률을 동적으로 조정하는 대신 고정된 학습률을 사용하고자 할떄 유리하다. get_constance_schedule_with_warmup 일정한 상수 학습률을 유지하면서 동시에 warm-up 기간 동안 학습률을 선형적으로 증가시키고 이후에는 일정한 학습률을 유지하는 역할을 한다. num_warmup_steps: 총 훈련 스탭 수에 대한 일정 비율로 설정된다. 예를들어,.. 2023. 5. 26. [논문리뷰] R-Drop: Regularized Dropout for Neural Networks (with Python) AI4Code 캐글 대회에서 R-Drop 방법을 사용해 막판에 성능을 끌어올릴 수 있었다. 따라서 오늘은 R-Drop 논문에 대해 리뷰해보고자 한다. 논문 링크 https://arxiv.org/pdf/2106.14448.pdf 다양한 정규화 기술들은 딥러닝 모델의 과적합을 방지한다. 그 중, Dropout은 네트워크 아키텍쳐와 작업 유형에 관계없이 가장 일반적으로 사용되는 기술 중 하나이다. Dropout은 훈련 중 신경망에 숨겨진 Unit의 일정 비율을 떨어뜨리는 것으로 구현된다. 논문 저자는 이런 Dropout의 무작위성을 활용하도록 설계된 간단하지만 강력한 정규화 기법인 R-Drop을 소개한다. 소개된 정규화 기법은 Vanila Transformer 모델을 사용하여 WMT14 번역 데이터 셋에서 S.. 2022. 12. 5. 이전 1 다음 728x90