본문 바로가기

728x90

분류 전체보기74

Ubuntu 18.04에서 cuda 삭제 및 재설치 하는 방법 기존 쿠다 삭제 sudo apt-get --purge -y remove 'cuda*' sudo apt-get --purge -y remove 'nvidia*' sudo apt-get autoremove --purge cuda # cudnn remove cd /usr/local/ sudo rm -rf cuda* nouveau 비활성화 sudo bash -c "echo blacklist nouveau > /etc/modprobe.d/blacklist-nvidia-nouveau.conf" sudo bash -c "echo options nouveau modeset=0 >> /etc/modprobe.d/blacklist-nvidia-nouveau.conf" 비활성화 확인 cat /etc/modprobe.d/bl.. 2023. 10. 19.

[Paper 간단 리뷰] Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks 기존의 BERT와 RoBERTa 모델은 sentence classification과 sentence-pairregression task에서 SOTA를 달성했다. 하지만, sentence similarity를 탐색하는 task에서는 두 개의 문장을 network에 입력해야 하고, 많은 연산량을 요구하게 된다. 따라서 위 문제점을 해결하기 위해, siamese/triplet network를 이용하여 보완한 SBERT 방법을 제안한다. Introduction 위에서도 잠깐 언급했지만, BERT와 RoBERTa 모델이 sentence-pairregression task에서 SOTA를 달성했지만, 두 개의 문장이 transformer network입력으로 들어가게 되므로(cross encoder) 오버헤드가 발생.. 2023. 8. 25.

[Paper 간단 리뷰] Platypus: Quick, Cheap, and Powerful Refinement of LLMs 몇일 전, Open LLM 리더보드를 갱신한 새로운 LLM 모델이 공개되었다. 모델 뿐만 아니라 데이터도 공개되었다. Backbone 모델은 공개된 LLAMA2 를 활용했으며, 해당 논문에선 아래와 같이 3가지 주제를 설명하고 있다. 공개적으로 활용할 수 있는 curated Open-Platypus dataset 특정 도메인 지식을 반영하기 위해 LoRA 모듈을 fine-tuning하고 merge하는 프로세스 test data의 유출 및 train 데이터의 오염을 확인하는 방법에 대한 설명 눈여겨 볼만한 점은 13B 모델은 A100 GPU 1대에서 5시간 동안 2만 5천개의 질문을 사용해 fine-tuning을 진행했다는 점이다. 따라서 공개된 데이터 셋의 우수성을 입증하며 적은 데이터 셋으로도 강력한 .. 2023. 8. 18.

[ODQA] RAG 이후 간단 리뷰 RAG 이후 나온 논문들은 Retriever-Generator 구조를 취하고 있다. 이는 별도의 Pretrain을 거치지 않고 학습된 Retriever인 DPR을 사용하며 초기 Retriever로 BM25를 사용하는 경우가 있다. 이때, Retriever가 Passage를 산출하는 방식은 REALM과 동일하다. 또한 k개의 Passage에 대해 Reader가 아 Generator의 Encoder가 생성한, 각각의 Passage가 생성 Hidden Representation을 concat을 한다. 이후 concat한 Hidden Representation에 대해서 Decoder가 다 cross attention을 수행해서 Answer를 생성하게된다. 즉, ODQA에서 RAG이전의 논문들은 span을 pre.. 2023. 8. 11.

이전 1 2 3 4 5 ··· 19 다음

728x90

티스토리툴바