728x90 반응형 AI-LAB/NLP_Basic5 NLP_6_미리 학습된 모델 언어 모델이란 단어 시퀀스에 확률을 부여하는 모델이다. 문장에서 i번째로 등장하는 단어를 wi 로 표시하면 n개 단어로 구성된 문장이 해당 언어에서 등장할 확률, 즉, 언어 모델의 출력은 다음 수식처럼 쓸 수 있다 P(w1,w2,w3,w4,...,wn) 이 수식은 n개 단어가 동시에 나타날 결합 확률(joint probability) 잘 학습된 한국어 모델이 있다면 P(무모, 운전) 보다 P(난폭, 운전) 이 큰 확률 값을 가질 것 그렇다면 난폭이 나타난 다음 운전이 나타날 확률은 ? 2023. 6. 26. NLP_4_토큰화란? 토큰화 tokenization 문장을 토큰 시퀀스로 나누는 과정 수행 대상에 따라 문자, 단어, 서브워드 등 세 가지 방법 존재 트랜스포머 모델은 토큰 시퀀스를 입력받으므로 문장에 토큰화를 수행 필요 토크나이저 tokenizer 토큰화를 수행하는 프로그램 대표적 한국어 토크나이저 은전한닢(mecab), 꼬꼬마(kkma).. 이들 분석기는 토큰화뿐만 아니라 품사 부착 Part of Sepeech tagging 까지 수행 단어 단위 토큰화 가장 쉽게는 공백으로 분리 example 어제 카페 갔었어 -> 어제, 카페, 갔었어 어제 카페 갔었는데요 -> 어제, 카페, 갔었는데요 공백으로 분리하면 별도로 토크나이저를 쓰지 않아도 된다는 장점이 있지만, 어휘 집합 vocabulary 의 크기가 매우 커질 수 있다 .. 2023. 6. 21. NLP_3_파인튜닝 외의 다운스트림 태스크 학습법 파인튜닝(fine-tuning) 다운스트림 태스크 데이터 전체 사용 다운스트림 데이터에 맞게 모델 전체를 업데이트 프롬프트 튜닝(prompt tuning) 다운스트림 태스크 데이터 전체 사용 다운스트림 데이터에 맞게 모델 일부만 업데이트 인컨텍스트 러닝(in-context learning) 다운스트림 태스크 데이터의 일부만 사용 모델을 업데이트 하지 않음 인컨텍스트 러닝 1 : 제로샷 러닝(zero-shot learning) 다운스트림 태스크 데이터를 전혀 사용하지 않음 모델이 바로 다운스트림 태스크 수행 인컨텍스트 러닝 2 : 원샷 러닝(one-shot learning) 다운스트림 태스크 데이터를 1건만 사용 모델은 1건의 데이터가 어떻게 수행되는지 참고한 뒤 다운스트림 태스크 수행 인컨텍스트 러닝 3.. 2023. 6. 21. NLP_2_트랜스퍼 러닝 트랜스퍼 러닝(transfer learning) 트랜스퍼 러닝이란 특정 태스크를 학습한 모델을 다른 태스크 수행에 재사용하는 기법을 가리킨다. 다음 그림처럼 태스크2를 수행하는 모델을 만든다고 가정하면 트랜스퍼 러닝이 도움이 될 것이다. 모델이 태스크2를 배울 때 태스크1을 수행해 봤던 경험을 재활용하기 때문이다! 트랜스퍼 러닝이란 특정 태스크를 학습한 모델을 다른 태스크 수행에 재사용하는 기법이다. 트랜스퍼 러닝을 적용하면 기존 보다 모델의 학습 속도가 빨라지고 새로운 태스크를 더 잘 수행하는 경향이 있다. BERT, GPT 등도 트랜스퍼 러닝이 적용되었다. 그림 1-6에서 태스크1은 업스트림 태스크라고 부르고 태스크2는 다운스트림 태스크 라고 부른다. 태스크1은 다음 단어 맞히기, 빈칸 채우기 등의 .. 2023. 6. 20. 이전 1 2 다음 728x90 반응형