본문 바로가기
AI-LAB/회의록

[회의록] 사투리번역 진행도3 - api 사용과 추가 연구에 대한 생각

by JS LAB 2023. 8. 27.
728x90
반응형

<googleAPI 이용, (표준어->사투리) 데이터셋에서 (표준어->영어) 번역 작업 중>

무료버전으로 하는 중이라 그런지 이틀째 실행 중인데 꽤 걸리는 것 같다.. 115000 문장 정도....

 

 

 

<네이버 API, ChatGPT API로도 같은 작업을 해볼 생각>

진행하다가 생긴 질문인데 
구글API도 무료버전이라 중간에 자꾸 끊기거나 에러가 많아서 

sleep(0.3)을 추가하고 4개씩 병렬 작업 하게 하는 등 추가 코드를 많이 입력했는데
네이버나 chatGPT는 무료,유료 제약차이가 좀 큰 것 같다.


chatGPT API 기준 요금이 많이 비싼 것 같진 않았는데 

아직 실제로 돌려보진 않아서 체감이 잘 안된다
유료버전의 후기가 궁금하다.  

그리고 데이터셋이 모두 만들어졌다는 가정하에
<표준어-사투리-영어>..(네이버API)   
<표준어-사투리-영어>..(구글API)
<표준어-사투리-영어>..(chatGPT API)

1) 아무작업없이 KoBART 기본모델에 (사투리->영어) 번역을 하게 하고
2) KoBART 기본모델을 직접 만든 데이터셋을 이용하여 파인튜닝 시켜서 (사투리->영어) 번역
3) 1)과 2)를 정답데이터와 BLEU로 비교

현재는 이정도 진행방향을 잡았는데
단순하게 "직접만든 데이터로 파인튜닝을 통해 사투리->영어 번역의 성능을 끌어올렸다"  

이거보다 한단계 더 나아가서 추가적으로 연구하고 논문에 쓸 수 있는 내용이 있을까?


KoBART translation 깃허브를 읽어보니 Ai-Hub 데이터 전문분야 한-영 말뭉치를 훈련시켰던데 
여기서 내가 하는 일은 사투리 데이터를 추가 훈련시키는 거 밖에

특이점이 없어보여서 조금 단조로워 보였다.

정답데이터도 만들어야하므로 test데이터도 API를 이용하여 번역을 미리 해야하네...

728x90
반응형