<googleAPI 이용, (표준어->사투리) 데이터셋에서 (표준어->영어) 번역 작업 중>

무료버전으로 하는 중이라 그런지 이틀째 실행 중인데 꽤 걸리는 것 같다.. 115000 문장 정도....
<네이버 API, ChatGPT API로도 같은 작업을 해볼 생각>
진행하다가 생긴 질문인데
구글API도 무료버전이라 중간에 자꾸 끊기거나 에러가 많아서
sleep(0.3)을 추가하고 4개씩 병렬 작업 하게 하는 등 추가 코드를 많이 입력했는데
네이버나 chatGPT는 무료,유료 제약차이가 좀 큰 것 같다.
chatGPT API 기준 요금이 많이 비싼 것 같진 않았는데
아직 실제로 돌려보진 않아서 체감이 잘 안된다
유료버전의 후기가 궁금하다.
그리고 데이터셋이 모두 만들어졌다는 가정하에
<표준어-사투리-영어>..(네이버API)
<표준어-사투리-영어>..(구글API)
<표준어-사투리-영어>..(chatGPT API)
1) 아무작업없이 KoBART 기본모델에 (사투리->영어) 번역을 하게 하고
2) KoBART 기본모델을 직접 만든 데이터셋을 이용하여 파인튜닝 시켜서 (사투리->영어) 번역
3) 1)과 2)를 정답데이터와 BLEU로 비교
현재는 이정도 진행방향을 잡았는데
단순하게 "직접만든 데이터로 파인튜닝을 통해 사투리->영어 번역의 성능을 끌어올렸다"
이거보다 한단계 더 나아가서 추가적으로 연구하고 논문에 쓸 수 있는 내용이 있을까?
KoBART translation 깃허브를 읽어보니 Ai-Hub 데이터 전문분야 한-영 말뭉치를 훈련시켰던데
여기서 내가 하는 일은 사투리 데이터를 추가 훈련시키는 거 밖에
특이점이 없어보여서 조금 단조로워 보였다.
정답데이터도 만들어야하므로 test데이터도 API를 이용하여 번역을 미리 해야하네...
'AI-LAB > 회의록' 카테고리의 다른 글
[회의록] 사투리번역 진행도2 - 구글 trasnslate api 오류 (0) | 2023.08.26 |
---|---|
[회의록] 사투리번역 진행도1 - 사투리를 영어로 바로 번역해보자 (0) | 2023.08.26 |
[회의록] 2023.07.10 (0) | 2023.07.10 |
[회의록] 2023.07.03 (0) | 2023.07.03 |
[회의록] 2023.06.26 (0) | 2023.06.26 |