[회의록] 사투리번역 진행도3 - api 사용과 추가 연구에 대한 생각

728x90

<googleAPI 이용, (표준어->사투리) 데이터셋에서 (표준어->영어) 번역 작업 중>

무료버전으로 하는 중이라 그런지 이틀째 실행 중인데 꽤 걸리는 것 같다.. 115000 문장 정도....

<네이버 API, ChatGPT API로도 같은 작업을 해볼 생각>

진행하다가 생긴 질문인데
구글API도 무료버전이라 중간에 자꾸 끊기거나 에러가 많아서

sleep(0.3)을 추가하고 4개씩 병렬 작업 하게 하는 등 추가 코드를 많이 입력했는데
네이버나 chatGPT는 무료,유료 제약차이가 좀 큰 것 같다.

chatGPT API 기준 요금이 많이 비싼 것 같진 않았는데

아직 실제로 돌려보진 않아서 체감이 잘 안된다
유료버전의 후기가 궁금하다.

그리고 데이터셋이 모두 만들어졌다는 가정하에
<표준어-사투리-영어>..(네이버API)
<표준어-사투리-영어>..(구글API)
<표준어-사투리-영어>..(chatGPT API)

1) 아무작업없이 KoBART 기본모델에 (사투리->영어) 번역을 하게 하고
2) KoBART 기본모델을 직접 만든 데이터셋을 이용하여 파인튜닝 시켜서 (사투리->영어) 번역
3) 1)과 2)를 정답데이터와 BLEU로 비교

현재는 이정도 진행방향을 잡았는데
단순하게 "직접만든 데이터로 파인튜닝을 통해 사투리->영어 번역의 성능을 끌어올렸다"

이거보다 한단계 더 나아가서 추가적으로 연구하고 논문에 쓸 수 있는 내용이 있을까?

KoBART translation 깃허브를 읽어보니 Ai-Hub 데이터 전문분야 한-영 말뭉치를 훈련시켰던데
여기서 내가 하는 일은 사투리 데이터를 추가 훈련시키는 거 밖에

특이점이 없어보여서 조금 단조로워 보였다.

정답데이터도 만들어야하므로 test데이터도 API를 이용하여 번역을 미리 해야하네...

728x90

'AI-LAB > 회의록' 카테고리의 다른 글

[회의록] 사투리번역 진행도2 - 구글 trasnslate api 오류 (0)	2023.08.26
[회의록] 사투리번역 진행도1 - 사투리를 영어로 바로 번역해보자 (0)	2023.08.26
[회의록] 2023.07.10 (0)	2023.07.10
[회의록] 2023.07.03 (0)	2023.07.03
[회의록] 2023.06.26 (0)	2023.06.26

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

JS LAB

[회의록] 사투리번역 진행도3 - api 사용과 추가 연구에 대한 생각

<googleAPI 이용, (표준어->사투리) 데이터셋에서 (표준어->영어) 번역 작업 중>

<네이버 API, ChatGPT API로도 같은 작업을 해볼 생각>

'AI-LAB > 회의록' 카테고리의 다른 글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역

[회의록] 사투리번역 진행도3 - api 사용과 추가 연구에 대한 생각

<googleAPI 이용, (표준어->사투리) 데이터셋에서 (표준어->영어) 번역 작업 중>

<네이버 API, ChatGPT API로도 같은 작업을 해볼 생각>

'AI-LAB > 회의록' 카테고리의 다른 글

관련글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역