[씨세론이야기] 번역 데이터 활용의 첫단계, 기계 번역기 MARO를 소개합니다.

in #kr-newbie7 years ago (edited)

ciceronmain.jpg

안녕하세요 ! 어김없이 돌아온 @ciceron 입니다!
오늘은 특별히 지난 이야기를 무려 3컷 요약 만화로 보여드릴게요 ㅎㅎ
(※발그림주의※)

마로탄생1-100.jpg

MARO를 소개합니다.


마로 MARO는 데이터를 학습하는 인공지능 기계 번역기 입니다. 다들 AI 들어보셨죠? (아뤼쀠셜인텔리젼스ㅎㅎ) 씨세론의 전문 번역가 인력단의 손을 거친 1,589,772개 이상의 고품질 단어 쌍 데이터를 통해 마로가 탄생하였습니다. 현재는 간단한 번역이 필요할 때 도움을 받는 정도이지만, 점점 더 번역가의 작업을 도울 수 있는 효율성 향상의 도구로 활용될 수 있도록 마로는 오늘도 번역 데이터를 학습하고 있습니다.

AI번역기? 그건 파파X가 짱이라고?

구X번역기, 네이X번역기, 엠에X 번역기 등 이미 많은 기계 번역기가 존재합니다. 하지만 그 중에서도 씨세론의 마로 번역기가번역기가 특별해질 수 있는 점은 바로 분야별로 특화된 학습입니다.

세분화 된 데이터 저장 방식


하나의 저장소에 단어를 저장하는 것이 기존의 기계 번역기의 데이터 관리 방식이라면, 씨세론의 마로 번역기는 의료, 과학, 법률, 인문, 문학, 무역, 정치, 컴퓨터 등 13개의 전문 분야로 단어 데이터를 세분화하여 마로를 학습시킵니다. 사람이 하는 데이터 분류와는 별개로 마로가 스스로 데이터를 군집화 하여 분야를 나누기도 합니다. 마로는 분야별, 산업별 단어 쌍 데이터를 각각 따로 저장하기 때문에, 보다 정확하고 주제를 고려한 번역 결과를 보여주겠죠?

실제로 번역기 성능을 나타내는 지표 BLEU 스코어도 타사 기계 번역기들 보다 높은 수치를 자랑한다구요! (아 물론 아직은 한국어->영어 번역에서만,, 헤헤)

분야별 전문 번역기


아직은 초기버전이라 분야 특화 번역기 모델은 아니지만, 데이터가 충분히 축적되면 각 전문분야에 특화된 번역기 모델을 만들 수 있습니다. 필요한 데이터를 합성하여 특정 분야, 특정 산업에 특화된 번역기 모델을 만들어 낼 수 있는게 마로만의 강점이라는 것이죠. 예를들면 특허 번역기, 문학 번역기, 예술 번역기는 물론 기업별로 사용하는 단어만 저장하여 기업전용 번역기 모델도 생산 가능하죠 :)



오늘은 마로에 대한 소개와 자랑을 좀 늘어놓았는데요 (팔불출)
다음시간에는 마로의 모습을 보여드리고 사용법을 공개할게요 :)

기다려 주실꺼죠? (강요)
제발 기다려주세요,, ㅋㅋㅋ

다음편에 계속


@ciceron 소식!

현재 씨세론이 여행기 번역 이벤트를 진행 중 이에요! 글로벌 여행기를 쓰고 있는 작가님들의 많은 참여 부탁드려요! 이 소식을 모르고 있을수도 있는 스티미언분들을 위해 널리 퍼트려주시면 최고~bb 사...사랑합니다..

Sort:  

번역기라 함은 제가 생각하는 그 번역이 맞나요?ㅎ
궁금하네요.ㅎ

예~ 궁금해하시니 너무 즐거운데요,,(내적댄스) ㅎㅎㅎ 다음주에 마로 보여드릴게요♡ 놀러오셔야합니다! ㅎㅎㅎ

흥미가 가는 번역기네요? ㅎㅎ . 마로의 모습이 기대됩니다!

기대해주시니 몸둘바를 모르겠습니다 ! 다음주에 마로 보러와주세요~ (아이좋아)
KakaoTalk_20180201_170758603.jpg