본문 바로가기
2퍼센트의 지식 뽐내기

스캔 파일 쉽게 번역하기 (with. 베트남어, OCR, 구글번역기)

by 흑화한햄스터이올시다 2021. 9. 10.
반응형

살다보면 번역을 해야할 일이 온다.

문제는 첫째, 내가 그 나라 언어를 모를 때 발생하고.

둘째, 드래그가 되지 않아 번역기에 넣을 수 없을때 발생한다.


만약 드래그 된다면 다행스러운 일입니다. 문서 째로 번역시킵시다.

2021.12.01 - [2퍼센트의 지식 뽐내기] - PDF 문서 번역 쉽게하기 (With 구글 번역기)

 

PDF 문서 번역 쉽게하기 (With 구글 번역기)

번역을 해야하는 문서가 PDF문서인데, 드래그가 되는 PDF문서라면 (스캔문서 아니고 컴퓨터로 입력된 형식) 이 방법을 쓰면 됩니다. 만약 드래그따위 안 되는 스캔(그림 또는 사진형태)문서라면???

hamster2dark.tistory.com


 

나는 베트남어를 알지도 못하는데 번역을 해야할 일이 생겼다.

(영어에 첨자라 해야할지... 그런게 붙어있다.  "Tiếng Việt" 이런식인데 처음 알았다.)

문제는 "둘째"다. 드래그가 되지 않는 스캔본 파일이다.

스캔 파일이라는게 어쩌면 참 다행인 순간이다.

(부연설명을 하자면 프린트 문서를 스캔했기 때문에 타이핑 문자로 일정한 점이 다행이라는 것)

우리에게는 첨단 기술...(?) OCR(문자인식)이 있으니까.

 

2021.07.28 - [나 이러고 살고있어요/쓸모있는 생활] - 알PDF를 이용하여 업무 시간을 50퍼센트 단축하자 - PDF프로그램 추천

 

알PDF를 이용하여 업무 시간을 50퍼센트 단축하자 - PDF프로그램 추천

안녕하세요. 흑화한햄스터이올시다입니다. 컴퓨터를 사용하면 PDF 파일을 안 쓸 수가 없는데요. 크롬 같은 웹페이지에서도 열 수 있지만 읽기에만 적당하고 파일 편집에는 어려움이 많습니다.

hamster2dark.tistory.com

과거 본 글을 통해 알 PDF에 있는 문자인식, OCR 기능을 소개했다.

근데 나도 이거 이용하려고 했는데 "베트남어"는 없더라고 ^^

그럴때는 "구글링"이다.

 

베트남어 OCR(문자인식)

 

이 중에 종종 유료가 있는데 무료를 발견했다.

대신 하루에 한 파일 밖에 인식이 안 됨 ^^

(파일 용량인가 크기 제한 있다. 그래서 쪼개서 이용해야함)

 

https://onlineconvertfree.com/kr/ocr/vietnamese/

 

베트남어OCR 온라인-베트남어OCR 변환기

베트남어OCR 편집 가능한 워드, PDF, 엑셀, TXT를 (텍스트) 출력 형식으로 변환 스캔 한 문서 및 이미지 이 페이지에서 파일을 인식하거나 드래그 앤 드롭 할 파일을 업로드하십시오 파일 선택 또는

onlineconvertfree.com

표나 그림 빼고 "글자"로 된 거는 웬만한건 베트남어로 인식해준다.

다른 OCR은 베트남어가 영어랑 비슷하다보니 영어로 인식해버린다.

OCR이 아니면 그림, 사진 파일로 변환시켜버리는 놈들이 있다. (파일 변환만 시켜주는 셈 ^^)

 

아무튼 본 사이트를 이용하면 시간이 좀 걸리는데 충분히 기다려주면 된다.

그리고 다운받으면 PDF->워드 파일로 변환 완료! 

아마 다른 확장자도 가능할텐데 나는 PDF에서 워드로만 사용해봤다.

 

반응형

 

베트남어 OCR 결과본의 문제점...

하지만 워드를 바로 구글 번역기에 돌리면 되는가?!

되는 경우도 있겠지만 워드 파일을 보면 문장마다 줄바꿈을 해둬서 문단들이 한 줄씩 쪼개져있다.

 

한글로 생각하면 다음과 같은 느낌으로 인식되어 파일로 변환된다. (\n은 줄바꿈 기호 입니다.)

안녕하세요. 오늘은 날씨가 좋\n
은데 무엇을 하면 좋을지가\n
고민인 하루입니다.

이러면 번역이 제대로 될리가 만무합니다..ㅋ

 

그런 부분을 수정해주고 번역기에 돌리면 더 매끄러운 번역결과를 제공한다.

안녕하세요. 오늘은 날씨가 좋은데 무엇을 하면 좋을지가 고민인 하루입니다.

 

하지만 표나 그림 부분을 글자와 구분하여 변환이 잘 안 되고 다 글자화 되므로

 

인식 전:

안녕 이건
입니다

 

인식 후:

안녕..이건

표..입니다

(이렇게 인식되면 양반임)

 

이런건 재구성을 해줘야 한다. (그냥 포기하는게 더 빠를 수도 있다.)

 

 

구글번역기에서 베트남어 입력하기 (필기, VNI)

그리고 가끔 OCR이 제대로 안 된 부분들이 있다.

숫자 1000을 looo 영어로 인식한다든지 아예 요상한걸로 인식한다는지의 문제.

간단한거면 변경해주면 되는데 베트남어를 입력을 할 수 없다는게 문제.

 

예를 들어

OCR에서 à를 a로 인식했다. 나는 à로 입력해서 번역기를 돌리고 싶다면.

구글 번역기에서 제공하는 베트남어 입력기를 이용하면 된다.

 

나는 주로 VNI나 필기를 선택하여 입력한다.

필기는 내가 직접 그리면 된다.

 

마우스나 타블렛으로 그려주면 이에 따라 리스트를 뽑아준다. 맞는거 선택하면 된다.

 

베트남어 VNI는 타이핑에 유리하다.

솔직히 언제 일일이 마우스로 글자 하나하나 그리고 있겠냐. 

 

베트남어 VNI 입력은 아래와 같은 규칙에 따른다.

각 첨자는 각각에 매치되어 있는 숫자를 눌러 입력하게 된다.

첨자(?) 종류가 9개 정도가 있는데 가끔 몇 개는 저들의 조합으로 이뤄진 경우도 있다.

"ế" 이런거. 6번과 1번의 조합.

VNI 입력기에서는 원하는 영문자 + 숫자로 입력하면 된다.

 

예를들어 "á"를 입력하고자 하면

키보드에서 a를 누른다음 숫자 1키를 누르면된다.

이때 1은 키보드 윗측에 있는 자판을 누른다. 오른쪽 numLock쪽 숫자 말고.

또 동시에 누르는게 아니라 영문자 누른 후 숫자!다.

á 입력

(가상 키보드 말고 나는 현실의 실제 키보드로 눌렀다.)

 

그리고 첨자가 2개이상인 것은 숫자를 차례로 눌러주면 된다.

 ấ 를 누른다면.

ấ 입력

보통 영문자와 가까운 첨자부터 입력이 되는거 같은데 반대로 입력하면 입력이 안 된다.

베트남어를 알지 못하는 입장으로서 그 이유까지 파헤치기는 좀 시간낭비 같아서 안 했다.

애초에 저 VNI 타이핑 숫자 조합도 외우지 못하고 적당히 보면서 입력하는 입장인데 ㅡㅡ

 

또, 문자마다 첨자 조합이 있어서 모든 문자가 모든 첨자를 쓸 수 있는건 아닌 거 같다.

근데 뭐 읽을 수도 없는 입장이라 그냥 그러려니...

애초에 저 문자에 붙어있는 저걸 첨자라 하는지도 잘 모르겠다.

 

이렇게 하면 번역의 정확성이 좀 더 올라갈 것이다.

애초에 드래그 가능한 파일 형태로 줬으면 이런 개고생은 안 해도 될테지만 말이다. ^^

(그리고 papago는 구글 번역기에 비해 영 성능이 떨어진다. 그냥 맘 편하게 구글 번역 쓰세요.)

 

 

*여기서 잠깐. 그냥 저 첨자들 빼고 영어만 써도 되지 않을까 싶으시다면.

윗줄은 "베트남어"라고 한글로 써서 나온 결과를 다시 번역을 돌려보았다.

아랫줄은 첨자 빼고 영어로만 타이핑해서 번역기 돌리니 "영어"라는 결과가 나온다.

이를 통해 유추해 보건대... 베트남어에서 저 첨자들은 해석에 지대한 영향을 미친다고 판단할 수 있다.

 

 

그리고 OCR 인식하여 구글 번역기 돌리기는 베트남어 말고도 다른 언어에도 적용가능하다.

적당히 참고하셔서 번역... 파이팅...! 

반응형

댓글