아티클

음성인식의 접근성 기능과 앞으로의 과제 1부

2017-04-19 16:12:54

안녕하세요, 엔비전스입니다.


요즘 음성 인식과 인공지능 AI를 접목한 많은 제품들이 출시되고 있습니다. 이러한 흐름은 접근성 기술 역시 예외가 될 수 없는데요, 현재 시각장애인을 위한 기술들로는 크게 음성 받아쓰기, 음성 명령을 통한 스크린리더 제어 등이 있습니다. 이번 글에서는 음성 받아쓰기 관련하여 현재 사용되고 있는 것은 어떤 것이 있고 앞으로의 과제는 무엇인지 몇 차례에 걸쳐 다루어보도록 하겠습니다.

음성인식·받아쓰기 접근성의 기본 원칙

음성인식을 스크린리더와 함께 사용해야 할 경우 다음과 같은 접근성이 고려되어 있어야 합니다.

  1. 스크린리더와의 음성충돌 관련: 기본적으로 PC ·모바일 스크린리더는 화면상의 이벤트를 모두 음성으로 출력하는 것이 원칙입니다. 그런데 사용자가 음성인식 기능을 호출했을 때 ‘음성인식중’과 같은 음성을 출력할경우 음성 명령 등을 수행하는 사용자 입장에서도 혼란스러울뿐만 아니라 스크린리더 음성이 사람의 음성과 함께 인식되어 의도하지 않은 결과를 야기할 수 있습니다. 따라서 음성인식이 실행될때는 음성 인식 기능을 수행하는 프로그램이 스크린리더 음성을 출력되지 않도록 하거나 혹은 출력되더라도 스크린리더 음성은 무시해야 합니다. iOs의 ‘Siri’와 Android의 ‘Ok Google’, 받아쓰기에서는 스크린리더와의 충돌을 해결하기 위하여 다음과 같은 방법을 적용하고 있습니다.

    a. iOs Siri를 호출한 경우 사용자의 음성을 듣고 있는 동안에는 한 손가락을 터치한 상태로 듣기 등의 글자에 가져가도 VoiceOver는 전혀 음성출력하지 않습니다. b. iOs Siri를 호출한 상태에서 한 손가락 쓸기로 탐색을 시도하면 Siri는 자동 종료됩니다. c. 아이폰 홈 버튼을 길게 눌러 Siri를 호출한 경우 보이스오버가 시간을 가끔 출력하는 경우가 있으나 이것은 음성인식에 반영되지 않습니다. d. Android의 ‘Ok Google’을 호출한 경우 한 손가락 쓸기로 화면 탐색시 포커스는 이동하나 아무런 소리도 들리지 않습니다. e. Android의 Ok Google 호출 시 손가락을 터치한 상태로 탐색할경우 ‘청취중’과 같은 화면의 내용을 음성출력하지만 사용자가 말한 내용만 입력됩니다.

  2. 음성호출 시 시작과 종료시에는 반드시 효과음을 출력하여 스크린리더 사용자에게 이를 알려주어야 합니다. 효과음이 나지 않으면 현재 상황을 이해할수 없기 때문입니다. ‘Siri’와 ‘Ok Google’에서는 음성 청취 시작과 끝에 효과음을 적용하고 있어 디바이스가 사용자의 음성을 듣고 있는지 듣기를 종료했는지를 쉽게 파악할수 있습니다.

  3. 마지막으로 iOs VoiceOver의 경우 두 손가락 이중탭으로 특정 기능이 실행되도록 하는 MagicTap 접근성 기능을 제공하므로 상황에 따라 음성호출을 시작하거나 종료할수 있는 기능을 할당해도 도움이 될수 있습니다.

PC 스크린리더의 음성인식

위에서 언급한 것은 음성인식을 구현할때 가장 기본이 되는 접근성 고려항목들입니다. 그런데 사실 국내에서는 음성인식을 모바일에서 주로 이용하고 있으나 해외에서는 PC 음성인식 또한 많이 활용되고 있고 이를 스크린리더에도 접목하려는 노력이 최근들어 진행되고 있습니다. PC 스크린리더에서 음성인식을 이용할수 있다면 다음과 같은 장점들이 있습니다.

  1. 스크린리더 사용이 훨씬 쉬워집니다. 스크린리더는 키보드로 기능키를 조작하여 사용자가 원하는 내용을 듣고 조작합니다. 그런데 다양한 내용을 다양한 방법으로 읽는 방식을 구현하려다보니 기능키가 너무 많아지게 되었습니다. 우리나라에서 주로 사용하고 있는 센스리더의 경우에도 최신버전을 기준으로 기능키가 약 250여개가 됩니다. 이러한 기능키를 얼마나 상황에 따라 잘 사용하느냐에 따라 컴퓨터를 더 효율적으로 사용할수 있게 되는 것입니다. 그러나 이러한 방법은 사실 만은 양의 기능키를 암기해야 한다는 측면에서 어려움이 많습니다. 그러나 음성인식으로 스크린리더의 기능을 조작할수 있다면 기능키를 몰라도 필요한 명령어를 내려서 스크린리더가 그 명령에 맞는 동작을 수행하도록 할수 있으므로 효율적입니다. 예를 들어 ‘현재 포커스부터 연속으로 쭉 읽어줘’, ‘음성속도 좀 줄여봐’ 등의 명령을 할수 있겠습니다.
  2. 키보드로 글자를 입력하는 것이 어려운 일은 아니지만 받아쓰기로 긴 메일 등을 입력할수 있다면 그 또한 효율적일 것입니다.

이러한 장점들을 활용하기 위하여 개발된 것이 JAWS의 J-Say, NVDA의 Dictation Bridge와 같은 스크린리더용 확장 플러그인입니다. 이러한 플러그인을 사용하면 Microsoft의 음성인식 혹은 Dragon Dictation과 같은 프로그램을 가지고 스크린리더 제어, 받아쓰기 등을 효율적으로 사용할수 있습니다.

다음 아티클에서는 두 확장 플러그인의 특징은 무엇이며, 국내에서는 어디까지 사용이 가능한지 등을 다루어보도록 하겠습니다.

댓글 0
댓글을 작성하려면 해주세요.