조지 버나드 쇼(George Bernard Shaw)의 희곡 “피그말리온(Pygmalion)”의 보컬인 헨리 히긴스(Henry Higgins)처럼 마리우스 코테스쿠(Marius Kotescu)와 조지 텐체프(Georgy Tenchev)는 최근 그들의 제자가 발음 문제를 어떻게 극복했는지 보여주었습니다.

유럽의 아마존에서 일하는 두 명의 데이터 과학자는 회사의 디지털 비서인 Alexa를 가르치고 있었습니다. 그들의 임무는 Alexa가 인공 지능과 원어민의 녹음을 통해 아일랜드 억양으로 영어를 마스터하도록 돕는 것입니다.

데모 중에 Alexa는 기억에 남는 밤에 대해 이야기했습니다. “어젯밤 파티는 정말 미쳤어.” 알렉사가 아일랜드어를 재미로 사용하며 길게 말했다. “우리는 집에 가는 길에 아이스크림을 먹었고, 나갈 수 있어 기뻤습니다.”

Tenchev 씨는 고개를 저었다. Alexa는 “Party”라는 단어에서 “r”을 떨어뜨려 단어가 pah-tee처럼 단조롭게 들립니다. 그는 자신이 매우 영국인이라는 결론을 내렸습니다.

기술자들은 오디오 디코딩으로 알려진 데이터 과학의 도전적인 영역에서 일하는 Amazon 팀의 일원입니다. 연구원들은 음성 및 기술의 수수께끼가 AI 기반 장치, 봇 및 음성 합성기를 보다 대화식으로 만드는 데 도움이 될 수 있다고 믿기 때문에 AI 개발의 물결 속에서 새로운 의미를 갖게 된 도전적인 문제입니다. 즉, 많은 사람들에게 호소할 수 있습니다. 지역 플레이어. 신문.

음소 얽힘을 다루는 것은 단순히 어휘와 문법을 파악하는 것 이상을 포함합니다. 화자의 음높이, 음색, 악센트는 종종 단어와 감정적 무게에 정확한 의미를 부여합니다. 언어학자들은 이 언어 기능을 “디스플레이”라고 부르는데, 이는 기계가 숙달하는 데 어려움을 겪었던 것입니다.

최근 몇 년 동안 인공 지능, 컴퓨터 칩 및 기타 장치의 발전 덕분에 연구자들은 오디오 디코딩 문제를 해결하고 컴퓨터 생성 음성을 귀에 더 즐거운 것으로 바꾸는 데 진전을 이루었습니다.

이러한 작업은 결국 챗봇이 자체 응답을 생성할 수 있도록 하는 기술인 “생성 AI”의 폭발로 수렴될 수 있습니다. ChatGPT 및 Bard와 같은 챗봇은 언젠가 전적으로 사용자의 음성 명령으로 작동하고 구두로 응답할 수 있습니다. 동시에 Alexa 및 Apple의 Siri와 같은 음성 비서가 대화형이 되어 정체된 것으로 보이는 기술 부문에 대한 소비자의 관심을 되살릴 수 있다고 분석가들은 말했습니다.

READ  2024 포드 머스탱이 좌석이 일치하지 않는 딜러에게 배송되었습니다.

Alexa, Siri 및 Google Assistant와 같은 음성 비서가 여러 언어를 구사하도록 하는 것은 비용과 시간이 많이 소요되는 과정이었습니다. 기술 회사는 수백 시간 분량의 음성을 녹음하기 위해 성우를 고용했으며, 이는 디지털 어시스턴트를 위한 인공 음성을 생성하는 데 도움이 되었습니다. 텍스트를 자연스러운 합성 음성으로 변환하기 때문에 “텍스트 음성 변환 모델”로 알려진 고급 인공 지능 시스템 이제 막 단순화하기 시작했습니다 이 과정.

Deutsche Bank Research의 수석 전략가인 Marion Laborie는 이 기술이 “이제 다양한 언어, 방언 ​​및 방언의 텍스트 입력을 기반으로 사람의 음성과 합성 음성을 생성할 수 있습니다.”라고 말했습니다.

아마존은 인공지능 경쟁에서 마이크로소프트, 구글과 같은 경쟁자를 따라잡아야 한다는 압박을 받아왔다. 지난 4월 아마존 CEO 앤디 재시(Andy Jassy)는 이렇게 말했다. 월스트리트 분석가를 위한 아마존의 알렉사 수석 과학자인 로힛 프라사드(Rohit Prasad)는 회사가 알렉사(Alexa)를 “더 활발하고 대화”하도록 만들 계획이라고 말했다. 그는 CNBC에 말했다 5월에 그는 음성 지원을 음성 지원 “즉시 사용 가능한 개인 AI”로 보았습니다.

아이리시 알렉사는 아일랜드 억양을 이해하고 말하기 위한 9개월간의 교육을 거친 후 11월에 상업적으로 데뷔했습니다.

Prasad 씨는 인터뷰에서 “악센트는 언어와 다릅니다.”라고 말했습니다. AI 기술은 현지 방언의 특성을 복제하기 전에 억양 및 빈도와 같은 다른 품사에서 악센트를 추출하는 방법을 배워야 합니다. 예를 들어 “a”는 더 평평하고 “t”는 더 강하게 발음됩니다.

이러한 시스템은 이러한 패턴을 감지해야 “완전히 새로운 억양을 만들 수 있습니다.”라고 그는 말했습니다. “이건 어려워.”

Harder는 여전히 다른 소리의 음성 형식에서 자체적으로 새로운 악센트를 학습하는 기술을 얻으려고 노력하고 있습니다. 이것이 Cotescu 씨의 팀이 아일랜드 Alexa를 구축하려고 시도한 것입니다. 그들은 아일랜드 영어를 말할 수 있도록 훈련하기 위해 미국, 캐나다 및 호주 억양이 훨씬 적은 주로 영어 영국 억양의 기존 음성 모델에 크게 의존했습니다.

READ  Google은 픽셀 값과 기능을 먼저 강조합니다.

팀은 영어-아일랜드어의 다양한 언어 문제에 직면했습니다. 아일랜드인들은 “th”에서 “h”를 떨어뜨리는 경향이 있습니다. 예를 들어 “bath”를 “bat” 또는 “bad”처럼 들리게 만드는 것과 같이 문자를 “t” 또는 “d”로 발음합니다. 아일랜드식 영어도 rhotic인데, 이는 문자 “r”이 지나치게 발음됨을 의미합니다. 이것은 “파티”의 “r”이 런던 사람의 입에서 들을 수 있는 것보다 더 발음된다는 것을 의미합니다. Alexa는 이러한 음성 기능을 배우고 마스터해야 했습니다.

아일랜드어 영어는 “어렵다”고 루마니아인이자 알렉사 아일랜드 팀의 수석 조사관인 코테스쿠는 말했다.

Alexa의 언어 능력을 지원하는 음성 모델은 최근 몇 년 동안 더욱 발전했습니다. 2020년, Amazon 연구원들이 Alexa를 가르칩니다. 그는 스페인어를 유창하게 구사한다 영어권 모델 출신.

Cotescu 씨와 팀은 방언을 Alexa 음성 기능의 다음 개척지로 보았습니다. 그들은 아이리쉬 알렉사가 음성 모델을 구축하기 위해 배우보다 AI에 더 의존하도록 설계했습니다. 결과적으로 아일랜드 알렉사는 아일랜드 영어로 2,000개의 연설을 낭독한 성우가 약 24시간 동안 녹음한 비교적 작은 그룹에서 훈련을 받았습니다.

처음에 아마존 연구원들이 여전히 학습 중인 아일랜드 알렉사에게 아일랜드 녹음을 제시했을 때 몇 가지 이상한 일이 일어났습니다.

때때로 문자와 음절이 응답에서 새어나왔습니다. 때때로 “S”가 함께 붙어 있습니다. 때로는 결정적인 한두 단어가 설명할 수 없을 정도로 중얼거리고 이해할 수 없었습니다. 적어도 한 번은 Alexa의 여성 목소리가 몇 옥타브 떨어졌고 더 남성적으로 들렸습니다. 설상가상으로, 남성적인 목소리는 분명히 영국인처럼 들렸는데, 일부 아일랜드 가정에서는 눈살을 찌푸릴 수도 있는 바보 같은 소리였습니다.

이 프로젝트에 참여한 불가리아인이자 아마존의 수석 과학자인 Tenchev는 음성 모델에 대해 “그것들은 큰 블랙박스입니다.”라고 말했습니다. “조율하려면 많은 경험이 있어야합니다.”

기술자들이 Alexa의 “당파적인” 실수를 바로잡기 위해 한 일입니다. 그들은 알렉사가 미끄러지는 곳을 정확히 찾아내고 미세 조정하기 위해 말, 단어, 소리(단어의 가장 작은 부분)를 풀었습니다. 그런 다음 음성 오류를 수정하기 위해 Alexa의 아일랜드어 음성 모델에 더 많은 녹음 오디오 데이터를 제공했습니다.

READ  거래: AirPods 3가 $139.99의 새로운 최저 가격으로 하락

결과: “r”이 “party”에 반환됩니다. 그러나 “p”는 사라졌습니다.

그래서 데이터 과학자들은 같은 과정을 다시 반복했습니다. 그들은 마침내 “p”가 빠진 소리에 집중합니다. 그런 다음 “p” 소리가 반환되고 “r” 소리가 사라지지 않도록 모델을 미세 조정했습니다. Alexa는 마침내 더블린처럼 말하는 법을 배웠습니다.

그 이후로 Limerick 대학에서 가르치는 Eileen Vaughan과 Trinity College Dublin의 음성학 및 음성 연구실에서 일하는 박사 과정 학생인 Kate Tallon이라는 두 명의 아일랜드 언어학자가 Alexa의 아일랜드 억양에 대해 높은 점수를 주었습니다. 그들은 아일랜드 Alexa가 “r”을 강조하고 “t”를 부드럽게 하는 방식이 중지되었고 Amazon이 올바른 억양을 얻었다고 말했습니다.

Ms. Tallon은 “나에게는 그것이 진짜처럼 보입니다.”라고 말했습니다.

아마존 연구원들은 대체로 긍정적인 피드백에 만족한다고 말했습니다. 그들의 음성 모델은 아일랜드 억양을 너무 빨리 풀어서 그 억양이 다른 곳에서도 복제될 수 있다는 희망을 주었습니다.

그리고 그들은 A의 언어로 썼습니다. 1월 연구 논문 아일랜드 알렉사 프로젝트에 대해.

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다

You May Also Like

Linus Tech Tips YouTube Crypto Scmers 해킹, 채널 삭제

마비된 시장 속에서 암호화폐 세계는 분산형 디지털 통화의 개념이 여전히 많은 사람들에게…

삼성전자, 2024년 신제품 TV 중 하나를 사전 주문하면 65인치 4K TV를 무료로 제공

삼성은 목요일에 2024년 TV 라인업에 대한 가격 및 가용성 세부 사항을 발표했으며…

Great Ace Attorney Chronicles는 Nintendo Switch 기기에 적합합니다.

© 캡콤 대만 디지털 게임 평가위원회 최근 Nintendo Switch의 총 4 개의…

Super Mario 64 Edition은 현재 150 만 달러에 판매 된 후 가장 비싼 게임입니다.

금요일에 내가 어떻게 봉인 된 사본이 그만큼 젤다의 전설 NES 용 경매에서…