집 >기술 주변기기 >일체 포함 >인공지능 음성기술의 세 가지 주요 과제

인공지능 음성기술의 세 가지 주요 과제

王林앞으로: 2023-05-03 10:34:061226검색

인공지능 실무자들은 음성-음성 기술과 관련하여 세 가지 공통적인 장애물에 직면하는 경우가 많습니다.

인공지능(AI)이 인간과 유사한 데이터를 생성할 수 있다는 전망은 수십 년 동안 이야기되어 왔습니다. 그러나 데이터 과학자들은 제한된 성공으로 이 문제를 해결했습니다. 그러한 시스템을 만들기 위한 효과적인 전략을 정확하게 식별하는 것은 기술적인 것부터 윤리적인 것까지, 그리고 그 사이의 모든 것에 이르기까지 다양한 과제를 제기합니다. 하지만 생성적 AI(Generative AI)가 주목할만한 밝은 지점으로 떠올랐습니다.

가장 기본적인 생성 AI는 기계가 오디오 파일, 텍스트, 이미지와 같은 요소를 사용하여 음성, 쓰기, 예술에 이르기까지 콘텐츠를 생성할 수 있도록 해줍니다. 기술 투자회사 세쿼이아 캐피타(Sequoia Capita)는 "제너레이티브 AI는 더 빠르고 저렴해질 뿐만 아니라 어떤 경우에는 인간이 만든 인공지능보다 더 나을 수도 있다"고 말했다.

특히 생성적 음성 기술을 기반으로 한 머신러닝은 최근 큰 발전을 이루었다. 하지만 사람들은 아직 갈 길이 멀다. 실제로 음성 압축은 여전히 1980년대와 1990년대의 기술을 기반으로 하는 Zoom 및 Teams와 같이 사람들이 많이 사용하는 앱에 나타납니다. 음성은 음성 기술에 대한 무한한 잠재력을 가지고 있지만 생성 AI 개발을 방해하는 과제와 단점을 평가하는 것이 중요합니다.

음성-음성 기술과 관련하여 AI 실무자가 직면하는 세 가지 일반적인 장애물은 다음과 같습니다.

1. 음질

최고의 대화에서 가장 중요한 부분은 이해할 수 있다는 점입니다. 음성 대 음성 기술의 경우 목표는 사람처럼 들리는 것입니다. 예를 들어, Siri와 Alexa의 로봇 억양은 기계와 같으며 항상 명확하지는 않습니다. 이는 여러 가지 이유로 인공지능으로는 달성하기 어렵지만, 인간 언어의 뉘앙스가 큰 역할을 합니다.

메라비안의 법칙이 이를 설명하는 데 도움이 될 수 있습니다. 인간의 대화는 얼굴 표정 55%, 목소리 톤 38%, 텍스트 7%의 세 부분으로 나눌 수 있습니다. 기계 이해는 단어나 내용에 의존하여 작동합니다. 최근 자연어 처리(NLP)의 발전을 통해서만 기분, 감정, 음색 및 기타 언어의 중요한(반드시 말하는 것은 아님) 측면을 기반으로 AI 모델을 훈련할 수 있게 되었습니다. 시각이 아닌 오디오만 다루는 경우에는 훨씬 더 어렵습니다. 이해의 절반 이상이 얼굴 표정에서 나오지 않기 때문입니다.

2. Latency

인공지능에 의한 종합적인 분석에는 시간이 걸릴 수 있지만, 음성 대 음성 통신에서는 실시간이 유일한 시간입니다. 음성 변환은 말할 때 즉시 이루어져야 합니다. 또한 정확해야 하는데, 이는 여러분이 상상할 수 있듯이 기계에게는 쉬운 일이 아닙니다.

실시간의 필요성은 업종에 따라 다릅니다. 예를 들어, 팟캐스트를 진행하는 콘텐츠 제작자는 실시간 음성 변환보다 음질에 더 관심을 가질 수 있습니다. 그러나 고객 서비스와 같은 산업에서는 시간이 가장 중요합니다. 콜센터 상담원이 음성 지원 AI를 사용하여 발신자에게 응답하는 경우 품질이 어느 정도 희생될 수 있습니다. 하지만 긍정적인 경험을 제공하려면 시간이 가장 중요합니다.

3. 규모

음성 대 음성 기술이 잠재력을 발휘하려면 다양한 억양, 언어 및 방언을 지원하고 특정 지역이나 시장뿐만 아니라 모든 사람이 사용할 수 있어야 합니다. 이를 위해서는 효과적으로 확장하기 위해 특정 기술 적용을 숙달하고 많은 조정 및 교육을 수행해야 합니다.

신흥 기술 솔루션은 모든 경우에 적용되는 것이 아닙니다. 특정 솔루션에 대해 모든 사용자는 이 AI 인프라를 지원하기 위해 수천 개의 아키텍처가 필요합니다. 사용자는 또한 모델에 대한 일관된 테스트를 기대해야 합니다. 이는 새로운 것이 아닙니다. 기계 학습의 모든 고전적 과제는 생성 AI 분야에도 적용됩니다.

그렇다면 사람들은 어떻게 이러한 문제를 해결하여 음성 대 음성 기술의 가치를 깨닫기 시작할 수 있을까요? 다행히도 단계별로 분석하면 덜 무섭습니다. 첫째, 문제를 마스터해야 합니다. 앞서 콜센터와 콘텐츠 제작자의 예를 들었습니다. 사용 사례와 원하는 결과에 대해 생각하고 거기에서 나아가십시오.

둘째, 조직에 올바른 아키텍처와 알고리즘이 있는지 확인하세요. 하지만 그 전에 귀하의 비즈니스에 올바른 데이터가 있는지 확인하십시오. 데이터 품질은 특히 인간의 언어나 음성처럼 민감한 것을 고려할 때 중요합니다. 마지막으로, 애플리케이션에 실시간 음성 변환이 필요한 경우 해당 기능이 지원되는지 확인하세요. 궁극적으로 아무도 로봇과 대화하고 싶어하지 않습니다.

AI 딥페이크 생성, 동의 및 적절한 공개에 대한 윤리적 우려가 이제 대두되고 있지만 먼저 근본적인 문제를 이해하고 해결하는 것이 중요합니다. 음성 대 음성 기술은 우리가 서로를 이해하는 방식을 혁신하여 사람들을 하나로 모으는 혁신의 기회를 창출할 수 있는 잠재력을 가지고 있습니다. 그러나 이 목표를 달성하려면 먼저 큰 과제에 직면해야 합니다. ?

위 내용은 인공지능 음성기술의 세 가지 주요 과제의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

算法人工智能 nlp zoom

성명：

이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

이전 기사：2022년 상위 5개 AI 자동화 트렌드다음 기사：2022년 상위 5개 AI 자동화 트렌드