>  기사  >  기술 주변기기  >  실리콘밸리는 간단한 텍스트를 이미지나 비디오로 변환할 수 있는 생성 AI가 부상하고 있다고 확신합니다.

실리콘밸리는 간단한 텍스트를 이미지나 비디오로 변환할 수 있는 생성 AI가 부상하고 있다고 확신합니다.

WBOY
WBOY앞으로
2023-04-09 23:11:081947검색

최근 등장한 소위 '생성 AI'는 실리콘밸리의 거대 기술 기업과 벤처 캐피탈 기관의 관심을 끌고 있습니다. 이런 종류의 AI는 적은 수의 단어를 기반으로 몇 초 안에 일치하는 이미지를 생성할 수 있습니다. 분석가들은 이 기술이 다양한 산업 분야에서 널리 활용되어 수조 달러의 경제적 가치를 창출할 것으로 예측하고 있습니다.

이러한 컴퓨터 프로그램에서 생성된 이미지는 손에 여분의 손가락이 있거나 팔다리가 부자연스럽게 구부러지는 등 완벽하지는 않습니다. 동시에 이미지 생성기는 텍스트를 처리할 때 의미 없는 기호를 생성하는 등의 문제에 직면합니다. 그러나 이러한 이미지 생성 프로그램은 기술 붐의 시작일 수 있습니다. 실리콘밸리 벤처캐피탈 기업 넥스트뷰벤처스(NextView Ventures)의 투자자 데이비드 베이젤은 "지난 3개월 동안 '생성인공지능'이라는 용어가 유행어가 됐다"고 말했다. AI가 미래에 차세대 기술 거대 기업을 뒷받침할 수 있다는 꿈을 꾸면서 많은 사람들이 직장을 그만두고 새로운 회사를 시작하도록 영감을 주기도 했습니다.

AI 분야는 지난 5년 정도 동안 호황을 누렸지만 이러한 발전의 대부분은 기존 데이터를 이해하는 것과 관련이 있습니다. AI 모델은 누군가가 휴대폰으로 방금 찍은 사진에 고양이가 있는지 여부를 인식할 만큼 효율적이 되었습니다. 또한 이러한 모델은 매일 수십억 개의 검색 결과를 Google 검색 엔진에 제공할 만큼 안정적입니다. 그러나 생성적 AI 모델은 이전에는 사용할 수 없었던 완전히 새로운 것을 생성할 수 있습니다. 즉, 데이터를 분석하는 것이 아니라 생성하는 것입니다.

AI 및 머신러닝 플랫폼 Craiyon Productive AI의 창시자인 Boris Dayma는 다음과 같이 말했습니다. “가장 인상적인 점은 생성 AI가 새로운 것을 창조할 수도 있다는 것입니다.

실리콘밸리의 유명 벤처캐피탈 기업인 세쿼이아 캐피털(Sequoia Capital)은 자사 홈페이지에 “게임에서 광고, 법률까지 변화할 수 있다. 인간의 창의성이 필요한 모든 분야에서 이 기술은 수조 달러의 경제적 가치를 창출할 수 있는 잠재력을 가지고 있습니다.” 더욱 흥미로운 점은 Sequoia Capital이 해당 게시물에서 부분적으로 쓴 글이라는 점입니다. 텍스트를 생성할 수 있는 생성 AI.

제너레이티브 AI의 작동 방식

이미지 생성은 딥 러닝이라는 기계 학습의 하위 집합 기술을 사용합니다. 2012년 이미지 분류에 관한 획기적인 논문이 기술에 대한 관심을 다시 불러일으킨 이후 딥 러닝은 AI의 많은 발전을 주도해 왔습니다. 딥 러닝은 프로그램이 해당 데이터의 관계를 이해할 때까지 대규모 데이터 세트에 대해 훈련된 모델을 사용합니다. 그런 다음 이 모델은 사진에 개가 있는지 식별하거나 텍스트를 번역하는 등의 애플리케이션에 사용될 수 있습니다.

이미지 생성기는 이 프로세스를 반대로 수행하여 작동합니다. 영어를 프랑스어로 번역하는 대신 영어 문구를 이미지로 변환합니다. 일반적으로 두 가지 주요 부분으로 구성됩니다. 하나는 초기 문구를 처리하는 부분이고 다른 하나는 데이터를 이미지로 변환하는 부분입니다.

생성 AI의 첫 번째 부분은 Generative Adversarial Networks(Generative Adversarial Networks, 줄여서 GAN)라는 방법을 기반으로 합니다. 이전에는 이러한 GAN이 존재하지 않는 사람의 사진을 생성하는 데 자주 사용되었습니다. 기본적으로 그들은 두 개의 AI 모델을 서로 대결시켜 미리 정해진 목표를 달성하는 이미지를 더 잘 생성하는 방식으로 작동합니다.

새로운 방법은 Google이 2017년 논문에서 처음 제안한 개념인 변환기를 사용하는 경우가 많습니다. 이는 훈련 비용이 수백만 달러에 달할 수 있지만 더 큰 데이터 세트를 활용할 수 있는 새로운 기술입니다.

첫 번째로 많은 주목을 받은 이미지 생성기는 실리콘 밸리 스타트업 OpenAI가 2021년에 시작한 프로젝트인 Dall-E였습니다. OpenAI는 올해 업데이트되고 더욱 강력한 버전을 출시했습니다. 생성 AI 전문 개발자 Christian Cantrell은 "Dall-E 2를 사용하면 정말 Uncanny Valley를 건너는 순간입니다."라고 말했습니다.

일반적으로 사용되는 또 다른 AI 기반 이미지 생성기는 이전에 Dall-E로 알려진 Craiyon입니다. 미니(Mini)는 온라인에서 구매 가능합니다. 사용자가 문구를 입력하면 몇 분 안에 브라우저에서 결과 그림을 볼 수 있습니다.

AI 및 기계 학습 플랫폼 Craiyon Productive AI의 창시자인 Daima에 따르면, Craiyon은 2021년 7월 출시 이후 현재 하루에 약 1천만 개의 이미지, 즉 이전에는 볼 수 없었던 총 10억 개의 이미지를 생성하고 있습니다. . 올해 초 사용량이 급증한 후 Daimar는 Craiyon에 모든 에너지를 쏟기 시작했습니다. 그는 사이트의 서버 비용이 높기 때문에 사용자를 무료로 유지하기 위해 광고를 사용하는 데 중점을 두었다고 말했습니다. Craiyon은 가장 이상하고 창의적인 이미지를 게시하는 데 전념하는 트위터 계정을 보유하고 있으며 팔로어가 100만 명이 넘습니다.

그런데 가장 뜨거운 관심을 불러일으킨 프로젝트는 올해 8월 대중에게 공개된 Stable Diffusion입니다. 해당 코드는 GitHub에서 사용할 수 있으며 컴퓨터, 클라우드 또는 프로그래밍 인터페이스를 통해 실행할 수 있습니다. 이를 통해 사용자는 프로그램 코드를 자신의 목적에 맞게 조정하거나 그 위에 새로운 프로그램을 구축할 수 있습니다.

예를 들어 Stable Diffusion은 플러그인을 통해 Adobe Photoshop에 통합되어 사용자가 배경과 이미지의 다른 부분을 생성한 다음 레이어 및 기타 PS 도구를 사용하여 앱에서 직접 조작하여 생성 AI를 완제품 이미지 기술은 전문가가 사용할 수 있는 도구가 됩니다.

이 플러그인의 개발자인 Cantrell은 Adobe에서 20년 동안 근무했으며 생성 AI에 집중하기 위해 올해 사임했습니다. 베테랑은 플러그인이 수만 번 다운로드되었다고 말했습니다. 예술가들은 고질라에 애니메이션을 적용하거나 예술가가 상상할 수 있는 모든 포즈로 스파이더맨의 이미지를 만드는 등 그가 전혀 예상하지 못한 수많은 장소에서 이 기술을 사용했다고 말했습니다.

생성 AI를 사용하는 새로운 예술은 이미지를 생성하는 문구인 "프롬프트"를 구성하는 방법입니다. Lexica라는 검색 엔진은 Stable Diffusion의 이미지를 이미지를 생성하는 데 사용할 수 있는 정확한 단어 문자열과 연결할 수 있습니다. Reddit 및 Discord와 같은 플랫폼에는 사람들이 이미지를 생성하고 싶은 문구를 입력하도록 유도하는 팁이 있습니다.

스타트업, 클라우드 서비스 제공업체 및 칩 제조업체가 가장 많은 혜택을 누릴 수 있습니다.

많은 투자자들은 생성 AI를 스마트폰이나 초기 인터넷과 마찬가지로 잠재적으로 혁신적인 플랫폼으로 보고 있습니다. 이러한 변화는 이 기술을 사용할 수 있는 잠재 시장의 규모를 크게 확대합니다.

Cantrell은 생성 AI가 보다 기본적인 기술, 즉 데이터베이스와 유사하다고 믿습니다. 그는 "제너레이티브 AI는 데이터베이스와 약간 비슷합니다. 데이터베이스는 애플리케이션의 엄청난 잠재력을 발휘하는 데 도움이 됩니다. 우리가 생활에서 사용하는 거의 모든 애플리케이션은 데이터베이스를 기반으로 구축되지만 누구도 데이터베이스가 어떻게 작동하는지 신경 쓰지 않습니다. , 그들은 단지 어떻게 작동하는지 알고 있습니다.

Compound VC의 관리 파트너인 Michael Dempsey는 이전에 연구실에 국한된 기술이 주류에 진입하여 많은 벤처 투자자를 끌어들이는 것은 "매우 드물다"고 말했습니다. 잠재력이 큰 분야. 그러나 그는 생성 AI가 현재 과대광고 주기의 정점에 가까운 '호기심 단계'에 있다고 경고했습니다. 이 단계의 회사는 기업이나 소비자가 기꺼이 비용을 지불할 의향이 있는 특정 용도에 초점을 맞추지 않기 때문에 실패할 수 있습니다.

현장의 다른 사람들은 오늘날 이러한 기술을 개척하는 스타트업이 결국 Google, Facebook 모회사인 Meta, Microsoft 등 현재 AI 분야를 장악하고 있는 거대 소프트웨어 기업에 도전하고 차세대 도약의 발판을 마련할 수 있다고 믿습니다. 기술 거인의 세대.

허깅페이스(Hugging Face) CEO 클레멘트 델랑그(Clement Delangue)는 "수조 달러 규모의 새로운 회사가 많이 탄생할 것이며 이러한 스타트업은 이 신기술을 기반으로 할 것"이라고 말했습니다. -Craiyon 및 Stable Diffusio를 포함한 훈련된 AI 모델. 그 목표는 프로그래머가 AI 기술을 더 쉽게 구축할 수 있도록 하는 것입니다.

일부 회사는 상당한 투자를 받았습니다. Huging Face는 올해 초 Lux Capital 및 Sequoia Capital을 포함한 투자자로부터 자금을 조달한 후 20억 달러의 가치를 얻었습니다. 이 분야에서 가장 유명한 스타트업인 OpenAI는 Microsoft와 Khosla Ventures로부터 10억 달러 이상의 자금을 지원 받았습니다. 한편, Stable Diffusion 개발사인 Stability AI는 최대 10억 달러의 가치로 벤처 캐피탈을 조달하기 위해 협상 중입니다.

생성 AI는 계산 집약적 기술일 수 있으므로 Amazon, Microsoft, Google과 같은 클라우드 서비스 제공업체도 이점을 누릴 수 있습니다. Meta와 Google은 이 고급 기술을 회사 제품에 통합하기 위해 현장에서 가장 뛰어난 인재를 많이 고용했습니다. 지난 9월 Meta는 단순한 이미지가 아닌 비디오를 생성하여 기술을 한 단계 끌어올리는 Make-A-Video라는 AI 이니셔티브를 발표했습니다.

Meta CEO Mark Zuckerberg는 자신의 Facebook 페이지에 다음과 같이 게시했습니다. "이것은 놀라운 발전입니다. 비디오를 생성하는 것은 사진을 생성하는 것보다 훨씬 어렵습니다. 왜냐하면 모든 픽셀을 올바르게 생성하는 것 외에도 시스템은 시간이 지남에 따라 픽셀이 어떻게 변할지 예측해야 하기 때문입니다. .” 최근 Google은 텍스트를 몇 분 길이의 동영상으로 변환할 수 있는 Phenaki라는 프로그램 코드도 출시했습니다.

이 열풍은 AI 모델 훈련 및 배포에 이상적인 그래픽 프로세서를 갖춘 Nvidia, AMD, Intel과 같은 칩 제조업체에도 힘을 실어줄 수 있습니다. 지난 주 컨퍼런스에서 엔비디아 CEO 젠슨 황(Jensen Huang)은 회사 최신 칩의 핵심 용도로 생성 AI를 강조하며 이러한 기술이 곧 통신에 혁명을 일으킬 수 있다고 말했습니다.

그러나 생성 AI가 최종 사용자에게 제공하는 이점은 여전히 ​​제한적입니다. 요즘 많은 관심은 무료 또는 저렴한 비용의 실험에 관한 것입니다. 예를 들어 일부 저자는 이미지 생성기를 사용하여 기사에 대한 일러스트레이션을 만들려고 시도했습니다. Nvidia는 가상 게임 세계를 채울 수 있는 사람, 동물, 차량 또는 가구의 새로운 3D 이미지를 생성하기 위해 모델을 사용하는 방법을 실험하고 있습니다.

윤리적 문제는 다루기가 어렵습니다

결국 생성 AI를 개발하는 모든 사람은 이미지 생성기가 제기하는 윤리적 문제와 씨름해야 합니다.

첫 번째는 취업 문제입니다. 많은 프로그램에는 강력한 그래픽 프로세서가 필요하지만, 컴퓨터에서 생성된 콘텐츠는 시간당 수백 달러를 받을 수 있는 전문 일러스트레이터의 시간 비용보다 여전히 훨씬 저렴합니다. 제너레이티브 AI는 아티스트, 비디오그래퍼, 작품 제작으로 생계를 유지하는 사람들에게 큰 문제를 일으킬 수 있습니다.

독창성과 소유권을 중심으로 생성 AI가 더욱 복잡한 과제를 제기하게 될 것입니다. 이 AI 모델은 기존의 다수의 이미지를 활용하여 학습되었으며, 원본 이미지의 작성자가 원본 스타일로 생성된 이미지에 대한 저작권을 소유하는지 여부는 여전히 논란의 여지가 있습니다. 한 예술가가 최근 MidJourney라는 생성 AI를 통해 생성된 이미지를 사용하여 미국 콜로라도에서 열린 미술 대회에서 우승했습니다. 그는 우승 후 인터뷰에서 자신이 생성한 수백 장의 이미지 중 하나를 선택한 다음 PS에서 수정하고 처리했다고 말했습니다.

Stable Diffusion으로 생성된 일부 이미지에는 워터마크가 표시된 것으로 나타나 원본 데이터 세트의 일부가 저작권으로 보호됨을 나타냅니다. 일부 팁 가이드에서는 해당 아티스트의 창의적인 스타일을 모방하여 더 나은 결과를 얻으려면 살아있는 특정 아티스트의 이름을 사용하도록 사용자에게 조언합니다. 지난달 게티 이미지(Getty Images)는 저작권 침해 분쟁에 대한 우려로 사용자가 스톡 이미지 데이터베이스에 생성 AI 이미지를 업로드하는 것을 금지했습니다.

이미지 생성기를 사용하면 미니언, 마블 캐릭터, 왕좌의 게임 왕좌 등 상표가 등록된 캐릭터나 개체의 새로운 이미지를 만들 수도 있습니다. 이미지 생성 소프트웨어가 발전함에 따라 사용자를 속여 잘못된 정보를 믿게 만들거나 전혀 일어나지 않은 사건의 이미지나 비디오를 표시할 수도 있습니다.

개발자는 또한 대량의 데이터에 대해 훈련된 AI 모델이 데이터에 성별, 인종 또는 문화와 관련된 편견을 포함할 수 있으며, 이로 인해 모델이 출력에서 ​​이러한 편견을 나타낼 가능성도 염두에 두어야 합니다. Huging Face는 윤리적 문제에 관한 자료를 발표하고 책임감 있는 AI 모델 개발 문제를 논의했습니다.

Hugging Face CEO Clement de Lange는 다음과 같이 말했습니다. "이러한 모델은 확률 모델이고, 대규모 데이터 세트에 대해 훈련되었으며, 많은 편견을 통합하는 경향이 있기 때문에 우리는 이러한 모델에 단기적이고 현재적인 과제가 있다고 봅니다." 생성 AI는 "소프트웨어 엔지니어"의 초상화를 그리도록 요청받았고 백인 남성의 이미지를 생성했습니다.

위 내용은 실리콘밸리는 간단한 텍스트를 이미지나 비디오로 변환할 수 있는 생성 AI가 부상하고 있다고 확신합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제