AI 이미지 및 영상 생성 분야에 또 하나의 강력한 플레이어가 추가되었습니다.
올해 3월 말 AI 스타트업 Stability AI에서 사임한 연구 과학자 Robin Rombach를 기억하시나요? Vincent 그래프 모델 Stable Diffusion을 개발한 두 명의 주요 저자 중 한 명인 그는 2022년 Stability AI에 합류했습니다. Stability AI를 떠난 지 거의 5개월이 지난 지금, Robin Rombach는 자신의 사업을 시작한다는 좋은 소식을 트윗했습니다! 그는 이미지와 비디오를 위한 SOTA 고품질 생성 딥 러닝 모델을 발전시키고 최대한 많은 사람들이 사용할 수 있도록 하기 위해 "Black Forest Labs"를 설립했습니다. 팀 구성원은 뛰어난 AI 연구자 및 엔지니어로 구성되어 있습니다. 이전 대표 작품으로는 이미지 및 비디오 생성 분야의 VQGAN 및 Latent Diffusion, Stable Diffusion 모델(Stable Diffusion XL, Stable Video Diffusion 및 Rectified 포함)이 있습니다. Flow Transformers) 및 Adversarial Diffusion Distillation을 통해 초고속 실시간 이미지 합성이 가능합니다. Stable Diffusion에는 Robin Rombach 외에도 Andreas Blattmann, Dominik Lorenz 및 Patrick Esser를 포함하여 창립 팀원이 된 세 명의 다른 저자가 있다는 점에 주목할 가치가 있습니다. 두 사람 모두 올해 초 Stability AI를 떠났으며 일부에서는 자신의 사업을 시작하기 위해 떠났다고 추측했습니다. 현재 Labs는 Andreessen Horowitz가 이끄는 3,100만 달러 규모의 시드 자금 조달을 완료했습니다. 다른 투자자로는 엔젤 투자자 Brendan Iribe, Michael Ovitz, Garry Tan, Timo Aila, Vladlen Koltun 및 일부 유명한 AI 연구 및 기업가 전문가가 있습니다. 또한 General Catalyst 및 MätchVC로부터 후속 투자를 받았습니다. The Labs는 콘텐츠 제작 업계에서 광범위한 경험을 보유한 기술 거물인 Michael Ovitz와 신경 스타일 전송의 선구자이자 개방형 AI 분야의 최고 전문가인 Matthias Bethge 교수를 포함하는 자문위원회도 구성했습니다. 유럽에서의 연구. 물론 Black Forest Labs는 다음 세 가지 변형 모델을 포함하는 첫 번째 모델 시리즈 "FLUX.1"을 출시했습니다. 첫 번째 변형은 FLUX.1 [pro]로, 매우 풍부한 이미지 세부 정보, 강력한 프롬프트 추적 기능 및 다양한 스타일을 갖춘 새로운 SOTA Vincent 다이어그램 모델입니다. 현재 API를 통해 사용할 수 있습니다. - API 주소: https://docs.bfl.ml/
두 번째는 FLUX.1 [dev]이며 FLUX.1의 오픈 버전입니다. pro] 가중치, 비상업적 변형이며 후자를 기반으로 직접 증류됩니다. 이 모델은 Midjourney 및 Stable Diffusion 3과 같은 다른 이미지 모델보다 성능이 뛰어납니다. 추론 코드와 가중치는 GitHub에 배치되었습니다. 아래 사진은 경쟁 이미지 모델과 비교한 사진입니다. - GitHub 주소: https://github.com/black-forest-labs/flux
세 번째는 오픈 소스 FLUX.1 [schnell], 최고입니다. Apache 2.0 프로토콜을 따르는 효율적인 4단계 모델입니다. 이 모델은 성능면에서 [dev] 및 [pro]와 매우 유사하며 Hugging Face에서 사용할 수 있습니다. - 허깅하는 얼굴 주소: https://huggingface.co/black-forest-labs/FLUX.1-schnell
동시에 Black Forest Labs도 홍보를 시작했습니다. 다음 목표는 모두가 이용할 수 있는 SOTA Wensheng 비디오 모델 출시입니다. 모두가 기대해도 좋습니다! 즉각적인 성공: Vincent 피규어 모델 시리즈 "FLUX.1"이 출시됩니다이번 Black Forest Labs에서 출시한 세 가지 모델은 모두... 다중 모드 및 병렬 확산 변압기를 위한 하이브리드 아키텍처입니다. 매개변수 개수에 따라 '중컵', '대형컵', '특대컵' 등 일련의 모델을 나누는 타사와 달리 FLUX.1 제품군은 12개라는 거대한 규모로 일률적으로 확장됐다. 10억 개의 매개변수. 연구팀은 기존 SOTA 확산 모델을 업그레이드하기 위해 Flow Matching 프레임워크를 채택했습니다. 공식 블로그의 노트를 보면 연구팀이 Stability AI에서 작업하는 동안(올해 3월) 제안된 Rectified flow+Transformer 방식을 따랐음을 유추할 수 있습니다. - 문서 링크: https://arxiv.org/pdf/2403.03206.pdf
또한 회전 위치 임베딩 및 병렬 주의 레이어를 도입했습니다. 이러한 방법은 모델의 이미지 생성 성능을 효과적으로 향상시키며, 하드웨어 장치에서 이미지를 생성하는 속도도 빨라졌습니다. 이번 블랙포레스트랩스는 해당 모델에 대한 자세한 기술을 공개하지 않았지만, 좀 더 자세한 기술보고서는 곧 공개될 예정입니다. 이 세 모델은 각자의 분야에서 새로운 기준을 세웠습니다. 생성된 이미지의 아름다움, 이미지가 텍스트 프롬프트에 얼마나 잘 맞는지, 크기/종횡비 가변성, 다양한 출력 형식 등 FLUX.1 [pro] 및 FLUX.1 [dev]는 범위를 뛰어 넘습니다. Midjourney v6.0, DALL・E 3(HD) 및 SD3-Ultra와 같은 인기 있는 이미지 생성 모델. FLUX.1 [schnell]은 동종 경쟁사를 능가할 뿐만 아니라 Midjourney v6.0 및 DALL・E 3(HD) 등을 능가하는 현재까지 가장 발전된 몇 단계 모델입니다. - 증류된 모델. 이 모델은 사전 훈련 단계의 전체 출력 다양성을 유지하도록 특별히 미세 조정되었습니다. FLUX.1 시리즈 모델은 현재의 최첨단 기술에 비해 개선의 여지가 많이 남아 있습니다. FLUX.1 시리즈의 모든 모델은 0.1~2메가픽셀의 다양한 화면비와 해상도를 지원합니다. 행동이 빠른 일부 네티즌들은 이미 그것을 먼저 경험해 본 적이 있을 것입니다. 블랙 포레스트 연구소가 거듭 강조한 '최강'은 단순한 자기 홍보가 아닌 것 같습니다. 알파카 매트의 패턴을 자세히 보면 왜곡이나 변형이 없는 간단한 프롬프트 단어가 이러한 효과를 만들 수 있습니다. ㅋㅋ 프롬프트 단어: 하얀 라마 위에 타고 있는 에메랄드 에뮤. ㅋㅋㅋ 프롬프트 t 단어: 말 한 마리가 강에서 두 개의 알리게이터를 가지고 놀고 있습니다.
세 가지 모델 중 성능이 조금 약한 FLUX.1 [schnell]도 빠르고 강력하게 사용해본 경험을 공유하며 한숨을 쉬지 못하는 네티즌도 있었습니다. , 사용하기가 너무 쉬웠습니다. Stable Diffusion과 Stability AI 작성자 간의 '불만'에 대해 잘 모르는 네티즌들은 다음과 같이 한탄했습니다. Vincentian 그래프 모델이 갑자기 등장했는데, 정말 무섭도록 강력합니다. Stable Diffusion의 저자와 이전 회사인 Stability AI의 이야기는 이 사이트에서 이전 보고서를 읽을 수 있습니다. 가치가 1억 달러였을 때 Stable Diffusion 팀은 진짜 공무원은 누구일까요? 가장 강력한 세 가지 Vincentian 모델 외에도 Black Forest Labs는 매장에서도 "큰 움직임"을 선보입니다. 이미지 생성 모델을 위한 이러한 강력한 기능을 통해 Black Forest Labs는 비디오 생성 모델을 위한 탄탄한 기반을 마련했으며, 그들이 예언한 대로 컴퓨터 비전 분야의 최고 과학자들은 모두를 위한 최첨단 비디오 기술을 향해 나아가고 있습니다. . 참고링크: 회사 블로그: https://blackforestlabs.ai/announcements/
위 내용은 직원들은 모두 예전 클럽을 떠났고, Stable Diffusion은 출시되자마자 팀을 이끌고 사업을 시작했습니다. MJ v6와 SD3를 즉시 물리치고 오픈소스화하기도 했습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!