최근 몇 년 동안 이미지 생성 분야, 특히 텍스트-이미지 생성 분야에서 큰 발전이 있었습니다. 텍스트를 사용하여 생각을 설명하는 한 AI는 참신하고 현실적인 이미지를 생성할 수 있습니다.
그러나 실제로는 한 단계 더 나아갈 수 있습니다. 마음 속의 생각을 텍스트로 변환하는 단계는 생략할 수 있고, 이미지 생성은 뇌 활동(예: EEG(뇌전도) 기록)을 통해 직접 제어할 수 있습니다.
이 "생각을 이미지로" 생성 방법은 광범위한 응용 가능성을 가지고 있습니다. 예를 들어, 예술 창작의 효율성을 크게 향상시키고 사람들이 순간적인 영감을 포착하는 데 도움을 줄 수 있으며, 밤에 사람들의 꿈을 시각화하는 것도 가능할 수 있으며, 자폐아와 언어 장애 환자를 돕기 위한 심리 치료에도 사용될 수 있습니다.
최근 Tsinghua University Shenzhen International Graduate School, Tencent AI Lab 및 Pengcheng Laboratory의 연구원들은 사전 훈련된 텍스트-이미지 모델(예: Stable Diffusion)을 사용하여 "Thinking to Image"에 관한 연구 논문을 공동으로 발표했습니다. 의 강력한 생성 기능은 EEG 신호에서 직접 고품질 이미지를 생성합니다.
Pictures
논문 주소: https://arxiv.org/pdf/2306.16934.pdf
프로젝트 주소: https://github.com/bbaaii/DreamDiffusion
Meth od 개요
최근 일부 관련 연구(예: MinD-Vis)에서는 fMRI(기능적 자기 공명 영상 신호)를 기반으로 시각 정보를 재구성하려고 시도합니다. 그들은 뇌 활동을 사용하여 고품질 결과를 재구성하는 타당성을 입증했습니다. 그러나 이러한 방법은 빠르고 효율적인 생성을 위한 뇌 신호의 이상적인 사용과는 여전히 거리가 멀습니다. 이는 주로 두 가지 이유에 기인합니다:
첫째, fMRI 장비는 휴대가 불가능하고 전문가가 작동해야 하므로 fMRI 신호를 캡처하는 것이 매우 어렵습니다. 어렵습니다;
둘째, fMRI 데이터 수집 비용이 높기 때문에 실제 예술 창작에 이 방법을 사용하는 데 큰 방해가 됩니다.
반면 EEG는 뇌 전기 활동을 기록하는 비침습적, 저비용 방법이며 현재 EEG 신호를 얻을 수 있는 휴대용 상용 제품이 시중에 나와 있습니다.
그러나 "생각을 이미지로" 생성하는 데에는 여전히 두 가지 주요 과제가 있습니다.
1) EEG 신호는 비침습적 방법을 통해 캡처되므로 본질적으로 잡음이 많습니다. 또한 뇌파 데이터는 제한적이어서 개인차도 무시할 수 없습니다. 그렇다면 수많은 제약 조건 하에서 EEG 신호로부터 효과적이고 견고한 의미 표현을 얻는 방법은 무엇일까요?
2) CLIP을 사용하고 수많은 텍스트-이미지 쌍에 대한 학습으로 인해 Stable Diffusion의 텍스트와 이미지 공간이 잘 정렬됩니다. 그러나 EEG 신호는 고유한 특성을 가지며 그 공간은 텍스트 및 이미지와 상당히 다릅니다. 제한적이고 시끄러운 EEG 이미지 쌍에서 EEG, 텍스트 및 이미지 공간을 정렬하는 방법은 무엇입니까?
첫 번째 과제를 해결하기 위해 이 연구에서는 희귀한 EEG 이미지 쌍 대신 대량의 EEG 데이터를 사용하여 EEG 표현을 훈련하는 것을 제안합니다. 본 연구에서는 마스킹된 신호 모델링 방법을 사용하여 상황별 단서를 기반으로 누락된 토큰을 예측합니다.
입력을 2차원 이미지로 처리하고 공간 정보를 마스크하는 MAE 및 MinD-Vis와 달리, 본 연구에서는 EEG 신호의 시간적 특성을 고려하고 인간 두뇌의 시간적 변화 뒤에 숨은 의미를 깊이 파고듭니다. . 본 연구에서는 토큰의 일부를 무작위로 차단한 다음 차단된 토큰을 시간 영역에서 재구성했습니다. 이러한 방식으로 사전 훈련된 인코더는 다양한 개인과 다양한 뇌 활동의 EEG 데이터에 대한 깊은 이해를 개발할 수 있습니다.
두 번째 과제의 경우, 이전 솔루션은 일반적으로 훈련을 위해 소수의 시끄러운 데이터 쌍을 사용하여 안정 확산 모델을 직접 미세 조정했습니다. 그러나 최종 이미지 재구성 손실을 통해 SD end-to-end를 미세 조정하는 것만으로는 뇌 신호(예: EEG 및 fMRI)와 텍스트 공간 간의 정확한 정렬을 학습하기 어렵습니다. 따라서 연구팀은 EEG, 텍스트 및 이미지 공간의 정렬을 달성하는 데 도움이 되도록 추가적인 CLIP 감독을 사용할 것을 제안했습니다.
구체적으로 SD 자체는 CLIP의 텍스트 인코더를 사용하여 텍스트 임베딩을 생성하는데, 이는 이전 단계의 Masked Pre-trained EEG 임베딩과는 매우 다릅니다. CLIP의 이미지 인코더를 활용하여 CLIP의 텍스트 임베딩과 잘 정렬된 풍부한 이미지 임베딩을 추출하세요. 그런 다음 이러한 CLIP 이미지 임베딩을 사용하여 EEG 임베딩 표현을 더욱 구체화했습니다. 따라서 개선된 EEG 특징 임베딩은 CLIP의 이미지 및 텍스트 임베딩과 잘 정렬될 수 있으며 SD 이미지 생성에 더 적합하므로 생성된 이미지의 품질이 향상됩니다.
위의 세심하게 설계된 두 가지 솔루션을 기반으로 본 연구에서는 새로운 방법인 DreamDiffusion을 제안합니다. DreamDiffusion은 뇌전도(EEG) 신호로부터 고품질의 사실적인 이미지를 생성합니다.
Pictures
특히 DreamDiffusion은 주로 세 부분으로 구성됩니다.
1) 효과적이고 견고한 EEG 인코더를 달성하기 위한 마스크 신호 사전 훈련
2) 사전 훈련된 Stable 사용 미세 조정을 위한 확산 및 제한된 EEG 이미지 쌍
3) CLIP 인코더를 사용하여 EEG, 텍스트 및 이미지 공간을 정렬합니다.
먼저, 연구진은 노이즈가 많은 뇌파 데이터를 사용하고 마스크 신호 모델링을 사용하여 뇌파 인코더를 훈련시키고 상황별 지식을 추출했습니다. 그런 다음 결과 EEG 인코더는 교차 주의 메커니즘을 통해 Stable Diffusion에 대한 조건부 기능을 제공하는 데 사용됩니다.
Pictures
Stable Diffusion과 EEG 기능의 호환성을 높이기 위해 연구진은 미세 조정 중에 EEG 임베딩과 CLIP 이미지 임베딩 사이의 거리를 줄여 EEG, 텍스트, 이미지를 더욱 정렬했습니다. 프로세스. 임베디드 공간.
실험 및 분석
Brain2Image와의 비교
연구원들은 이 기사의 방법을 Brain2Image와 비교했습니다. Brain2Image는 EEG를 이미지로 변환하기 위해 VAE(Variational Autoencoder) 및 GAN(Generative Adversarial Network)이라는 전통적인 생성 모델을 사용합니다. 그러나 Brain2Image는 일부 범주에 대한 결과만 제공하고 참조 구현을 제공하지 않습니다.
이를 염두에 두고 본 연구에서는 Brain2Image 논문에 제시된 여러 범주(예: 비행기, 잭오랜턴, 팬더)에 대한 질적 비교를 수행했습니다. 공정한 비교를 보장하기 위해 연구원들은 Brain2Image 논문에 설명된 것과 동일한 평가 전략을 사용하고 아래 그림 5에 다양한 방법으로 생성된 결과를 보여줍니다.
아래 그림의 첫 번째 행은 Brain2Image로 생성된 결과이고, 마지막 행은 연구진이 제안한 방법인 DreamDiffusion으로 생성된 결과입니다. DreamDiffusion에 의해 생성된 이미지 품질이 Brain2Image에 의해 생성된 이미지 품질보다 훨씬 높다는 것을 알 수 있으며, 이는 또한 이 방법의 효율성을 검증합니다.
Pictures
절제 실험
사전 훈련의 역할: 대규모 EEG 데이터 사전 훈련의 효과를 입증하기 위해 이 연구에서는 훈련되지 않은 인코더를 사용하여 훈련했습니다. 여러 모델을 검증합니다. 모델 중 하나는 전체 모델과 동일했고, 다른 모델에는 데이터 과적합을 방지하기 위해 두 개의 EEG 코딩 레이어만 있었습니다. 훈련 과정에서 두 모델은 각각 CLIP 감독 유무에 따라 훈련되었으며 결과는 표 1의 모델 열 1~4에 나와 있습니다. 사전 훈련을 하지 않은 모델의 정확도가 떨어지는 것을 볼 수 있습니다.
마스크 비율: 이 문서에서는 또한 MSM 사전 훈련을 위한 최적의 마스크 비율을 결정하기 위해 EEG 데이터의 사용을 조사합니다. 표 1 모델의 5~7열에 표시된 것처럼 마스크 비율이 너무 높거나 낮으면 모델 성능에 부정적인 영향을 미칠 수 있습니다. 마스크 비율이 0.75일 때 전체 정확도가 가장 높습니다. 이 발견은 일반적으로 낮은 마스크 비율을 사용하는 자연어 처리와 달리 EEG에서 MSM을 수행할 때 높은 마스크 비율이 더 나은 선택임을 시사하기 때문에 중요합니다.
CLIP 정렬: 이 방법의 핵심 중 하나는 CLIP 인코더를 통해 EEG 표현을 이미지에 정렬하는 것입니다. 본 연구에서는 이 방법의 유효성을 검증하기 위해 실험을 수행하였고, 그 결과를 Table 1에 나타내었다. CLIP 감시를 사용하지 않으면 모델의 성능이 크게 저하되는 것을 볼 수 있습니다. 실제로 그림 6의 오른쪽 하단에 표시된 것처럼 CLIP을 사용하여 EEG 기능을 정렬하면 사전 교육 없이도 여전히 합리적인 결과를 얻을 수 있으며, 이는 이 방법에서 CLIP 감독의 중요성을 강조합니다.
사진
위 내용은 이제 당신의 두뇌 속 그림을 고화질로 복원할 수 있습니다의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

소개 매일 몇 주 만에 작물의 진행 상황을 관찰하는 농부가 있다고 가정합니다. 그는 성장률을보고 몇 주 안에 식물이 얼마나 키가 커질 수 있는지에 대해 숙고하기 시작합니다. Th

Soft AI-대략적인 추론, 패턴 인식 및 유연한 의사 결정을 사용하여 구체적이고 좁은 작업을 수행하도록 설계된 AI 시스템으로 정의 된 것은 모호성을 수용하여 인간과 같은 사고를 모방하려고합니다. 그러나 이것이 바이러스의 의미는 무엇입니까?

클라우드 컴퓨팅이 클라우드 네이티브 보안 도구로의 전환이 필요했기 때문에 AI는 AI의 고유 한 요구를 위해 특별히 설계된 새로운 유형의 보안 솔루션을 요구합니다. 클라우드 컴퓨팅 및 보안 수업의 상승이 배웠습니다 th

기업가와 AI 및 생성 AI를 사용하여 비즈니스를 개선합니다. 동시에, 모든 기술과 마찬가지로 생성 AI를 기억하는 것이 중요합니다. 앰프는 앰프입니다. 엄격한 2024 연구 o

임베딩 모델의 힘 잠금 해제 : Andrew Ng의 새로운 코스에 대한 깊은 다이빙 기계가 완벽한 정확도로 질문을 이해하고 응답하는 미래를 상상해보십시오. 이것은 공상 과학이 아닙니다. AI의 발전 덕분에 R이되었습니다

대형 언어 모델 (LLM) 및 환각의 피할 수없는 문제 Chatgpt, Claude 및 Gemini와 같은 AI 모델을 사용했을 것입니다. 이들은 대규모 텍스트 데이터 세트에 대해 교육을받은 강력한 AI 시스템의 대형 언어 모델 (LLM)의 예입니다.

최근의 연구에 따르면 AI 개요는 산업 및 검색 유형에 따라 유기 트래픽이 15-64% 감소 할 수 있습니다. 이러한 급격한 변화로 인해 마케팅 담당자는 디지털 가시성에 관한 전체 전략을 재고하게합니다. 새로운

Elon University의 Digital Future Center를 상상 한 최근 보고서는 거의 300 명의 글로벌 기술 전문가를 조사했습니다. 결과적인 보고서 인‘2035 년에 인간이되는 것’은 대부분 AI 시스템의 심화가 T에 대한 우려가 있다고 결론지었습니다.


핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

DVWA
DVWA(Damn Vulnerable Web App)는 매우 취약한 PHP/MySQL 웹 애플리케이션입니다. 주요 목표는 보안 전문가가 법적 환경에서 자신의 기술과 도구를 테스트하고, 웹 개발자가 웹 응용 프로그램 보안 프로세스를 더 잘 이해할 수 있도록 돕고, 교사/학생이 교실 환경 웹 응용 프로그램에서 가르치고 배울 수 있도록 돕는 것입니다. 보안. DVWA의 목표는 다양한 난이도의 간단하고 간단한 인터페이스를 통해 가장 일반적인 웹 취약점 중 일부를 연습하는 것입니다. 이 소프트웨어는

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

안전한 시험 브라우저
안전한 시험 브라우저는 온라인 시험을 안전하게 치르기 위한 보안 브라우저 환경입니다. 이 소프트웨어는 모든 컴퓨터를 안전한 워크스테이션으로 바꿔줍니다. 이는 모든 유틸리티에 대한 액세스를 제어하고 학생들이 승인되지 않은 리소스를 사용하는 것을 방지합니다.

mPDF
mPDF는 UTF-8로 인코딩된 HTML에서 PDF 파일을 생성할 수 있는 PHP 라이브러리입니다. 원저자인 Ian Back은 자신의 웹 사이트에서 "즉시" PDF 파일을 출력하고 다양한 언어를 처리하기 위해 mPDF를 작성했습니다. HTML2FPDF와 같은 원본 스크립트보다 유니코드 글꼴을 사용할 때 속도가 느리고 더 큰 파일을 생성하지만 CSS 스타일 등을 지원하고 많은 개선 사항이 있습니다. RTL(아랍어, 히브리어), CJK(중국어, 일본어, 한국어)를 포함한 거의 모든 언어를 지원합니다. 중첩된 블록 수준 요소(예: P, DIV)를 지원합니다.

맨티스BT
Mantis는 제품 결함 추적을 돕기 위해 설계된 배포하기 쉬운 웹 기반 결함 추적 도구입니다. PHP, MySQL 및 웹 서버가 필요합니다. 데모 및 호스팅 서비스를 확인해 보세요.
