디렉토리:
Paper 1 : 작곡가 : Composeable 조건을 가진 창의적이고 제어 가능한 이미지 합성
Abstract:AI 페인팅 분야에서는 많은 연구자들이 헌신하고 있습니다. AI 페인팅 모델의 제어 가능성을 개선합니다. 즉, 모델에서 생성된 이미지가 인간의 요구 사항과 더욱 일치하도록 만듭니다. 얼마 전 ControlNet이라는 모델이 이러한 제어 가능성을 새로운 정점으로 끌어 올렸습니다. 비슷한 시기에 알리바바와 앤트그룹의 연구진도 같은 분야에서 성과를 냈다. 이 글은 이 결과를 자세히 소개한 것이다.
추천: AI 페인팅을 위한 새로운 아이디어: 국내 오픈 소스 50억 매개변수의 새로운 모델, 합성 제어 가능성 및 품질의 도약을 달성합니다.
문서 2: 확산 모델을 사용한 구조 및 내용 기반 비디오 합성
요약: 특히 2022년 AIGC 발생을 경험한 후 많은 사람들이 이미 생성 AI 기술의 매력을 이해했다고 믿습니다. Stable Diffusion으로 대표되는 텍스트-이미지 생성 기술은 한때 전 세계적으로 인기를 얻었으며 AI의 도움으로 예술적 상상력을 표현하기 위해 수많은 사용자가 쏟아졌습니다...
이미지 편집에 비해 비디오 편집은 시각적인 모양을 수정하는 것뿐만 아니라 시간적 일관성을 유지하면서 새로운 작업을 합성해야 하는 더욱 어려운 작업 문제입니다. 이 트랙을 탐색하는 회사도 많이 있습니다. 얼마 전 구글은 텍스트 조건부 영상 확산 모델(VDM)을 영상 편집에 적용하기 위해 드림믹스(Dreamix)를 출시했다.
최근 Stable Diffusion 제작에 참여한 회사인 Runway는 텍스트 프롬프트나 참조 이미지에 지정된 스타일을 적용하여 기존 비디오를 새로운 비디오로 변환할 수 있는 새로운 인공 지능 모델 "Gen-1"을 출시했습니다. . 동영상. 예를 들어, "거리의 사람들"을 "점토 인형"으로 바꾸는 데는 단 한 줄의 프롬프트만 필요합니다.
추천: 단 한 문장이나 그림으로 특수 효과를 추가하세요. Stable Diffusion 회사는 AIGC로 새로운 기술을 선보였습니다.
논문 3: 곤충 뇌의 커넥톰
요약: 연구원들이 현재까지 곤충 뇌에 대한 가장 진보된 지도책을 완성했습니다. 이는 과학자들이 마음의 메커니즘에 대한 진정한 이해에 더 가까워지도록 하는 신경 과학의 획기적인 성과입니다.
존스 홉킨스 대학교와 케임브리지 대학교가 이끄는 국제 팀은 인간의 뇌 모델과 비교할 수 있는 과학적 프로토타입인 초파리 유충 뇌의 모든 신경 연결에 대한 놀랍도록 상세한 지도를 제작했습니다. 이 연구는 미래의 뇌 연구를 지원하고 새로운 기계 학습 아키텍처에 영감을 줄 수 있습니다.
권장: 새로운 기계 학습 아키텍처에 영감을 줄 수 있는 현재까지 가장 완벽한 곤충 뇌 지도입니다.
논문 4: 원자간 잠재력의 능동적 학습을 위한 불확실성 중심 역학
요약: 기계 학습(ML) 모델은 충실도가 높은 양자 시뮬레이션의 데이터 세트로 훈련된 경우 정확하고 효율적인 원자간 전위를 생성할 수 있습니다. 능동 학습(AL)은 다양한 데이터 세트를 반복적으로 생성하기 위한 강력한 도구입니다. 이 접근 방식에서 ML 모델은 각각의 새로운 원자 구성에 대한 불확실성 추정치와 예측을 제공합니다. 불확실성 추정치가 특정 임계값을 초과하면 해당 구성이 데이터 세트에 포함됩니다.
최근 미국 로스앨러모스 국립연구소(Los Alamos National Laboratory) 연구원들은 의미있게 증강된 훈련 데이터를 더 빠르게 세트 구성을 발견하기 위한 UDD-AL(Uncertainty-Driven Dynamics of Active Learning) 전략을 개발했습니다. UDD-AL은 분자 역학 시뮬레이션에 사용되는 위치 에너지 표면을 수정하여 모델 불확실성이 큰 구성 공간 영역을 지원합니다. UDD-AL의 성능은 두 가지 AL 작업에서 시연됩니다. 아래 그림은 글리신 테스트 사례에 대한 UDD-AL 및 MD-AL 방법을 비교한 것입니다.
추천: Nature 하위 저널 | 자동 샘플링을 위한 능동적 학습을 위한 불확실성 중심 역학.
논문 5: AI 기반 재료 발견을 위한 조합 합성
요약: 합성은 고체 물질 실험의 초석이며 모든 합성 기술에는 반드시 일부 합성 매개변수, 가장 일반적으로 구성 및 어닐링 온도를 변경하는 작업이 포함됩니다. 조합 합성은 일반적으로 하나 이상의 합성 매개변수를 체계적으로 변형하여 재료 컬렉션을 생성하기 위한 자동화/병렬 재료 합성을 의미합니다. 인공 지능으로 제어되는 실험 워크플로는 조합 합성에 대한 새로운 요구 사항을 제시합니다.
여기서 Caltech 연구진은 조합 합성에 대한 개요를 제공하고 조합 합성과 AI 기술의 공동 개발을 통해 가속화된 재료 과학의 미래를 구상합니다. 그리고 속도, 확장성, 범위 및 품질을 포괄하는 다양한 기술 간의 장단점을 평가하기 위해 10가지 지표를 확립했습니다. 이러한 지표는 특정 작업 흐름에 대한 기술의 적합성을 평가하는 데 도움이 되며 조합 합성의 발전이 어떻게 가속화된 재료 과학의 새로운 시대를 열어줄 것인지를 보여줍니다. 결합합성 플랫폼에 대한 종합지표와 각각의 평가는 다음과 같다.
추천: 자연 합성 리뷰: 인공 지능 기반 재료 발견을 위한 조합 합성.
문서 6: 마스크된 이미지는 강력한 미세 조정을 위한 반사실적 샘플입니다
요약: Sun Yat-sen University Human-Computer Intelligence 융합 Laboratory(HCP))는 AIGC 및 다중 모드 대형 모델에서 유익한 성과를 거두었으며 최근 AAAI 2023 및 CVPR 2023에서는 10개 이상의 논문이 선정되어 글로벌 연구 기관의 첫 번째 계층에 속합니다. 작업 중 하나는 튜닝 시 다중 모달 대형 모델의 제어 가능성과 일반화를 크게 향상시키기 위해 인과 모델의 사용을 구현한 것입니다. "마스크된 이미지는 강력한 미세 조정을 위한 반사실 샘플입니다."
추천: 쑨원대학교 HCP 연구실의 새로운 혁신: 인과 패러다임으로 다중 모드 대형 모델 업그레이드.
문서 7: 하나의 변압기가 규모에 따른 다중 모드 확산의 모든 배포에 적합합니다
요약:이 논문은 다중 양식을 위해 설계된 확률적 모델링 프레임워크 UniDiffuser를 제안하고 ViT 팀이 제안한 변환기 기반 네트워크 아키텍처 U-를 채택합니다. 오픈 소스 대규모 그래픽 데이터 세트 LAION-5B에서 10억 개의 매개변수로 모델을 훈련하여 기본 모델이 고품질로 다양한 생성 작업을 완료할 수 있도록 했습니다(그림 1). 쉽게 말하면 단방향 이미지 생성 이미지 외에도 이미지 생성 텍스트, 이미지-텍스트 결합 생성, 무조건 이미지-텍스트 생성, 이미지-텍스트 재작성 등 다양한 기능도 구현할 수 있다. 텍스트-이미지 콘텐츠의 생산 효율성을 크게 향상시키고 공식 모델의 적용 상상력을 더욱 향상시킵니다.
추천: Tsinghua Zhu Jun 팀은 텍스트와 그래픽이 상호 운용되고 재작성되는 Transformer를 기반으로 하는 최초의 대규모 다중 모드 확산 모델을 오픈 소스화했습니다.
Heart of Machine은 Chu Hang, Luo Ruotian, Mei Hongyuan이 시작한 ArXiv Weekly Radiostation과 협력하여 NLP, CV, ML 등 7개 논문을 바탕으로 이번 주 더 중요한 논문을 선정합니다. 분야별 선정된 논문과 논문의 초록 소개를 오디오 형식으로 제공합니다.
이번 주에 선정된 10개의 NLP 논문은 다음과 같습니다.
1. GLEN: 수천 가지 유형의 범용 이벤트 감지(Martha Palmer, Jiawei Han)
2. 모델: 최근 개발 및 전망(C.-C. Jay Kuo)
3. 교차 언어 시각적 음성 표현 학습(Maja Pantic)
4. 신속한 학습을 통한 GPT-4: 유망한 결과, 한계 및 잠재력(Ge Wang 작성)
5. 그림은 천 단어만큼 가치가 있습니다: 픽셀의 언어 모델 계획(이홍락 작성)
6. 마스킹된 단어를 예측하는 동안 변환기가 구문 분석합니까?. (Sanjeev Arora에서)
7. 상황 내 학습의 학습 가능성(Amnon Shashua에서)
8. for Abstractive Discharge Summary Generation?.(마츠모토 유지)
9. 뉴스 장르, 주제 및 설득 기법 분류를 위한 다국어 접근 방식(Kalina Bontcheva)
이번 주에 선정된 10개의 CV 논문은 다음과 같습니다.
1. 효율적인 시각적 표현 학습을 위한 로컬 이진 패턴에서 픽셀 차이 네트워크까지(Matti Pietikäinen, Li Liu 작성)
2. 카테고리 수준 다중 부품 다중 관절 3D 형상 조립. (Wojciech Matusik, Leonidas Guibas에서)
3. PartNeRF: 3D 감독 없이 부분 인식 편집 가능한 3D 모양 생성. (레오니다스 기바스 중에서)
4. 다중 시점 3D 인식을 위한 반복적 장기 시간 융합 탐색. (장샹위에서)
5. 필요한 것을 확보하세요: 유연한 구성요소 심의를 통해 복잡한 테이블 구조 인식을 재고합니다. (Bing Liu에서)
6. 비전 및 언어 모델을 통한 통합된 시각적 관계 감지. (Ming-Hsuan Yang에서)
7. Reliable Bank를 통한 수중 이미지 복원을 위한 대조 준지도 학습. (류환에게서)
8. InstMove: 객체 중심 비디오 분할을 위한 인스턴스 모션. (Xiang Bai, Alan Yuille에서)
9. ViTO: 비전 트랜스포머-오퍼레이터. (George Em Karniadakis에서)
10. 개방형 어휘 분할 및 탐지를 위한 간단한 프레임워크. (Jianfeng Gao, Lei Zhang에서)
本周 10 篇 ML 精选论文是:
1. 초구형 균일성 격차를 통한 신경 붕괴의 일반화 및 분리. (Bernhard Schölkopf에서)
2. AutoTransfer: 지식 전송이 포함된 AutoML - 그래프 신경망을 위한 애플리케이션입니다. (Jure Leskovec에서)
3. 관계형 다중 작업 학습: 데이터와 작업 간의 관계 모델링. (Jure Leskovec에서)
4. 해석 가능한 이상치 요약. (사무엘 매든 중에서)
5. 시각적 프롬프트 기반 개인화 연합 학습. (다청 타오에서)
6. 희소 CNN 및 변환기를 사용하여 NOvA에서 중성미자 물리학에 대한 해석 가능한 공동 이벤트 입자 재구성. (피에르 발디에서)
7. FedLP: 효율적인 통신-계산 연합 학습을 위한 계층별 가지치기 메커니즘. (Fei Wang, Khaled B. Letaief 중에서)
8. NeurIPS 2022의 Traffic4cast -- 희소 노드 데이터에서 그래프 가장자리를 따라 역학을 예측합니다. 정지 차량 감지기의 전체 도시 교통 및 ETA. (Sepp Hochreiter에서)
9. 지속적인 학습에서 보조 네트워크를 통해 더 나은 안정성-가소성 절충점 달성. (토마스 호프만에서)
10. 리허설이 필요 없는 지속적인 학습을 위해 즉각적인 조정 기능을 갖춘 스티어링 프로토타입입니다. (Dimitris N. Metaxas에서)
위 내용은 현재까지 가장 완벽한 곤충 뇌 지도를 한 문장으로 동영상에 추가하세요.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!