>  기사  >  기술 주변기기  >  북경대학교의 가장 강력한 오픈소스 aiXcoder-7B 코드 모델! 실제 개발 시나리오에 중점을 두고 기업 프라이빗 배포를 위해 특별히 설계되었습니다.

북경대학교의 가장 강력한 오픈소스 aiXcoder-7B 코드 모델! 실제 개발 시나리오에 중점을 두고 기업 프라이빗 배포를 위해 특별히 설계되었습니다.

王林
王林앞으로
2024-04-09 18:10:021447검색

기술계의 최신 발전으로 볼 때, AI 코드 생성이라는 개념이 최근 매우 인기를 얻고 있습니다.

그런데 친구 여러분, AI 프로그래밍 질문이 더 눈길을 끌지만 실제 기업 개발 시나리오에서는 항상 그것만으로는 충분하지 않다고 느끼시나요?

이 순간, 낮은 키의 수석 플레이어 aiXcoder가 조치를 취하고 큰 움직임을 발표했습니다.

새로운 오픈 소스 대형 코드 모델입니다. - aiXcoder-7B 기본 버전 , 기업 소프트웨어 개발에 특별히 적합한 모델 현장에 배포된 대규모 코드 모델입니다.

잠깐만, "단"

70억 개의 매개변수를 사용하는 대형 코드 모델은 어떤 종류의 AI 프로그래밍 수준을 보여줄 수 있나요?

먼저 HumanEval, MBPP, MultiPL-E의 세 가지 주요 평가 세트에서 성능을 살펴보겠습니다.

평균 점수는 실제로 340억 개의 매개변수가 있는 Codellama를 초과합니다.

후자는 Meta에서 왔으며 오픈 소스 업계에서 가장 발전된 대규모 AI 프로그래밍 모델인 Llama2를 기반으로 한다는 것을 알아야 합니다.

북경대학교의 가장 강력한 오픈소스 aiXcoder-7B 코드 모델! 실제 개발 시나리오에 중점을 두고 기업 프라이빗 배포를 위해 특별히 설계되었습니다.

아직 끝나지 않았습니다. 이 모델은 수많은 대형 오픈 소스 모델을 물리치고 수백억 개의 코드를 보유한 대형 모델 중에서 가장 강력할 뿐만 아니라 특별한 장점도 있습니다.

기존의 '질문'에서 변경되었습니다. 기반” 코드 생성, 특히

엔터프라이즈 수준의 소프트웨어 프로젝트를 목표로 하며 실제 개발 시나리오에서 가장 잘 작동합니다 - 코드 생성 및 완성 기능과 파일 간 기능이 테스트되었으며 모두 "레버리지"입니다. " (1위) .

aiXcoder-7B는 "가상"을 재생하지 않으며 기업의 실제 비즈니스 시나리오를 보유할 수 있다는 의미입니다.

예를 들어, 실제 개발 시나리오에 가까운 평가 세트 CrossCodeEval에서 aiXcoder-7B는 단번에 동일한 수준 모델의 최상의 결과를 얻었습니다.

북경대학교의 가장 강력한 오픈소스 aiXcoder-7B 코드 모델! 실제 개발 시나리오에 중점을 두고 기업 프라이빗 배포를 위해 특별히 설계되었습니다.

수백억 개의 매개변수

먼저 대형 모델을 살펴보겠습니다.

이번에 공개된 것은 aiXcoder-7B Base 버전입니다

(해당 Instruct 버전도 추후 출시 예정) 가장 놀라운 점은

코드 생성 기능 외에도 SOTA - 주류 평가 센터에서 우승했을 뿐만 아니라 다양한 알고리즘 질문과 더 중요하게는 실제 기업 개발 시나리오와 일치하는 다중 파일 복잡한 코드 시나리오에서 aiXcoder-7B는 동일한 규모의 매개변수 모델에서 더욱 뛰어난 성능을 발휘합니다!

완전한 메소드 블록, 조건 판단 블록, 루프 처리 블록, 예외 포착 블록 등을 직접 생성하는 등 현재 AI 프로그래밍 도구의 가장 실용적인 능력은 생성 및 완성이라는 것을 알아야 합니다.

실제 개발 시나리오에서는 특히 전체 개발 프로젝트의 다양한 관련 파일을 이해하고 생성하는 데 필요합니다.

테스트에 따르면 단일 파일 컨텍스트와 결합된 aiXcoder-7B Base 버전의 코드 완성 기능은 StarCoder2, CodeLlama 및 기타 모델을 능가하며 Python, JS 및 Java 언어에서 전체 점수가 가장 높습니다.

북경대학교의 가장 강력한 오픈소스 aiXcoder-7B 코드 모델! 실제 개발 시나리오에 중점을 두고 기업 프라이빗 배포를 위해 특별히 설계되었습니다.

SantaCoder 평가 세트의 결과입니다. 그것이 충분하지 않은 듯 aiXcoder 팀은 추가 평가를 위해 더 큰 평가 코드 생성 완료 데이터 세트

(실제 개발 시나리오에서 얻은 16,000개 이상의 데이터)를 제안했고 그 효과는 더욱 분명해졌습니다. 오늘 평가세트도 모델과 함께 오픈소스

모두들 오셔서 도전해보세요~

팀에서 특별히 저희를 위해 "이스터 에그"도 오픈해 드렸는데요. aiXcoder-7B 기본 버전 작업을 완료할 때 작업을 완료하기 위해 더 짧은 코드를 사용하는 경향이 있습니다. 고유한 "단순함의 아름다움"이 있습니다. 이점은 자명합니다. 프로그래머가 이해하기 쉽고 버그를 발견하기도 더 쉽습니다.

쉬운 비공개 배포 및 사용자 정의이렇게 좋은 코드 모델이 있는데 왜 오픈 소스여야 합니까?

aiXcoder 팀은 더 많은 개발자들이 작업 부담을 줄일 수 있도록 돕고 싶다고 밝혔습니다!

이번에 7B 대규모 프로젝트 수준의 코드 모델을 오픈소스화한 이유는 "기업 개발자가 편리하게 사용하기 위함"입니다. 북경대학교의 가장 강력한 오픈소스 aiXcoder-7B 코드 모델! 실제 개발 시나리오에 중점을 두고 기업 프라이빗 배포를 위해 특별히 설계되었습니다.

기능은 세 가지 "쉬운" 용어로 요약될 수 있습니다.

우선 배포가 쉽습니다.

코드 데이터는 기업의 개인 핵심 지적 재산권입니다. 따라서 민영화된 배포 및 학습은 불가피하며 일반적으로 기업 배포 리소스는 제한되어 있습니다.

aiXcoder-7B 기본 버전은 매개변수 크기가 7B에 불과하고, 매우 가볍고 배포가 용이하며, 저렴한 비용과 좋은 성능의 장점을 가지고 있습니다.

두 번째 포인트는 사용자 정의가 쉽습니다.

많은 회사가 자체 소프트웨어 개발 프레임워크와 API 라이브러리를 보유하고 있으며 관련 비즈니스 로직 및 코드 아키텍처 사양이 현지 조건에 맞게 조정되고 매우 개인화되어 있습니다. 동시에 이러한 콘텐츠는 비공개입니다.

대규모 모델은 이러한 기업 코드 자산을 학습해야 하며, 효과적인 맞춤형 교육을 통해 기업에서 실제로 사용할 수 있습니다.

aiXcoder-7B 기본 버전에는 매우 쉬운 사용자 정의 기능이 있습니다.

게다가 조립도 쉽습니다.

aiXcoder 팀은 향후 엔터프라이즈 서비스를 제공할 때 여러 7B 모델이 MoE 아키텍처를 형성하고 솔루션 세트로 결합되어 엔터프라이즈 맞춤형 서비스를 완성할 수 있다고 밝혔습니다.

다양한 기업이 자신의 개인 요구 사항을 충족하는 MoE 버전 코드 대형 모델 솔루션을 얻을 수 있습니다.

aiXcoder-7B Base 버전은 오픈 소스 경로를 취하고 B-side 시장에 초점을 맞추고 향후 엔터프라이즈 버전을 출시할 것으로 이해됩니다.

이러한 방식으로 aiXcoder는 엔터프라이즈급 사용자에게 정확하고 효율적이며 지속적인 소프트웨어 개발 서비스를 지속적으로 제공하여 프로젝트의 개발 효율성과 코드 품질을 지속적으로 향상시킬 수 있도록 돕습니다.

예를 들어, 디지털 전환을 진행 중인 업계의 대표적인 증권사는 aiXcoder의 대형 모델 솔루션을 채택하여 코드 대형 모델을 민영화하고 로컬 환경에 배포하고 모델에 대한 유연한 조정 방법을 채택하여 지능형 개발 시스템을 만들었습니다. 팀 규모를 사용하여 동기화 상태를 유지하세요.

이 배포 방법은 이를 지원할 만큼 충분한 컴퓨팅 성능을 보장할 뿐만 아니라 높은 하드웨어 임계값으로 인한 문제를 방지하며 기업의 일상적인 코딩 요구 사항도 충족할 수 있습니다.

기존 구현 데이터 피드백에 따르면 회사 자체 도메인 지식과 결합된 맞춤형 교육을 받은 후 비즈니스 로직 코드에서 코드 생성 비율이 이전보다 2배 증가.

결과를 읽어보니 모델의 실제 효과는 어떤가요? 다음으로, 느낌을 드리기 위한 몇 가지 데모를 보여드리겠습니다.

먼저, aiXcoder-7B Base 버전은 점점 더 복잡한 코드 컨텍스트 정보를 이해하고 코드 생성 및 완성을 수행할 수 있습니다. 모델 사전 훈련에서 지원하는 컨텍스트 길이는 32k이고 추론 단계 확장은 256k에 달할 수 있습니다.

아래 그림과 같이 여러 도구 기능을 사용하여 1,500줄이 넘는 코드를 하나로 묶고 파일 끝에 주석을 달아 모델에 접근하면 상단에서 해당 기능을 정확하게 식별할 수 있습니다. 파일을 작성하고 기능 관련 방법을 기반으로 정보를 완성합니다.

북경대학교의 가장 강력한 오픈소스 aiXcoder-7B 코드 모델! 실제 개발 시나리오에 중점을 두고 기업 프라이빗 배포를 위해 특별히 설계되었습니다.

두 번째로, 엔터프라이즈 개발 시나리오에서 더 중요한 것은 여러 코드 파일에서 필요한 것을 자동으로 식별하고 추출할 수 있는 파일 간 분석 기능입니다.

아래 그림과 같이 편집 거리 검색을 구현하려면 트리 구조에 동적 프로그래밍을 적용해야 하며, 모델이 트리 구조에서 디렉토리 노드의 동적 프로그래밍 상태 클래스를 완성하도록 해야 합니다.

모델은 편집 거리 계산과 다른 파일의 롤링 배열 내 최소값 계산 간의 관계를 정확하게 식별하므로 최신이 아닌 두 파일을 결합하여 올바른 예측 결과를 제공합니다.

북경대학교의 가장 강력한 오픈소스 aiXcoder-7B 코드 모델! 실제 개발 시나리오에 중점을 두고 기업 프라이빗 배포를 위해 특별히 설계되었습니다.

위 내용은 아직 끝나지 않았습니다. aiXcoder-7B Base 버전의 완성도는 아직 꽤 intelligent입니다.

예를 들어 사용자의 입양 상황이 조정되면 현재 입양 상황에 따라 완료 길이가 자동으로 조정됩니다. ㅋㅋㅋ 우리의 작업 상태.

북경대학교의 가장 강력한 오픈소스 aiXcoder-7B 코드 모델! 실제 개발 시나리오에 중점을 두고 기업 프라이빗 배포를 위해 특별히 설계되었습니다.

말해야 할 점: 냄새가 너무 좋아요.

북경대학교의 가장 강력한 오픈소스 aiXcoder-7B 코드 모델! 실제 개발 시나리오에 중점을 두고 기업 프라이빗 배포를 위해 특별히 설계되었습니다.대부분의 프로그래머에게 정말로 필요한 것은 일반 코드를 이해할 뿐만 아니라 "우리 기업" 코드

도 이해하는 aiXcoder

와 같은 AI 프로그래밍 도구입니다. 북경대학교의 가장 강력한 오픈소스 aiXcoder-7B 코드 모델! 실제 개발 시나리오에 중점을 두고 기업 프라이빗 배포를 위해 특별히 설계되었습니다.

그럼, 이런 현실적인 모델은 어떻게 만들어지는 걸까요?

팀에서는 이 모델이 완전히 자체 개발되었다고 소개했습니다.

첫 번째는 훈련 데이터입니다.

7B 매개변수 수준 모델에서는 총 1.2T의

고유

토큰이 포함되어 있습니다. 크기가 큰.

팀은 이 데이터에서 "수량적 승리"뿐만 아니라 "품질적 승리"도 달성했습니다. 수십 개의 주류 언어에 대한 구문 분석 및 필터링을 수행하는 데 많은 시간을 보냈으며 정적 분석으로 163개의 버그와 197개의 결함을 제거했습니다.

두 번째는 타겟 학습 방법입니다. 팀에서는 모델 효과를 완벽하게 보장하기 위해 실제 환경에서 프로젝트 수준 코드에 대해 코드 구조화된 의미론적 학습을 구체적으로 수행합니다.

마지막으로 훈련 과정에서는 여러 파일을 처리하는 문제를 처음부터 충분히 고려하고 클러스터링, 코드 호출 그래프 및 기타 방법을 결합하여 여러 파일 간의 상호 관심 관계를 구성했습니다.

드디어 실제 개발 시나리오에 더욱 적합한 aiXcoder-7B Base 버전이 탄생했습니다.

aiXcoder 팀

이 모델 뒤에 있는 플레이어를 살펴보면 그 기원이 간단하지 않다는 것을 알 수 있습니다.

우선 aiXcoder 팀은 북경대학교 소프트웨어 공학 연구소에서 인큐베이션되어 현재까지 2013년부터 코드 생성에 참여했습니다. 세계 최초의 딥 러닝 기반 코드 생성 논문이 그들에게서 나왔습니다.

두 번째로, 팀은 지난 10년 동안 NeurIPS와 같은 주요 컨퍼런스에서 100개 이상의 관련 논문을 발표했습니다. , ACL, IJCAI, ICSE, FSE, ASE 등. 이 논문은 국제 학자들로부터 '첫 번째 성과'로 평가되며 ACM 우수 논문상을 여러 차례 수상했습니다.

힘과 능력이 필요하고, 성과와 업적이 필요하다고 할 수 있습니다.

2017년에는 자동 코드 완성 및 검색 기능을 제공하는 aiXcoder의 오리지널 프로토타입인 aiXcoder1.0이 출시되었습니다.

2021년 4월, 팀은 완전히 독립적인 지적 재산권을 갖춘 10억 수준 매개변수 코드 대형 모델 aiXcoder L 버전을 출시하고 코드 완성 및 자연어 추천을 지원합니다. 이는 또한 '대형 모델'을 기반으로 한 국내 최초의 지능형 프로그래밍 상용 제품이기도 합니다.

이후에도 팀은 계속해서 노력했고, 2022년 6월에는 메소드 수준 코드 생성을 지원하는 중국 최초의 수백억 수준 매개변수 모델aiXcoder XL 버전을 출시했으며, 이는 또한 완전히 독립적인 지적 재산권을 보유합니다. .

2023년 7월 aiXcoder 팀은 자동 코드 완성, 자동 코드 생성, 코드 결함 감지 및 복구, 자동 단위 테스트 생성 등의 기능을 갖춘 기업 적응에 중점을 둔 aiXcoder Europa를 출시했습니다.

aiXcoder Europa는 기업 데이터 보안 및 컴퓨팅 성능 요구 사항을 기반으로 하는 민영화된 배포 및 개인화된 교육 서비스를 기업에 제공하여 대규모 코드 모델의 적용 비용을 효과적으로 줄이고 연구 개발 효율성을 향상시킬 수 있는 것으로 이해됩니다.

오늘날, aiXcoder-7B Base 버전이 탄생했습니다.

과학기술의 밝은 은하계에서 모든 기술의 발전은 미래의 무한한 가능성을 밝히는 새로운 별의 탄생과 같습니다.

대형 코드 모델의 기능이 증가함에 따라 복잡한 프로그래밍 문제를 해결하는 탁월한 성능은 소프트웨어 개발의 효율성과 품질을 향상시키는 데 중요한 역할을 할 뿐만 아니라 프로그래밍 자동화의 물결을 촉진하는 데 핵심적인 역할을 합니다. 또한 프로그래머의 혁신적인 잠재력을 자극하여 탐색과 창조에 더 많은 에너지를 쏟을 수 있도록 합니다.

즉, 이 최첨단 코드 모델인 aiXcoder-7B는 소프트웨어 개발 자동화 프로세스를 가속화할 뿐만 아니라 기술 산업의 생태계를 재편하고 미래 개발 트렌드를 선도합니다. 소프트웨어 개발 자동화 구현 .

이것은 업계의 일반적인 추세일 뿐만 아니라 발전을 위한 불가피한 선택이기도 합니다.

명예롭게도 우리는 이 전환점 앞에 서서 이러한 추세의 상승과 실현을 목격하고 있습니다.

aiXcoder 오픈 소스 링크

: https://github.com/aixcoder-plugin/aiXcoder-7Bhttps://gitee.com/aixcoder-model/aixcoder-7bhttps: / /www.gitlink.org.cn/aixcoder/aixcoder-7b-model

위 내용은 북경대학교의 가장 강력한 오픈소스 aiXcoder-7B 코드 모델! 실제 개발 시나리오에 중점을 두고 기업 프라이빗 배포를 위해 특별히 설계되었습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제