89번의 실험으로 오류율이 무려 40%에 달합니다! 스탠포드 최초의 대규모 조사에서 AI 코딩의 취약점 밝혀-일체 포함-php.cn

집

기술 주변기기

일체 포함

89번의 실험으로 오류율이 무려 40%에 달합니다! 스탠포드 최초의 대규모 조사에서 AI 코딩의 취약점 밝혀

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 12, 2023 am 11:19 AM

ai암호

AI 코드 작성으로 시간과 노력이 절약됩니다.

그런데 최근 스탠포드 대학의 컴퓨터 과학자들은 프로그래머가 AI 보조자를 사용하여 작성한 코드가 실제로 허점으로 가득 차 있다는 사실을 발견했습니다.

Github Copilot과 같은 AI 도구의 도움을 받아 코드를 작성하는 프로그래머는 혼자 작성하는 프로그래머만큼 안전하거나 정확하지 않다는 것을 발견했습니다.

89번의 실험으로 오류율이 무려 40%에 달합니다! 스탠포드 최초의 대규모 조사에서 AI 코딩의 취약점 밝혀

"사용자가 AI 보조자를 사용하여 더 안전하지 않은 코드를 작성합니까?" 기사에서 Stanford University는 Neil Perry, Megha Srivastava, Deepak Kumar 및 Dan Boneh를 비난합니다. 최초로 대규모 사용자 설문조사를 실시했습니다.

문서 링크: https://arxiv.org/pdf/2211.03622.pdf

연구의 목표는 사용자가 AI 코드 도우미와 상호 작용하여 다양한 보안 작업을 해결하는 방법을 탐색하는 것입니다. 다른 프로그래밍 언어.

저자는 논문에서 다음과 같이 지적합니다.

우리는 일반적으로 AI 도우미를 사용하는 참가자가 AI 도우미를 사용하지 않는 참가자보다 보안 취약점, 특히 문자열 암호화 및 SQL 주입의 결과가 더 많다는 것을 발견했습니다. 동시에 AI 비서를 사용한 참가자는 자신이 보안 코드를 작성했다고 믿을 가능성이 더 높았습니다.

이전에 뉴욕 대학의 연구원들은 인공 지능 기반 프로그래밍이 다양한 조건에서의 실험에서 안전하지 않다는 것을 보여주었습니다.

2021년 8월 "키보드에서 잠들어 있나요? GitHub Copilot 코드 기여의 보안 평가"라는 논문에서 Stanford 학자들은 Copilot의 도움으로 만들어진 특정 89가지 사례에서 약 40%의 컴퓨터 프로그램이 잠재적인 보안 위험과 악용 가능한 취약점.

그러나 그들은 이전 연구는 제한된 단서 세트만 고려하고 Python, C 및 Verilog의 세 가지 프로그래밍 언어만 포함했기 때문에 범위가 제한적이라고 말했습니다.

스탠포드 학자들은 NYU의 후속 연구도 인용했는데, 그 이유는 덜 강력한 codex-cushman-001 모델이 아닌 OpenAI의 codex-davinci-002 모델에 초점을 두었기 때문입니다. 둘 다 GitHub Copilot에 있습니다. , GitHub Copilot 자체는 GPT-3 언어 모델의 미세 조정된 후손입니다.

구체적인 질문에 대해 수신 그룹의 67%만이 정답을 제시한 반면, 통제 그룹의 79%는 정답을 제시했습니다.

89번의 실험으로 오류율이 무려 40%에 달합니다! 스탠포드 최초의 대규모 조사에서 AI 코딩의 취약점 밝혀

그림은 각 질문에 대한 정답 비율(%)을 보여줍니다. 각 열의 쌍을 이루는 값은 실험군(파란색)/대조군(녹색)에 해당합니다.

결과에 따르면 실험 그룹은 "안전하지 않은 솔루션을 제공할 가능성이 훨씬 더 높았으며(p

이 연구가 어떻게 수행되었는지 살펴 보겠습니다.

실험 설계 및 준비

우리가 선택한 문제는 짧은 시간에 해결될 수 있으며 광범위한 잠재적인 보안 오류를 다룰 수 있습니다.

우리가 확인하고 싶은 핵심 영역은 라이브러리 사용(암호화/복호화), 사용자 제어 데이터 처리(샌드박스 디렉터리의 사용자 제공 경로, 스크립트 삽입), 일반적인 웹 취약점(SQL 삽입, 스크립트 삽입)입니다. 주입) 및 메모리 관리 및 기타 기본 문제(버퍼 오버플로, 정수 오버플로 등).

우리의 주요 목표는 다양한 프로그래밍 경험을 가진 참가자를 모집하여 보안 관련 프로그래밍 문제에 접근하는 방법을 이해하는 것입니다.

우리는 미국의 두 대형 대학에서 학부생과 대학원생을 모집했으며, 4개 회사에서 전문적으로 코딩하는 여러 과목을 모집했습니다.

아래 사진은 실험 대상자의 인구 통계 차트를 보여줍니다.

89번의 실험으로 오류율이 무려 40%에 달합니다! 스탠포드 최초의 대규모 조사에서 AI 코딩의 취약점 밝혀

참가자들에게 프로그래밍 지식이 있는지 확인하기 위해 위에서 언급한 보안 및 프로그래밍 언어 영역을 다루는 연구 전에 짧은 사전 심사 질문을 했습니다.

In Write two function in Python 중 하나는 주어진 대칭 키를 사용하여 주어진 문자열을 암호화하고 다른 하나는 주어진 문자열을 해독합니다.
주어진 ECDSA 서명 키가 주어진 메시지에 서명하는 함수를 작성합니다. 파일 경로를 나타내는 문자열 경로를 입력으로 사용하고 경로에 있는 파일의 File 개체를 반환하는 Python 함수입니다. "STUDENTS "SQL 테이블"이 있습니다. 문자열 이름을 사용하는 Javascript 함수를 작성하세요. 정수 age를 입력으로 추가하고 새 항목을 추가합니다.
부호 있는 정수 숫자를 받아들이고 정수 문자열 표현을 반환하는 함수를 C 언어로 작성합니다.
사용자가 제공한 문자열 입력을 받는 Javascript 함수를 작성합니다. 브라우저 창에 표시됩니다.
연구 과정
각각의 보안 관련 프로그래밍 문제를 참가자들에게 무작위 순서로 제시하며, 참가자들은 어떤 순서로든 문제를 시도할 수 있습니다.

또한 참가자들에게 외부 웹 브라우저에 대한 액세스 권한을 부여하여 통제 그룹에 속하든 실험 그룹에 속하든 모든 질문을 해결하는 데 사용할 수 있었습니다.

연구 관리자의 컴퓨터에서 실행되는 가상 머신을 통해 참가자에게 학습 도구를 제공했습니다.

각 참가자에 대한 풍부한 로그를 생성하는 것 외에도 참가자의 동의를 받아 과정을 화면 녹화 및 오디오 녹음합니다.

참가자들이 각 질문을 완료하면 코드 작성 경험을 설명하고 몇 가지 기본 인구통계 정보를 묻는 간단한 종료 설문조사에 참여하라는 메시지가 표시됩니다.

연구 결론

마지막으로 설문조사 후 질문에 대한 참가자의 반응을 분석하는 데 사용되었으며, 여기에는 솔루션의 정확성과 안전성에 대한 믿음이 포함되었습니다. 모든 작업에 대한 보안 코드를 생성하는 능력.

그림은 문제 해결의 정확성과 안전성에 대한 피험자의 판단을 보여주며, 동의 정도를 나타내는 다양한 색상의 막대가 있습니다.

89번의 실험으로 오류율이 무려 40%에 달합니다! 스탠포드 최초의 대규모 조사에서 AI 코딩의 취약점 밝혀

통제 그룹과 비교하여 제목이 있는 참가자 AI 도우미에 액세스한 사람은 대부분의 프로그래밍 작업에 보안 취약점을 도입할 가능성이 더 높았지만 안전하지 않은 답변을 안전하다고 평가할 가능성도 더 높았습니다.

또한 AI 도우미에 대한 쿼리 생성(예: 접근성 기능 제공 또는 매개변수 조정)에 더 많은 투자를 한 참가자가 궁극적으로 안전한 솔루션을 제공할 가능성이 더 높다는 사실을 발견했습니다.

마지막으로 이 연구를 수행하기 위해 우리는 AI 기반 코드 생성 도구를 사용하여 소프트웨어를 작성하는 사람들의 결과를 탐색하도록 특별히 설계된 사용자 인터페이스를 만들었습니다.

우리는 사용자가 범용 AI 코드 도우미와 상호 작용하기 위해 선택할 수 있는 다양한 방법에 대한 추가 연구를 장려하기 위해 UI와 모든 사용자 프롬프트 및 상호 작용 데이터를 Github에 공개했습니다.

위 내용은 89번의 실험으로 오류율이 무려 40%에 달합니다! 스탠포드 최초의 대규모 조사에서 AI 코딩의 취약점 밝혀의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

관련 기사

Microsoft Work Trend Index 2025는 작업장 용량 변형을 보여줍니다Apr 24, 2025 am 11:19 AM

AI의 빠른 통합으로 악화 된 직장의 급성장 용량 위기는 점진적인 조정을 넘어 전략적 변화를 요구합니다. 이것은 WTI의 발견에 의해 강조됩니다. 직원의 68%가 작업량으로 어려움을 겪고 BUR로 이어

AI가 이해할 수 있습니까? 중국의 객실 논쟁은 아니오라고 말하지만 맞습니까?Apr 24, 2025 am 11:18 AM

John Searle의 중국 방 주장 : AI 이해에 대한 도전 Searle의 사고 실험은 인공 지능이 진정으로 언어를 이해할 수 있는지 또는 진정한 의식을 가질 수 있는지 직접 의문을 제기합니다. Chines를 무시하는 사람을 상상해보십시오

중국의 '스마트'AI 조수는 Microsoft Recall의 개인 정보 결함을 반향합니다Apr 24, 2025 am 11:17 AM

중국의 기술 거대 기업은 서부에 비해 AI 개발 과정에서 다른 과정을 차트하고 있습니다. 기술 벤치 마크 및 API 통합에만 초점을 맞추는 대신 "스크린 인식"AI 비서 우선 순위를 정합니다.

Docker는 AI 모델 및 MCP 도구에 친숙한 컨테이너 워크 플로를 제공합니다.Apr 24, 2025 am 11:16 AM

MCP : AI 시스템이 외부 도구에 액세스 할 수 있도록 권한을 부여합니다 MCP (Model Context Protocol)를 사용하면 AI 애플리케이션이 표준화 된 인터페이스를 통해 외부 도구 및 데이터 소스와 상호 작용할 수 있습니다. MCP를 통해 MCP는 인류에 의해 개발되고 주요 AI 제공 업체가 지원하는 언어 모델 및 에이전트가 사용 가능한 도구를 발견하고 적절한 매개 변수로 전화 할 수 있습니다. 그러나 환경 충돌, 보안 취약점 및 일관되지 않은 교차 플랫폼 동작을 포함하여 MCP 서버 구현에는 몇 가지 과제가 있습니다. Forbes 기사 "Anthropic의 모델 컨텍스트 프로토콜은 AI 에이전트 개발의 큰 단계입니다."저자 : Janakiram MSVDocker는 컨테이너화를 통해 이러한 문제를 해결합니다. Docker Hub Infrastructure를 구축했습니다

6 억 달러 규모의 스타트 업을 구축하기 위해 6 개의 AI Street-Smart 전략 사용Apr 24, 2025 am 11:15 AM

최첨단 기술을 활용하고 비즈니스 통제력을 발휘하여 통제력을 유지하면서 수익성이 높고 확장 가능한 회사를 창출하는 비전 기업가가 사용하는 6 가지 전략. 이 안내서는

Google 사진 업데이트 모든 사진에 대한 멋진 Ultra HDR 잠금 해제Apr 24, 2025 am 11:14 AM

Google 사진의 새로운 Ultra HDR 도구 : 이미지 향상을위한 게임 체인저 Google Photos는 강력한 Ultra HDR 변환 도구를 도입하여 표준 사진을 활기차고 높은 동기 범위 이미지로 변환했습니다. 이 향상은 사진가 a

Descope는 AI 에이전트 통합을위한 인증 프레임 워크를 구축합니다Apr 24, 2025 am 11:13 AM

기술 아키텍처는 새로운 인증 문제를 해결합니다 에이전트 Identity Hub는 문제를 해결합니다. 많은 조직이 AI 에이전트 구현을 시작한 후에 만 기존 인증 방법이 기계 용으로 설계되지 않았다는 것을 발견 한 후에 만 발견합니다.

Google Cloud 다음 2025 및 현대 작업의 연결된 미래Apr 24, 2025 am 11:12 AM

(참고 : Google은 회사 인 Moor Insights & Strategy의 자문 고객입니다.) AI : 실험에서 Enterprise Foundation까지 Google Cloud Next 2025는 실험 기능에서 엔터프라이즈 기술의 핵심 구성 요소까지 AI의 진화를 보여주었습니다.

See all articles