AI가 항상 일을 제대로 처리하지 못한다는 것은 놀라운 일이 아닙니다. 때로는 환각을 일으키기도 합니다. 그러나 Apple 연구진의 최근 연구에 따르면 AI가 형식적 추론에 사용하는 수학적 모델에 훨씬 더 심각한 결함이 있는 것으로 나타났습니다.
✕ 광고 제거연구의 일환으로 Apple 과학자들은 AI 대형 언어 모델에 (LLM) 약간씩 다른 방식으로 여러 번 질문을 던졌으며 LLM이 답변에 예상치 못한 변화를 제공한다는 사실을 알고 놀랐습니다. 이러한 변형은 숫자가 포함될 때 가장 두드러졌습니다.
arxiv.org에서 발표한 연구에서는 "전체적으로 상당한 성능 변동성이 있다"고 결론지었습니다. 동일한 질문에 대한 다른 인스턴스화로 인해 단일 지점 정확도 측정 기준에 의존하는 현재 GSM8K 결과의 신뢰성에 도전하고 있습니다." GSM8K는 8000개가 넘는 다양한 초등학교 수학 문제와 답변이 포함된 데이터 세트입니다.
✕ 광고 제거Apple 연구진은 이 성능의 차이가 최대 10%에 이를 수 있음을 확인했습니다. 프롬프트에 약간의 변화가 있어도 LLM 답변의 신뢰성에 큰 문제가 발생할 수 있습니다.
즉, ChatGPT와 같은 도구를 사용할 때마다 답변의 사실 여부를 확인하고 싶을 수도 있습니다. 그 이유는 때때로 AI가 논리를 사용하여 문의에 대한 답변을 제공하는 것처럼 보일 수 있지만 실제로는 논리가 사용되지 않기 때문입니다.
대신 AI는 패턴 인식을 사용하여 프롬프트에 응답합니다. 그러나 Apple 연구는 중요하지 않은 단어 몇 개만 바꾸면 패턴 인식이 어떻게 바뀔 수 있는지 보여줍니다.
제시된 중요한 차이의 한 예는 며칠에 걸쳐 키위를 수집하는 문제에서 나타났습니다. Apple 연구진은 대조 실험을 수행한 후 키위 크기에 대한 몇 가지 중요하지 않은 정보를 추가했습니다.
✕ 광고 제거Meta의 Llama 및 OpenAI의 o1, 그런 다음 키위 크기 데이터가 문제 결과에 실질적인 영향을 미치지 않음에도 불구하고 통제에서 문제에 대한 답변을 변경했습니다. OpenAI의 GPT-4o도 LLM에 제공되는 데이터에 작은 변화를 도입할 때 성능에 문제가 있었습니다.
LLM이 우리 문화에서 점점 더 두드러지고 있기 때문에 이 소식은 우리가 AI를 신뢰할 수 있는지에 대한 엄청난 우려를 불러일으킵니다. 문의사항에 대한 정확한 답변을 제공하기 위해 특히 재정 조언과 같은 문제의 경우. 또한 대규모 언어 모델을 사용할 때 수신한 정보를 정확하게 검증해야 할 필요성도 강화됩니다.
즉, AI에 맹목적으로 의존하기보다는 비판적 사고와 실사를 수행해야 한다는 뜻입니다. 그리고 AI를 정기적으로 사용하는 사람이라면 이미 알고 있었을 것입니다.
✕ 광고 제거위 내용은 새로운 Apple 연구에 따르면 AI 추론에 심각한 결함이 있음이 밝혀졌습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!