Rumah  >  Artikel  >  Peranti teknologi  >  Siapa yang lebih besar, 9.11 atau 9.9? Kami sebenarnya menguji 15 model besar, dan lebih separuh daripadanya terbalik.

Siapa yang lebih besar, 9.11 atau 9.9? Kami sebenarnya menguji 15 model besar, dan lebih separuh daripadanya terbalik.

WBOY
WBOYasal
2024-07-19 11:27:211100semak imbas

Laporan Kuasa Mesin

Dalam beberapa hari lalu, satu perkataan peringatan untuk menguji sama ada model besar "otak" berfungsi telah menjadi popular -

Yang manakah lebih besar, 9.11 atau 9.9?

Ini adalah soalan matematik yang walaupun pelajar sekolah rendah boleh menjawab dengan betul, tetapi ia menghalang sekumpulan "wira" dalam industri model besar.

Inilah perkaranya.
Jurutera gesaan kanan Scale AI, Riley Goodside bertanya kepada GPT-4o perkataan gesaan "9.11 dan 9.9 - yang mana lebih besar?", tetapi mendapat jawapan "yang dahulu lebih besar". Model besar lain turut terbalik.
Pada 17 Julai, kami menjalankan penilaian berpusat pada 12 model domestik yang besar, ditambah GPT-4o asing, Claude 3.5 Sonnet dan Gemini Google. Berikut adalah keputusan penilaian:

Seterusnya, mari kita lihat proses penilaian terperinci.

-1-

GPT-4o

GPT-4o Kereta itu tergolek dengan agak penuh.

Kami mula-mula bertanya GPT-4o menggunakan perkataan gesaan bahasa Inggeris, dan ia masih percaya bahawa 9.11 lebih besar daripada 9.9 Kemudian kami bertanya dalam bahasa Cina dan Inggeris berapa banyak perbezaannya, dan semua jawapan adalah salah.

Siapa yang lebih besar, 9.11 atau 9.9? Kami sebenarnya menguji 15 model besar, dan lebih separuh daripadanya terbalik.

-2-

Claude-3.5-Sonnet

Kami bertanya kepada Claude-3.5-Sonnet dalam cara yang sama, tetapi kami bertanya bagaimana cara yang sama, tetapi kami bertanya dengan cara yang sama. Matanya meliar. Antaranya, apabila membandingkan bahagian perpuluhan, ia dengan jelas mengetahui bahawa 0.9 adalah lebih besar daripada 0.11, tetapi masih mencapai kesimpulan yang salah pada akhirnya.

Siapa yang lebih besar, 9.11 atau 9.9? Kami sebenarnya menguji 15 model besar, dan lebih separuh daripadanya terbalik.

Siapa yang lebih besar, 9.11 atau 9.9? Kami sebenarnya menguji 15 model besar, dan lebih separuh daripadanya terbalik.-3-

gemini

google Gemini tidak lebih baik ia datang kepada integer yang sama untuk kali kedua, lebih banyak tempat perpuluhan, lebih besar nombornya.

Kami bertanya sekali lagi dalam bahasa Cina Google Gemini membandingkan saiz berdasarkan senario kehidupan sebenar tertentu Contohnya, dari perspektif masa, 9.11 biasanya merujuk kepada kejadian 9.11, manakala 9.9 biasanya merujuk kepada 9:09, jadi 9.11 adalah lebih baik. daripada 9.9 Ia bermakna lebih.

Apabila ditanya tentang perbezaan antara keduanya, Gemini datang dengan nombor negatif.

Siapa yang lebih besar, 9.11 atau 9.9? Kami sebenarnya menguji 15 model besar, dan lebih separuh daripadanya terbalik.

Siapa yang lebih besar, 9.11 atau 9.9? Kami sebenarnya menguji 15 model besar, dan lebih separuh daripadanya terbalik.

Siapa yang lebih besar, 9.11 atau 9.9? Kami sebenarnya menguji 15 model besar, dan lebih separuh daripadanya terbalik.

Siapa yang lebih besar, 9.11 atau 9.9? Kami sebenarnya menguji 15 model besar, dan lebih separuh daripadanya terbalik.

Siapa yang lebih besar, 9.11 atau 9.9? Kami sebenarnya menguji 15 model besar, dan lebih separuh daripadanya terbalik.

-4-

Baidu Wenxin Yiyan

5 menjawab dengan betul; apabila kami bertanya kedua-duanya Apabila ada perbezaan yang besar, ia berputar dalam bulatan besar dan akhirnya memberikan kesimpulan yang betul. Siapa yang lebih besar, 9.11 atau 9.9? Kami sebenarnya menguji 15 model besar, dan lebih separuh daripadanya terbalik.

Siapa yang lebih besar, 9.11 atau 9.9? Kami sebenarnya menguji 15 model besar, dan lebih separuh daripadanya terbalik.

-5-

Ali Tongyi Seribu Soalan

Semua Ali Tongyi Seribu Soalan dijawab dengan betul. Siapa yang lebih besar, 9.11 atau 9.9? Kami sebenarnya menguji 15 model besar, dan lebih separuh daripadanya terbalik.

Siapa yang lebih besar, 9.11 atau 9.9? Kami sebenarnya menguji 15 model besar, dan lebih separuh daripadanya terbalik.


-6-

Byte Beanbag

Kami bertanya siapa yang lebih besar, 9.11 atau 9.9, juga boleh dianalisis dalam kehidupan seharian dan 9.9. Sebagai contoh, masa pelari berlari ialah 9.11 saat dan 9.9 saat, yang bermaksud 9.11 saat adalah lebih pantas dari sudut harga, produk 9.9 yuan lebih mahal. Walau bagaimanapun, apabila ia mencapai kesimpulan, ia menjawab dengan salah.

Mengenai perbezaan antara keduanya, jawapan Doubao adalah betul. Siapa yang lebih besar, 9.11 atau 9.9? Kami sebenarnya menguji 15 model besar, dan lebih separuh daripadanya terbalik.

Siapa yang lebih besar, 9.11 atau 9.9? Kami sebenarnya menguji 15 model besar, dan lebih separuh daripadanya terbalik.


-7-

Tencent Yuanbao

Tencent Yuanbao mencetuskan fungsi carian sebagai betul, apabila dijawab dengan betul dan akhirnya soalan ini dijawab.

Walau bagaimanapun, apakah perbezaan antara 9.11 dan 9.9 Persamaan Yuanbao adalah betul, tetapi hasil aritmetik dalam 16 tempat perpuluhan. Siapa yang lebih besar, 9.11 atau 9.9? Kami sebenarnya menguji 15 model besar, dan lebih separuh daripadanya terbalik.

Siapa yang lebih besar, 9.11 atau 9.9? Kami sebenarnya menguji 15 model besar, dan lebih separuh daripadanya terbalik.

-8-

Zhipu Qingyan

Zhipu Qingyan tersilap percaya bahawa nilai yang diwakili oleh dua perpuluhan jawapan adalah lebih besar daripada satu jawapan perpuluhan. Apabila ditanya tentang perbezaan antara kedua-duanya, ia mengira nombor negatif.

Ia juga tidak lupa untuk mengatakan "Banyak ralat model AI mungkin disebabkan oleh kelemahan algoritma dalam memproses nombor dan titik perpuluhan." . 9.9 sebagai 0.21. Siapa yang lebih besar, 9.11 atau 9.9? Kami sebenarnya menguji 15 model besar, dan lebih separuh daripadanya terbalik.

Siapa yang lebih besar, 9.11 atau 9.9? Kami sebenarnya menguji 15 model besar, dan lebih separuh daripadanya terbalik.

-10-

iFlytek Spark

iFlytek Spark menjawab dengan betul. Siapa yang lebih besar, 9.11 atau 9.9? Kami sebenarnya menguji 15 model besar, dan lebih separuh daripadanya terbalik.

Siapa yang lebih besar, 9.11 atau 9.9? Kami sebenarnya menguji 15 model besar, dan lebih separuh daripadanya terbalik.

-11-

Baichuan Intelligence - Baixiaoying

Siapa yang lebih besar, 9.11 atau 9.9? Kami sebenarnya menguji 15 model besar, dan lebih separuh daripadanya terbalik.Baixiaoying tersilap mengira bahawa 9 perbezaannya dengan betul.

Siapa yang lebih besar, 9.11 atau 9.9? Kami sebenarnya menguji 15 model besar, dan lebih separuh daripadanya terbalik.


-12-

Step Stars - Yue Wen

Yue Wen은 초기 분석에서는 문제가 없었지만, 혼란에 빠져 '역전된 결론'을 내렸고, 이로 인해 잘못된 최종 답이 나왔습니다.

다시 이유를 물었을 때, 갑자기 이해하고, 실수를 수정하고, 둘 사이의 차이를 정확하게 계산했습니다.

Siapa yang lebih besar, 9.11 atau 9.9? Kami sebenarnya menguji 15 model besar, dan lebih separuh daripadanya terbalik.

Siapa yang lebih besar, 9.11 atau 9.9? Kami sebenarnya menguji 15 model besar, dan lebih separuh daripadanya terbalik.

-13-

SenseTime - 토론

두 가지 질문에 잘못 답변되었습니다.

Siapa yang lebih besar, 9.11 atau 9.9? Kami sebenarnya menguji 15 model besar, dan lebih separuh daripadanya terbalik.

Siapa yang lebih besar, 9.11 atau 9.9? Kami sebenarnya menguji 15 model besar, dan lebih separuh daripadanya terbalik.

-14-

Kunlun Wanwei - Tiangong

답이 맞습니다.

Siapa yang lebih besar, 9.11 atau 9.9? Kami sebenarnya menguji 15 model besar, dan lebih separuh daripadanya terbalik.

Siapa yang lebih besar, 9.11 atau 9.9? Kami sebenarnya menguji 15 model besar, dan lebih separuh daripadanya terbalik.

-15-

Zero One Everything - Wanzhi

두 가지 질문에 잘못 답했습니다.

Siapa yang lebih besar, 9.11 atau 9.9? Kami sebenarnya menguji 15 model besar, dan lebih separuh daripadanya terbalik.

Siapa yang lebih besar, 9.11 atau 9.9? Kami sebenarnya menguji 15 model besar, dan lebih separuh daripadanya terbalik.

왜 큰 모델들은 간단한 수학 상식 문제도 풀지 못하는 걸까요? Tongyi Laboratory의 제품 관리자인 왕샤오밍(Wang Xiaoming)을 인터뷰했습니다.

Wang Xiaoming에 따르면 대규모 모델은 Transformer 아키텍처를 기반으로 구현됩니다. 그 본질은 직접적인 산술 계산 대신 다음 토큰 예측을 수행하는 것입니다. 따라서 크기 비율과 같은 간단한 수학적 문제를 다룰 때는 성공 여부가 달려 있습니다. 예측 모델의 비율.

또한 "9.11이 9.9보다 크다"와 같은 시나리오를 처리할 때 대형 모델은 일반적으로 토크나이저를 통해 처리됩니다. 이러한 표현식을 구문 분석할 때 토크나이저는 해당 숫자를 날짜나 버전 번호로 인식하여 비교를 하게 되어 결과적으로 오답이 나올 수 있습니다. 이 처리 방법은 토크나이저의 특정 알고리즘과 메커니즘에 따라 결정됩니다.

실제 테스트 과정에서 많은 대형 모델이 처음 답변할 때 잘못된 답변을 제공할 수도 있다는 사실도 발견했습니다. 그러나 두 번째 질문을 받았을 때 이러한 모델은 종종 정답을 제공할 수 있었습니다.

이 문제에 대해 왕샤오밍은 주로 세 가지 이유 때문에 발생한다고 생각합니다.

첫째, 예측 과정의 특정 무작위성으로 인해 두 번째 라운드가 첫 번째 라운드보다 더 정확합니다.

두 번째, 대형 모델은 강력한 맥락 이해 능력을 갖추고 있으며, 이전 답변과 수정 정보를 기반으로 보다 정확한 답변을 생성할 수 있습니다.

셋째, 질문자의 안내 방법도 대형 모델의 답변 결과에 영향을 미칩니다. 예를 들어 한정자를 사용하고 명확한 맥락을 제공하며 모델이 특정 지침을 따르도록 안내하는 것은 모두 정답을 얻을 확률을 높이는 데 도움이 될 수 있습니다.

대형 모델의 수학적 능력을 향상시키는 핵심은 특히 수학적 계산과 논리적 추론에서 고품질의 데이터 지원을 제공하는 것이라고 말했습니다. 예를 들어 Tongyi Qianwen은 이러한 시나리오의 교육을 위해 특별히 고품질 데이터를 추가하여 이러한 문제에 직면할 때 높은 정확도를 유지할 수 있습니다.

앞으로는 대형 AI 모델과 AI 애플리케이션에 대한 직접 리뷰를 더 많이 가져올 예정이며, 누구나 그룹에 참여하여 소통할 수 있습니다.

Siapa yang lebih besar, 9.11 atau 9.9? Kami sebenarnya menguji 15 model besar, dan lebih separuh daripadanya terbalik.

Atas ialah kandungan terperinci Siapa yang lebih besar, 9.11 atau 9.9? Kami sebenarnya menguji 15 model besar, dan lebih separuh daripadanya terbalik.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn