Rumah  >  Artikel  >  Peranti teknologi  >  Kedudukan kos inferens berskala besar yang diketuai oleh kecekapan tinggi Jia Yangqing dikeluarkan

Kedudukan kos inferens berskala besar yang diketuai oleh kecekapan tinggi Jia Yangqing dikeluarkan

王林
王林ke hadapan
2024-01-26 14:15:34585semak imbas

"Adakah API model besar merupakan perjanjian yang merugikan?"

Kedudukan kos inferens berskala besar yang diketuai oleh kecekapan tinggi Jia Yangqing dikeluarkan

Dengan pengamalan teknologi model bahasa besar, banyak syarikat teknologi telah melancarkan API model besar untuk digunakan oleh pembangun. Walau bagaimanapun, kami tidak boleh tidak mula tertanya-tanya sama ada perniagaan berdasarkan model besar boleh dikekalkan, terutamanya memandangkan OpenAI menjana pendapatan sebanyak $700,000 sehari.

Khamis ini, AI permulaan Marikh mengiranya dengan teliti untuk kami.

Kedudukan kos inferens berskala besar yang diketuai oleh kecekapan tinggi Jia Yangqing dikeluarkan

Pautan kedudukan: https://leaderboard.withmartian.com/

Papan Pendahulu Penyedia Inferens LLM ialah kedudukan sumber terbuka produk inferens API untuk model besar , throughput dan P50 dan P90 TTFT untuk titik akhir awam Mixtral-8x7B dan Llama-2-70B-Chat bagi setiap vendor.

Walaupun mereka bersaing antara satu sama lain, Martian mendapati bahawa perkhidmatan model besar setiap syarikat adalah dalam kos , terdapat perbezaan ketara dalam pemprosesan dan pengehadan kadar. Perbezaan ini melebihi perbezaan kos 5x, perbezaan daya pemprosesan 6x dan perbezaan had kadar yang lebih besar. Memilih API yang berbeza adalah penting untuk mendapatkan prestasi terbaik, walaupun ia hanya sebahagian daripada menjalankan perniagaan.

Mengikut ranking semasa, perkhidmatan yang disediakan oleh Anyscale mempunyai daya pemprosesan terbaik di bawah beban perkhidmatan sederhana Llama-2-70B. Untuk beban perkhidmatan yang besar, Together AI menunjukkan prestasi terbaik dengan daya pemprosesan P50 dan P90 pada Llama-2-70B dan Mixtral-8x7B.

Selain itu, LeptonAI Jia Yangqing menunjukkan daya pengeluaran terbaik apabila mengendalikan beban tugas kecil dengan input pendek dan isyarat keluaran panjang. Daya pemprosesan P50nya sebanyak 130 tks/s adalah yang terpantas antara model yang disediakan oleh semua pengeluar di pasaran pada masa ini.

Jia Yangqing, seorang sarjana AI yang terkenal dan pengasas Lepton AI, mengulas serta-merta selepas ranking dikeluarkan. Mari lihat apa yang dia katakan.

Kedudukan kos inferens berskala besar yang diketuai oleh kecekapan tinggi Jia Yangqing dikeluarkan

Jia Yangqing mula-mula menerangkan status semasa industri dalam bidang kecerdasan buatan, kemudian mengesahkan kepentingan ujian penanda aras, dan akhirnya menunjukkan bahawa LeptonAI akan membantu pengguna mencari strategi AI asas yang terbaik.

1. Model besar API "membakar wang"

Jika model itu mendahului tanda aras beban kerja yang tinggi, maka tahniah, ia adalah "wang terbakar".

LLM Penaakulan tentang kapasiti API awam adalah seperti menjalankan restoran: anda mempunyai tukang masak dan anda perlu menganggarkan trafik pelanggan. Mengupah chef memerlukan wang. Latensi dan daya pemprosesan boleh difahami sebagai "seberapa cepat anda boleh memasak untuk pelanggan." Untuk perniagaan yang munasabah, anda memerlukan bilangan chef yang "munasabah". Dalam erti kata lain, anda mahu mempunyai kapasiti yang boleh mengendalikan trafik biasa, bukan letusan trafik secara tiba-tiba yang berlaku dalam masa beberapa saat. Lonjakan dalam trafik bermakna menunggu jika tidak, "tukang masak" tidak akan berbuat apa-apa.

Dalam dunia kecerdasan buatan, GPU memainkan peranan sebagai "cef". Beban garis dasar adalah pecah. Di bawah beban kerja yang rendah, beban garis dasar digabungkan ke dalam trafik biasa dan pengukuran memberikan gambaran yang tepat tentang prestasi perkhidmatan di bawah beban kerja semasa.

Senario beban perkhidmatan tinggi adalah menarik kerana ia akan menyebabkan gangguan. Penanda aras hanya berjalan beberapa kali sehari/minggu, jadi ini bukan trafik biasa yang sepatutnya dijangkakan. Bayangkan ada 100 orang berduyun-duyun ke restoran tempatan untuk melihat seberapa cepat chef memasak hasilnya. Untuk meminjam istilah fizik kuantum, ini dipanggil "kesan pemerhati." Lebih kuat gangguan (iaitu lebih besar beban pecah), lebih rendah ketepatan. Dalam erti kata lain: jika anda meletakkan beban tinggi secara tiba-tiba pada perkhidmatan dan melihat bahawa perkhidmatan itu bertindak balas dengan cepat, anda tahu bahawa perkhidmatan itu mempunyai kapasiti terbiar yang agak besar. Sebagai pelabur, apabila anda melihat situasi ini, anda harus bertanya: Adakah cara ini membakar wang bertanggungjawab?

2 Model akhirnya akan mencapai prestasi yang serupa

Bidang kecerdasan buatan menggemari pertandingan kompetitif, yang sememangnya menarik. Semua orang cepat menumpu pada penyelesaian yang sama, dan Nvidia sentiasa menang pada akhirnya kerana GPU. Ini adalah terima kasih kepada projek sumber terbuka yang hebat, vLLM ialah contoh yang bagus. Ini bermakna, sebagai pembekal, jika model anda berprestasi jauh lebih teruk daripada yang lain, anda boleh mengejar dengan mudah dengan melihat penyelesaian sumber terbuka dan menggunakan kejuruteraan yang baik.

3. "Sebagai pelanggan, saya tidak kisah tentang kos penyedia"

Bagi pembina aplikasi AI, kami bernasib baik: sentiasa ada penyedia API yang sanggup "membakar wang." Industri AI sedang membakar wang untuk mendapatkan trafik, dan langkah seterusnya ialah bimbang tentang keuntungan.

Penandaan aras adalah tugas yang membosankan dan terdedah kepada kesilapan. Baik atau buruk, selalunya pemenang memuji anda dan yang kalah menyalahkan anda. Begitulah halnya dengan pusingan terakhir penanda aras rangkaian saraf konvolusi. Ini bukan tugas yang mudah, tetapi penandaarasan akan membantu kami mencapai 10x seterusnya dalam infrastruktur AI.

Berdasarkan rangka kerja kecerdasan buatan dan infrastruktur awan, LeptonAI akan membantu pengguna mencari strategi asas AI yang terbaik.

Atas ialah kandungan terperinci Kedudukan kos inferens berskala besar yang diketuai oleh kecekapan tinggi Jia Yangqing dikeluarkan. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam