Rumah  >  Artikel  >  Peranti teknologi  >  OpenAI atau DIY? Mendedahkan kos sebenar mengehos sendiri model bahasa besar

OpenAI atau DIY? Mendedahkan kos sebenar mengehos sendiri model bahasa besar

WBOY
WBOYke hadapan
2024-04-22 18:01:021124semak imbas

OpenAI atau DIY? Mendedahkan kos sebenar mengehos sendiri model bahasa besar

Standard perkhidmatan anda telah diletakkan sebagai "didorong AI" dengan menyepadukan model bahasa yang besar. Halaman utama tapak web anda dengan bangganya mempamerkan kesan revolusioner perkhidmatan dipacu AI anda melalui demo interaktif dan kajian kes. Ini juga merupakan tanda pertama yang ditinggalkan oleh syarikat anda dalam bidang GenAI global.

Pangkalan pengguna anda yang kecil tetapi setia menikmati pengalaman pelanggan yang dipertingkatkan dan anda boleh melihat potensi pertumbuhan masa hadapan. Walau bagaimanapun, apabila bulan memasuki minggu ketiga, anda menerima e-mel daripada OpenAI yang mengejutkan anda:

Baru seminggu yang lalu anda bercakap dengan pelanggan, menilai kesesuaian pasaran produk (PMF), dan kini, Beribu-ribu pengguna berpusu-pusu ke tapak anda (apa-apa sahaja boleh menjadi tular di media sosial hari ini) dan merosakkan perkhidmatan berkuasa AI anda.

Akibatnya, perkhidmatan anda yang pernah dipercayai bukan sahaja mengecewakan pengguna sedia ada, tetapi juga menjejaskan pengguna baharu.

Pembetulan cepat dan jelas ialah memulihkan perkhidmatan serta-merta dengan meningkatkan had penggunaan.

Namun, penyelesaian sementara ini membawa rasa kurang senang. Anda pasti berasa seperti anda terikat dengan pergantungan pada vendor tunggal, dengan kawalan terhad ke atas AI anda sendiri dan kos yang berkaitan dengannya.

"Perlukah saya melakukannya sendiri?"

Anda sudah tahu bahawa model bahasa besar sumber terbuka (LLM) telah menjadi kenyataan. Pada platform seperti Hugging Face, beribu-ribu model tersedia untuk kegunaan segera, yang memberikan kemungkinan untuk pemprosesan bahasa semula jadi.

Walau bagaimanapun, LLM paling berkuasa yang akan anda temui mempunyai berbilion parameter, mencapai ratusan gigabait dan memerlukan usaha yang besar untuk menskalakan. Dalam sistem masa nyata yang memerlukan kependaman rendah, anda tidak boleh hanya memasukkannya ke dalam aplikasi anda seperti yang anda boleh dengan model tradisional.

Walaupun anda mungkin yakin dengan keupayaan pasukan anda untuk membina infrastruktur yang diperlukan, kebimbangan sebenar ialah implikasi kos transformasi ini, termasuk:

  • Kos penalaan halus
  • Kos pengehosan
  • Kos perkhidmatan

Jadi, yang utama Persoalannya ialah: Sekiranya anda meningkatkan had penggunaan, atau patutkah anda menggunakan laluan yang dihoskan sendiri, atau dikenali sebagai laluan "sendiri"

Lakukan beberapa pengiraan dengan Llama 2

Pertama sekali, jangan? jangan tergesa-gesa. Ini adalah keputusan yang besar.

Jika anda berunding dengan jurutera pembelajaran mesin (ML) anda, mereka mungkin akan memberitahu anda bahawa Lama 2 ialah LLM sumber terbuka dan kelihatan seperti pilihan yang baik kerana pada kebanyakan tugas ia berfungsi sama seperti GPT yang anda sedang gunakan -3 ialah sama baik.

Anda juga akan mendapati bahawa model itu datang dalam tiga saiz - 7 bilion, 1.3 bilion dan 700 juta parameter - dan anda memutuskan untuk menggunakan model 7 bilion parameter terbesar untuk kekal berdaya saing dengan model OpenAI yang sedang anda gunakan.

LLaMA 2 menggunakan bfloat16 untuk latihan, jadi setiap parameter menggunakan 2 bait. Ini bermakna saiz model ialah 140 GB.

Jika anda rasa model ini banyak yang perlu disesuaikan, jangan risau. Dengan LoRA, anda tidak perlu memperhalusi keseluruhan model sebelum penggunaan.

Malah, anda mungkin hanya perlu memperhalusi kira-kira 0.1% daripada jumlah parameter, iaitu 70M, yang menggunakan 0.14 GB dalam perwakilan bfloat16.

Menarikkan, bukan?

Untuk menampung overhed memori semasa penalaan halus (cth. perambatan belakang, penyimpanan pengaktifan, penyimpanan set data), adalah lebih baik untuk mengekalkan kira-kira 5 kali ruang memori yang digunakan oleh parameter boleh dilatih.

Mari kita pecahkan secara terperinci:

Berat model LLaMA 2 70B ditetapkan apabila menggunakan LoRA, jadi ini tidak menyebabkan overhed memori → Keperluan memori = 140 GB.

Namun, untuk melaraskan lapisan LoRA, kita perlu mengekalkan 0.14 GB * (5x) = 0.7 GB.

Ini menghasilkan jumlah keperluan memori kira-kira 141 GB semasa penalaan halus.

Dengan mengandaikan anda tidak mempunyai infrastruktur latihan pada masa ini, kami menganggap anda lebih suka menggunakan AWS. Menurut harga atas permintaan AWS EC2, kos pengiraan adalah kira-kira $2.80 sejam, jadi kos penalaan halus adalah kira-kira $67 sehari, yang bukanlah perbelanjaan yang besar kerana penalaan halus tidak bertahan selama beberapa hari.

Kecerdasan buatan adalah bertentangan dengan restoran: kos utama adalah dalam perkhidmatan dan bukannya penyediaan

Apabila menggunakan, anda perlu mengekalkan dua pemberat dalam ingatan:

  • Berat model, menggunakan memori 140 GB.
  • LoRA memperhalusi berat dan menggunakan memori 0.14 GB.

Jumlahnya ialah 140.14 GB.

Sudah tentu, anda boleh membatalkan pengiraan kecerunan, tetapi masih disyorkan untuk mengekalkan kira-kira 1.5x memori — kira-kira 210 GB — untuk mengambil kira sebarang overhed yang tidak dijangka.

Sekali lagi berdasarkan harga atas permintaan AWS EC2, kos pengiraan GPU kira-kira $3.70 sejam, iaitu kira-kira $90 sehari untuk mengekalkan model dalam memori pengeluaran dan bertindak balas kepada permintaan masuk.

Ini bersamaan dengan kira-kira $2,700 sebulan.

Satu lagi perkara yang perlu dipertimbangkan ialah kegagalan yang tidak dijangka berlaku sepanjang masa. Jika anda tidak mempunyai mekanisme sandaran, pengguna anda akan berhenti menerima ramalan model. Jika anda ingin mengelakkan perkara ini daripada berlaku, anda perlu mengekalkan model berlebihan lain sekiranya permintaan model pertama gagal.

Jadi ini akan menjadikan kos anda kepada $180 sehari atau $5400 sebulan. Anda hampir hampir dengan kos semasa menggunakan OpenAI.

Pada tahap manakah kos OpenAI dan model sumber terbuka terikat

Jika anda terus menggunakan OpenAI, berikut ialah bilangan perkataan yang boleh anda proses setiap hari untuk memadankan kos penalaan halus dan perkhidmatan menggunakan LLaMA 2? .

Mengikut harga OpenAI, kos penalaan halus GPT 3.5 Turbo ialah $0.0080 setiap 1000 token.

Dengan mengandaikan kebanyakan perkataan mempunyai dua token, untuk memadankan kos penalaan halus model sumber terbuka LLaMA 2 70B ($67 sehari), anda perlu menyuap model OpenAI kira-kira 4.15 juta perkataan.

Biasanya, kiraan perkataan purata pada kertas A4 ialah 300, yang bermaksud kita boleh menyuap model itu kira-kira 14,000 halaman data untuk dipadankan dengan kos penalaan halus sumber terbuka, yang merupakan jumlah yang besar.

Anda mungkin tidak mempunyai data penalaan halus sebanyak itu, jadi kos penalaan halus dengan OpenAI sentiasa lebih rendah.

Satu lagi perkara yang mungkin jelas ialah kos penalaan halus ini tidak berkaitan dengan masa latihan, tetapi dengan jumlah data yang model itu diperhalusi. Ini tidak berlaku apabila memperhalusi model sumber terbuka, kerana kos akan bergantung pada jumlah data dan masa anda menggunakan sumber pengiraan AWS.

Bagi kos perkhidmatan, menurut halaman harga OpenAI, GPT 3.5 Turbo yang diperhalusi berharga $0.003 setiap 1000 token untuk input dan $0.006 untuk output setiap 1000 token.

Kami mengandaikan purata $0.004 setiap 1000 token. Untuk mencapai kos $180 sehari, kami perlu memproses kira-kira 22.2 juta perkataan setiap hari melalui API.

Ini bersamaan dengan lebih 74,000 muka surat data, dengan 300 perkataan setiap halaman.

Walau bagaimanapun, faedahnya ialah anda tidak perlu memastikan model berjalan 24/7 kerana OpenAI menawarkan harga bayar setiap penggunaan.

Jika model anda tidak pernah digunakan, anda tidak perlu membayar apa-apa.

Ringkasan: Bilakah memiliki benar-benar masuk akal

Pada mulanya, berpindah ke AI yang dihoskan sendiri mungkin kelihatan seperti usaha yang menggoda. Tetapi berhati-hati dengan kos tersembunyi dan sakit kepala yang datang dengannya.

Kecuali malam tanpa tidur sekali-sekala apabila anda tertanya-tanya mengapa perkhidmatan dipacu AI anda tidak berfungsi, hampir semua kesukaran mengurus LLM dalam sistem pengeluaran hilang jika anda menggunakan pembekal pihak ketiga.

Terutama apabila perkhidmatan anda tidak bergantung terutamanya pada "AI", tetapi sesuatu yang lain yang bergantung pada AI.

Bagi perusahaan besar, kos tahunan pemilikan sebanyak $65,000 mungkin jatuh dalam baldi, tetapi bagi kebanyakan perusahaan, ia adalah angka yang tidak boleh diabaikan.

Selain itu, kita tidak seharusnya melupakan kos tambahan lain seperti bakat dan penyelenggaraan, yang boleh meningkatkan jumlah kos dengan mudah kepada lebih $200,000 hingga $250,000 setahun.

Sudah tentu, mempunyai model dari awal mempunyai faedahnya, seperti mengekalkan kawalan ke atas data dan penggunaan anda.

Walau bagaimanapun, untuk menjadikan pengehosan sendiri boleh dilaksanakan, anda memerlukan volum permintaan pengguna jauh melebihi norma kira-kira 22.2 juta perkataan setiap hari, dan anda memerlukan sumber untuk mengurus kedua-dua bakat dan logistik.

Untuk kebanyakan kes penggunaan, mungkin tidak berbaloi dari segi kewangan untuk memiliki model dan bukannya menggunakan API.

Atas ialah kandungan terperinci OpenAI atau DIY? Mendedahkan kos sebenar mengehos sendiri model bahasa besar. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam