Rumah >Operasi dan penyelenggaraan >Keselamatan >Perniagaan berkembang dengan pesat, bolehkah pembinaan kebolehgunaan menjadi begitu stabil?

Perniagaan berkembang dengan pesat, bolehkah pembinaan kebolehgunaan menjadi begitu stabil?

PHPz
PHPzke hadapan
2023-06-09 00:17:13906semak imbas

1. Masalah dan Cabaran

Perniagaan berkembang dengan pesat, bolehkah pembinaan kebolehgunaan menjadi begitu stabil?

Sejak 2017, skala mesin vivo dan bilangan perkhidmatan telah berkembang dengan ketara, seperti yang boleh dilihat dalam carta. Saiz mesin telah meningkat kira-kira lima kali, dan bilangan perkhidmatan pada asasnya telah meningkat lebih daripada sepuluh kali Jangka masa adalah dari 2017 hingga 2022.

Perniagaan berkembang dengan pesat, bolehkah pembinaan kebolehgunaan menjadi begitu stabil?

Apabila skala semakin meningkat, cabaran dan kerumitan pasti akan meningkat terutamanya dibahagikan kepada cabaran perubahan dan cabaran kegagalan.

1. Cabaran Perubahan

Masih terdapat lebih kurang senario perubahan manual dalam perubahan;

Masa keluaran tunggal kami agak lama;

Terdapat banyak senario migrasi perniagaan berskala besar;

Google SRE mempunyai konsep sedemikian: 70% daripada kegagalan disebabkan oleh perubahan. Keadaan ini juga wujud dalam vivo, dan perubahan akan memberi kesan yang besar terhadap kestabilan dalam talian.

2. Cabaran kegagalan

  • Risiko kegagalan tahap bilik komputer (kedua-dua syarikat besar dan kecil akan menghadapi ia, gangguan perlombongan gentian atau kegagalan dalaman dalam bilik komputer, dsb.);
  • Pertumbuhan perniagaan yang pesat telah meningkatkan keperluan kapasiti dengan ketara.

Di bawah cabaran ini, kami membahagikan pembinaan kepada dua dimensi: keupayaan ketersediaan dan peringkat ketersediaan untuk memastikan kestabilan perniagaan.

2. Pembinaan keupayaan ketersediaan

1

Perniagaan berkembang dengan pesat, bolehkah pembinaan kebolehgunaan menjadi begitu stabil?

Pembinaan keupayaan ketersediaan kami adalah berdasarkan pengurusan kerosakan kitaran penuh, meliputi kejadian ralat, penemuan, tindak balas dan pemulihan ., semakan dan langkah pencegahan. Masa dari berlakunya kerosakan kepada pemulihan dipanggil MTTR; masa dari pemulihan kerosakan kepada kejadian, dari stabil kepada tidak stabil, dipanggil MTTF, masa antara kejadian kerosakan dipanggil MTBF, dengan jumlah 3 penunjuk.

Pengurusan kesalahan tidak lebih daripada 4 perkara ini:

Bagaimana untuk mengelakkan kegagalan?
  • Bagaimana untuk mengesan kerosakan secepat mungkin?
  • Bagaimana cara cepat menyembuhkan kerosakan?
  • Selepas kerosakan dipulihkan, bagaimana untuk membuat susulan?

Terutama mempertimbangkan ketersediaan perniagaan, anda perlu memberi perhatian kepada kekerapan kegagalan dan masa impak pada perniagaan. Oleh itu, mengurangkan kekerapan ralat, mencari ralat dengan cepat, memendekkan tempoh ralat, dan mencapai penyembuhan ralat pantas adalah idea umum keseluruhan pembinaan keupayaan ketersediaan tinggi kami. Izinkan saya memperkenalkan kepada anda langkah-langkah yang telah kami sediakan:

2. , adalah perlu untuk mencapai Untuk mengelakkan kesilapan, kita mesti terlebih dahulu memahami mengapa kesilapan berlaku, yang boleh dilihat dari perspektif perkhidmatan dan perspektif pautan penuh.

1) Perspektif Perkhidmatan

Sesuatu perkhidmatan tidak lebih daripada input yang diminta, dan biasanya ia hanya memerlukan output yang sepadan. Dalam situasi sebenar, terdapat banyak aspek yang mempengaruhi respons perkhidmatan yang betul. Dalam beberapa senario klasik, faktor yang mempengaruhi telah diringkaskan Perniagaan berkembang dengan pesat, bolehkah pembinaan kebolehgunaan menjadi begitu stabil?

Dari segi kapasiti: pertumbuhan eksponen dalam permintaan perniagaan akan membawa kepada keluaran yang tidak normal bagi satu perkhidmatan

Dari segi perkhidmatan: terdapat pepijat dalam perisian itu sendiri, dan perkhidmatan itu ranap akibatnya;

Dari segi perkakasan: keabnormalan yang disebabkan oleh perkakasan hos, bilik komputer dan rangkaian.
  • 2) Perspektif pautan penuh

Perniagaan berkembang dengan pesat, bolehkah pembinaan kebolehgunaan menjadi begitu stabil?Lapisan kapasiti: peningkatan mendadak dalam permintaan dan kapasiti keseluruhan pautan tidak mencukupi, mengakibatkan anomali perkhidmatan

lapisan perkhidmatan: konfigurasi kolaboratif diperlukan antara perkhidmatan tetapan konfigurasi juga boleh menyebabkan keabnormalan dalam keseluruhan pautan;

Kebergantungan hulu dan hiliran: Keabnormalan dalam beberapa perkhidmatan utama boleh menyebabkan keabnormalan pada keseluruhan pautan.
  • Dari perspektif kestabilan keseluruhan pautan: kebergantungan huluan dan hiliran, kapasiti yang tidak mencukupi dan konfigurasi perkhidmatan yang tidak normal adalah semua faktor penting yang mempengaruhi kestabilan.

3. Pembinaan pencegahan kerosakan

Selepas menganalisis faktor kerosakan dari dua perspektif perkhidmatan dan pautan penuh, kesalahan Terdapat idea yang sepadan untuk pembinaan pencegahan:

Perniagaan berkembang dengan pesat, bolehkah pembinaan kebolehgunaan menjadi begitu stabil?

  • Keabnormalan pautan penuh: Ia adalah perlu untuk menganalisis kekuatan dan kelemahan hulu dan hilir, dan menyediakan perlindungan khas untuk pelayan utama , untuk memastikan kestabilan keseluruhan pautan; , dan redundansi yang baik dan pemulihan bencana.

4. Pencegahan kegagalan

<.>

Perniagaan berkembang dengan pesat, bolehkah pembinaan kebolehgunaan menjadi begitu stabil?Saya bercakap tentang analisis keseluruhan dan idea pembinaan sebelum ini. Bagaimanakah vivo sebenarnya melakukannya?

Kami telah melaksanakan jaminan pembinaan berdasarkan keseluruhan pautan Keseluruhan pautan telah dibina daripada lapisan akses, lapisan logik perniagaan, lapisan perisian tengah, lapisan storan dan lapisan infrastruktur:

1) Unitisasi: Kurangkan panggilan perkhidmatan di seluruh bilik komputer untuk mengelakkan kegagalan satu bilik komputer daripada menjejaskan semua perkhidmatan bilik komputer; Lebih Banyak Pintu Masuk: Pada masa lalu, banyak perniagaan hanya mempunyai satu pintu masuk lapisan akses Selepas membina keupayaan berbilang kemasukan IDC dan awan awam, kesan pengecualian pintu masuk tunggal pada keseluruhan akses perkhidmatan akan menjadi lebih kecil 🎜>

3) Perlindungan beban: Apabila kapasiti perniagaan tiba -tiba meningkat, perkhidmatan lapisan akses dapat secara aktif menolak beberapa permintaan pecah mengikut tetapan untuk mencegah trafik permintaan yang berlebihan dari perkhidmatan berikutnya;

4) Penurunan taraf pemutus litar: Penurunan taraf monopoli perkhidmatan bergantung boleh melindungi kesan perkhidmatan yang tidak normal dan mengelakkan kesan runtuhan salji.

5 Penemuan kesalahan

<.>

Kami telah membina keupayaan pengesanan kerosakan berdasarkan keseluruhan pautan Pada masa ini, kadar pengesanan kerosakan proaktif boleh mencapai 90%, yang merangkumi pemantauan pelanggan, pemantauan pelayan dan pemantauan asas:

.

1) Pemantauan pelanggan: sistem ujian dial-up binaan sendiri, memantau ketersediaan setiap perkhidmatan melalui akses pengguna simulasi pintasan; , pemantauan log dan pemantauan panggilan antara perkhidmatan Menurut kaedah pelaksanaan pemantauan, ia adalah terutamanya metrik/log/jejak; situasi hos, terutamanya dalam bentuk metrik.

Perniagaan berkembang dengan pesat, bolehkah pembinaan kebolehgunaan menjadi begitu stabil?6. Menyelesaikan masalah

Terutamanya termasuk analisis kerosakan dan pengendalian kerosakan.

Analisis kerosakan: Dipautkan dengan sistem pemantauan untuk menyokong analisis kesalahan perkhidmatan asas , Analisis ketersediaan nama domain, dsb.;

Penyelesaian masalah: Pembinaan pelan kegagalan, termasuk perumusan pelan, latih tubi, dsb.

7. Semakan kerosakan

Semakan kerosakan sangat penting dalam keseluruhan kitaran pembinaan ketersediaan tinggi yang penting. bahagian.

Perniagaan berkembang dengan pesat, bolehkah pembinaan kebolehgunaan menjadi begitu stabil?

  • Kami menggunakan penggredan SLA berasaskan perniagaan untuk memastikan kestabilan perniagaan dalam cara yang disasarkan merekodkan setiap kesalahan perniagaan, menambah baik dan mengesahkan pembinaan kapasiti:

1) Penggredan perniagaan: Sumber operasi dan penyelenggaraan adalah sangat terhad, memastikan semua perniagaan mempunyai SLA yang sama, jadi penggredan Jaminan adalah sangat diperlukan. Berdasarkan reputasi dan hasil perniagaan, kami membahagikannya kepada empat peringkat perniagaan: teras, penting, umum, dan lain-lain Ini membimbing tenaga kerja operasi dan penyelenggaraan yang dilaburkan dalam setiap perniagaan 🎜 >

2) Rekod kerosakan: meningkatkan kecekapan semakan, dan menjejaki kesilapan perniagaan dalam talian untuk analisis susulan untuk membimbing pengoptimuman perniagaan; pengesahan ke belakang berdasarkan kejuruteraan huru-hara untuk menentukan sama ada langkah penambahbaikan telah berkuat kuasa.

Ini adalah amalan kami dalam semakan kesalahan Kami juga telah melaksanakan keupayaan dan amalan ini ke dalam platform dan menguruskan kerja semakan kerosakan melalui platform.

8 Pengurusan Kapasiti

Perniagaan berkembang dengan pesat, bolehkah pembinaan kebolehgunaan menjadi begitu stabil?

<. . keupayaan pengurusan.>

  • Skala keanjalan sumber: Bina keupayaan jaminan sumber berasaskan awan hibrid untuk meningkatkan keanjalan sumber dengan hebat

  • Keupayaan penghantaran, operasi dan pengurusan sumber : Wujudkan mekanisme pengurusan untuk keseluruhan kitaran hayat sumber untuk memastikan bekalan maksimum dan kecekapan penggunaan sumber, termasuk pengurusan belanjawan, pengurusan permintaan, pengurusan perolehan dan pengurusan operasi inventori.

3. Pembinaan Fasa Kebolehgunaan

Selepas pembinaan keupayaan kebolehgunaan, kami membahagikannya kepada tiga fasa untuk membina kebolehgunaan: Fasa Standardisasi , peringkat proses dan peringkat platform.

1 Peringkat Standardisasi

Perniagaan berkembang dengan pesat, bolehkah pembinaan kebolehgunaan menjadi begitu stabil?

Mengapa kita perlu membina standardisasi?

Penstandardan boleh mengurangkan kerumitan operasi dan penyelenggaraan perniagaan, sekali gus mengurangkan kos operasi dan penyelenggaraan. Kami telah melakukan banyak kerja penyeragaman di kedua-dua peringkat perkakasan dan perisian.

  • Tahap perkakasan: penyeragaman bilik komputer, penyeragaman rangkaian (rangkaian awam, Internet aktif, talian khusus intranet
  • Tahap perisian: Penyeragaman OS, persekitaran hos); penyeragaman , penyeragaman katalog perkhidmatan, Penyeragaman ejen, akses kepada penyeragaman kluster nginx, dan penyeragaman keupayaan perkhidmatan (perkhidmatan perisian tengah).

2 Proses dan pembinaan piawai

Perniagaan berkembang dengan pesat, bolehkah pembinaan kebolehgunaan menjadi begitu stabil?

Pertama sekali, kami akan memendekkan amalan dan kaedah terbaik dalam proses operasi dan penyelenggaraan kepada mekanisme dan spesifikasi proses untuk memastikan kestabilan perniagaan teratur dan terkawal, termasuk peraturan operasi dan penyelenggaraan ketenteraan, kesalahan. mekanisme tindak balas, spesifikasi hal ehwal awam, spesifikasi jaminan acara berskala besar, dsb.

Sebagai contoh, apabila spesifikasi jaminan untuk acara berskala besar tidak ditetapkan, seperti aktiviti operasi berskala besar atau aktiviti pengedaran sampul merah Festival Musim Bunga, adalah mudah untuk kegagalan dalam talian untuk berlaku Sejak 2018 Selepas menetapkan piawaian jaminan untuk acara berskala besar, insurans berat seperti Festival Musim Bunga boleh memastikan operasi lancar.

3. Pembinaan platform dan sistem

Perniagaan berkembang dengan pesat, bolehkah pembinaan kebolehgunaan menjadi begitu stabil?

Dari segi pembinaan platform dan sistem, menggunakan CMDB sebagai asas, mekanisme proses biasa yang lebih baik dikembangkan lagi menjadi platform, seperti platform perubahan, platform pemantauan, platform alat perkhidmatan, dll., untuk menyokong perniagaan kestabilan.

4. Keputusan dan prospek ketersediaan

Menjelang 2022, keseluruhan operasi dan penyelenggaraan perniagaan akan teratur dan cekap, dan ketersediaan perniagaan akan peningkatan daripada tahap sebelumnya Tiga sembilan telah meningkat kepada empat sembilan sekarang, dan bilangan perniagaan yang memenuhi standard juga telah meningkat daripada lapan sebelum kepada 24 sekarang.

Perniagaan berkembang dengan pesat, bolehkah pembinaan kebolehgunaan menjadi begitu stabil?

Mencapai hasil kebolehgunaan ini terutamanya melalui pembinaan keupayaan kebolehgunaan dan pembinaan fasa kebolehgunaan:

  • Pembinaan keupayaan kebolehsediaan: pencegahan kerosakan, penemuan kerosakan, penawar kerosakan, semakan kerosakan
  • Pembinaan fasa ketersediaan: penyeragaman, proses/pestandardisasi, platform/automasi

Perniagaan berkembang dengan pesat, bolehkah pembinaan kebolehgunaan menjadi begitu stabil?

Pada masa hadapan, kami akan menumpukan pada pelbagai aktiviti luar tapak, kontena/ awan asli Ketersediaan dijamin.

Perniagaan berkembang dengan pesat, bolehkah pembinaan kebolehgunaan menjadi begitu stabil?

Ambil jaminan ketersediaan kontena dan asli awan sebagai contoh ialah mesin fizikal tulen Kemudian, mesin maya telah ditambah, dan kemudian awan awam telah ditambah, yang mengurangkan lagi pergantungan langsung pada infrastruktur asas Pada masa yang sama, kami juga sedang mengusahakan kontena dan asli awan untuk menyatukan sumber dan secara fleksibel menjadualkannya untuk mengurangkan keperluan sumber pergantungan langsung pada sumber perkakasan fizikal, jadi kami perlu membina keupayaan ketersediaan tinggi untuk infrastruktur yang berbeza.

Apa lagi yang boleh dilakukan untuk membina kebolehgunaan?

Perniagaan berkembang dengan pesat, bolehkah pembinaan kebolehgunaan menjadi begitu stabil?

Saya secara peribadi berpendapat bahawa kita bukan sahaja mempertimbangkan ketersediaan, kualiti perniagaan dan kos operasi Ini adalah semua perkara yang perlu kita pertimbangkan Jaminan operasi dan penyelenggaraan perniagaan kemudiannya akan memasuki peringkat jaminan operasi yang diperhalusi.

S&J

S1: Apakah kesukaran terbesar yang dihadapi semasa pelaksanaan pembinaan kebolehgunaan?

A1: Perkara pertama ialah spesifikasi pembinaan keupayaan teknikal asas Jika spesifikasi ini tidak dipatuhi, ia akan membawa kepada ketidakpastian yang besar dalam keputusan ketersediaan perniagaan, jadi piawaian tertentu. mesti dirumuskan untuk pasukan, dan pada masa yang sama, mesti ada mekanisme bottom-keeping tertentu; permintaan yang berbeza pada peringkat yang berbeza, dan kestabilan adalah berbeza, ia akan menjejaskan perniagaan, reputasi dan pendapatan Selepas diiktiraf oleh pengurusan atasan, pembinaan kebolehgunaan akan lebih mudah untuk dipromosikan.

S2: Semasa pelaksanaan CMDB, sebagai tambahan kepada orang yang bertanggungjawab pembangunan, hos dan maklumat lain, apakah maklumat lain yang dikaitkan dalam proses sebenar? Sebagai contoh, adakah ia berkaitan dengan maklumat perisian tengah?

A2: Pada masa ini, kebanyakan sistem kami berasaskan CMDB Bukan sahaja sistem operasi dan penyelenggaraan, banyak sistem dibina berdasarkan CMDB, dan perkhidmatan perisian tengah juga akan disepadukan dengan CMDB. Pembinaan persatuan, seperti dubbo dalam perkhidmatan mikro, juga berdasarkan CMDB untuk penemuan perkhidmatan dan tadbir urus.

Pengenalan Pengajar

Zhou Jiali kini ialah pengarah operasi dan penyelenggaraan vivo, bertanggungjawab ke atas pengendalian dan penyelenggaraan perniagaan Internet vivo. Orang yang pernah bekerja di Baidu dan Tencent ini mempunyai pengalaman dalam operasi dan penyelenggaraan perniagaan luar talian seperti klien, pengantarabangsaan dan algoritma data besar. Selepas menyertai vivo, saya mengetuai pembinaan ketersediaan tinggi perniagaan dan meningkatkan ketersediaan perniagaan kepada tahap 99.99%.

Atas ialah kandungan terperinci Perniagaan berkembang dengan pesat, bolehkah pembinaan kebolehgunaan menjadi begitu stabil?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam