Rumah  >  Artikel  >  Operasi dan penyelenggaraan  >  Dari perspektif CTO: Cara membina keupayaan operasi dan penyelenggaraan/SRE

Dari perspektif CTO: Cara membina keupayaan operasi dan penyelenggaraan/SRE

WBOY
WBOYke hadapan
2023-06-09 12:37:08763semak imbas

Dari perspektif CTO: Cara membina keupayaan operasi dan penyelenggaraan/SRE


Baru-baru ini terdapat banyak artikel membincangkan isu sama ada untuk mengekalkan atau mengekalkan kedudukan operasi dan penyelenggaraan. Saya menjadi tuan rumah akaun awam SRETalk Saya juga telah menyiarkan pendapat ramai pengarah operasi dan penyelenggaraan Saya telah berkomunikasi secara peribadi dengan ramai orang dalam industri dan mempunyai beberapa pemikiran kecil saya telah merekodkannya untuk rujukan oleh CTO/CIO penyelenggaraan/SRE, jika anda fikir Jika anda keliru, saya juga mengesyorkan anda membaca artikel ini dengan teliti.


Saya rasa ini adalah pemikiran yang mendalam, ia mungkin membosankan, tetapi ia akan membantu untuk pemilihan kerjaya dan pembinaan pasukan. Artikel ini mengalu-alukan perbincangan yang berasas, tetapi tidak mengalu-alukan keangkuhan Di samping itu, banyak perkara yang tidak hitam dan putih Alangkah baiknya jika kandungan artikel itu dapat memberi inspirasi kepada anda dan membawa pemikiran baharu kepada CXOs' membuat keputusan.


Selain itu, temu bual pengarah operasi dan penyelenggaraan SRETalk akan diteruskan, dan lebih banyak pandangan berbeza akan terus dikeluarkan untuk rujukan anda, dan pandangan saya juga tidak semestinya betul untuk rujukan sahaja.

Mengenai tajuk

Pertama sekali, mari kita bercakap tentang tajuk, "Cara membina keupayaan operasi dan penyelenggaraan/SRE". Di sini saya tidak menulis tentang membina pasukan , tetapi membina keupayaan, kerana beberapa matlamat mungkin tidak tercapai Anda mesti membina pasukan anda sendiri Dari perspektif kos, kebolehramalan hasil, dan pelaburan dan penyelenggaraan jangka panjang, anda perlu membuat keputusan yang teliti keputusan, masa depan akan menjadi kucar-kacir Ini akan dibincangkan kemudian.

Mengenai pasukan operasi dan penyelenggaraan/SRE

Perkara lain harus dijelaskan terlebih dahulu Pasukan operasi dan penyelenggaraan/SRE yang disebut dalam artikel semuanya berkhidmat untuk perniagaan, dan kejayaan perniagaan adalah keutamaan pertama. Beberapa pasukan operasi dan penyelenggaraan telah membuat beberapa produk dan mengeksportnya untuk pengkomersialan luar, yang telah menjadi perniagaan itu sendiri Selain itu, berdasarkan pengalaman saya di majikan lama saya, pendekatan operasi dan penyelenggaraan/SRE output pengkomersilan ) tidak digalakkan, terutamanya dalam syarikat yang tidak mempunyai gen ToB dan tidak mempunyai pembinaan organisasi ToB yang sepadan.

Di mana untuk mendapatkan keupayaan operasi dan penyelenggaraan/SRE

Memandangkan segala-galanya adalah untuk kejayaan perniagaan (tidak kira perniagaan, hanya sama ada anda boleh dinaikkan pangkat atau sama ada anda boleh menipu bos anda adalah perkara lain), kami akan Fokus adalah pada keupayaan operasi dan penyelenggaraan yang diperlukan oleh perniagaan (diterangkan secara terperinci kemudian) dan di mana keupayaan operasi dan penyelenggaraan ini perlu diperolehi Terdapat tiga kaedah pemerolehan biasa.

Dari perspektif CTO: Cara membina keupayaan operasi dan penyelenggaraan/SRE

Pasukan binaan sendiri

Pertama ialah menyediakan keupayaan yang berkaitan melalui pasukan yang dibina sendiri Kaedah ini adalah yang paling biasa kepada semua orang. Pasukan binaan sendiri Yang boleh dihantar kepada perniagaan biasanya termasuk dua bahagian: produk + perkhidmatan. Mari kita bercakap tentang produk dahulu:

  • Jika keperluan produk adalah keperluan umum, kemungkinan besar produk tersebut adalah projek sumber terbuka yang boleh digunakan secara langsung. Adalah perlu untuk mempertimbangkan ketahanan projek sumber terbuka (sama ada pemaju projek sumber terbuka mempunyai sokongan pendapatan daripada syarikat komersial, kebanyakan projek sumber terbuka peribadi akan mati tanpa pendapatan), aktiviti (adakah projek itu tidak dikemas kini selama bertahun-tahun ? Adakah isu dan PR dibangkitkan? Biasanya pemprosesan dalam masa seminggu boleh dianggap sebagai aktif), kemakmuran ekologi (adakah ramai yang mengambil bahagian dalam sumbangan? Banyak syarikat menggunakannya?)
  • Adakah terbuka projek sumber memerlukan pembangunan sekunder? Jika kod pembangunan sekunder boleh digabungkan kembali ke batang utama, ini biasanya bermakna kod pembangunan sekunder adalah universal dan telah diiktiraf oleh pasukan projek sumber terbuka. Jika ia tidak boleh digabungkan kembali ke batang utama, penyelenggaraan seterusnya akan menyusahkan, terutamanya selepas perubahan bakat. Ia biasanya mungkin untuk membuat beberapa kod gam berdasarkan API projek sumber terbuka dan menyepadukannya dengan sistem dalaman Lagipun, kod sumber terbuka belum diubah suai, dan peningkatan seterusnya bagi projek sumber terbuka masih boleh disimpan. up.
  • Sudah tentu, terdapat juga pilihan untuk membangunkan diri sepenuhnya tanpa sumber terbuka (hanya gunakan beberapa perpustakaan lib sumber terbuka, dan bangunkan logik produk teras anda harus berhati-hati tentang perkara ini . Jika komuniti sumber terbuka tidak mempunyai produk yang berkaitan, anda hanya boleh membangunkannya sendiri Walau bagaimanapun, selepas penyelidikan sendiri, anda mesti mempertimbangkan isu penyelenggaraan jangka panjang Biasanya saya suka melakukan perkara dari 0 hingga 1. Kemudian , bila untung sikit dan tak dapat kenaikan pangkat dan kenaikan gaji, senang nak tukar. Bagi trek operasi dan penyelenggaraan, komuniti sumber terbuka mempunyai rangkaian produk yang mempesonakan, dan mungkin terdapat hanya segelintir produk yang memerlukan pembangunan diri, jadi fikir dua kali.

Yang kedua ialah perkhidmatan Perkhidmatan yang dipanggil di sini merujuk kepada pengalaman pakar yang dieksport ke bahagian perniagaan. Sebagai contoh, jika pasukan yang dibina sendiri membina produk pemantauan, pasukan ini perlu mengeluarkan amalan terbaik pemantauan kepada "pelanggan" dalaman syarikat Apabila masalah timbul dengan produk pemantauan, pasukan ini perlu menyelesaikannya dengan cepat. Malah, pasukan pertengahan dan belakang dalam syarikat perlu mempunyai semangat perkhidmatan yang kuat dan memahami amalan terbaik dalam industri jika tidak, mereka akan mudah diterajui oleh perniagaan dan pergi ke arah yang bertentangan dengan amalan terbaik dalam industri itu semua masalah.

Inti perkhidmatan bergantung pada orang (sudah tentu, adalah bagus jika anda boleh mengukuhkan amalan terbaik ke dalam produk, sebagai pengurus, jika anda mahu pasukan ini memberikan perkhidmatan yang baik, anda perlu mempertimbangkan ramai orang Soalan, seperti). sebagai: sama ada ia boleh merekrut bakat yang relevan, sama ada ia boleh mengekalkan bakat yang berkaitan (ruang pembangunan, gaji, dll.), sekurang-kurangnya dua orang dalam setiap arah pasukan yang dibina sendiri boleh saling melengkapi, dan sama ada kos itu mampu dibayar .

Pembekal pihak ketiga

Mendapatkan keupayaan operasi dan penyelenggaraan melalui pembekal pihak ketiga adalah satu lagi cara penghantaran pembekal jelas termasuk dua bahagian: produk + perkhidmatan. Produk terbahagi kepada dua jenis: sumber terbuka dan sumber tertutup Apakah pertimbangannya?

  • Produk sumber terbuka biasanya mempunyai lebih ramai pengguna dan lebih banyak senario untuk digilap, tetapi beberapa keperluan long-tail biasanya bukan sumber terbuka Atas sebabnya, sama ada pasukan sumber terbuka Sebagai item yang boleh dikenakan bayaran pasukan sumber terbuka merasakan bahawa keperluan ekor panjang ini tidak cukup umum dan tidak berbaloi untuk dimasukkan ke dalam produk.
  • Produk sumber tertutup biasanya mempunyai khalayak yang kecil Tidak ramai pengguna sumber terbuka untuk membantu menggilap produk, jadi mereka perlu digilap oleh pelanggan komersial dalam tempoh yang lama, atau pembekal sumber tertutup. produk mempunyai kualiti yang sangat kuat, ujian lengkap produk, ini memerlukan mencari pembekal dengan perniagaan besar Selain itu, penguji dan pengguna akhir adalah dua kumpulan orang, dan penggilap oleh pelanggan komersil adalah amat diperlukan saudagar mempunyai pasukan jaminan kualiti yang kuat, yang akan menjadikan proses penggilapan lebih pendek.
  • Sama ada sumber terbuka atau sumber tertutup, pembekal datang dengan produk Sebagai Pihak A, anda boleh terus mengujinya untuk melihat cara produk sepadan dan mendapatkan maklum balas dengan cepat , Ia mungkin mengambil masa beberapa bulan atau bahkan satu atau dua tahun untuk berkembang, dan perniagaan mungkin tidak mampu untuk menunggu sama ada produk itu benar-benar memenuhi jangkaan selepas pembangunan ditentukan oleh banyak faktor, dan hasilnya tidak dapat diramalkan.

Yang kedua ialah perkhidmatan Pembekal biasanya mempunyai kelebihan berbanding pasukan yang dibina sendiri. Sebabnya adalah seperti berikut:

  • Oleh kerana pembekal telah melihat lebih banyak senario pelanggan, dan syarikat ToB, pengumpulan jangka panjang Pengetahuan Industri, adalah daya saing teras syarikat ini, dan pembekal akan berterusan untuk belajar daripada kecemerlangan. Pelajari pengalaman daripada pelanggan dan suapkan kembali kepada pelanggan yang kurang maju, mewujudkan kitaran murni dan situasi menang-menang untuk semua pihak.
  • Ia juga kerana pembekal telah melihat lebih banyak senario dan boleh mengabstrakkan produk dengan lebih baik, menjadikan produk lebih serba boleh dan lebih seperti produk. Produk yang dibuat oleh pasukan yang dibina sendiri biasanya lebih berorientasikan alat dimaksudkan, maksud saya biasanya.
  • Sebab pembekal memulakan perniagaan dalam bidang operasi dan penyelenggaraan berkemungkinan besar kerana mereka telah mencapai beberapa pencapaian dalam bidang ini Berbanding dengan pasukan yang dibina sendiri, pembekal biasanya mempunyai pengetahuan peringkat atasan yang lebih baik benar-benar pergi Apabila anda merekrut orang, anda akan mendapati bahawa orang yang paling berbakat sama ada telah memulakan perniagaan, terlalu mahal, atau tidak mahu datang.

Selain itu, mari kita bincangkan tentang isu kos kemungkinan besar lebih menjimatkan kos daripada merekrut orang sendiri (dengan syarat orang yang tepat diambil). tahan. Prinsip ini jelas dan tidak akan diulang lagi.

Mendapatkan keupayaan operasi dan penyelenggaraan daripada pembekal pihak ketiga nampaknya memberangsangkan untuk pasukan yang dibina sendiri, jadi adakah anda masih perlu membaca artikel berikut? Sebenarnya, ini tidak selalu berlaku untuk keupayaan operasi dan penyelenggaraan tertentu, yang lebih penting ialah keupayaan produk atau keupayaan perkhidmatan Apa yang paling anda perlukan adalah keupayaan produk atau keupayaan perkhidmatan. Dalam perkara berikut, saya akan melihatnya dari sisi perniagaan Semua aspek keupayaan operasi dan penyelenggaraan dibongkar secara berasingan.

Apakah keupayaan sokongan teknikal yang diperlukan untuk perniagaan

Pengoperasian dan penyelenggaraan pada asasnya adalah sejenis keupayaan sokongan teknikal, yang hampir sama dengan pasukan infrastruktur pasukan operasi dan penyelenggaraan, tetapi mereka boleh dimasukkan ke dalam infrastruktur Masalah pasukan tidak besar, malah sesetengah syarikat secara langsung meletakkan orang sedemikian ke dalam pasukan R&D perniagaan Marilah kita mengabaikan isu pembahagian kerja buat masa ini, dan mula-mula selesaikan jenis keupayaan sokongan teknikal yang diperlukan oleh perniagaan.

Dari perspektif CTO: Cara membina keupayaan operasi dan penyelenggaraan/SRE

Gambar ini sebenarnya menerangkan masalah ini dengan baik sekali:

  • Persekitaran dan komponen asas yang boleh dipercayai: Untuk menjalankan program perniagaan, anda memerlukan rangkaian asas, perkakasan, sistem pengendalian, pangkalan data, perisian tengah, dll. Persekitaran dan komponen ini perlu stabil dan boleh dipercayai
  • Pantas dan perubahan selamat Keupayaan: Keupayaan untuk membuat perubahan pantas adalah mudah difahami oleh semua orang Sebagai pembangun, apabila anda menulis ciri atau membuat pembetulan pepijat, anda pasti mahu menyampaikannya dengan cepat, tetapi perubahan boleh menyebabkan kegagalan dengan mudah, perubahan perlu. untuk dikawal, dan keselamatan perlu dipastikan sebaik mungkin
  • Keupayaan jaminan kebolehpercayaan: Selepas perisian digunakan ke persekitaran pengeluaran, anda mungkin menghadapi pelbagai masalah Bagaimana untuk mengira risiko terlebih dahulu, bagaimana dengan cepat menemui masalah, mencari masalah, dan menghentikan kerugian dengan cepat, ini mungkin menjadi masalah di bahagian perniagaan Permintaan paling penting untuk bahagian operasi dan penyelenggaraan
  • Amalan terbaik: Perniagaan bergantung pada banyak keupayaan sokongan asas adakah keupayaan ini digunakan? Adakah ia amalan terbaik industri? Adakah ia amalan terbaik untuk kebanyakan operasi lain dalam syarikat? Pasukan sokongan asas diperlukan untuk memberi maklum balas kepada perniagaan

Bagaimana untuk mendapatkan setiap keupayaan

Bagaimanakah empat kebolehan yang disebutkan di atas perlu diperolehi? Sekarang mari kita memecahkannya dan memecahkannya dan membincangkannya.

Persekitaran dan komponen asas yang boleh dipercayai

Pertama sekali, mari kita bincangkan tentang persekitaran perkakasan asas Jelas sekali terdapat dua pilihan, awan atau binaan sendiri itu sendiri, tidak ada cara. Polisi akan diguna pakai. Jika anda boleh memilih sendiri, dalam era ini, kemungkinan besar adalah lebih sesuai untuk pergi ke awan Melainkan syarikat itu sangat besar dan mempunyai banyak mesin, membinanya sendiri mungkin mempunyai kelebihan. Ambil perhatian bahawa apa yang saya katakan di sini hanya mungkin Semasa mengira kos, ingat untuk memasukkan kos buruh, bukan hanya kos perkakasan.

Mengenai pilihan kerjaya: Nampaknya ia bukan berita baik untuk jurutera operasi dan penyelenggaraan sistem serta jurutera operasi dan penyelenggaraan rangkaian Kemunculan awan sememangnya mengambil ruang bagi sesetengah orang kedudukan ini tidak ada jalan.

Bagi komponen, seperti MySQL, Redis, MongoDB, Kafka, ElasticSearch, Nginx, Kubernetes, dan lain-lain, jelas terdapat tiga pilihan, gunakan produk Cloud PaaS atau lakukan sendiri atau menghasilkan perkakasan anda sendiri +Pembekal menyediakan penyelesaian dan perkhidmatan. Untuk setiap pilihan, kami akan membuat semakan masing-masing:

    Produk Cloud PaaS: Jika skalanya kecil dan tiada simpanan bakat yang berkaitan, adalah lebih sesuai untuk menggunakan produk Cloud PaaS, yang boleh dengan cepat keupayaan pemindahan Semasa pembinaan, Pihak A yang memilih untuk menggunakan produk PaaS pada awan biasanya sudah menggunakan mesin maya dan persekitaran masa jalan seperti Kubernetes pada awan, pembelian produk PaaS juga agak lancar dan tidak memerlukan pembekal baharu .
  • Lakukan sendiri: Jika komponen tertentu sangat besar, mungkin perlu membinanya sendiri, seperti Kafka, mengupah 2 orang, satu master dan satu sandaran , dan anda boleh yakin tentang segala-galanya jika berlaku masalah, kos tahunan di Beijing adalah kira-kira 1 juta. Berapa besar skala untuk menjimatkan wang ini daripada perkakasan dan komponen. Sudah tentu, anda juga boleh merekrut beberapa jurutera operasi dan penyelenggaraan kos rendah (
  • penekanan, jurutera operasi dan penyelenggaraan mungkin diperlukan di sini, tetapi pangkatnya tidak tinggi), siapa yang boleh menyelesaikan masalah harian dan penyelesaian masalah peringkat tinggi Tidak, untuk isu lanjutan anda boleh mendapatkan perkhidmatan pakar daripada pembekal luar.
  • Menghasilkan perkakasan anda sendiri + pembekal menyediakan penyelesaian dan perkhidmatan: Berbanding dengan produk PaaS vendor awan, pembekal pihak ketiga biasanya lebih menjimatkan kos dan lebih pantas sebagai tindak balas, tetapi dengan begitu banyak komponen, setiap pembekal mempunyai kebarangkalian tinggi Kami hanya boleh mengendalikan bilangan model yang terhad Sebagai Pihak A, anda mungkin perlu berurusan dengan beberapa pembekal pada masa yang sama, yang agak menyusahkan. Untuk produk yang memerlukan kerjasama merentas awan, seperti pemantauan bersatu, lokasi kerosakan dan produk berkaitan FinOps, jika syarikat menggunakan berbilang awan atau seni bina awan hibrid, terdapat kemungkinan besar pembekal pihak ketiga lebih sesuai.

Mengenai pilihan kerjaya: Bagi veteran berpengalaman dalam pelbagai komponen, pilihan pertama ialah bekerja untuk vendor awan atau memulakan perniagaan untuk mendapatkan pengalaman, dan pilihan kedua adalah untuk pergi ke pengilang besar yang membina komponennya sendiri Secara amnya, Sukar untuk kilang kecil dan sederhana untuk mempunyai gaji tinggi Lagipun, perkhidmatan pakar pihak ketiga sangat menjimatkan.

Keupayaan untuk membuat perubahan yang cepat dan selamat

Perubahan yang paling biasa dibuat dalam penyelidikan dan pembangunan perniagaan ialah perubahan binari dan konfigurasi, dan sudah tentu, terdapat juga perubahan kepada persekitaran dan komponen asas.

Mari kita bincangkan tentang perubahan binari dan konfigurasi terlebih dahulu. Ia boleh dilakukan secara berperingkat Apabila syarikat masih agak kecil, anda tidak perlu memberi perhatian terlalu banyak kepada pembinaan alat Anda hanya perlu menetapkan spesifikasi dan proses. Aspek standard seperti: akaun mana yang digunakan di bawah, direktori mana, cara meletakkan log, cara mengehoskan proses, sebarang perubahan mesti boleh digulung, dsb. Aspek proses seperti: mekanisme pemberitahuan perubahan, mekanisme dalam talian kolaboratif berbilang modul dan non-rollback Perlu ada mekanisme kelulusan dan sebagainya.

Kemudian, anda perlu mempunyai data kuantitatif tentang perubahan sejarah, seperti berapa banyak perubahan yang dilakukan oleh pasukan tertentu pada suku terakhir, apakah kadar pemulangan semula dan apakah kadar kegagalan setiap pasukan perbandingan, dan pasukan yang tidak menunjukkan prestasi yang baik ialah Ia akan ditambah baik pada suku seterusnya.

Apabila syarikat terus berkembang, ia boleh melabur tenaga manusia untuk membina platform perubahan, melaksanakan sistem piawai pada platform, dan menghasilkan data kuantitatif, kerana syarikat yang berbeza mempunyai situasi yang berbeza Dalam era mesin fizikal tradisional dan mesin maya. ia adalah sangat sukar untuk Ia jarang melihat sistem perubahan komersial. Sudah tentu, selepas kebangkitan Kubernetes, banyak perbezaan asas telah dilindungi Platform untuk membuat perubahan berdasarkan Kubernetes telah menjadi lebih serba boleh, dan produk berkaitan telah mula keluar.

Perubahan kepada persekitaran pengeluaran tidak sama dengan perubahan kepada persekitaran ujian dan persekitaran penyahpepijatan bersama Persekitaran pengeluaran mempunyai keperluan kestabilan yang lebih ketat, manakala persekitaran ujian dan persekitaran penyahpepijatan bersama mempunyai keperluan yang agak rendah. Apa yang dipanggil sistem CI/CD kebanyakannya direka untuk persekitaran ujian dan persekitaran penyahpepijatan bersama Terdapat hanya segelintir syarikat yang boleh melaksanakan CD untuk persekitaran pengeluaran.

Fokus: sistem CI/CD untuk ujian dan persekitaran penyahpepijatan bersama lebih kepada mempercepatkan kecekapan R&D; Syarikat itu kecil pada peringkat awal, jadi cukup bergantung pada peraturan dan peraturan Kemudian, ia memerlukan peraturan dan peraturan + menukar platform untuk bekerjasama.

Siapakah yang akan menentukan sistem kawal selia ini? Siapa yang akan membangunkan platform perubahan?

Perumusan spesifikasi sebenarnya di peringkat awal Spesifikasi mungkin sudah ada sebelum pasukan operasi dan penyelenggaraan itu wujud, kemungkinan besar CTO dan Teras bawahan pasukan akan merumuskannya. Jika ia belum dirumuskan sebelum ini, pengarah operasi dan penyelenggaraan (Pengarah operasi dan penyelenggaraan muncul di atas pentas) boleh memimpin dalam merumuskannya, dan pasukan Teras di bawah CTO akan menyemaknya (semua orang ada penyertaan), dan akhirnya CTO akan membuat keputusan Terbitkan (atas-bawah) dan semua orang melaksanakannya.

Adalah lebih sesuai untuk pembangunan platform perubahan dibangunkan oleh pasukan operasi dan penyelenggaraan Kemudian, kami akan memperkenalkan beberapa platform lain dan menubuhkan pasukan operasi dan penyelenggaraan yang berdedikasi (tiada perbezaan antara operasi dan penyelenggaraan yang saya bicarakan di sini dan SRE Anda juga boleh memanggil pasukan ini sebagai pasukan SRE) adalah sesuai. Menukar platform memerlukan pelaksanaan spesifikasi syarikat, jadi terdapat sedikit kes penyumberan luar Selepas syarikat mencapai skala tertentu, penyelidikan sendiri dan pengumpulan berdasarkan perkara sumber terbuka adalah pilihan kebarangkalian yang tinggi.

Mengenai pemilihan kerjaya: Pengurusan perubahan adalah bahagian penting dalam perusahaan dan juga menyediakan sistem kestabilan. Ini adalah kedudukan DevOps biasa, dan siling mungkin pada tahap P7+ (semata-mata pendapat peribadi, untuk rujukan sahaja).

Yang lain ialah perubahan komponen asas dan persekitaran, biasanya seperti struktur jadual MySQL, konfigurasi Nginx, DNS, VIP, dll. Perubahan tersebut boleh dihayati ke dalam pengurusan dan kawalan komponen platform, membenarkan Pembekal keupayaan komponen menyediakan kemasukan perubahan dan keupayaan kawalan.

Keupayaan jaminan kebolehpercayaan

Keupayaan ini sangat penting SRE ialah singkatan Kejuruteraan Kebolehpercayaan Tapak, iaitu kejuruteraan kebolehpercayaan tapak. Dari perspektif CTO, apabila perisian digunakan untuk persekitaran pengeluaran, pelbagai masalah mungkin berlaku pada masa hadapan. Kami berharap untuk mempunyai sistem kejuruteraan untuk memastikan kebolehpercayaan. Ini adalah topik yang besar, dan artikel ini tidak akan diperincikan, hanya menjelaskan apa itu dan siapa yang bertanggungjawab untuknya.

Apa yang dipanggil kebolehpercayaan ialah proses melawan kegagalan Oleh itu, kita masih melihat kitaran hayat kegagalan, bermula dari setiap pautan kitaran hayat, untuk mengalahkan kegagalan, atau bahkan membunuhnya secara langsung. Dalam buaian.

Dari perspektif CTO: Cara membina keupayaan operasi dan penyelenggaraan/SRE

Sebelum kegagalan berlaku,

Terdapat banyak kerja yang perlu dilakukan dalam pencegahan dan risiko mengawal terlebih dahulu. Sebagai contoh: merumuskan piawaian kesempurnaan penggera dan membuat penilaian kuantitatif bagi setiap barisan perniagaan dan merumuskan prinsip dan proses penentududukan serta piawaian untuk penggredan kesalahan dan tanggungjawab menyelesaikan surat-menyurat antara fungsi teras dan modul perkhidmatan setiap perniagaan, dan wujudkan pandangan kestabilan global atau Bilik perang digunakan untuk mengenal pasti modul atau antara muka yang rosak dengan cepat;

Terdapat beberapa perkara di sini yang memerlukan R&D perniagaan untuk diselesaikan, seperti pengoptimuman seni bina, cadangan saya ialah: Biar pasukan operasi dan penyelenggaraan memimpin dan R&D bekerjasama. Sebagai contoh, pasukan Teras di bawah CTO berkemungkinan besar akan mempunyai kedua-dua kedudukan operasi dan penyelenggaraan dan kedudukan teknikal untuk setiap perniagaan Atas nama, CTO akan membuat keputusan dan membenarkan kedudukan operasi dan penyelenggaraan untuk menerajui, dan Kedudukan R&D untuk setiap perniagaan akan bekerjasama Sudah tentu, apabila ia melibatkan operasi sebenar, kedudukan operasi dan penyelenggaraan No. 1 mungkin mencari orang yang berkebolehan untuk melakukan operasi sebenar pada masa hadapan, dan setiap barisan perniagaan juga mungkin mempunyai orang yang bergantung. pada kedudukan teknikal No. 1 untuk menyediakan sokongan antara muka.

Kecuali untuk pengoptimuman seni bina, perkara-perkara lain ini semuanya mendatar mungkin terdapat beberapa metodologi dan amalan terbaik untuk menyatukan semua orang dan membantu berkongsi metodologi dan amalan terbaik ini. Sudah tentu, sesetengah orang akan mempunyai soalan: Bolehkah kita terus mencari seseorang daripada pasukan R&D untuk membentuk organisasi maya yang stabil dan bersama-sama mempromosikan perkara ini? Malah, anda boleh mencubanya. Tetapi terdapat sedikit masalah:

  • Setiap baris perniagaan biasanya hanya mempunyai satu atau dua orang antara muka Dengan lebih sedikit orang dan lebih banyak kerja, orang ini kemungkinan besar akan mengalami kesukaran mengimbangi pembangunan kod perniagaan dan kerja kestabilan sebenarnya akan agak Untuk SRE
  • Jika SRE, sistem penilaian sebenarnya berbeza daripada kakitangan R&D perniagaan Bagaimana untuk menentukan KPI? Dan orang ini mungkin tidak mempunyai semangat kekitaan yang baik
  • Jika orang ini menjaga dua perkara pada masa yang sama: kestabilan dan penyelidikan dan pembangunan perniagaan, ia mungkin menyebabkan inersia orang ramai Apabila kerja kestabilan menghadapi masalah, mereka secara semula jadi Mereka akan mahu melakukan beberapa kerja penyelidikan dan pembangunan perniagaan Apabila penyelidikan dan pembangunan perniagaan menghadapi masalah, mereka akan mahu menjadi malas dan melakukan kerja yang stabil

Fokus pada: pencegahan dan risiko lebih awal Untuk kawalan, sila CXO bertanya kepada pengarah operasi dan penyelenggaraan untuk keputusan, tetapi anda mesti memberikan kerjasama yang hebat dan menolaknya dari atas ke bawah. Untuk peranan jurutera SRE untuk menyelesaikan masalah ini, nampaknya seorang yang sangat profesional tahap tinggi diperlukan Terdapat kebarangkalian tinggi bahawa kemahiran kognitif tidak dapat bersaing dalam tempoh 5 tahun, merekrut SRE daripada pasukan R&D kanan adalah pilihan yang baik. CXO boleh Cuba.

Kurangkan impak selepas kegagalan bermula

Sebaik sahaja kegagalan berlaku, matlamat utama kita adalah untuk mengurangkan kesan. Pasukan yang berkaitan segera bekerjasama untuk mencari punca langsung dengan cepat, menghentikan kerugian dengan cepat, dan kemudian perlahan-lahan menyiasat puncanya selepas itu. Kandungan kerja berikut akan terlibat di sini:

  • Tentukan kesalahan: Biasanya, apabila terdapat masalah dengan penunjuk perniagaan, ini bermakna kesalahan telah bermula, seperti penurunan dalam jumlah pesanan, penurunan dalam volum panggilan telefon, penurunan dalam jumlah pembayaran, dan bos akan Memberi perhatian khusus kepada jenis penunjuk ini semasa lonjakan CPU mesin tertentu atau cakera penuh, ia mungkin hanya masalah yang dihadam secara dalaman oleh pasukan. Malah sistem seperti K8s secara automatik menyelesaikan drift, yang biasanya tidak memberi kesan kepada proses utama pelanggan, dan bos tidak memberi perhatian. Untuk tidak keliru, kita perlu membezakan definisi kesalahan dan masalah.
  • Tindak balas terhadap kerosakan: Adakah penerima penggera kerosakan untuk penyelidikan dan pembangunan perniagaan? Atau SRE? Atau pusat OnCall? Syarikat yang berbeza mempunyai perbezaan besar dalam amalan mereka. Idea peribadi saya ialah: hantar terus kepada mereka yang mampu mengendalikannya. Tiada penggera hitam dan putih yang berbeza mempunyai mekanisme pengendalian yang berbeza. Contohnya, jika terdapat masalah dengan rangkaian asas, ia akan dihantar kepada jurutera rangkaian dihantar ke operasi dan penyelenggaraan yang sepadan dan R&D Cuba untuk tidak memindahkannya lagi di tengah , hantar ke Zhang San Jika Zhang San tidak dapat menanganinya dan hubungi Li Si, ia akan membuang masa dilakukan terhadap masa.
  • Lokasi pantas: Sistem lokasi kerosakan yang berkesan adalah pembunuh. Sistem lokasi kerosakan biasanya dibina berdasarkan data pemerhatian dan boleh dianggap sebagai produk peringkat kokpit. Data kebolehmerhatian adalah besar Tanpa pengisihan dan penggunaan, data besar ini tidak boleh ditukar menjadi maklumat yang berharga. Dari perspektif penentududukan, apa yang biasanya diperlukan ialah: sistem pemerhatian + lokasi kerosakan + operasi berterusan Terdapat terlalu banyak kandungan untuk dikembangkan di sini. Jika anda ingin membincangkan secara terperinci, anda boleh menghubungi saya. Tidak tahu bagaimana untuk menghubungi saya? Akaun rasmi SRETalk, ketahui lebih lanjut.
  • Stop loss cepat: Untuk menghentikan kerugian dengan cepat, anda mesti mempunyai pelan yang lengkap Apabila menyemak setiap kegagalan, adalah disyorkan bahawa CTO dan pengarah operasi dan penyelenggaraan memberi perhatian kepada kecekapan pelan, iaitu. , sama ada kegagalan disebabkan oleh menggunakan Pelan sedia ada digunakan untuk menghentikan kerugian, atau penyelesaian disimpan. Jika ia disimpan sekarang, ini bermakna rancangan anda tidak cukup lengkap.

OK, di atas penuh semangat, tetapi berbalik kepada persoalan, untuk kandungan kerja ini, siapa yang patut CTO minta keputusan? Cadangan saya ialah: Pasukan SRE (perkataan operasi dan penyelenggaraan dan SRE muncul berkali-kali dalam artikel ini, dan ia pada dasarnya bermaksud perkara yang sama dalam artikel ini. Operasi dan penyelenggaraan di sini bukan hanya Operasi). Jelas sekali SRE tidak boleh menyelesaikan semua kesalahan Harus dikatakan bahawa kebanyakan kesilapan harus bergantung pada orang dari pasukan lain, tetapi CTO tidak boleh selalu pergi ke pasukan A dan pasukan B. Oleh itu, SRE mesti membawa Pedang Shangfang CTO dan menerajui pembinaan kestabilan keseluruhan Setiap perniagaan memerlukan kerjasama terbaik daripada antara muka eksport Apa yang dipanggil pembinaan kestabilan termasuk kawalan risiko pencegahan terlebih dahulu dan perancangan dan penyelarasan keseluruhan semasa acara itu, semakan seterusnya dipromosikan, yang juga merupakan nilai terbesar SRE kepada syarikat.

Amalan Terbaik

Ini mengandungi banyak kandungan, seperti pakej model mana yang lebih sesuai, kaedah rangkaian apa yang lebih sesuai, dan syarikat komponen manakah yang mempunyai Kawalan yang lebih baik , bolehkah anda mendapatkan sokongan yang lebih baik (sama ada pasukan dalaman atau pembekal pihak ketiga), apakah bahasa pengaturcaraan dan rangka kerja yang disyorkan atau bahkan diperlukan oleh syarikat, dan apakah penyelesaian lapisan akses yang disyorkan oleh industri? Apakah rancangan perubahan? Bagaimana untuk melakukan pemerhatian? Tunggu, tunggu.

Memang tidak dapat dinafikan bahawa kaedah praktikal pasukan R&D perniagaan yang hebat ini difahami dengan baik, tetapi juga tidak dapat dinafikan bahawa selepas terdapat lebih banyak barisan perniagaan, tahap akan berbeza-beza antara pasukan yang baik dan buruk pasti memerlukan orang dengan peranan bimbingan, dan mereka tidak boleh sentiasa Pergi ke CTO untuk segala-galanya Sebagai pasukan teknikal mendatar, pasukan SRE amat sesuai untuk mengambil alih perkara ini. Tetapi jelas, ini adalah jawatan mewah yang tidak boleh diisi oleh pendatang baru Merekrut orang peringkat tinggi untuk menjalankan perniagaan BP adalah cara yang berkesan untuk menggalakkan penyatuan timbunan teknologi gunakan titik permulaan ini dengan baik, teknologi Sistem akan berkembang, tetapi di belakangnya akan terdapat pelbagai dilema tadbir urus.

Empat keupayaan sokongan di atas, bagaimana pihak perniagaan harus memperolehnya, bagaimana CTO harus menyelaras, bagaimana pelbagai pasukan harus bekerjasama, itu sahaja. Mari kita buat dua lagi ringkasan di bawah.

Ringkasan 1: Bagaimanakah CTO boleh membantu barisan perniagaan memperoleh keupayaan sokongan ini?

Jelas sekali, CTO tidak perlu melakukannya secara peribadi, tetapi CTO mesti melakukan tugas dengan baik untuk memeriksa perkara itu. CTO mesti mengeluarkan polisi dan menjadi ketua komander seluruh tentera. Kerja mendatar diserahkan kepada pasukan SRE, dan kakitangan antara muka setiap pasukan bekerja keras untuk bekerjasama. Ini kemungkinan besar merupakan amalan terbaik. Jika matlamat kerja mendatar tersebar sepenuhnya ke dalam gelung tertutup sendiri pasukan perniagaan, anda tidak akan dapat menikmati keupayaan penyebaran pengalaman yang dibawa oleh pasukan mendatar. Lebih-lebih lagi, punggung menentukan kepala, dan jika anda tidak berada dalam kedudukan yang betul, anda tidak akan dapat melakukan apa yang anda mahu Setiap perniagaan cenderung untuk mempunyai sendiri sembilan puluh sembilan organisasi mendatar juga mekanisme untuk mengurangkan pengikut Maaf menggunakan perkataan ini terlalu kuat, niatnya baik, anda perlu mengalaminya sendiri.

Satu lagi perkara untuk ditambah mengenai topik FinOps ialah FinOps juga merupakan keupayaan mendatar Adakah ia juga harus diserahkan kepada SRE? Ini tidak semestinya berlaku. Saya fikir adalah baik untuk membiarkan perniagaan menutup gelung Perniagaan itu sendiri bertanggungjawab untuk keuntungan dan kerugian perbelanjaan IT. GM perniagaan harus sangat mengambil berat tentangnya kepada GM perniagaan Perniagaan GM boleh Gelung penutupan sendiri adalah satu kompromi.

Ringkasan 2: Cadangan pemilihan kerjaya dalam operasi dan penyelenggaraan/SRE

Jika anda tidak mempunyai jangkaan tahap dan gaji yang terlalu tinggi, tidak mengapa untuk melakukan beberapa kerja operasi yang agak asas di sana adalah kebarangkalian tinggi bahawa jawatan ini tidak akan tersedia dalam 10 tahun. Jika anda mempunyai jangkaan yang lebih tinggi untuk pangkat dan gaji, ini adalah jalan yang berkesan untuk mendalami bidang tertentu dan menjadi pakar industri. Selepas itu, ia akan menumpukan pada penyepaduan pelbagai arah teknikal dan berkembang secara meluas. Selepas itu, mulakan perniagaan atau jadi eksekutif kanan.

Pengarang artikel ini

Qin Xiaohui, R&D keusahawanan Open-Falcon and Nightingale, pengarang "​​Nota Praktikal Sistem Pemantauan Operasi dan Penyelenggaraan​ Geek Time "", akaun awam Pengurus SRETalk dan rakan keusahawanan Kuaimao Nebula. Hala tuju keusahawanan adalah untuk memastikan kestabilan. Jika anda mempunyai sebarang keperluan, sila hubungi saya untuk komunikasi​.

Atas ialah kandungan terperinci Dari perspektif CTO: Cara membina keupayaan operasi dan penyelenggaraan/SRE. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam