Rumah > Artikel > Operasi dan penyelenggaraan > Dari perspektif CTO: Cara membina keupayaan operasi dan penyelenggaraan/SRE
Baru-baru ini terdapat banyak artikel membincangkan isu sama ada untuk mengekalkan atau mengekalkan kedudukan operasi dan penyelenggaraan. Saya menjadi tuan rumah akaun awam SRETalk Saya juga telah menyiarkan pendapat ramai pengarah operasi dan penyelenggaraan Saya telah berkomunikasi secara peribadi dengan ramai orang dalam industri dan mempunyai beberapa pemikiran kecil saya telah merekodkannya untuk rujukan oleh CTO/CIO penyelenggaraan/SRE, jika anda fikir Jika anda keliru, saya juga mengesyorkan anda membaca artikel ini dengan teliti.
Saya rasa ini adalah pemikiran yang mendalam, ia mungkin membosankan, tetapi ia akan membantu untuk pemilihan kerjaya dan pembinaan pasukan. Artikel ini mengalu-alukan perbincangan yang berasas, tetapi tidak mengalu-alukan keangkuhan Di samping itu, banyak perkara yang tidak hitam dan putih Alangkah baiknya jika kandungan artikel itu dapat memberi inspirasi kepada anda dan membawa pemikiran baharu kepada CXOs' membuat keputusan.
Selain itu, temu bual pengarah operasi dan penyelenggaraan SRETalk akan diteruskan, dan lebih banyak pandangan berbeza akan terus dikeluarkan untuk rujukan anda, dan pandangan saya juga tidak semestinya betul untuk rujukan sahaja.
Pertama sekali, mari kita bercakap tentang tajuk, "Cara membina keupayaan operasi dan penyelenggaraan/SRE". Di sini saya tidak menulis tentang membina pasukan , tetapi membina keupayaan, kerana beberapa matlamat mungkin tidak tercapai Anda mesti membina pasukan anda sendiri Dari perspektif kos, kebolehramalan hasil, dan pelaburan dan penyelenggaraan jangka panjang, anda perlu membuat keputusan yang teliti keputusan, masa depan akan menjadi kucar-kacir Ini akan dibincangkan kemudian.
Perkara lain harus dijelaskan terlebih dahulu Pasukan operasi dan penyelenggaraan/SRE yang disebut dalam artikel semuanya berkhidmat untuk perniagaan, dan kejayaan perniagaan adalah keutamaan pertama. Beberapa pasukan operasi dan penyelenggaraan telah membuat beberapa produk dan mengeksportnya untuk pengkomersialan luar, yang telah menjadi perniagaan itu sendiri Selain itu, berdasarkan pengalaman saya di majikan lama saya, pendekatan operasi dan penyelenggaraan/SRE output pengkomersilan ) tidak digalakkan, terutamanya dalam syarikat yang tidak mempunyai gen ToB dan tidak mempunyai pembinaan organisasi ToB yang sepadan.
Memandangkan segala-galanya adalah untuk kejayaan perniagaan (tidak kira perniagaan, hanya sama ada anda boleh dinaikkan pangkat atau sama ada anda boleh menipu bos anda adalah perkara lain), kami akan Fokus adalah pada keupayaan operasi dan penyelenggaraan yang diperlukan oleh perniagaan (diterangkan secara terperinci kemudian) dan di mana keupayaan operasi dan penyelenggaraan ini perlu diperolehi Terdapat tiga kaedah pemerolehan biasa.
Pertama ialah menyediakan keupayaan yang berkaitan melalui pasukan yang dibina sendiri Kaedah ini adalah yang paling biasa kepada semua orang. Pasukan binaan sendiri Yang boleh dihantar kepada perniagaan biasanya termasuk dua bahagian: produk + perkhidmatan. Mari kita bercakap tentang produk dahulu:
Yang kedua ialah perkhidmatan Perkhidmatan yang dipanggil di sini merujuk kepada pengalaman pakar yang dieksport ke bahagian perniagaan. Sebagai contoh, jika pasukan yang dibina sendiri membina produk pemantauan, pasukan ini perlu mengeluarkan amalan terbaik pemantauan kepada "pelanggan" dalaman syarikat Apabila masalah timbul dengan produk pemantauan, pasukan ini perlu menyelesaikannya dengan cepat. Malah, pasukan pertengahan dan belakang dalam syarikat perlu mempunyai semangat perkhidmatan yang kuat dan memahami amalan terbaik dalam industri jika tidak, mereka akan mudah diterajui oleh perniagaan dan pergi ke arah yang bertentangan dengan amalan terbaik dalam industri itu semua masalah.
Inti perkhidmatan bergantung pada orang (sudah tentu, adalah bagus jika anda boleh mengukuhkan amalan terbaik ke dalam produk, sebagai pengurus, jika anda mahu pasukan ini memberikan perkhidmatan yang baik, anda perlu mempertimbangkan ramai orang Soalan, seperti). sebagai: sama ada ia boleh merekrut bakat yang relevan, sama ada ia boleh mengekalkan bakat yang berkaitan (ruang pembangunan, gaji, dll.), sekurang-kurangnya dua orang dalam setiap arah pasukan yang dibina sendiri boleh saling melengkapi, dan sama ada kos itu mampu dibayar .
Mendapatkan keupayaan operasi dan penyelenggaraan melalui pembekal pihak ketiga adalah satu lagi cara penghantaran pembekal jelas termasuk dua bahagian: produk + perkhidmatan. Produk terbahagi kepada dua jenis: sumber terbuka dan sumber tertutup Apakah pertimbangannya?
Yang kedua ialah perkhidmatan Pembekal biasanya mempunyai kelebihan berbanding pasukan yang dibina sendiri. Sebabnya adalah seperti berikut:
Selain itu, mari kita bincangkan tentang isu kos kemungkinan besar lebih menjimatkan kos daripada merekrut orang sendiri (dengan syarat orang yang tepat diambil). tahan. Prinsip ini jelas dan tidak akan diulang lagi.
Mendapatkan keupayaan operasi dan penyelenggaraan daripada pembekal pihak ketiga nampaknya memberangsangkan untuk pasukan yang dibina sendiri, jadi adakah anda masih perlu membaca artikel berikut? Sebenarnya, ini tidak selalu berlaku untuk keupayaan operasi dan penyelenggaraan tertentu, yang lebih penting ialah keupayaan produk atau keupayaan perkhidmatan Apa yang paling anda perlukan adalah keupayaan produk atau keupayaan perkhidmatan. Dalam perkara berikut, saya akan melihatnya dari sisi perniagaan Semua aspek keupayaan operasi dan penyelenggaraan dibongkar secara berasingan.
Pengoperasian dan penyelenggaraan pada asasnya adalah sejenis keupayaan sokongan teknikal, yang hampir sama dengan pasukan infrastruktur pasukan operasi dan penyelenggaraan, tetapi mereka boleh dimasukkan ke dalam infrastruktur Masalah pasukan tidak besar, malah sesetengah syarikat secara langsung meletakkan orang sedemikian ke dalam pasukan R&D perniagaan Marilah kita mengabaikan isu pembahagian kerja buat masa ini, dan mula-mula selesaikan jenis keupayaan sokongan teknikal yang diperlukan oleh perniagaan.
Gambar ini sebenarnya menerangkan masalah ini dengan baik sekali:
Bagaimanakah empat kebolehan yang disebutkan di atas perlu diperolehi? Sekarang mari kita memecahkannya dan memecahkannya dan membincangkannya.
Pertama sekali, mari kita bincangkan tentang persekitaran perkakasan asas Jelas sekali terdapat dua pilihan, awan atau binaan sendiri itu sendiri, tidak ada cara. Polisi akan diguna pakai. Jika anda boleh memilih sendiri, dalam era ini, kemungkinan besar adalah lebih sesuai untuk pergi ke awan Melainkan syarikat itu sangat besar dan mempunyai banyak mesin, membinanya sendiri mungkin mempunyai kelebihan. Ambil perhatian bahawa apa yang saya katakan di sini hanya mungkin Semasa mengira kos, ingat untuk memasukkan kos buruh, bukan hanya kos perkakasan.
Mengenai pilihan kerjaya: Nampaknya ia bukan berita baik untuk jurutera operasi dan penyelenggaraan sistem serta jurutera operasi dan penyelenggaraan rangkaian Kemunculan awan sememangnya mengambil ruang bagi sesetengah orang kedudukan ini tidak ada jalan.
Bagi komponen, seperti MySQL, Redis, MongoDB, Kafka, ElasticSearch, Nginx, Kubernetes, dan lain-lain, jelas terdapat tiga pilihan, gunakan produk Cloud PaaS atau lakukan sendiri atau menghasilkan perkakasan anda sendiri +Pembekal menyediakan penyelesaian dan perkhidmatan. Untuk setiap pilihan, kami akan membuat semakan masing-masing:Mengenai pilihan kerjaya: Bagi veteran berpengalaman dalam pelbagai komponen, pilihan pertama ialah bekerja untuk vendor awan atau memulakan perniagaan untuk mendapatkan pengalaman, dan pilihan kedua adalah untuk pergi ke pengilang besar yang membina komponennya sendiri Secara amnya, Sukar untuk kilang kecil dan sederhana untuk mempunyai gaji tinggi Lagipun, perkhidmatan pakar pihak ketiga sangat menjimatkan.
Keupayaan untuk membuat perubahan yang cepat dan selamatPerubahan yang paling biasa dibuat dalam penyelidikan dan pembangunan perniagaan ialah perubahan binari dan konfigurasi, dan sudah tentu, terdapat juga perubahan kepada persekitaran dan komponen asas. Mari kita bincangkan tentang perubahan binari dan konfigurasi terlebih dahulu. Ia boleh dilakukan secara berperingkat Apabila syarikat masih agak kecil, anda tidak perlu memberi perhatian terlalu banyak kepada pembinaan alat Anda hanya perlu menetapkan spesifikasi dan proses. Aspek standard seperti: akaun mana yang digunakan di bawah, direktori mana, cara meletakkan log, cara mengehoskan proses, sebarang perubahan mesti boleh digulung, dsb. Aspek proses seperti: mekanisme pemberitahuan perubahan, mekanisme dalam talian kolaboratif berbilang modul dan non-rollback Perlu ada mekanisme kelulusan dan sebagainya. Kemudian, anda perlu mempunyai data kuantitatif tentang perubahan sejarah, seperti berapa banyak perubahan yang dilakukan oleh pasukan tertentu pada suku terakhir, apakah kadar pemulangan semula dan apakah kadar kegagalan setiap pasukan perbandingan, dan pasukan yang tidak menunjukkan prestasi yang baik ialah Ia akan ditambah baik pada suku seterusnya.Apabila syarikat terus berkembang, ia boleh melabur tenaga manusia untuk membina platform perubahan, melaksanakan sistem piawai pada platform, dan menghasilkan data kuantitatif, kerana syarikat yang berbeza mempunyai situasi yang berbeza Dalam era mesin fizikal tradisional dan mesin maya. ia adalah sangat sukar untuk Ia jarang melihat sistem perubahan komersial. Sudah tentu, selepas kebangkitan Kubernetes, banyak perbezaan asas telah dilindungi Platform untuk membuat perubahan berdasarkan Kubernetes telah menjadi lebih serba boleh, dan produk berkaitan telah mula keluar.
Perubahan kepada persekitaran pengeluaran tidak sama dengan perubahan kepada persekitaran ujian dan persekitaran penyahpepijatan bersama Persekitaran pengeluaran mempunyai keperluan kestabilan yang lebih ketat, manakala persekitaran ujian dan persekitaran penyahpepijatan bersama mempunyai keperluan yang agak rendah. Apa yang dipanggil sistem CI/CD kebanyakannya direka untuk persekitaran ujian dan persekitaran penyahpepijatan bersama Terdapat hanya segelintir syarikat yang boleh melaksanakan CD untuk persekitaran pengeluaran.
Fokus: sistem CI/CD untuk ujian dan persekitaran penyahpepijatan bersama lebih kepada mempercepatkan kecekapan R&D; Syarikat itu kecil pada peringkat awal, jadi cukup bergantung pada peraturan dan peraturan Kemudian, ia memerlukan peraturan dan peraturan + menukar platform untuk bekerjasama.
Perumusan spesifikasi sebenarnya di peringkat awal Spesifikasi mungkin sudah ada sebelum pasukan operasi dan penyelenggaraan itu wujud, kemungkinan besar CTO dan Teras bawahan pasukan akan merumuskannya. Jika ia belum dirumuskan sebelum ini, pengarah operasi dan penyelenggaraan (Pengarah operasi dan penyelenggaraan muncul di atas pentas) boleh memimpin dalam merumuskannya, dan pasukan Teras di bawah CTO akan menyemaknya (semua orang ada penyertaan), dan akhirnya CTO akan membuat keputusan Terbitkan (atas-bawah) dan semua orang melaksanakannya.
Adalah lebih sesuai untuk pembangunan platform perubahan dibangunkan oleh pasukan operasi dan penyelenggaraan Kemudian, kami akan memperkenalkan beberapa platform lain dan menubuhkan pasukan operasi dan penyelenggaraan yang berdedikasi (tiada perbezaan antara operasi dan penyelenggaraan yang saya bicarakan di sini dan SRE Anda juga boleh memanggil pasukan ini sebagai pasukan SRE) adalah sesuai. Menukar platform memerlukan pelaksanaan spesifikasi syarikat, jadi terdapat sedikit kes penyumberan luar Selepas syarikat mencapai skala tertentu, penyelidikan sendiri dan pengumpulan berdasarkan perkara sumber terbuka adalah pilihan kebarangkalian yang tinggi.
Mengenai pemilihan kerjaya: Pengurusan perubahan adalah bahagian penting dalam perusahaan dan juga menyediakan sistem kestabilan. Ini adalah kedudukan DevOps biasa, dan siling mungkin pada tahap P7+ (semata-mata pendapat peribadi, untuk rujukan sahaja).
Yang lain ialah perubahan komponen asas dan persekitaran, biasanya seperti struktur jadual MySQL, konfigurasi Nginx, DNS, VIP, dll. Perubahan tersebut boleh dihayati ke dalam pengurusan dan kawalan komponen platform, membenarkan Pembekal keupayaan komponen menyediakan kemasukan perubahan dan keupayaan kawalan.
Keupayaan ini sangat penting SRE ialah singkatan Kejuruteraan Kebolehpercayaan Tapak, iaitu kejuruteraan kebolehpercayaan tapak. Dari perspektif CTO, apabila perisian digunakan untuk persekitaran pengeluaran, pelbagai masalah mungkin berlaku pada masa hadapan. Kami berharap untuk mempunyai sistem kejuruteraan untuk memastikan kebolehpercayaan. Ini adalah topik yang besar, dan artikel ini tidak akan diperincikan, hanya menjelaskan apa itu dan siapa yang bertanggungjawab untuknya.
Apa yang dipanggil kebolehpercayaan ialah proses melawan kegagalan Oleh itu, kita masih melihat kitaran hayat kegagalan, bermula dari setiap pautan kitaran hayat, untuk mengalahkan kegagalan, atau bahkan membunuhnya secara langsung. Dalam buaian.
Terdapat banyak kerja yang perlu dilakukan dalam pencegahan dan risiko mengawal terlebih dahulu. Sebagai contoh: merumuskan piawaian kesempurnaan penggera dan membuat penilaian kuantitatif bagi setiap barisan perniagaan dan merumuskan prinsip dan proses penentududukan serta piawaian untuk penggredan kesalahan dan tanggungjawab menyelesaikan surat-menyurat antara fungsi teras dan modul perkhidmatan setiap perniagaan, dan wujudkan pandangan kestabilan global atau Bilik perang digunakan untuk mengenal pasti modul atau antara muka yang rosak dengan cepat;
Terdapat beberapa perkara di sini yang memerlukan R&D perniagaan untuk diselesaikan, seperti pengoptimuman seni bina, cadangan saya ialah: Biar pasukan operasi dan penyelenggaraan memimpin dan R&D bekerjasama. Sebagai contoh, pasukan Teras di bawah CTO berkemungkinan besar akan mempunyai kedua-dua kedudukan operasi dan penyelenggaraan dan kedudukan teknikal untuk setiap perniagaan Atas nama, CTO akan membuat keputusan dan membenarkan kedudukan operasi dan penyelenggaraan untuk menerajui, dan Kedudukan R&D untuk setiap perniagaan akan bekerjasama Sudah tentu, apabila ia melibatkan operasi sebenar, kedudukan operasi dan penyelenggaraan No. 1 mungkin mencari orang yang berkebolehan untuk melakukan operasi sebenar pada masa hadapan, dan setiap barisan perniagaan juga mungkin mempunyai orang yang bergantung. pada kedudukan teknikal No. 1 untuk menyediakan sokongan antara muka.
Kecuali untuk pengoptimuman seni bina, perkara-perkara lain ini semuanya mendatar mungkin terdapat beberapa metodologi dan amalan terbaik untuk menyatukan semua orang dan membantu berkongsi metodologi dan amalan terbaik ini. Sudah tentu, sesetengah orang akan mempunyai soalan: Bolehkah kita terus mencari seseorang daripada pasukan R&D untuk membentuk organisasi maya yang stabil dan bersama-sama mempromosikan perkara ini? Malah, anda boleh mencubanya. Tetapi terdapat sedikit masalah:
Fokus pada: pencegahan dan risiko lebih awal Untuk kawalan, sila CXO bertanya kepada pengarah operasi dan penyelenggaraan untuk keputusan, tetapi anda mesti memberikan kerjasama yang hebat dan menolaknya dari atas ke bawah. Untuk peranan jurutera SRE untuk menyelesaikan masalah ini, nampaknya seorang yang sangat profesional tahap tinggi diperlukan Terdapat kebarangkalian tinggi bahawa kemahiran kognitif tidak dapat bersaing dalam tempoh 5 tahun, merekrut SRE daripada pasukan R&D kanan adalah pilihan yang baik. CXO boleh Cuba.
Sebaik sahaja kegagalan berlaku, matlamat utama kita adalah untuk mengurangkan kesan. Pasukan yang berkaitan segera bekerjasama untuk mencari punca langsung dengan cepat, menghentikan kerugian dengan cepat, dan kemudian perlahan-lahan menyiasat puncanya selepas itu. Kandungan kerja berikut akan terlibat di sini:
OK, di atas penuh semangat, tetapi berbalik kepada persoalan, untuk kandungan kerja ini, siapa yang patut CTO minta keputusan? Cadangan saya ialah: Pasukan SRE (perkataan operasi dan penyelenggaraan dan SRE muncul berkali-kali dalam artikel ini, dan ia pada dasarnya bermaksud perkara yang sama dalam artikel ini. Operasi dan penyelenggaraan di sini bukan hanya Operasi). Jelas sekali SRE tidak boleh menyelesaikan semua kesalahan Harus dikatakan bahawa kebanyakan kesilapan harus bergantung pada orang dari pasukan lain, tetapi CTO tidak boleh selalu pergi ke pasukan A dan pasukan B. Oleh itu, SRE mesti membawa Pedang Shangfang CTO dan menerajui pembinaan kestabilan keseluruhan Setiap perniagaan memerlukan kerjasama terbaik daripada antara muka eksport Apa yang dipanggil pembinaan kestabilan termasuk kawalan risiko pencegahan terlebih dahulu dan perancangan dan penyelarasan keseluruhan semasa acara itu, semakan seterusnya dipromosikan, yang juga merupakan nilai terbesar SRE kepada syarikat.
Ini mengandungi banyak kandungan, seperti pakej model mana yang lebih sesuai, kaedah rangkaian apa yang lebih sesuai, dan syarikat komponen manakah yang mempunyai Kawalan yang lebih baik , bolehkah anda mendapatkan sokongan yang lebih baik (sama ada pasukan dalaman atau pembekal pihak ketiga), apakah bahasa pengaturcaraan dan rangka kerja yang disyorkan atau bahkan diperlukan oleh syarikat, dan apakah penyelesaian lapisan akses yang disyorkan oleh industri? Apakah rancangan perubahan? Bagaimana untuk melakukan pemerhatian? Tunggu, tunggu.
Memang tidak dapat dinafikan bahawa kaedah praktikal pasukan R&D perniagaan yang hebat ini difahami dengan baik, tetapi juga tidak dapat dinafikan bahawa selepas terdapat lebih banyak barisan perniagaan, tahap akan berbeza-beza antara pasukan yang baik dan buruk pasti memerlukan orang dengan peranan bimbingan, dan mereka tidak boleh sentiasa Pergi ke CTO untuk segala-galanya Sebagai pasukan teknikal mendatar, pasukan SRE amat sesuai untuk mengambil alih perkara ini. Tetapi jelas, ini adalah jawatan mewah yang tidak boleh diisi oleh pendatang baru Merekrut orang peringkat tinggi untuk menjalankan perniagaan BP adalah cara yang berkesan untuk menggalakkan penyatuan timbunan teknologi gunakan titik permulaan ini dengan baik, teknologi Sistem akan berkembang, tetapi di belakangnya akan terdapat pelbagai dilema tadbir urus.
Empat keupayaan sokongan di atas, bagaimana pihak perniagaan harus memperolehnya, bagaimana CTO harus menyelaras, bagaimana pelbagai pasukan harus bekerjasama, itu sahaja. Mari kita buat dua lagi ringkasan di bawah.
Jelas sekali, CTO tidak perlu melakukannya secara peribadi, tetapi CTO mesti melakukan tugas dengan baik untuk memeriksa perkara itu. CTO mesti mengeluarkan polisi dan menjadi ketua komander seluruh tentera. Kerja mendatar diserahkan kepada pasukan SRE, dan kakitangan antara muka setiap pasukan bekerja keras untuk bekerjasama. Ini kemungkinan besar merupakan amalan terbaik. Jika matlamat kerja mendatar tersebar sepenuhnya ke dalam gelung tertutup sendiri pasukan perniagaan, anda tidak akan dapat menikmati keupayaan penyebaran pengalaman yang dibawa oleh pasukan mendatar. Lebih-lebih lagi, punggung menentukan kepala, dan jika anda tidak berada dalam kedudukan yang betul, anda tidak akan dapat melakukan apa yang anda mahu Setiap perniagaan cenderung untuk mempunyai sendiri sembilan puluh sembilan organisasi mendatar juga mekanisme untuk mengurangkan pengikut Maaf menggunakan perkataan ini terlalu kuat, niatnya baik, anda perlu mengalaminya sendiri.
Satu lagi perkara untuk ditambah mengenai topik FinOps ialah FinOps juga merupakan keupayaan mendatar Adakah ia juga harus diserahkan kepada SRE? Ini tidak semestinya berlaku. Saya fikir adalah baik untuk membiarkan perniagaan menutup gelung Perniagaan itu sendiri bertanggungjawab untuk keuntungan dan kerugian perbelanjaan IT. GM perniagaan harus sangat mengambil berat tentangnya kepada GM perniagaan Perniagaan GM boleh Gelung penutupan sendiri adalah satu kompromi.
Jika anda tidak mempunyai jangkaan tahap dan gaji yang terlalu tinggi, tidak mengapa untuk melakukan beberapa kerja operasi yang agak asas di sana adalah kebarangkalian tinggi bahawa jawatan ini tidak akan tersedia dalam 10 tahun. Jika anda mempunyai jangkaan yang lebih tinggi untuk pangkat dan gaji, ini adalah jalan yang berkesan untuk mendalami bidang tertentu dan menjadi pakar industri. Selepas itu, ia akan menumpukan pada penyepaduan pelbagai arah teknikal dan berkembang secara meluas. Selepas itu, mulakan perniagaan atau jadi eksekutif kanan.
Qin Xiaohui, R&D keusahawanan Open-Falcon and Nightingale, pengarang "Nota Praktikal Sistem Pemantauan Operasi dan Penyelenggaraan Geek Time "", akaun awam Pengurus SRETalk dan rakan keusahawanan Kuaimao Nebula. Hala tuju keusahawanan adalah untuk memastikan kestabilan. Jika anda mempunyai sebarang keperluan, sila hubungi saya untuk komunikasi.
Atas ialah kandungan terperinci Dari perspektif CTO: Cara membina keupayaan operasi dan penyelenggaraan/SRE. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!