>  기사  >  운영 및 유지보수  >  우물 출처: 운영 및 유지 관리 기하학

우물 출처: 운영 및 유지 관리 기하학

王林
王林앞으로
2023-06-09 16:50:531200검색

편집자 주: Jing 상사는 제가 2011년 Baidu에 합류했을 때 우리 팀의 상사였습니다. 그는 하드코어 베테랑입니다. 그는 업계의 모든 일반적인 질문을 독자들에게 물었습니다. 징보스는 자유롭고 여유로운 성격을 갖고 있으며, 그의 농담과 욕설은 모두 기록되어 있고, 그의 원칙은 이해하기 쉽습니다. 현실적이고 높은 수준의 "운영 및 유지 보수 포럼"의 첫 번째 호는 다음과 같습니다. 시작하겠습니다!

손님 소개

우물 출처: 운영 및 유지 관리 기하학

Jingyuan, 왼쪽부터 첫 번째, 전 Baidu 운영 및 유지 관리 설계자, 전 Xiaomi 운영 및 유지 관리 리더, 전 Meicai CIO

일부 운영 및 유지 관리 인력은 회사의 가치를 운영에 반영합니다. 유지 관리에 대해 아는 것이 거의 없는데 당시 회사에 운영 및 유지 관리의 가치를 어떻게 명확하게 설명하셨나요?

우선, 운영 및 유지 관리의 직무 책임(운영 및 유지 관리가 수행하는 작업 및 생산되는 항목)과 주요 지표(출력 결과 측정)를 회사에 명확하게 설명해야 합니다. 예를 들어 작업은 안정성을 중심으로 이루어집니다. , 안전성, 효율성 등, 어떤 작업이 수행되는지, 유지 관리 프로젝트, 주요 지표 달성을 적극적으로 홍보하는 방법.

주요 지표에는 서비스 가용성뿐만 아니라 서버 자원 준수율, 서비스 장애 데이터(장애 분류, 장애 응답 시간, 평균 장애 복구 시간, 장애 경보 적용 범위), 서비스 보안 지표, 서비스 리소스 가용성 시간 등이 포함됩니다. .

예를 들어, 완전한 모니터링 시스템 구축:

서버 리소스 사용량 모니터링, 재활용 또는 리소스 재할당을 위해 사용량이 표준 이하인 서버 찾기, 가상화, 컨테이너화 등을 통해 리소스 사용량 개선, 경보 임계값 정렬, P0, P1 표준화 , P2 및 P3 경보 수준, 모니터링 시스템은 경보 병합, 지능형 위치 제안, 활성 경보 집계 및 시간 위도 경보 분석을 제공합니다. 편리하고 빠른 알람 응답 및 오류 위치, 알람 개선 및 오류 응답 시간 및 오류 복구 시간과 같은 서비스 정렬 계획, 평균 오류 복구 시간 단축 및 오류 경보 적용 범위 개선

업계의 일부 사람들은 기초가 클라우드와 쿠버네티스의 증가로 인해 운영 및 유지 관리 직위가 점차 사라질 것이라고 생각하십니까?

수년 전 저희 운영 및 유지보수 팀의 슬로건은 NO Ops였고, 블로그도 noops.me였습니다.

운영 및 유지보수 직위가 점차 사라지거나 일부 직무가 사라진다는 이야기는 오래전부터 있었습니다. 시스템 운영 및 유지보수를 예로 들면, 이전 관리팀에는 서버 엔지니어, 커널 엔지니어, 네트워크 엔지니어, CDN 엔지니어, 전산실 운영 및 유지보수 엔지니어 등 20명의 팀이 필요했습니다. 이후 퍼블릭 클라우드가 도입되면서 팀에는 클라우드 리소스 관리자 1명, CDN 스케줄링 엔지니어 1명, 네트워크 엔지니어 1명, 커널 엔지니어 1명 등 4명만 남았습니다. 그들은 제3자가 제공하는 리소스와 서비스를 관리하고 예약하기만 하면 되었습니다. -파티 회사.

K8s와 클라우드의 인기와 R&D 코드 엔지니어링의 지속적인 성숙으로 인해 이 프로세스에 대한 운영 및 유지 관리의 참여가 점점 줄어들 것입니다. 배포 프레임워크가 성숙되면 운영 및 유지 관리 인력을 절약하고 배포 효율성을 높이기 위해 2차 및 3차 서비스 배포를 R&D 셀프 서비스에 맡겼습니다.

기술의 발전과 시대의 변화에 ​​따라 적시 조정과 계획이 중요해지는 것은 당연한 일입니다.

기업이 대규모로 클라우드로 마이그레이션하는 현재 환경에서 현재 인재 요구 사항을 더 잘 충족하기 위해 운영 및 유지 관리 담당자가 어떤 조정을 해야 한다고 생각하시나요?

클라우드 환경에서 운영 및 유지보수 엔지니어는 보다 비즈니스 지향적이고 아키텍처 지향적이어야 하며, 비즈니스 범위를 확장하고 비즈니스 안정성을 보장하는 핵심 인재가 되어야 합니다. 여전히 이전과 동일하고 모니터링 및 알람에만 중점을 두고 서비스 배포 변경만 담당한다면 반드시 제거될 것입니다.

한편, 전문화 방향으로 나아가 특정 분야(모니터링, 빅데이터, K8s, 데이터베이스 등)의 전문가가 되어 운영 및 유지보수 R&D 전문가가 될 수도 있습니다.

생활 조언, 더 많은 부업을 찾아보세요. 운영 및 유지 관리 작업은 삶의 작은 부분일 뿐입니다.

AIOps는 몇 년 동안 뜨거운 관심을 받았지만 최근에는 확실히 그 소문이 잠잠해졌습니다. 기업이 이 단계에서 AIOps를 구현해야 한다고 생각하십니까? 우리는 어떤 문제에 주의를 기울여야 할까요?

스마트 모니터링을 예로 들면, AI를 사용하여 결함을 예측하고 지능적으로 찾아내야 한다는 카피라이팅을 많이 봤습니다. 아직까지 믿을 만한 사례를 본 적이 없습니다. 서비스가 더 빠르게 변화하고 있는 인터넷 비즈니스 시스템에서, 과거 데이터를 통해 장애 예측이 실제로 가능하다면 종속성이 복잡하고 장애에 영향을 미치는 요소가 많습니다. 수천년간의 지진 데이터 축적은 큰 사회적 가치를 창출할 수 있습니다.

AIOps를 수행하기 위한 전제 조건은 AI를 실제로 이해하고 머신러닝과 신경망의 원리를 이해하는 것입니다. 인공지능만큼 지능도 많으며, AIOps 기능은 슬로건이 아닙니다.

chatGPT와 같은 AI 기능이 향후 운영 및 유지보수 업계의 문제를 해결할 수 있을 것이라고 생각하시나요?

예를 들어 결함 관리에서는 결함이 있는 장비, 데이터, 설명, 지식 기반, 과거 결함 데이터베이스 등을 기반으로 가능한 결함에 대한 보조 제안(suggestbot)이 제공됩니다

BTW, 이미 chatGPT를 재생할 수 있는 경우 , 이 기술을 더 많은 가치를 창출할 수 있는 다른 분야에 적용하고, 운영 및 유지 관리 분야에서 항상 낭비하지 마십시오...

비즈니스 프로그램 배포를 R&D에 맡겨야 할지, 운영 및 유지 관리를 해야 할지 많은 기업에서 끊임없이 논의하고 있습니다.

앞서 언급한 바와 같이 저희의 2차, 3차 서비스는 전적으로 R&D로 제공되고, 1차 서비스는 운영 및 유지보수, R&D가 차례로 제공되며 운영 및 유지보수에 변화를 알리는 것이 주요 목적입니다. 현재 서비스에서는. 운영 및 유지 관리 담당자는 회사 초기에 배포를 수행할 때 시스템을 더 잘 개발 및 배포하고 자신이 담당하는 서비스 아키텍처를 제어하기 위해 온라인 환경을 표준화하고 서비스 배포 방법을 표준화하는 데 더 중점을 둡니다.

시스템 배포를 통해 보안 문제 및 프로세스 문제를 완전히 해결할 수 있습니다. 운영과 유지관리 측면에서 가치도 없고 축적도 없는 이 일에 집착하지 마세요.

(운영 및 유지)업계에 가장 하고 싶은 말씀은 무엇인가요? 왜?

"물리학은 존재하지 않지만 우리가 생각하는 물리학은 없을 수도 있습니다." 운영 및 유지 관리 산업은 더 이상 존재하지 않을 수 있습니다. 얼마나 많은 운영 및 유지 관리 사람들의 꿈이 AIOps와 NOOps이므로 스스로 이 산업을 죽이거나 해야 합니다. , 또는 이 업계에서 죽임을 당하세요.

도구 선택 시 직접 개발할지, 오픈 소스를 사용할지, 상용 제품을 사용할지 어떻게 결정하시나요?

능력과 시간이 있다면 오픈 소스를 사용하고, 능력과 시간이 제한되어 있다면 상용 제품을 사용하세요. 돈이 있고 여유가 있고 자존심이 강하다면 독학을 시도해 볼 수 있습니다.

귀사도 멀티 클라우드 아키텍처를 갖추고 있나요? 멀티 클라우드 시나리오에서 클라우드 공급업체가 의존해야 할 기능은 무엇이며 사내에서 구축해야 할 기능은 무엇이라고 생각하시나요?

우리는 멀티 클라우드 아키텍처입니다. 전용선이나 데이터 전송 기능은 직접 구축해야 합니다. 모니터링 시스템, 데이터 백업 시스템, 배포 시스템, 핵심 마이크로서비스 구성 요소 등 멀티 클라우드 기반의 공용 기능도 자체적으로 구축하고 나머지는 클라우드 공급업체에 맡길 수도 있습니다.

가장 기억에 남는 실패는 무엇인가요? 그것은 당신에게 어떤 영감을 주나요?

수년간의 운영과 유지 관리 끝에 이상한 실패를 너무 많이 겪었고 근본 원인은 상상을 초월합니다. 실패는 피하기 어렵다고 할 수 있으며, 실패의 빈도, 영향 영역 및 영향 시간을 줄이려고 노력할 뿐입니다.

그래서 성능은 실패 횟수와 실패 수준이 아니라 실패의 영향, 실패 대응, 복구 시간 등입니다.

빠르게 발전하는 기초기술에 직면해, 업계에 갓 입문한 운영 및 유지관리 인력과 오랫동안 업계에 종사해 오신 분들을 위한 진로설계 조언이 있으신가요?

좀 극단적이네요~ 이제 막 업계에 입문하신 분들은 빨리 직업을 바꾸는 걸 추천드려요! 오랫동안 업계에 종사해 온 사람들에게는 기술 분야에서 경력을 바꾸는 것이 상대적으로 어렵고 운영 및 유지 관리에 깊은 인상을 남겼습니다. 운영 및 유지보수 인력이 다른 기술로 전환하는 경우를 많이 봤습니다. 대부분 운영 및 유지보수 R&D와 운영 및 유지보수 제품 관리자 직위를 찾는 것이 좋습니다.

기존 운영 및 유지관리와 SRE의 차이점은 무엇이라고 생각하시나요? 팀 변화의 배경에는 어떤 생각이 있었나요?

벌써 2023년이군요. 이 주제를 이야기하는 것은 인터넷 운영 및 유지 관리에 대한 NOC 모니터링 의무를 설정하는 것과 같습니다.

SRE 전환 여부, SRE 전환 방법, SRE의 변화를 5g 시대처럼 아직도 고민 중이라면 2g를 쓸지, 3g를 쓸지 고민 중이라면... 타임스.

갑자기 끝날 것 같은 느낌이 드시나요? 하하, 이것이 "운영 및 유지 보수 포럼"의 첫 번째 이슈입니다. 앞으로도 업계 리더들을 초대하여 다양한 의견이 있을수록 더 흥미롭고 더 많은 생각을 하게 될 것입니다. 마음을 열고 수백 가지 학파의 의견을 들어보세요. 다음에 또 만나요!

위 내용은 우물 출처: 운영 및 유지 관리 기하학의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제