ホームページ >システムチュートリアル >Linux >技術者にとって必須のスキル: 問題解決方法論 - トラブルシューティング

技術者にとって必須のスキル: 問題解決方法論 - トラブルシューティング

WBOY
WBOY転載
2024-01-07 09:10:181506ブラウズ
###導入### 多くのシステム、特に IT システムや一部の電力システム、通信システムは 24 時間年中無休で稼働しているためです。障害が発生した場合、当社の運用保守担当者は障害を迅速に発見し、迅速かつ経済的に障害を解決する必要があります。たとえば、手術をサポートする病院の一部のシステムでは、誤動作をすぐに解決できない場合、患者の生命が脅かされる可能性さえあります。したがって、トラブルシューティングは、運用および保守担当者にとって非常に重要なスキルおよび技術要件です。

技術者にとって必須のスキル: 問題解決方法論 - トラブルシューティング

トラブルシューティングとは何ですか?

トラブルシューティングは、問題の根本原因を見つけて解決し、修正するプロセスです。トラブルシューティングの目標は、デバイス/システムを通常の動作状態に戻すことです。

多くのシステム、特に IT システムや一部の電力システム、通信システムは 24 時間年中無休で稼働しているためです。障害が発生した場合、当社の運用保守担当者は障害を迅速に発見し、迅速かつ経済的に障害を解決する必要があります。たとえば、病院の手術をサポートする一部のシステムでは、誤動作をすぐに解決できない場合、患者の生命が脅かされる可能性さえあります。したがって、トラブルシューティングは、運用および保守担当者にとって非常に重要なスキルおよび技術要件です。

トラブルシューティングは仕事だけでなく、生活においても必要です。少し前、友人と Honor of Kings をプレイしていたところ、不具合が発生しました。このゲームをプレイしていると、毎晩8時か9時頃にネットワークの品質が低下し、動作が非常に遅くなります。非常に困っているのですが、運用保守担当者として、あるいは技術担当者の感覚として、ネットワークの問題は何なのだろうか?どうすれば修正できますか?そこで、トラブルシューティングのプロセスを実行しました。自宅のすべてのワイヤレス ネットワークとチャイナユニコムのブロードバンドでいくつかのテストを行い、ワイヤレス ルーターの構成を最適化しようとしましたが、最終的に、自宅と近所の近くの 2.4G チャネルが混雑しすぎており、干渉が深刻すぎることが判明しました。 , そのため、夕方のラッシュアワーには誰もがインターネットのニーズを持っており、お互いに干渉します。その後、チャンネルを5Gに切り替えると、世界が静かになり、安心してゲームができるようになりました。

問題を解決するための一般的な方法

後で考えたのですが、非常に科学的で標準化されたプロセスや方法があり、この方法を段階的に実行すれば、どんな障害や問題も解決できるのでしょうか?問題は多様ですが、実際の問題解決方法も多様であり、特定のシナリオや問題に対して特定の問題解決プロセスを開発できます。特定の仕事では、SA を行う人、ネットワークを行う人、DBA を行う人がいます。それぞれの特定の方向には、専門分野や問題のシナリオに関連したトラブルシューティング方法がいくつかあります。

一般的な問題について、共通の解決策や実行できる手順はありますか?

これは、『cisco IP ネットワークのトラブルシューティングと保守』という本の著者によってまとめられた比較的一般的な方法です。彼は、問題の定義から、手がかりと情報の収集、分析、仮説、可能性の排除、そして最終的に問題の解決に至るまで、トラブルシューティングのプロセス全体を 7 つのステップに分けました。

複雑なシステムや複雑な問題のトラブルシューティングでは、この解決プロセスに従って問題を抽象化して定義し、段階的に解決できます。

具体的な戦略とテクニック

この標準的なプロセスと方法以外では、比較的単純な、またはより直観的な問題が発生する可能性があり、いくつかの特定の戦略とヒントを使用して、より迅速にトラブルシューティングを行うことができます。

トラブルシューティングの前提条件

スイッチを押してもテレビが反応しないという問題がよく発生します。コンピューターの電源が入らないのはなぜですか?この問題は、電源プラグが抜かれているか、停電が原因である可能性が高くなります。このことから、どのシステムも動作するにはいくつかの必要な前提条件が必要になります。システムやサービスに異常が発生した場合、そのシステムがどのような依存関係にあるのか、どのような前提条件があるのか​​、以前はその条件が存在して正常だったが、現在は条件が満たされていないため障害が発生しているのか、遡って理解する必要があります。 . .

たとえば、バイクが走行中に動かなくなったら、ガス欠ですか? iPhone などの一部の非常に成熟した製品や十分に商品化された製品の場合、ユーザー マニュアルには通常の動作条件と、高温や低温などの避けるべき条件がリストされており、非常に明確に記載されています。 。 意味。

ただし、一部の自社開発システムの運用保守プロセスでは、システムのドキュメントや指示書が特に充実していない場合が多く、システムの異常や問題点に基づいて前提条件を調査する必要があります。研究開発担当者に連絡することも必要です。または、設計者が綿密なコミュニケーションを行ってシステムの前提条件を確認し、それらをトラブルシューティングの手がかりとして使用します。これは、最初の非常に基本的なトラブルシューティング方法です。誰もが同様の問題を解決したことがあり、ほとんどの問題は非常に一般的な原因によって引き起こされることが多く、私たちの経験と直感が解決に役立ちます。

最も合理化されたシステム

次の問題解決戦略に移りましょう。コンピューターを設置した経験のある人はいますか?コンピュータ システムには、CPU、メモリ、電源、シャーシ、モニタ、光学ドライブ、マウス、オーディオ、ネットワーク カードなど、多くのコンポーネントが含まれています。パソコンを導入するときは、一度にすべてをインストールする必要はなく、電源、マザーボード、CPU、メモリなどをインストールして、システムが正常に動作するかどうかを試すことがよくあります。システムが点灯する場合は、システムの最も重要なコンポーネントが正常であることを意味します。したがって、トラブルシューティングの観点から、障害を特定するときは、多くの機能とコンポーネントを備えた非常に複雑なシステムを最も基本的なシステムに合理化することを試みることができます。テストに問題がなければ、他のシステム コンポーネントを 1 つずつ削除できます。この問題を見つけて解決すると、半分の労力で 2 倍の結果が得られます。

デフォルト状態に戻す/再起動

もう 1 つのシナリオは最初のシナリオと似ていますが、長時間実行した後、システムが正常に動作しません。これを解決するにはどうすればよいですか?再起動。前職では重要なシステムは休日前にチェックし、一定日数再起動しない場合は計画的に再起動することで長期稼働によるシステム異常を回避するという不文律があった。 . .

したがって、いくつかの再起動ソリューションを使用して障害をシステムの初期状態に復元し、障害を解決することができます。これは非常に強力な障害解決方法です。もちろん、より悪い結果につながる可能性のある起動失敗の可能性など、予期せぬ結果を再起動する前に考慮する必要があります。再起動に加えて、システムを再インストール/再構築して、デフォルトまたは動作中のシステムのコピーを作成することもできます。

一度に 1 つのコンポーネントのみを交換してください

分析と特定を通じて、特定のサブシステムまたは特定のモジュールで障害が発生する可能性があることが判明した場合、問題を迅速に特定する方法はありますか?部品の 1 つを交換してテストしてみることができます。この方法を使用すると、トラブルシューティングを通じて障害点を段階的に正確に特定し、解決することができます。これは、将来同様の問題に遭遇したときに貴重な経験を提供します。この方法を使用する場合、一度に交換されるコンポーネントは 1 つだけであることに注意してください。テストの完了後に他のコンポーネントを交換する必要がある場合は、最初に以前の変更を元の状態に復元する必要があります。そうしないと、変更によって複数の問題が発生し、問題の解決に影響を与えたり、妨げたりする可能性があります。

最後に書きます

トラブルシューティングは科学でもあり、芸術でもあります。さらに、問題の再現、起動および構成シーケンスの変更などを試みることもできます。実際には、時間、リソース、シナリオの条件および制限に従って、トラブルシューティングを完了するために最適な戦略を選択します。トラブルシューティングをお楽しみください。

######著者について###### Teng Chuanyong、Meituan クラウド アーキテクト。 Baidu や eBay でシステムやサービスの運用保守業務に従事し、基本的なサービスの運用保守、大規模システムの導入や最適化、仮想化などを担当。 2012年に美団に入社し、主に基本サービスの運用保守、データセンターやネットワーク構築、クラウドコンピューティング環境の構築と運用保守などの運用保守を担当。 WeChat パブリック アカウントの記事: 効率的な開発と運用

以上が技術者にとって必須のスキル: 問題解決方法論 - トラブルシューティングの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事はlinuxprobe.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。