教師なし機械学習は産業オートメーションにどのようなメリットをもたらしますか?-AI-php.cn

ホームページ

テクノロジー周辺機器

教師なし機械学習は産業オートメーションにどのようなメリットをもたらしますか?

PHPz

Apr 08, 2023 pm 05:21 PM

AI機械学習道具

現代の産業環境にはセンサーやスマートコンポーネントが数多く搭載されており、これらすべてのデバイスが連携して大量のデータを生成します。このデータは、今日ほとんどの工場で活用されておらず、さまざまなエキサイティングな新しいアプリケーションを強化します。実際、IBM によると、平均的な工場では毎日 1TB の生産データが生成されます。ただし、実用的な洞察に変換されるのはデータの約 1% のみです。

教師なし機械学習は産業オートメーションにどのようなメリットをもたらしますか?

機械学習 (ML) は、このデータを活用して大量の価値を引き出すために設計された基本的なテクノロジーです。機械学習システムは、トレーニングデータを使用して、明示的な指示なしで特定のタスクを実行するようにシステムに教える数学的モデルを構築できます。

ML は、データに基づいて動作するアルゴリズムを使用して、人間の介入をほとんど必要とせずに意思決定を行います。産業オートメーションにおける機械学習の最も一般的な形式は教師あり機械学習です。これは、人間によってラベル付けされた大量の履歴データを使用してモデルをトレーニングします (つまり、人間が教師付きアルゴリズムをトレーニングします)。

これは、ベアリングの欠陥、潤滑不良、製品の欠陥などのよく知られた問題に役立ちます。教師あり機械学習が不十分となるのは、十分な履歴データが利用できない場合、ラベル付けに時間がかかりすぎるか費用がかかりすぎる場合、またはユーザーがデータの中で何を探しているのか正確にわかっていない場合です。ここで教師なし機械学習が登場します。

教師なし機械学習は、パターンの認識とデータ内の異常の特定に優れたアルゴリズムを使用して、ラベルのないデータを操作することを目的としています。教師なし機械学習を適切に適用すると、状態監視やパフォーマンステストからサイバーセキュリティや資産管理に至るまで、さまざまな産業オートメーションのユースケースに役立ちます。

教師あり学習と教師なし学習

教師あり機械学習は、教師なし機械学習よりも実行が簡単です。適切にトレーニングされたモデルを使用すると、非常に一貫性のある信頼性の高い結果が得られます。教師あり機械学習には、関連するすべてのケースを含める必要があるため、大量の履歴データが必要になる場合があります。つまり、製品の欠陥を検出するには、データに十分な数の欠陥製品のケースが含まれている必要があります。これらの大量のデータセットにラベルを付けるには、時間と費用がかかる場合があります。さらに、モデルのトレーニングは芸術です。良い結果を生み出すには、適切に編成された大量のデータが必要です。

現在、さまざまな ML アルゴリズムのベンチマークを行うプロセスは、AutoML などのツールを使用して大幅に簡素化されています。同時に、トレーニングプロセスを過度に制約すると、モデルがトレーニングセットでは良好にパフォーマンスするものの、実際のデータではパフォーマンスが低下する可能性があります。もう 1 つの重要な欠点は、教師あり機械学習が、データの予期せぬ傾向を特定したり、新しい現象を発見したりするのにあまり効果的ではないことです。このような種類のアプリケーションでは、教師なし機械学習の方がより良い結果が得られます。

一般的な教師なし機械学習手法

教師あり機械学習と比較して、教師なし機械学習はラベルのない入力に対してのみ動作します。これは、人間の助けを借りずに未知のパターンや相関関係を発見するためのデータ探索用の強力なツールを提供します。ラベルのないデータを操作できるため、時間と費用が節約され、入力が生成されるとすぐに教師なし機械学習がデータを操作できるようになります。

欠点は、教師なし機械学習は教師あり機械学習よりも複雑であることです。より高価で、より高度な専門知識が必要であり、多くの場合、より多くのデータが必要になります。その出力は教師あり ML よりも信頼性が低くなる傾向があり、最適な結果を得るには最終的に人間の監督が必要になります。

教師なし機械学習技術の 3 つの重要な形式は、クラスタリング、異常検出、データの次元削減です。

クラスタリング

名前が示すように、クラスタリングには、データセットを分析してデータ間の共有特性を特定し、類似したインスタンスをグループ化することが含まれます。クラスタリングは教師なし ML 手法であるため、(人間ではなく) アルゴリズムがランキング基準を決定します。したがって、クラスタリングは驚くべき発見につながる可能性があり、優れたデータ探索ツールです。

簡単な例を挙げると、生産部門で 3 人の人が果物の仕分けを依頼されていると想像してください。柑橘類、核果、トロピカルフルーツなどの果物の種類で並べ替える場合もあれば、色で並べ替える場合もあり、形状で並べ替える場合も考えられます。各方法では、異なる一連の特性が強調表示されます。

#クラスタリングはさまざまなタイプに分類できます。最も一般的なものは次のとおりです。

相互排他的クラスタリング (排他的クラスタリング): データインスタンスは、クラスタに排他的に割り当てられます。

ファジークラスタリングまたはオーバーラップクラスタリング (ファジークラスタリング): データインスタンスを複数のクラスターに割り当てることができます。たとえば、オレンジは柑橘類であると同時にトロピカルフルーツでもあります。ラベルなしデータを操作する教師なし ML アルゴリズムの場合、データブロックがグループ A とグループ B に正しく属する確率を割り当てることができます。

階層クラスタリング: この手法には、クラスターのセットではなく、クラスター化されたデータの階層構造の構築が含まれます。オレンジは柑橘類ですが、より大きな球形の果物グループにも含まれており、すべての果物グループでさらに吸収されます。

最も一般的なクラスタリングアルゴリズムのセットを見てみましょう:

K-mean

K-平均 (K 平均) アルゴリズムはデータを K 個のクラスターに分類します。K の値はユーザーによって事前に設定されます。プロセスの開始時に、アルゴリズムは K 個のデータポイントを K 個のクラスターの重心としてランダムに割り当てます。次に、各データポイントとそのクラスターの重心の間の平均を計算します。これにより、データがクラスターに再割り当てされます。この時点で、アルゴリズムは重心を再計算し、平均の計算を繰り返します。重心を計算し、クラスターを並べ替えるプロセスを、一定の解に到達するまで繰り返します (図 1 を参照)。

教師なし機械学習は産業オートメーションにどのようなメリットをもたらしますか?

図 1: K 平均法アルゴリズムはデータセットを K 個のクラスターに分割し、最初に K 個のデータポイントを重心としてランダムに選択します。を実行し、残りのインスタンスをクラスター全体にランダムに分散します。

K 平均法アルゴリズムはシンプルで効率的です。パターン認識やデータマイニングに非常に役立ちます。欠点は、セットアップを最適化するためにデータセットに関する高度な知識が必要なことです。また、異常値の影響も不均衡に受けます。

K-median

K-median アルゴリズムは K-means に近いものです。基本的に同じプロセスを使用しますが、各データポイントの平均を計算する代わりに中央値を計算する点が異なります。したがって、アルゴリズムは外れ値の影響を受けにくくなります。

クラスター分析の一般的な使用例をいくつか示します。

クラスター化は、セグメンテーションなどの使用例に非常に効果的です。これは多くの場合、顧客分析に関連しています。また、資産クラスに適用して、製品の品質とパフォーマンスを分析するだけでなく、製品のパフォーマンスと耐用年数に影響を与える可能性のある使用パターンを特定することもできます。これは、スマート倉庫内の自動移動ロボットや検査やデータ収集用のドローンなどの資産の「フリート」を管理する OEM 企業にとって役立ちます。
画像処理操作の一部として画像のセグメンテーションに使用できます。
クラスター分析は、教師あり ML アプリケーション用のデータを準備する前処理ステップとしても使用できます。

異常検出

異常検出は、欠陥検出から状態監視、サイバーセキュリティまで、さまざまなユースケースにとって重要です。これは教師なし機械学習における重要なタスクです。教師なし機械学習で使用される異常検出アルゴリズムはいくつかあります。最も一般的な 2 つのアルゴリズムを見てみましょう:

Isolation Forest Algorithm

異常検出の標準的な方法は、一連の正常値を確立し、各データを分析して正常値から逸脱しているかどうか、またどの程度逸脱しているかを確認することです。 ML で使用される種類の大量のデータセットを操作する場合、これは非常に時間のかかるプロセスです。分離フォレストアルゴリズムは逆のアプローチを採用します。外れ値は、一般的でもなく、データセット内の他のインスタンスと大きく異なるものでもないと定義されます。したがって、それらは他のインスタンス上のデータセットの残りの部分からより簡単に分離されます。

分離フォレストアルゴリズムのメモリ要件は最小限であり、必要な時間はデータセットのサイズに直線的に関係します。無関係な属性が含まれる場合でも、高次元データを処理できます。

局所外れ値係数 (LOF)

重心からの距離だけで外れ値を特定するという課題の 1 つはい、小さなクラスターから近い距離にあるデータポイントは外れ値である可能性がありますが、大きなクラスターから遠く離れているように見えるデータポイントは外れ値ではない可能性があります。 LOF アルゴリズムは、この区別を行うように設計されています。

LOF は、近隣のデータポイントよりもはるかに大きい局所的な密度偏差を持つデータポイントとして外れ値を定義します (図 2 を参照)。 K-means と同様に、事前にユーザーによるセットアップが必要ですが、非常に効果的です。半教師ありアルゴリズムとして使用し、通常のデータのみでトレーニングした場合は、新規性の検出にも適用できます。

教師なし機械学習は産業オートメーションにどのようなメリットをもたらしますか?

図 2: 局所外れ値係数 (LOF) は、各データポイントの局所密度偏差を使用して異常スコアを計算します。、それによって正常なデータポイントを外れ値から区別します。

次に、異常検出の使用例をいくつか示します:

予知保全: ほとんどの産業用機器は、最小限のダウンタイムで持続するように設計されています。したがって、利用できる履歴データは限られていることがよくあります。教師なし ML は限られたデータセットであっても異常な動作を検出できるため、このような場合には発達上の欠陥を特定できる可能性があります。ここでもフリート管理に使用でき、レビューが必要なデータの量を最小限に抑えながら欠陥を早期に警告します。
品質保証/検査: 機械が不適切に操作されると、規格外の製品が生産される可能性があります。教師なし機械学習を使用して、機能とプロセスを監視し、異常を報告できます。標準の QA プロセスとは異なり、ラベル付けやトレーニングなしでこれを実行できます。
画像異常の特定: これは、危険な病状を特定するための医療画像処理で特に役立ちます。
サイバーセキュリティ: サイバーセキュリティにおける最大の課題の 1 つは、脅威が常に変化していることです。この場合、教師なし ML による異常検出は非常に効果的です。標準的なセキュリティ手法の 1 つは、データフローを監視することです。通常は他のコンポーネントにコマンドを送信している PLC が、異常なデバイスまたは IP アドレスからのコマンドの安定したストリームを突然受信し始めた場合、これは侵入を示している可能性があります。しかし、悪意のあるコードが信頼できるソースから来た場合 (または悪意のある者が信頼できるソースを偽装した場合) はどうなるでしょうか?教師なし学習では、コマンドを受信するデバイスの異常な動作を探すことで、不正行為を検出できます。
テストデータ分析: テストは、設計と生産の両方において重要な役割を果たします。 2 つの最大の課題は、関係する膨大な量のデータと、固有のバイアスを導入せずにデータを分析する能力です。教師なし機械学習は両方の課題を解決できます。これは、テストチームが何を探しているのかさえわからない開発プロセスや運用環境のトラブルシューティング中に特に有益です。

#次元削減

機械学習は、大量のデータ (多くの場合非常に大量) に基づいています。 10 から数十の特徴を含むデータセットをフィルタリングすることは 1 つの作業です。何千もの特徴を含むデータセット (そしてそれらは確かに存在します) は、圧倒される可能性があります。したがって、ML の最初のステップは、データを最も意味のある特徴に削減するための次元削減です。

次元削減、パターン認識、データ探索に使用される一般的なアルゴリズムは、主成分分析 (PCA) です。このアルゴリズムの詳細については、この記事の範囲を超えています。おそらく、相互に直交するデータサブセットを識別するのに役立ちます。つまり、メインの分析に影響を与えることなくデータセットからサブセットを削除できます。 PCA には、いくつかの興味深い使用例があります。

画像圧縮: PCA は、意味のある情報を保持しながらデータセットの次元を削減することに非常に優れています。これにより、アルゴリズムは画像圧縮に非常に優れたものになります。
パターン認識: 上で説明したのと同じ機能により、PCA は顔認識やその他の複雑な画像認識などのタスクに役立ちます。

教師なし機械学習は、教師あり機械学習より優れているとか劣っているというわけではありません。適切なプロジェクトであれば、非常に効果的です。そうは言っても、最良の経験則はシンプルに保つことであるため、教師なし機械学習は通常、教師あり機械学習では解決できない問題にのみ使用されます。

次の質問について考えて、プロジェクトに最適な機械学習アプローチを決定してください:

ビジネスケースとは何ですか?定量化の目的は何ですか?プロジェクトはどれくらい早く投資収益率をもたらしますか?これは教師あり学習や他の従来のソリューションとどう違うのでしょうか?
どのような種類の入力データが利用可能ですか?いくら持っていますか？それはあなたが答えたい質問と関連していますか?ラベル付きデータをすでに生成するプロセスはありますか? たとえば、不良品を特定する QA プロセスはありますか?機器の故障を記録するメンテナンスデータベースはありますか?
教師なし機械学習に適していますか?

最後に、確実に成功するためのヒントをいくつか紹介します:

プロジェクトを開始する前に、下調べをして戦略を立ててください。
小規模から始めて、より小規模なエラーを修正してください。
ソリューションがスケーラブルであることを確認してください。パイロットプロジェクトが煉獄に陥ることは避けるべきです。
パートナーと協力することを検討してください。あらゆる種類の機械学習には専門知識が必要です。自動化する適切なツールとパートナーを見つけてください。車輪の再発明はしないでください。お金を払って必要なスキルを社内で構築することも、パートナーやエコシステムに面倒な作業を任せながら、自分が最も得意とする製品やサービスの提供にリソースを振り向けることもできます。

産業環境で収集されたデータは貴重なリソースになりますが、それは適切に活用された場合に限られます。教師なし機械学習は、データセットを分析して実用的な洞察を抽出するための強力なツールとなり得ます。このテクノロジーの導入は困難を伴う場合がありますが、困難な世界では大きな競争上の優位性をもたらす可能性があります。

以上が教師なし機械学習は産業オートメーションにどのようなメリットをもたらしますか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

2023年机器学习的十大概念和技术Apr 04, 2023 pm 12:30 PM

机器学习是一个不断发展的学科，一直在创造新的想法和技术。本文罗列了2023年机器学习的十大概念和技术。本文罗列了2023年机器学习的十大概念和技术。2023年机器学习的十大概念和技术是一个教计算机从数据中学习的过程，无需明确的编程。机器学习是一个不断发展的学科，一直在创造新的想法和技术。为了保持领先，数据科学家应该关注其中一些网站，以跟上最新的发展。这将有助于了解机器学习中的技术如何在实践中使用，并为自己的业务或工作领域中的可能应用提供想法。2023年机器学习的十大概念和技术：1. 深度神经网

超参数优化比较之网格搜索、随机搜索和贝叶斯优化Apr 04, 2023 pm 12:05 PM

本文将详细介绍用来提高机器学习效果的最常见的超参数优化方法。译者 | 朱先忠审校 | 孙淑娟简介通常，在尝试改进机器学习模型时，人们首先想到的解决方案是添加更多的训练数据。额外的数据通常是有帮助（在某些情况下除外）的，但生成高质量的数据可能非常昂贵。通过使用现有数据获得最佳模型性能，超参数优化可以节省我们的时间和资源。顾名思义，超参数优化是为机器学习模型确定最佳超参数组合以满足优化函数（即，给定研究中的数据集，最大化模型的性能）的过程。换句话说，每个模型都会提供多个有关选项的调整“按钮

人工智能自动获取知识和技能，实现自我完善的过程是什么Aug 24, 2022 am 11:57 AM

实现自我完善的过程是“机器学习”。机器学习是人工智能核心，是使计算机具有智能的根本途径；它使计算机能模拟人的学习行为，自动地通过学习来获取知识和技能，不断改善性能，实现自我完善。机器学习主要研究三方面问题：1、学习机理，人类获取知识、技能和抽象概念的天赋能力；2、学习方法，对生物学习机理进行简化的基础上，用计算的方法进行再现；3、学习系统，能够在一定程度上实现机器学习的系统。

得益于OpenAI技术，微软必应的搜索流量超过谷歌Mar 31, 2023 pm 10:38 PM

截至3月20日的数据显示，自微软2月7日推出其人工智能版本以来，必应搜索引擎的页面访问量增加了15.8%，而Alphabet旗下的谷歌搜索引擎则下降了近1%。 3月23日消息，外媒报道称，分析公司Similarweb的数据显示，在整合了OpenAI的技术后，微软旗下的必应在页面访问量方面实现了更多的增长。截至3月20日的数据显示，自微软2月7日推出其人工智能版本以来，必应搜索引擎的页面访问量增加了15.8%，而Alphabet旗下的谷歌搜索引擎则下降了近1%。这些数据是微软在与谷歌争夺生

荣耀的人工智能助手叫什么名字Sep 06, 2022 pm 03:31 PM

荣耀的人工智能助手叫“YOYO”，也即悠悠；YOYO除了能够实现语音操控等基本功能之外，还拥有智慧视觉、智慧识屏、情景智能、智慧搜索等功能，可以在系统设置页面中的智慧助手里进行相关的设置。

30行Python代码就可以调用ChatGPT API总结论文的主要内容Apr 04, 2023 pm 12:05 PM

阅读论文可以说是我们的日常工作之一，论文的数量太多，我们如何快速阅读归纳呢？自从ChatGPT出现以后，有很多阅读论文的服务可以使用。其实使用ChatGPT API非常简单，我们只用30行python代码就可以在本地搭建一个自己的应用。阅读论文可以说是我们的日常工作之一，论文的数量太多，我们如何快速阅读归纳呢？自从ChatGPT出现以后，有很多阅读论文的服务可以使用。其实使用ChatGPT API非常简单，我们只用30行python代码就可以在本地搭建一个自己的应用。使用 Python 和 C

人工智能在教育领域的应用主要有哪些Dec 14, 2020 pm 05:08 PM

人工智能在教育领域的应用主要有个性化学习、虚拟导师、教育机器人和场景式教育。人工智能在教育领域的应用目前还处于早期探索阶段，但是潜力却是巨大的。

人工智能在生活中的应用有哪些Jul 20, 2022 pm 04:47 PM

人工智能在生活中的应用有：1、虚拟个人助理，使用者可通过声控、文字输入的方式，来完成一些日常生活的小事；2、语音评测，利用云计算技术，将自动口语评测服务放在云端，并开放API接口供客户远程使用；3、无人汽车，主要依靠车内的以计算机系统为主的智能驾驶仪来实现无人驾驶的目标；4、天气预测，通过手机GPRS系统，定位到用户所处的位置，在利用算法，对覆盖全国的雷达图进行数据分析并预测。

See all articles