検索
ホームページテクノロジー周辺機器AINetEase は異常なデータ インジケーターをどのように検出して診断しますか?
NetEase は異常なデータ インジケーターをどのように検出して診断しますか?Nov 09, 2023 am 08:18 AM
アルゴリズムデータインジケーター

NetEase は異常なデータ インジケーターをどのように検出して診断しますか?

1. 背景の紹介

指標はビジネスと密接に関係しており、その価値は問題を発見し、問題を明らかにすることにあります。タイムリーに解決でき、プロモーションのハイライトが得られます。電子商取引ビジネスのさらなる発展に伴い、ビジネスの反復は速く、ロジックは複雑になり、指標の数は増加し、指標間の差異は非常に大きく、非常に急速に変化します。システムを調べて問題を見つけますか? 根本原因はビジネスにとって重要です。警報閾値を手動で設定すると漏れが発生しやすく、非常に時間とコストがかかります。私たちは、次の目標を達成できる一連の自動化メソッドを構築したいと考えています。

  • #自動化はユーザー入力に依存する必要がありません。従来の方法では定義が必要です。例外ルール、属性ディメンションなど、自動化されたシステムではユーザーによる手動入力は不要になります。
  • 汎用性: さまざまなインジケーターの分布に適応でき、さまざまなインジケーターがさまざまな方法に適合します。
  • # 適時性: 日レベルおよび時間レベルのインジケーターの異常検出と原因特定を実現します。
  • #正確さとイニシアチブ: データを通じて人材を見つけるという目標を達成します。

# 次に、インジケーター異常検出とインジケーター異常診断をそれぞれ紹介します。

2. インジケーターの異常の検出

1. 異常とは何か

データ サイエンス作業の最初のステップは、問題を分析して定義します。当社の異常の定義はデータ指標の異常であり、指標が高すぎたり低すぎたり、上下したりする場合は異常であり、早期の警告と診断が必要です。インジケータ異常は次の 3 種類に分類されます。

NetEase は異常なデータ インジケーターをどのように検出して診断しますか?

  • #絶対値異常

は、指標の固有の分布に従っていない統計的な外れ値を指し、ビジネスの現在のステータスを反映しています。

  • 異常な変動

目標値に比べて大きすぎる急激な増加または減少ポイント前期に比べ、足元の事業の急激な変化を反映したものとなっております。

  • #トレンド異常

最初の 2 種類の異常は、単一点と短いものです。暴力的ですが、一部の異常は比較的隠されています。それらは中長期的に決定的な上昇または下降傾向を示し、多くの場合、特定の潜在的なリスクを示します。したがって、傾向の異常を検出し、ビジネス上の警告と早期介入を実行する必要もあります。 。

これら 3 種類の例外は互いに独立しており、異なるシナリオが異なる種類の例外に対応する可能性があります。

たとえば、上図の点 A には絶対値の異常とボラティリティの異常の両方がありますが、点 B は前日から大きく変化していないため、絶対値の異常のみを報告します。 C 点と D 点はどちらも変動異常のみを報告しましたが、理由は異なります。C 点の指標の突然の低下は、正常な指標の低下である B 点によって引き起こされました。これは後処理ロジックで解決する必要があります。 。

2. インジケータ異常検出フレームワーク

NetEase は異常なデータ インジケーターをどのように検出して診断しますか?

インジケータ検出の汎用性、自動化、適時性を実現するために、統計的テストに基づく教師なし検出フレームワーク。

  • #絶対値異常検知
まず、絶対値検知は主にGESD テスト アルゴリズムの原理は、統計を計算して外れ値を見つけることです。プロセスは次のとおりです。

データセットには最大でも r 個の外れ値があると仮定します。最初のステップは、平均からの距離が最も大きいサンプル i を見つけて、統計量 R

i を計算することです。これは、xi の絶対値から平均を引いて除算したものです。標準偏差による。次に、対応するサンプル点 i の臨界値 λi を計算します。ここで、n はサンプルの合計サイズ、i は除去されたサンプルの数、t は n-i-1 の自由度を持ちます。 t 分布の p パーセンテージ ポイント。p は、設定された信頼度 α (通常、α の値は 0.05) と現在のサンプル サイズに関連します。

2 番目のステップでは、平均からの距離が最も大きいサンプル i を削除し、上記のステップを合計 r 回繰り返します。

3 番目のステップは、統計値 Ri が λi より大きいサンプル (異常点) を見つけることです。

この方法の利点は、まず、外れ値の数を指定する必要がなく、例外の上限を設定するだけで済みます。このアルゴリズムは外れ値を自動的に捕捉します。第 2 に、3Sigma の検出率が低すぎて (1% 未満)、非常に極端な異常しか検出できないという問題を解決します。

GESD アルゴリズムでは、検出率の上限を制御することで適応を行うことができますが、この手法の前提として、入力指標が正規分布している必要があります。現在観測されている e コマース ビジネス指標のほとんどは正規分布しています。もちろん、非正規分布である個々のビジネス指標 (

  • 電圧異常検出

2 番目のタイプは変動異常検出です。これは主にボラティリティ分布に基づいて、電圧の変曲点を計算します。分布。上記の方法は、ここでのボラティリティ分布に直接適用することはできません。主な理由は、インジケーターのボラティリティのほとんどが正規分布ではないため、適用できません。変曲点を見つける原理は、二次導関数と距離に基づいて曲線上の最大屈曲点を見つけることです。増加するボラティリティは 0 より大きく、減少するボラティリティは 0 未満です。y 軸の両側の 0 より大きい部分と 0 未満の部分については、それぞれボラティリティの 2 つの変曲点が見つかるはずです。変曲点の範囲内であれば異常変動と考えられます。ただし、場合によっては変曲点が存在しなかったり、変曲点が早すぎて検出率が高くなりすぎる場合があるため、分位点など他の方法も併用して検出する必要があります。検査方法は 1 つだけでは万能ではないため、組み合わせて使用​​する必要があります。

  • 傾向異常検出

3 番目のタイプは、Man-Kendall テストに基づく傾向異常検出です。まず統計量 S を計算します (sgn は符号関数) インジケーター シーケンスの前後の値の相対的な大小関係に従って、-1、1、0 などの 3 つのマッピング値を取得できますそれらをペアでペアにすることによって。統計量 S を標準化すると Z が得られます。これは、テーブルを検索することで p 値に変換できます。統計的には、p 値が 0.05 未満の場合に、有意な傾向があると見なされます。

最初の利点は、すべての分布に適用できるノンパラメトリック テストであるため、ボトムアップ手法が必要ないことです。 2番目の利点は、インジケーターシーケンスが連続的である必要がないことです。トレンドの異常を検出する場合、異常な絶対値を持つサンプルを事前に除去する必要があるため、ほとんどのインジケーターシーケンスは連続的ではありませんが、この方法は不連続なインジケーターをサポートできます。 。

  • 例外検出の後処理

3 つの例外が完了した後、後処理作業が必要になります。主な目的は、不要な処理を削減することです。アラームを鳴らし、業務の中断を減らします。

最初のタイプはデータ異常です。データ ソースはデータ ウェアハウス レベルにあり、データ ウェアハウス チームによって保証されているため、このデータ異常はデータ ソースが間違っていることを意味するものではありません。 。ここでのデータの異常とは、前のサイクルの異常によって現在のサイクルが異常に変動することを指します。たとえば、昨日は 100% 上昇し、今日は 50% 下落した指標があります。この場合、次の基準に基づいて除去する必要があります。除外条件は、 (1) 前のサイクルで変動または絶対値の異常があった (2) 今回のサイクルの変動が正常に戻りつつある、つまり、変動はあるが同じ方向の絶対値の異常がない変動として。たとえば、昨日は 100% 上昇し、今日は 50% 低下した場合は後処理モジュールによって除外されますが、99% 低下した場合は絶対値異常がトリガーされ、警告が表示されます。必要とされている。これにより、合計40%以上の変動異常を解消しました。

2 番目の後処理は、S レベルのプロモーションの情報連携に基づいています。この種のプロモーションでは、異常な指標が 1 時間ごとに発生する可能性があります。理由は誰もが知っています。ありませんので報告が必要です。

3. インジケーター異常診断

1. インジケーター異常レベルの診断

実行可能領域と確実性による。結論として、推論は決定的推論、可能的推論、推論的推論の 3 つのレベルに分けることができます。

NetEase は異常なデータ インジケーターをどのように検出して診断しますか?

2. インジケーターの異常診断方法の比較

異なる推論レベルは、異なる診断方法に対応します。

NetEase は異常なデータ インジケーターをどのように検出して診断しますか?

#推論、結論は主に人間の経験に依存し、結論は比較的不明確で、操作可能な空間は限られており、範囲内ではありませんこの記事でのメソッドの説明の範囲。

可能性推論 (1) は、機械学習に基づいて指標データを適合させ、回帰予測を行い、特徴の重要性を計算できます。この方法の欠点は、単一の異常の原因を説明できないことです。 。 (2) 単一の異常を説明したい場合は、各予測値と各入力特徴のターゲットへの寄与値を計算できる形状値アルゴリズムを追加する必要があります。この方法には一定の解釈可能性がありますが、正確性が十分ではなく、相関関係のみを導き出すことができ、因果関係は導き出すことができません。 (3) ベイジアン ネットワークは、指標間の関係のグラフやネットワークを構築するために使用できますが、計算が比較的複雑でブラック ボックスになるという欠点があります。

決定的推論は主に逆アセンブリ寄与アルゴリズムに基づいています。分解寄与アルゴリズムは加算、乗算、除算のいずれであっても、分解方法に応じて各部分の指標や構造の変更が全体に及ぼす影響を測定します。利点は、比較的決定的で、ホワイトボックス化され、適応性が高く、異常の位置を正確に特定できることです。ただし、当然の欠点もあります。つまり、同じインジケーターに対して分解できるディメンションが多数あり、結合されたディメンションが爆発的に増加するという問題が発生します。

3. ビジネスの現状

データ サイエンスにおける多くの問題では、実際のビジネス シナリオに基づいて対応する手法を選択する必要があります。そこで、当社の取り組みをご紹介する前に、事業の現状をご紹介させていただきます。

NetEase は異常なデータ インジケーターをどのように検出して診断しますか?

プラットフォーム e コマースの成長は、トラフィック維持と有料コンバージョンによって促進されることを私たちは知っています。人口ボーナスがピークに達し、トラフィックを獲得することがますます困難になる中、NetEase Yanxuan は戦略的アップグレードを実行し、プラットフォーム電子商取引からブランド電子商取引に移行し、JD.com やタオバオなどのプラットフォーム電子商取引企業をブランドに転換しました。パートナー。

ブランド電子商取引の成長主導の手法は、オムニチャネルコラボレーションを通じて爆発的な製品で突破口を開き、スターカテゴリーを作成してブランドを確立することです。たとえば、必ずしも当社のアプリを通じて NetEase Yanxuan を知っているわけではありませんが、淘宝網や JD.com で製品を購入することで当社のブランドについて知ることができるかもしれません。 NetEase Yanxuan の成長の視点は、ユーザーの獲得、維持、支払いに重点を置くことから、注目の製品の作成とチャネルの画期的な成長に重点を置くようになりました。

ブランド電子商取引の指標のグレーディングは、戦略層、戦術層、実行層に分けることができます。戦略レイヤーは、第 1 レベルの指標である北極星指標に対応します。たとえば、市場の GMV は目標の達成を測定し、企業の戦略的決定に役立ちます。戦術層は、第 1 段階の指標を部門や事業内容ごとに各レベルに分割した第 2 段階の指標に相当し、プロセス管理を行います。実行層は第 3 段階の指標に相当し、第 2 段階の指標をさらに製品と担当者ごとに各レベルに分割し、サービスを詳細に実装します。

ブランド e コマースの現在のインデックス グレーディング方法と、部門、人、製品を見つける必要性に基づいて、当社のアルゴリズムは決定的で解釈可能で、ホワイト ボックス化されている必要があります。そこで、各層の指標が全体に与える影響を計算する分解ベースの手法、すなわち前述の分解寄与法を採用しました。

4. 逆アセンブル寄与度の計算方法

寄与度の計算方法には、加算、乗算、除算の 3 つの方法があります。

NetEase は異常なデータ インジケーターをどのように検出して診断しますか?

#分解方法は上の写真の通りです。 Y は、市場の GMV など、分解されるターゲット指標です。Xi は、特定の州や都市の GMV、X# など、特定の分割ディメンションの下での i 番目のディメンションの値です。 ##i1 は現在の期間の指標を表し、Xi0 は前の期間の元の値を表します。

加算の分解式は分かりやすく、各次元値の変化値ΔX

iを全体の元の値Y0#で割ります。 ## はその貢献度です。 乗算分解には、LMDI (Logarithmic Mean Index Method) 積因数分解法を採用しています。両辺の対数 ln を同時に取ることで加算形式が得られ、上記の方法により各因子の寄与度を求めることができます。寸法値の前後の比率が大きいほど、寄与度も大きくなります。

分割方法は 2 要素分解法を採用しています。つまり、全体に対する各部分と各寸法値の寄与が 2 つの要素で構成されます。第 1 因子は変動寄与度 AXi で表され、第 2 因子は構造変化寄与度 BXi、つまり各部品の構造変化寄与度です。たとえば、各部門の粗利益率は増加しましたが、会社全体の粗利益率は減少しました。原因としては、利益率の低い特定部門の売上比率が上昇し、全体の足を引っ張っていることが考えられますが、これはシンプソンのパラドックスでおなじみの状況です。除算逆アセンブリアルゴリズムでは、BXi の構造変化の寄与を導入することでこの問題を解決できます。

コントリビューションの非常に重要な特徴は加算性であり、繰り返しや省略がないという MECE 原則を満たします。どのような分解方法を使用しても、全体の変化率 ΔY% は、ある分解次元の下ですべての寸法値寄与率 CXi を合計することで得られます。

5. インジケーター分解の次元爆発問題

NetEase は異常なデータ インジケーターをどのように検出して診断しますか?

第一レベルのインジケーターの異常原因を分解するとします。 、売上高や粗利など、分割の次元は販売チャネルや州、都市、地域にすることもできますし、製品カテゴリ、新規顧客と既存顧客などに基づくこともできます。 n 個の分割次元があると仮定すると、n 個の次元に対応する中間テーブルを生成し、各次元の各次元値 Xi の指標の変化を計算して、その寄与を取得する必要があります。

インジケーターの異常の原因を正確に突き止めるには、単一の次元しか分解できず、その次元の結論しか得られないという問題があり、正確な問題はが見つかりません。細分化されたディメンションが詳細すぎる場合、たとえばすべてのディメンションを結合した場合、各項目の寄与が小さすぎるため、主な理由を取得できません。したがって、ここでは徹底的にドリルダウンして、さまざまな次元の組み合わせで必要な結論を探す必要があります。

現在 n 個の分割ディメンションがあると仮定すると、最初に 2n の中間テーブルを作成する必要があります。中間テーブルを確立するプロセス中に、口径がデータ ウェアハウスの仕様を満たすには、ワークロードが非常に大きくなります。これらの中間テーブルを構築した後、対応する寄与度を計算するために逆アセンブリアルゴリズムの API を呼び出すため、非常に大きな計算量とストレージ消費が発生し、次元爆発の問題が発生します。

6. インジケーター分解の次元爆発問題の最適化

NetEase は異常なデータ インジケーターをどのように検出して診断しますか?

次元爆発の問題を解決するには、実装プランは次のように最適化されました。

最適化 1: ディメンションの分解プロセスを寄与ベースの集計に変換します。前述したように、寄与度は加算的であるため、最初にアルゴリズムが呼び出されて、最も詳細な最終指標の寄与度を計算します。次に、どの次元の寄与度が必要であるかを判断し、それを使用して条件ごとにグループ化して寄与度を合計します。 。これにより、中間テーブルの IO プロセスが省略でき、アルゴリズム呼び出しが 1 回だけ必要となり、クラスター上で合計操作を実行する方が、インジケーター逆アセンブリ アルゴリズムを呼び出すよりもはるかに高速になります。

上記は、第 1 レベルの指標の異常診断です。実際のビジネスでは、第 2 レベルの指標も診断する必要があります。この方法では、寄与度を 1 回正規化するだけで済みます。以上で、繰り返し計算する必要がなく、一次指標と二次指標の異常診断を同時に行うことができます。

#計算効率の問題は解決されましたが、まだ問題が残っています。つまり、結果の空間複雑さが非常に大きく、## に達します。 #。 k を各次元の次元値の平均数とすると、 1 次元解体空間 NetEase は異常なデータ インジケーターをどのように検出して診断しますか?# 2 次元解体空間 NetEase は異常なデータ インジケーターをどのように検出して診断しますか?# 3 次元解体空間 NetEase は異常なデータ インジケーターをどのように検出して診断しますか? n次元解体空間NetEase は異常なデータ インジケーターをどのように検出して診断しますか?=NetEase は異常なデータ インジケーターをどのように検出して診断しますか?NetEase は異常なデータ インジケーターをどのように検出して診断しますか?

NetEase は異常なデータ インジケーターをどのように検出して診断しますか?

最適化 2: 実際のビジネス ニーズに応じてプルーニングを実装するディメンションの組み合わせを制限し、結果の空間の複雑さを NetEase は異常なデータ インジケーターをどのように検出して診断しますか? から

NetEase は異常なデータ インジケーターをどのように検出して診断しますか?写真内

。具体的には、2 つの操作が含まれます。1 つ目は、ディメンションをグループ化することです。第 1 レベルのチャネルと第 2 レベルのチャネルなど、自然な階層関係を持つディメンションの場合、第 2 レベルのチャネルに分割される場合、第 1 レベルのチャネル情報は次のようになります。第 1 レベルのチャネルと第 2 レベルのチャネルを冗長に組み合わせるには、グループ全体のディメンションを組み合わせるだけで済みます。 2 つ目は、アトリビューション診断の分析では、実際のビジネスでは特に複雑なディメンションには注目しないため、ディメンションの組み合わせの数を制限することですが、通常は 2 つまたは 3 つのディメンションの組み合わせで十分です。

最適化 3: 寸法のジニ係数ソートに基づいて、最適な寸法を決定し、異常に正確な位置決めを実現します。枝刈り後のいくつかの分割次数とそれに対応するディメンション値の寄与がある場合、それらの中から最適なものを選択し、主な理由を特定するにはどうすればよいでしょうか?直感的な考え方としては、特定のディメンションの粒度が細かくなり、ヘッドのトップディメンション値の寄与が大きくなるほど、それがインジケーターの異常の主な原因となる可能性が高くなります。ジニ係数は、このシナリオにより適した測定方法であり、各部分の寄与の二乗和から 1 を引いた値が小さいほど、分割寸法はより合理的になります。

上図の右側は例ですが、ある売上の異常に対して、まず製品の次元に応じて分割する方法です。小さい、ジニ係数は非常に大きい。第2の方法は、粒度に従ってセカンダリチャネルを分解する方法であり、粒度は比較的粗く、計算されたジニ係数は比較的大きな値になる可能性がある。 3 番目の方法は、第 1 レベルの産業と第 2 レベルのチャネルを乗じて計算されます。第 2 レベルのチャネルはさらに 1 レベル掘り下げられ、一部の部分にはプラスの寄与があり、一部の部分にはプラスの寄与があるため、ジニ係数はさらに小さくなる可能性があります。部品には負の寄与があります。プラスの寄与は指標の変動にプラスの影響を与える部分、マイナスの寄与はマイナスの影響を与える部分です。この例では、分割ディメンション産業 1 が 60% の寄与でチャネル 1 と交差しており、これが主原因として分類されていることがわかります。これは私たちの理解とより一致しています。したがって、ジニ係数を通じて、より合理的な分割ディメンションとインジケーターの異常の主な原因を見つけることができます。

#4. QA

#Q1: 診断の精度を評価する指標は何ですか?

A1: 確定診断を使用しているため、結論は非常に明確です。純粋な指標という観点から見ると、計算してコードを書くことで精度が担保されます。ビジネス理解の観点からは、例えば、あるビジネスが正常に業務を行っていることによる例外である場合や、その他の理由による偽陽性や偽陰性が発生している場合など、悪いケースを収集することで精度を評価します。

Q2: 貢献ポイントの解体は混在しますか?例えば、GMVを解体する場合、最初は加算でチャンネルを解体し、次に乗算の式を使用しますが、異なる解体方法を使用する順序はどのように判断すればよいでしょうか?

A2: これは非常に良い実践的な質問です。まず、加算と乗算を混合するというアイデアを使用することが可能で、各ステップの TOP 寸法値の対応する寄与と、次の分解後の寄与を検索して計算するという貪欲な方法を使用できます。次のステップは、寄与度の減少に基づいてそれを加算または乗算によって分解することです。

もう 1 つの考え方は、まず一定の方向に従うことです。たとえば、電子商取引の GMV の場合、最初は足し算で分解し、その後最低値まで分解し続けることもできます。特定の製品について、製品の乗算を実行して、この製品の GMV が低下した理由、トラフィックが低下したか、コンバージョン率が低下したかなどを調べます。具体的なアプローチは、適時性や開発コストなどの考慮事項だけでなく、さまざまな実際のビジネス ニーズと組み合わせる必要があります。

NetEase Yanxuan の現在のシナリオでは、汎用性とビジネス ステータスを考慮すると、ブランド電子商取引企業として外部チャネルを通じて販売する場合、トラフィックやコンバージョン率などの要素が重要になります。ブラックボックスなので、私たちのビジネスシナリオでは主に付加的分解に焦点を当てています。

以上がNetEase は異常なデータ インジケーターをどのように検出して診断しますか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
特斯拉自动驾驶算法和模型解读特斯拉自动驾驶算法和模型解读Apr 11, 2023 pm 12:04 PM

特斯拉是一个典型的AI公司,过去一年训练了75000个神经网络,意味着每8分钟就要出一个新的模型,共有281个模型用到了特斯拉的车上。接下来我们分几个方面来解读特斯拉FSD的算法和模型进展。01 感知 Occupancy Network特斯拉今年在感知方面的一个重点技术是Occupancy Network (占据网络)。研究机器人技术的同学肯定对occupancy grid不会陌生,occupancy表示空间中每个3D体素(voxel)是否被占据,可以是0/1二元表示,也可以是[0, 1]之间的

基于因果森林算法的决策定位应用基于因果森林算法的决策定位应用Apr 08, 2023 am 11:21 AM

译者 | 朱先忠​审校 | 孙淑娟​在我之前的​​博客​​中,我们已经了解了如何使用因果树来评估政策的异质处理效应。如果你还没有阅读过,我建议你在阅读本文前先读一遍,因为我们在本文中认为你已经了解了此文中的部分与本文相关的内容。为什么是异质处理效应(HTE:heterogenous treatment effects)呢?首先,对异质处理效应的估计允许我们根据它们的预期结果(疾病、公司收入、客户满意度等)选择提供处理(药物、广告、产品等)的用户(患者、用户、客户等)。换句话说,估计HTE有助于我

Mango:基于Python环境的贝叶斯优化新方法Mango:基于Python环境的贝叶斯优化新方法Apr 08, 2023 pm 12:44 PM

译者 | 朱先忠审校 | 孙淑娟引言模型超参数(或模型设置)的优化可能是训练机器学习算法中最重要的一步,因为它可以找到最小化模型损失函数的最佳参数。这一步对于构建不易过拟合的泛化模型也是必不可少的。优化模型超参数的最著名技术是穷举网格搜索和随机网格搜索。在第一种方法中,搜索空间被定义为跨越每个模型超参数的域的网格。通过在网格的每个点上训练模型来获得最优超参数。尽管网格搜索非常容易实现,但它在计算上变得昂贵,尤其是当要优化的变量数量很大时。另一方面,随机网格搜索是一种更快的优化方法,可以提供更好的

因果推断主要技术思想与方法总结因果推断主要技术思想与方法总结Apr 12, 2023 am 08:10 AM

导读:因果推断是数据科学的一个重要分支,在互联网和工业界的产品迭代、算法和激励策略的评估中都扮演者重要的角色,结合数据、实验或者统计计量模型来计算新的改变带来的收益,是决策制定的基础。然而,因果推断并不是一件简单的事情。首先,在日常生活中,人们常常把相关和因果混为一谈。相关往往代表着两个变量具有同时增长或者降低的趋势,但是因果意味着我们想要知道对一个变量施加改变的时候会发生什么样的结果,或者说我们期望得到反事实的结果,如果过去做了不一样的动作,未来是否会发生改变?然而难点在于,反事实的数据往往是

使用Pytorch实现对比学习SimCLR 进行自监督预训练使用Pytorch实现对比学习SimCLR 进行自监督预训练Apr 10, 2023 pm 02:11 PM

SimCLR(Simple Framework for Contrastive Learning of Representations)是一种学习图像表示的自监督技术。 与传统的监督学习方法不同,SimCLR 不依赖标记数据来学习有用的表示。 它利用对比学习框架来学习一组有用的特征,这些特征可以从未标记的图像中捕获高级语义信息。SimCLR 已被证明在各种图像分类基准上优于最先进的无监督学习方法。 并且它学习到的表示可以很容易地转移到下游任务,例如对象检测、语义分割和小样本学习,只需在较小的标记

​盒马供应链算法实战​盒马供应链算法实战Apr 10, 2023 pm 09:11 PM

一、盒马供应链介绍1、盒马商业模式盒马是一个技术创新的公司,更是一个消费驱动的公司,回归消费者价值:买的到、买的好、买的方便、买的放心、买的开心。盒马包含盒马鲜生、X 会员店、盒马超云、盒马邻里等多种业务模式,其中最核心的商业模式是线上线下一体化,最快 30 分钟到家的 O2O(即盒马鲜生)模式。2、盒马经营品类介绍盒马精选全球品质商品,追求极致新鲜;结合品类特点和消费者购物体验预期,为不同品类选择最为高效的经营模式。盒马生鲜的销售占比达 60%~70%,是最核心的品类,该品类的特点是用户预期时

机器学习必知必会十大算法!机器学习必知必会十大算法!Apr 12, 2023 am 09:34 AM

1.线性回归线性回归(Linear Regression)可能是最流行的机器学习算法。线性回归就是要找一条直线,并且让这条直线尽可能地拟合散点图中的数据点。它试图通过将直线方程与该数据拟合来表示自变量(x 值)和数值结果(y 值)。然后就可以用这条线来预测未来的值!这种算法最常用的技术是最小二乘法(Least of squares)。这个方法计算出最佳拟合线,以使得与直线上每个数据点的垂直距离最小。总距离是所有数据点的垂直距离(绿线)的平方和。其思想是通过最小化这个平方误差或距离来拟合模型。例如

人类反超 AI:DeepMind 用 AI 打破矩阵乘法计算速度 50 年记录一周后,数学家再次刷新人类反超 AI:DeepMind 用 AI 打破矩阵乘法计算速度 50 年记录一周后,数学家再次刷新Apr 11, 2023 pm 01:16 PM

10 月 5 日,AlphaTensor 横空出世,DeepMind 宣布其解决了数学领域 50 年来一个悬而未决的数学算法问题,即矩阵乘法。AlphaTensor 成为首个用于为矩阵乘法等数学问题发现新颖、高效且可证明正确的算法的 AI 系统。论文《Discovering faster matrix multiplication algorithms with reinforcement learning》也登上了 Nature 封面。然而,AlphaTensor 的记录仅保持了一周,便被人类

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

MantisBT

MantisBT

Mantis は、製品の欠陥追跡を支援するために設計された、導入が簡単な Web ベースの欠陥追跡ツールです。 PHP、MySQL、Web サーバーが必要です。デモおよびホスティング サービスをチェックしてください。

VSCode Windows 64 ビットのダウンロード

VSCode Windows 64 ビットのダウンロード

Microsoft によって発売された無料で強力な IDE エディター

Dreamweaver Mac版

Dreamweaver Mac版

ビジュアル Web 開発ツール

SublimeText3 英語版

SublimeText3 英語版

推奨: Win バージョン、コードプロンプトをサポート!

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター