検索
ホームページウェブフロントエンドjsチュートリアルヒープを使用して Top K アルゴリズムを実装する (JS 実装)_JavaScript スキル

まず、Top K アルゴリズムについて説明します。詳細は次のとおりです

アプリケーションシナリオ:

検索エンジンは、各検索でユーザーが使用したすべての検索文字列をログ ファイルに記録します。各クエリ文字列の長さは 1 ~ 255 バイトです。
現在 1,000 万件のレコードがあるとします (これらのクエリ文字列の繰り返し度は比較的高く、総数は 1,000 万件ですが、繰り返しを除くと 300 万件を超えません。クエリの繰り返し度が高くなるほど、文字列は、クエリ文字列 (ユーザーが多いほど人気が​​高い) を意味します。最も人気のある 10 個のクエリ文字列を数えてください。必要なメモリは 1G を超えることはできません。

必須知識:
ハッシュテーブルとは何ですか?
ハッシュ テーブル(ハッシュ テーブル、ハッシュ テーブルとも呼ばれます)は、キー値に基づいて直接アクセスされるデータ構造です。

つまり、キー値をテーブル内の場所にマッピングしてレコードにアクセスし、検索を高速化します。このマッピング関数をハッシュ関数と呼び、レコードを格納する配列をハッシュテーブルと呼びます。

ハッシュ テーブルの方法は実際には非常に単純で、固定アルゴリズム関数、いわゆるハッシュ関数を通じてキーを整数値に変換し、その数値を配列の長さに変調します。結果は配列の添字として、数値を添字として配列空間に値が格納されます。
クエリにハッシュ テーブルを使用する場合、ハッシュ関数を再度使用してキーを対応する配列の添字に変換し、値を取得するための空間を配置します。これにより、配列の位置決め性能をデータ処理に最大限に活用できます。 。 位置。
問題分析:

最も人気のあるクエリをカウントするには、まず各クエリの出現数をカウントし、統計結果に基づいて上位 10 を見つけます。したがって、この考えに基づいて 2 つのステップでアルゴリズムを設計できます。

つまり、この問題の解決策は次の 2 つのステップに分かれます。

ステップ 1: クエリ統計 (各クエリの発生数をカウントします)
クエリ統計には、次の 2 つの方法から選択できます:
1)、直接ソート方法 (多くの場合、ログ ファイル内の統計。Cat File | Format Key | Sort | Uniq -C | Sort -NR | Head -N 10 を使用します。これが方法です)
まず、最初に考えられるアルゴリズムは並べ替えです。まず、ログ内のすべてのクエリを並べ替え、次に並べ替えられたクエリを走査し、各クエリが出現する回数を数えます。

しかし、質問には明確な要件があります。つまり、メモリは 1G を超えてはならず、1,000 万件のレコードがあり、各レコードは 255 バイトであり、明らかに 2.375G のメモリを占有します。この条件は要件を満たしていません。

データ構造のコースの内容を思い出してください。データの量が比較的多く、メモリに収まらない場合、マージ ソートには外部ソートを使用できます。時間計算量 O(NlgN) が向上。

並べ替え後、順序付けされたクエリ ファイルを走査し、各クエリの出現数をカウントし、再度ファイルに書き込みます。

包括的な分析によると、ソートの時間計算量は O(NlgN)、トラバーサルの時間計算量は O(N) であるため、アルゴリズム全体の時間計算量は O(N+NlgN)=O(NlgN) となります。 )。

2)、ハッシュ テーブル法 (この方法は文字列の出現数を数えるのに非常に適しています)
最初の方法では、ソート方法を使用して各クエリの出現回数をカウントします。では、より低い時間計算量でそれを保存するより良い方法はありますか?

タイトルで説明されているように、クエリは 1,000 万個ありますが、繰り返しが多いため、実際には 300 万個しかなく、各クエリは 255 バイトなので、すべてをメモリに格納することを検討できます。適切なデータ構造が必要なだけです。ハッシュ テーブルのクエリ速度は非常に速く、時間の計算量はほぼ O(1) であるため、ここでは間違いなくハッシュ テーブルが優先されます。

これで、アルゴリズムが完成しました:

キーがクエリ文字列、値がクエリの出現数であるハッシュテーブルを維持します。文字列がテーブルにない場合は、文字列を追加して値を 1 に設定します。文字列がテーブルにある場合は、文字列のカウントに 1 を加えます。最終的に、この大量のデータの処理を O(N) 時間以内に完了しました。

      本方法相比演算法1:在時間複雜度上提高了一個數量級,為O(N),但不僅僅是時間複雜度上的優化,該方法只需要IO數據文件一次,而算法1的IO次數較多的,因此此演算法2比演算法1在工程上有更好的可操作性。

第二步:求Top 10(找出出現次數最多的10個)
演算法一:普通排序(我們只用找出top10,所以全部排序有冗餘)
     我想對於排序演算法大家都已經不陌生了,這裡不在贅述,我們要注意的是排序演算法的時間複雜度是NlgN,在本題目中,三百萬筆記錄,用1G記憶體是可以存下的。

演算法二:部分排序        
題目要求是求出Top 10,因此我們沒有必要對所有的Query都進行排序,我們只需要維護一個10個大小的數組,初始化放入10個Query,按照每個Query的統計次數由大到小排序,然後遍歷這300萬筆記錄,每讀一條記錄就和數組最後一個Query對比,如果小於這個Query,那麼繼續遍歷,否則,將數組中最後一條數據淘汰(還是要放在合適的位置,保持有序),加入目前的Query。最後當所有的資料都遍歷完畢之後,那麼這個陣列中的10個Query就是我們要找的Top10了。

      不難分析出,這樣,演算法的最壞時間複雜度是N*K, 其中K是指top多少。

演算法三:
       在演算法二中,我們已經將時間複雜度由NlogN優化到N*K,不得不說這是一個比較大的改進了,可是有沒有更好的辦法呢?

       分析一下,在演算法二中,每次比較完成之後,所需的操作複雜度都是K,因為要把元素插入到一個線性表之中,而且採用的是順序比較。這裡我們注意一下,該數組是有序的,一次我們每次查找的時候可以採用二分的方法查找,這樣操作的複雜度就降到了logK,可是,隨之而來的問題就是數據移動,因為移動數據次數增加了。不過,這個演算法還是比演算法二有了進步。

       基於上述的分析,我們想想,有沒有一種既能快速查找,又能快速移動元素的資料結構呢?

       答案是肯定的,那就是堆。
       藉助堆疊結構,我們可以在log量級的時間內找到並調整/移動。因此到這裡,我們的演算法可以改進為這樣,維護一個K(該題目中是10)大小的小根堆,然後遍歷300萬的Query,分別和根元素進行比較。

思想與上述演算法二一致,只是在演算法三,我們採用了最小堆這種資料結構來取代數組,把查找目標元素的時間複雜度有O(K)降到了O(logK)。
       那麼這樣,採用堆疊資料結構,演算法三,最終的時間複雜度就降到了N*logK,和演算法二相比,又有了比較大的改進。

至此,演算法就完全結束了,經過上述第一步、先用Hash表統計每個Query出現的次數,O(N);然後第二步、採用堆資料結構找出Top 10,N* O(logK)。所以,我們最終的時間複雜度是:O(N) + N'*O(logK)。 (N為1000萬,N'為300萬)。

js如何使用堆疊實作Top K 演算法?

1. 使用堆疊演算法實作Top,時間複雜度為 O(LogN)

function top(arr,comp){ 
if(arr.length == 0){return ;} 
var i = arr.length / 2 | 0 ; 
for(;i >= 0; i--){ 
if(comp(arr[i], arr[i * 2])){exch(arr, i, i*2);} 
if(comp(arr[i], arr[i * 2 + 1])) {exch(arr, i, i*2 + 1);} 
} 
return arr[0];   
  
} 
   
function exch(arr,i,j){ 
var t = arr[i]; 
arr[i] = arr[j]; 
arr[j] = t; 
}

2. 呼叫K次堆實現,時間複雜度為 O(K * LogN)

function topK(arr,n,comp){ 
if(!arr || arr.length == 0 || n <=0 || n > arr.length){ 
return -1; 
} 
  
  
var ret = new Array(); 
for(var i = 0;i < n; i++){ 
var max = top(arr,comp); 
ret.push(max); 
arr.splice(0,1); 
} 
return ret; 
}

3.檢定

var ret = topK(new Array(16,22,91,0,51,44,23),3,function (a,b){return a < b;}); 
console.log(ret);

以上就是為大家分享的使用堆實現Top K演算法,何為Top K演算法,希望對大家的學習有所幫助。

声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
如何使用JS和百度地图实现地图平移功能如何使用JS和百度地图实现地图平移功能Nov 21, 2023 am 10:00 AM

如何使用JS和百度地图实现地图平移功能百度地图是一款广泛使用的地图服务平台,在Web开发中经常用于展示地理信息、定位等功能。本文将介绍如何使用JS和百度地图API实现地图平移功能,并提供具体的代码示例。一、准备工作使用百度地图API前,首先需要在百度地图开放平台(http://lbsyun.baidu.com/)上申请一个开发者账号,并创建一个应用。创建完成

js字符串转数组js字符串转数组Aug 03, 2023 pm 01:34 PM

js字符串转数组的方法:1、使用“split()”方法,可以根据指定的分隔符将字符串分割成数组元素;2、使用“Array.from()”方法,可以将可迭代对象或类数组对象转换成真正的数组;3、使用for循环遍历,将每个字符依次添加到数组中;4、使用“Array.split()”方法,通过调用“Array.prototype.forEach()”将一个字符串拆分成数组的快捷方式。

如何使用JS和百度地图实现地图热力图功能如何使用JS和百度地图实现地图热力图功能Nov 21, 2023 am 09:33 AM

如何使用JS和百度地图实现地图热力图功能简介:随着互联网和移动设备的迅速发展,地图成为了一种普遍的应用场景。而热力图作为一种可视化的展示方式,能够帮助我们更直观地了解数据的分布情况。本文将介绍如何使用JS和百度地图API来实现地图热力图的功能,并提供具体的代码示例。准备工作:在开始之前,你需要准备以下事项:一个百度开发者账号,并创建一个应用,获取到相应的AP

如何使用JS和百度地图实现地图多边形绘制功能如何使用JS和百度地图实现地图多边形绘制功能Nov 21, 2023 am 10:53 AM

如何使用JS和百度地图实现地图多边形绘制功能在现代网页开发中,地图应用已经成为常见的功能之一。而地图上绘制多边形,可以帮助我们将特定区域进行标记,方便用户进行查看和分析。本文将介绍如何使用JS和百度地图API实现地图多边形绘制功能,并提供具体的代码示例。首先,我们需要引入百度地图API。可以利用以下代码在HTML文件中导入百度地图API的JavaScript

js中new操作符做了哪些事情js中new操作符做了哪些事情Nov 13, 2023 pm 04:05 PM

js中new操作符做了:1、创建一个空对象,这个新对象将成为函数的实例;2、将新对象的原型链接到构造函数的原型对象,这样新对象就可以访问构造函数原型对象中定义的属性和方法;3、将构造函数的作用域赋给新对象,这样新对象就可以通过this关键字来引用构造函数中的属性和方法;4、执行构造函数中的代码,构造函数中的代码将用于初始化新对象的属性和方法;5、如果构造函数中没有返回等等。

用JavaScript模拟实现打字小游戏!用JavaScript模拟实现打字小游戏!Aug 07, 2022 am 10:34 AM

这篇文章主要为大家详细介绍了js实现打字小游戏,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下。

php可以读js内部的数组吗php可以读js内部的数组吗Jul 12, 2023 pm 03:41 PM

php在特定情况下可以读js内部的数组。其方法是:1、在JavaScript中,创建一个包含需要传递给PHP的数组的变量;2、使用Ajax技术将该数组发送给PHP脚本。可以使用原生的JavaScript代码或者使用基于Ajax的JavaScript库如jQuery等;3、在PHP脚本中,接收传递过来的数组数据,并进行相应的处理即可。

js是什么编程语言?js是什么编程语言?May 05, 2019 am 10:22 AM

js全称JavaScript,是一种具有函数优先的轻量级,直译式、解释型或即时编译型的高级编程语言,是一种属于网络的高级脚本语言;JavaScript基于原型编程、多范式的动态脚本语言,并且支持面向对象、命令式和声明式,如函数式编程。

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

AtomエディタMac版ダウンロード

AtomエディタMac版ダウンロード

最も人気のあるオープンソースエディター

Dreamweaver Mac版

Dreamweaver Mac版

ビジュアル Web 開発ツール

Safe Exam Browser

Safe Exam Browser

Safe Exam Browser は、オンライン試験を安全に受験するための安全なブラウザ環境です。このソフトウェアは、あらゆるコンピュータを安全なワークステーションに変えます。あらゆるユーティリティへのアクセスを制御し、学生が無許可のリソースを使用するのを防ぎます。

DVWA

DVWA

Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、

mPDF

mPDF

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。