ホームページ >テクノロジー周辺機器 >AI >GenAI および LLM の技術面接に関する 7 つのクールな質問

GenAI および LLM の技術面接に関する 7 つのクールな質問

PHPz
PHPzオリジナル
2024-06-07 10:06:29700ブラウズ

七个很酷的GenAI & LLM技术性面试问题

AIGC について詳しく知りたい場合は、

51CTO AI を参照してください。これらの質問は、インターネット上のどこにでもある従来の質問バンクとは異なります。 -ボックス思考。

大規模言語モデル (LLM) は、データ サイエンス、生成人工知能 (GenAI)、人工知能の分野でますます重要になっています。これらの複雑なアルゴリズムは人間のスキルを向上させ、多くの業界で効率とイノベーションを推進し、企業が競争力を維持するための鍵となります。 LLM は、自然言語処理、テキスト生成、音声認識、推奨システムなどの分野で幅広い用途に使用できます。 LLM は、大量のデータから学習することで、テキストを生成して質問に答え、人間と会話して、正確で価値のある情報を提供することができます。 GenAI は、さまざまなクリエイティブな機能を生成できる LLM アルゴリズムとモデルに依存しています。ただし、GenAI と LLM はますます一般的になりつつありますが、その複雑さを深く理解できる詳細なリソースがまだ不足しています。職場に新しく入社した人は、GenAI や LLM の機能や実際の応用について面接を行うと、未知の領域に行き詰まっていると感じることがよくあります。

この目的のために、GenAI と LLM に関する技術面接の質問を記録するこのガイドブックを作成しました。詳細な回答を備えたこのガイドは、面接の準備をし、自信を持って課題に取り組み、AI とデータ サイエンスの未来を形作る上での GenAI と LLM の影響と可能性をより深く理解できるように設計されています。

1. Python で埋め込み辞書を使用してナレッジ グラフを構築するにはどうすればよいですか?

1 つの方法は、キーが単語、トークン、概念であるハッシュ (Python の辞書、キー値テーブルとも呼ばれます) を使用することです。または「数学」などのカテゴリ。各キーは値に対応し、それ自体がハッシュ、つまりネストされたハッシュです。ネストされたハッシュのキーは、「微積分」のような単語など、親ハッシュの親キーに関連する単語でもあります。値は重みです。「微積分」と「数学」は関連しており、一緒に現れることが多いため、「微積分」の値は高くなります。逆に、「レストラン」と「数学」が一緒に現れることはほとんどないため、「レストラン」の値は低くなります。

LLM では、ネストされたハッシュが埋め込み (高次元データを低次元空間にマッピングする方法。通常、コンピューター処理を容易にするために、離散的で非連続なデータを連続ベクトル表現に変換するために使用されます) である可能性があります。ネストされたハッシュには固定数の要素がないため、ベクトル データベースや行列よりもはるかに適切に離散グラフを処理できます。アルゴリズムが高速化され、必要なメモリが少なくなります。

2. データに 1 億個のキーワードが含まれている場合に階層的クラスタリングを実行するにはどうすればよいですか?

キーワードをクラスター化したい場合は、キーワード {A, B} の各ペアについて、学習する 2 つの単語間の A と B の類似度を計算できます。どれだけ似ているか。目標は、類似したキーワードのクラスターを生成することです。

Sklearn などの標準 Python ライブラリは、階層クラスタリングとも呼ばれる凝集クラスタリングを提供します。ただし、この例では、通常、1 億 x 1 億の距離行列が必要です。これは明らかに機能しません。実際には、ランダムな単語 A と B が同時に出現することはほとんどないため、距離行列は非常に離散的になります。解決策には、質問 1 で説明したネストされたハッシュの使用など、離散グラフに適した方法の使用が含まれます。そのようなアプローチの 1 つは、基礎となるグラフ内の接続コンポーネントのクラスタリングの検出に基づいています。

3. Wikipedia のような大規模なリポジトリをクロールして、個々のエントリだけでなく、基礎となる構造を取得するにはどうすればよいですか?

これらのリポジトリはすべて、構造化された要素を Web ページに埋め込んでおり、一見したところよりも興味深いコンテンツになっています。メタデータなど、一部の構造要素は肉眼では見えません。インデックス、関連項目、ブレッドクラム、カテゴリなど、一部の項目は表示され、クロールされたデータにも存在します。これらの要素を個別に検索して、適切なナレッジ グラフや分類法を構築できます。ただし、Beautiful Soup のようなツールに頼るのではなく、独自のクローラーを最初から作成することもできます。構造情報が豊富な LLM (xLLM など) により、より良い結果が得られます。さらに、リポジトリに構造が不足している場合は、外部ソースから取得した構造を使用してスクレイピングしたデータを拡張できます。このプロセスは「構造拡張」と呼ばれます。

4. コンテキスト トークンを使用して LLM 埋め込みを強化するにはどうすればよいですか?

埋め込みは、あらゆるドキュメント内で見つかる最小のテキスト要素で構成されます。 「data」と「science」のように必ずしも 2 つのトークンを持つ必要はなく、「data^science」、「data」、「science」、「data~science」の 4 つのトークンを持つことができます。最後のものは、「データサイエンス」という用語の発見を表しています。 1 つ目は、「データ」と「サイエンス」の両方が、隣接する位置ではなく、特定の段落内のランダムな位置に存在することを意味します。このようなトークンは、マルチトークンまたはコンテキスト トークンと呼ばれます。これらはある程度の優れた冗長性を提供しますが、注意しないと巨大な埋め込みが発生する可能性があります。解決策には、不要なトークンを削除する (最も長いトークンを保持する) ことや、可変サイズの埋め込みを使用することが含まれます。コンテキストに応じたコンテンツは、LLM の錯覚を軽減するのに役立ちます。

5. モデルの評価とトレーニングに関連する多くの問題を解決するための自己調整を実装するにはどうすればよいですか?

これは、ニューラル ネットワークのブラック ボックスではなく、説明可能な AI に基づくシステムに適用されます。アプリケーションのユーザーがハイパーパラメータを選択し、気に入ったパラメータをマークできるようにします。この情報を使用して、理想的なハイパーパラメータを見つけ、デフォルト値に設定します。これは、ユーザー入力に基づいた自動強化学習です。また、ユーザーが希望する結果に基づいてお気に入りのスーツを選択できるため、アプリケーションをカスタマイズできるようになります。 LLM 内では、ユーザーが特定のサブ LLM を選択できるようにすることで (検索タイプやカテゴリに基づいて)、パフォーマンスをさらに向上させることができます。出力内の各項目に関連性スコアを追加すると、システムを微調整するのにも役立ちます。

6. ベクトル検索の速度を数桁向上させるにはどうすればよいですか?

LLM では、可変長の埋め込みを使用すると、埋め込みのサイズが大幅に削減されます。したがって、フロントエンド プロンプトでキャプチャされたものと同様のバックエンド埋め込みの検索が高速化されます。ただし、キーと値のテーブルなど、異なるタイプのデータベースが必要になる場合があります。トークンのサイズと埋め込みテーブルを減らすことも別の解決策です。1 兆トークンのシステムでは、プロンプトに答えるためにトークンの 95% が抽出されることはありません。ただのノイズなので取り除きましょう。コンテキスト トークンの使用 (質問 4 を参照) は、情報をよりコンパクトな方法で保存するもう 1 つの方法です。最後に、圧縮された埋め込みに対して近似最近傍 (ANN) 検索が実行されます。確率的バージョン (pANN) ははるかに高速に実行できます。以下の図を参照してください。最後に、キャッシュ メカニズムを使用して、最も頻繁にアクセスされる埋め込みまたはクエリを保存し、リアルタイム パフォーマンスを向上させます。

七个很酷的GenAI & LLM技术性面试问题

確率的近似最近傍探索 (pANN)

経験によれば、トレーニング セットのサイズを 50% 削減するとより良い結果が得られ、過学習効果は大幅に減少します。 LLM では、インターネット全体を検索するよりも、いくつかの適切な入力ソースを選択する方が良いでしょう。万能ではなく、トップレベル カテゴリごとに専用の LLM を使用すると、埋め込みの数がさらに削減されます。各チップは、データベース全体ではなく、特定のサブ LLM をターゲットにします。

7. モデルから最良の結果を得る理想的な損失関数は何ですか?

最良の解決策は、モデル評価メトリクスを損失関数として使用することです。これがめったに行われない理由は、ニューラル ネットワーク内でニューロンが活性化されるたびに非常に迅速に更新できる損失関数が必要であるためです。ニューラル ネットワークのコンテキストでは、別の解決策は、各エポックの後に評価メトリックを計算し、損失が最小のエポック生成ソリューションではなく、最良の評価スコアを持つエポック生成ソリューションに留まるというものです。

私は現在、評価指標と損失関数が同じであるシステムに取り組んでいます。ニューラル ネットワークに基づいていません。当初、私の評価指標は多変量コルモゴロフ-スミルノフ距離 (KS) でした。しかし、多くの計算を行わないと、ビッグ データの KS でアトミックな更新を実行することは非常に困難です。これにより、何十億ものアトミックな更新が必要になるため、KS は損失関数としては不適切になります。しかし、累積分布関数を数百万のビンを含む確率密度関数に変更することで、損失関数としても機能する優れた評価指標を思いつくことができました。

原題: 7 Cool Technical GenAI & LLM Job Interviewquestions、著者: Vincent Granville

リンク: https://www.datasciencecentral.com/7-cool-technical-genai-llm-job-interview-questions/。

AIGC について詳しくは、こちらをご覧ください:

51CTO AI.x コミュニティ

https://www.51cto.com/aigc/

以上がGenAI および LLM の技術面接に関する 7 つのクールな質問の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。