ホームページ >バックエンド開発 >Python チュートリアル >Openai APIを使用してPythonでデータ分析を実行する方法
コアポイント
データセットを手動で分析して有用なデータを抽出したり、単純なプログラムで同じ操作を実行したりすることで、複雑で時間がかかることがよくあります。幸いなことに、Openai APIとPythonを使用すると、コードを過剰に設定して時間を無駄にすることなく、興味深い情報を体系的に分析できます。これは、さまざまなメソッド、ライブラリ、APIを使用して、データセット内のさまざまなタイプのデータポイントとデータポイントを分析することなく、データ分析のための普遍的なソリューションとして使用できます。
Openai APIとPythonを使用してデータを分析する方法を段階的に学びましょう。
設定 Openai APIを使用してPythonを介してデータを分析するには、OpenaiおよびPandasライブラリをインストールします。
これが完了したら、新しいフォルダーを作成し、新しいフォルダーに空のPythonファイルを作成します。
<code class="language-bash">pip3 install openai pandas</code>
テキストファイルを分析
このチュートリアルでは、PythonがNvidiaの最新の収益コールを分析することは興味深いと思います。 Motley Foolから得た最新のNvidia収益コールをダウンロードして、プロジェクトフォルダーに移動します。
空のPythonファイルを開き、このコードを追加します。
このコードは、ダウンロードしたNVIDIA財務レポートレコードを読み取り、それをトランスクリプト変数としてextract_info関数に渡します。
extract_Info関数は、ユーザー入力としてプロンプトとレコードを渡し、温度= 0.3およびモデル= "gpt-3.5-turbo-16k"。 「GPT-3.5-Turbo-16K」モデルを使用する理由は、このレコードなどの大きなテキストを処理できるためです。このコードは、openai.chatcompletion.createエンドポイントを使用して応答を取得し、ユーザー入力としてproptおよび転写変数を渡します:
完全な入力は次のようになります:
<code class="language-python">completions = openai.ChatCompletion.create( model="gpt-3.5-turbo-16k", messages=[ {"role": "user", "content": prompt+"\n\n"+text} ], temperature=0.3, )</code>openai.chatcompletion.createエンドポイントに入力を渡すと、完全な出力は次のようになります。
<code class="language-bash">pip3 install openai pandas</code>
ご覧のとおり、テキスト応答とリクエストされたトークンの使用を返します。これは、支出と最適化コストを追跡する場合に役立ちます。しかし、応答テキストのみに興味があるため、Completions.Choices [0] .Message.Content応答パスを指定することで取得します。
コードを実行する場合は、以下の引用と同様の出力を取得する必要があります。
テキストから、次の情報を抽出できます。csvファイルを分析NVIDIAの収益:2024年度の第2四半期に、Nvidiaは記録的な第2四半期の収益1351億米ドル、月ごとに88%増加し、前年比で101%増加したと報告しました。
ご覧のとおり、コードはプロンプトで指定された情報(Nvidiaの収益、Nvidiaがこの四半期に行ったこと、および人工知能に関するコメント)で指定された情報を抽出し、印刷します。
- Nvidiaがこの四半期にしたこと:Nvidiaはすべての分野で大幅な成長を見出しています。データセンターセクターの収益は記録に達し、月ごとに141%増加し、前年比171%増加しました。彼らのゲーム部門も成長を遂げ、収益は月面11%、前年比22%増加しました。さらに、彼らの専門的な視覚化部門の収益は、月に28%増加しました。彼らはまた、スノーフレーク、ServiceNow、Accenture、Hugging Face、VMware、SoftBankなどの企業とのパートナーシップとパートナーシップを発表しました。
- AIに関するコメント:NVIDIAは、AIプラットフォームに対する強い需要と加速コンピューティングソリューションを強調しています。彼らは、HGXシステムにおける主要なクラウドサービスプロバイダーと消費者インターネット企業の展開に言及しました。また、マーケティング、メディア、エンターテイメントなど、さまざまな業界での生成的人工知能の適用についても議論しています。 Nvidiaは、新しい市場機会を生み出し、さまざまなセクターの生産性を向上させる生成的人工知能の可能性を強調しています。
収益の呼び出しとテキストファイルの分析はクールですが、大量のデータを体系的に分析するには、CSVファイルを使用する必要があります。
実用的な例として、この中程度の記事CSVデータセットをダウンロードして、プロジェクトファイルに貼り付けます。
CSVファイルを見ると、著者、いいね、読書時間、リンク、タイトル、テキストなどの列があることがわかります。 OpenAIを使用してメディアの記事を分析するには、「タイトル」と「テキスト」列のみが必要です。
プロジェクトフォルダーに新しいPythonファイルを作成し、このコードを貼り付けます。
このコードは、テキストファイルを分析するために使用するコードとはわずかに異なります。 CSVラインごとに読み取り、指定された情報を抽出し、新しい列に追加します。
このチュートリアルでは、kaggleでHsankesaraから入手した中程度の記事のCSVデータセットを選択しました。このCSV分析コードは、CSVファイルの「タイトル」と「記事」列を使用して、各投稿の全体的なトーンとメインレッスン/ポイントを見つけます。私は常にメディアに関するクリックベイトの記事に遭遇しているので、各記事を0から3の「クリックベイトの評価」(0はクリックベイトを意味し、3は極端なクリックベイトを意味します)を与えることで各記事を判断させることを許可すると思います。面白い。CSVファイル全体を分析するには、コードを説明する前にCSVファイル全体が時間がかかりすぎてAPIポイントを消費しすぎているため、このチュートリアルでは、DF = DF [:5]を使用して最初の5つの記事を分析しました。
コードの次の部分に混乱する可能性があるので、説明させてください:
このコードは、CSVファイルのすべての記事(行)を反復し、各反復に関する各記事のタイトルと本文を取得し、以前に見たextract_info関数に渡します。次に、次のコードを使用して、extract_info関数の応答をリストに変換して、このコードを使用して異なる情報スニペットを分離します。
<code class="language-bash">pip3 install openai pandas</code>
次に、各情報をリストに追加し、エラーが発生した場合(値がない場合)、リストに「結果なし」を追加します。
<code class="language-python">completions = openai.ChatCompletion.create( model="gpt-3.5-turbo-16k", messages=[ {"role": "user", "content": prompt+"\n\n"+text} ], temperature=0.3, )</code>最後に、forループが終了した後、抽出された情報を含むリストがCSVファイルの新しい列に挿入されます:
<code>从文本中提取以下信息: 英伟达的收入 英伟达本季度做了什么 关于人工智能的评论 英伟达财报记录在此处</code>ご覧のとおり、「TONE」、「Main_Lesson_or_Point」、「ClickBait_Score」と呼ばれる新しいCSV列にリストを追加します。
次に、index = falseを使用してCSVファイルに添付します:
<code class="language-json">{ "choices": [ { "finish_reason": "stop", "index": 0, "message": { "content": "实际响应", "role": "assistant" } } ], "created": 1693336390, "id": "request-id", "model": "gpt-3.5-turbo-16k-0613", "object": "chat.completion", "usage": { "completion_tokens": 579, "prompt_tokens": 3615, "total_tokens": 4194 } }</code>
index = falseを指定する必要がある理由は、新しい列がCSVファイルに接続されるたびに新しいインデックス列の作成を避けるためです。
Pythonファイルを実行する場合は、CSVファイルビューアのCSVファイルが完了して確認するのを待ってください。次の画像に示されている新しい列が表示されます。
<code class="language-python">for di in range(len(df)): title = titles[di] abstract = articles[di] additional_params = extract_info('Title: '+str(title) + '\n\n' + 'Text: ' + str(abstract)) try: result = additional_params.split("\n\n") except: result = {} </code>
コードを複数回実行すると、生成された回答がわずかに異なることに気付くでしょう。これは、コードが温度= 0.3を使用して答えに創造性を追加するためです。これは、ClickBaitなどの主観的なトピックに非常に役立ちます。
複数のファイルを自動的に分析する場合は、最初に1つのフォルダーにそれらを配置し、フォルダーに興味のあるファイルのみが含まれていることを確認して、Pythonコードが無関係なファイルを読み取らないようにする必要があります。次に、PIP3インストールグロブを使用してグローブライブラリをインストールし、インポートグローブを使用してPythonファイルにインポートします。 Pythonファイルで、このコードを使用して、データフォルダー内のすべてのファイルのリストを取得します。
次に、forループで分析を実行するコードを配置します:
for loopで、次のようなテキストファイルの各ファイルの内容を読み取ります:
<code class="language-python">try: result = additional_params.split("\n\n") except: result = {} </code>
csvファイルの場合、このようなものです:
<code class="language-python">try: apa1.append(result[0]) except Exception as e: apa1.append('No result') try: apa2.append(result[1]) except Exception as e: apa2.append('No result') try: apa3.append(result[2]) except Exception as e: apa3.append('No result')</code>
また、次のようなものを使用して、各ファイル分析の出力を別のファイルに保存してください。
<code class="language-python">df = df.assign(Tone=apa1) df = df.assign(Main_lesson_or_point=apa2) df = df.assign(Clickbait_score=apa3)</code>
結論
<code class="language-python">df.to_csv("data.csv", index=False)</code>
温度パラメーターを試して、ユースケースに従って調整することを忘れないでください。 AIがより創造的な回答を生成したい場合は、温度値を増やしたい場合は、必ず低下させてください。
OpenAIとPythonのデータ分析の組み合わせには、記事と財務報告のコールレコード分析に加えて、多くのアプリケーションがあります。たとえば、ニュース分析、本分析、顧客レビュー分析など!つまり、大規模なデータセットでPythonコードをテストするときは、APIポイントと時間を節約するために、完全なデータセットのごく一部でのみテストしてください。
Pythonデータ分析のためのOpenai APIに関するよくある質問(FAQ) Openai APIとは何ですか?それはどのように機能しますか?
データ分析にOpenai APIを使用するにはどうすればよいですか?
データ分析にOpenai APIを使用することの利点は何ですか?
Openai APIをPythonと統合するにはどうすればよいですか?
Openai APIを使用してどのようなタスクを実現できますか?
Openai APIを使用することの制限は何ですか?
Openai APIの使用に問題がある場合は、いくつかの手順を実行できます。まず、問題の原因に関する手がかりを提供するため、エラーメッセージを確認します。また、APIドキュメントを参照することもできます。APIドキュメントは、APIの使用方法に関する詳細な情報を提供し、頻繁に尋ねられる質問をトラブルシューティングすることもできます。まだ問題がある場合は、Openaiコミュニティに助けを求めて連絡できます。
Openai APIは、セキュリティを念頭に置いて設計されています。 APIに送信されたすべてのデータは、送信中に暗号化され、OpenAIにはデータを保護するための厳格なポリシーがあります。しかし、他のオンラインサービスと同様に、APIを責任を持って使用し、データセキュリティのベストプラクティスに従うことが重要です。
はい、商業目的でOpenai APIを使用できます。ただし、APIを使用するとコストが発生し、APIのサービス利用規約を確認して、意図した使用が要件を満たしていることを確認する必要があります。
Openai APIの未来は明るいです。 Openaiは、モデルを常に改善し、APIの機能を拡張しています。機械学習と人工知能の継続的な進化により、APIがより強力で汎用性が高まると予想されます。
以上がOpenai APIを使用してPythonでデータ分析を実行する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。