ホームページ >よくある問題 >自然言語処理は、言語学、コンピュータサイエンスなどを統合した科学です。

自然言語処理は、言語学、コンピュータサイエンスなどを統合した科学です。

青灯夜游オリジナル: 2021-02-02 10:39:176412ブラウズ

自然言語処理は、言語学、コンピューターサイエンス、数学を統合した科学です。自然言語処理は主に、機械翻訳、世論監視、自動要約、意見抽出、テキスト分類、質問応答、テキスト意味比較、音声認識、中国語OCRなどに使用されます。

このチュートリアルの動作環境: Windows 7 システム、Dell G3 コンピューター。

自然言語処理 (NLP) は、言語学、コンピューターサイエンス、数学を統合した科学です。

自然言語処理とは、人間が機械と対話するために使用する自然言語を使用して対話型コミュニケーションを行うテクノロジーを指します。自然言語を人工的に処理することで、コンピューターはそれを読み取って理解することができます。自然言語処理に関する関連研究は、人間による機械翻訳の探求から始まりました。自然言語処理には発音、文法、意味論、語用論などの多次元の操作が含まれますが、簡単に言えば、自然言語処理の基本的なタスクは、オントロジー辞書、単語頻度統計、文脈的意味論に基づいて処理対象のコーパスをセグメント化することです。分析などにより、最小の品詞に基づいた豊富な意味論に基づいた語彙単位が形成されます。

自然言語処理は、言語を対象とし、コンピューター技術を使用して自然言語を分析、理解、処理します。言語研究のための強力なツールとしてコンピューターを使用し、コンピューターの支援を受けて言語情報を定量化します。人間とコンピュータの間で使用できる言語の説明を提供します。これには、自然言語理解 (NLU) と自然言語生成 (NLG) の 2 つの部分が含まれています。これは、言語科学、コンピューターサイエンス、数学、認知、論理などが関与し、コンピューターと人間（自然）言語との相互作用に焦点を当てた、典型的なエッジ学際科目です。コンピューターを使用して自然言語を処理するプロセスは、異なる時期または異なる重点で、自然言語理解 (NLU)、人間言語技術 (HLT)、および計算言語学、量的言語学、数学言語学とも呼ばれます。

人間とコンピュータの間で自然言語コミュニケーションを実現するとは、コンピュータが自然言語文章の意味を理解するだけでなく、与えられた意図や思考などを自然言語文章で表現できるようにすることを意味します。前者は自然言語理解と呼ばれ、後者は自然言語生成と呼ばれます。したがって、自然言語処理には通常、自然言語理解と自然言語生成の 2 つの部分が含まれます。歴史的には、自然言語理解についてはより多くの研究が行われてきましたが、自然言語生成についてはあまり行われていません。しかし、それは変わりました。

関連する推奨事項: "プログラミング学習 "

自然言語理解であれ、自然言語生成であれ、それは人々が当初想像していたほど単純ではありませんが、とても難しいです。現在の理論的、技術的状況から判断すると、普遍的で高品質な自然言語処理システムの実現は依然として長期的な目標であるが、特定のアプリケーションについては、かなりの自然言語処理能力を備えた実用的なシステムが出現し、一部は商品化されている。、そして工業化も始めました。代表的な例には、多言語データベースおよびエキスパートシステム用の自然言語インターフェイス、さまざまな機械翻訳システム、全文情報検索システム、自動要約システムなどが含まれます。

自然言語処理、つまり人間と機械の間で自然言語コミュニケーションを実現したり、自然言語理解や自然言語生成を実現したりすることは非常に困難です。この問題の根本的な原因は、自然言語のテキストと対話のあらゆるレベルに存在する多種多様な曖昧さです。

自然言語の形式 (文字列) とその意味の間には多対多の関係があります。実は、これこそが自然言語の魅力なのです。しかし、コンピュータ処理の観点からは、あいまいさを排除する必要があり、それが自然言語理解の中心的な問題である、つまり、潜在的に曖昧な自然言語入力を何らかの明確なコンピュータ内部表現に変換することであると考える人もいます。

曖昧性現象が広範囲に存在するため、それを解消するには多量の知識と推論が必要となり、言語学ベースの手法や知識ベースの手法では大きな困難を伴うため、これらの手法が自然言語手法の主流となっています。過去数十年にわたり、処理研究は理論と方法において多くの成果を上げてきましたが、大規模な実際のテキストを処理できるシステムの開発という点では、その成果は重要なものではありませんでした。開発されたシステムのほとんどは小規模な研究デモンストレーションシステムです。

現在の問題には 2 つの側面があります: 一方で、これまでの文法は孤立した文の分析に限定されており、この文に対する文脈や会話環境の制約や影響についての体系的な研究がまだ不足しています。したがって、曖昧さや単語の省略の分析には、同じ文が異なる場面や異なる人によって異なる意味を持つなどの問題に従うべき明確なルールはなく、徐々に解決するために語用論の研究を強化する必要があります。一方、人間は文法だけでなく、生活知識や専門知識など、多くの知識を使って文章を理解しますが、そのすべてをコンピュータに保存することはできません。したがって、文章理解システムは限られた範囲の語彙、文型、および特定のトピック内でしか確立できず、コンピュータの記憶容量と動作速度が大幅に向上して初めて、その範囲を適切に拡大することが可能になります。

上記の既存の問題これは、機械翻訳における自然言語理解を適用する際の主な問題となっています。これが、今日の機械翻訳システムの翻訳品質が依然として理想的な目標から程遠い理由の 1 つです。品質は機械翻訳システムの成功または失敗の鍵です。中国の数学者で言語学者である周海中教授は、かつて古典的論文「機械翻訳の50年」で次のように指摘しました：機械翻訳の品質を向上させるために、最初に解決すべきことは、プログラミングの問題ではなく言語自体です。機械翻訳システムを構築するだけで機械翻訳の品質を向上させることは確かに不可能であり、また人間の脳が言語のあいまいな認識や論理的判断をどのように行うのかをまだ理解していない場合、機械翻訳で翻訳の品質を向上させることは困難です。「忠実さ、表現力、上品さ」のレベルを実現可能。

さらに関連記事を読みたい場合は、

PHP 中国語 Web サイトにアクセスしてください。！

以上が自然言語処理は、言語学、コンピュータサイエンスなどを統合した科学です。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明：

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

前の記事：txt形式の作成方法次の記事：txt形式の作成方法

続きを見る