プライバシー保護: AI による医療臨床データの匿名化-AI-php.cn

ホームページ

テクノロジー周辺機器

プライバシー保護: AI による医療臨床データの匿名化

王林

Apr 12, 2023 pm 03:19 PM

ai医療保険

プライバシー保護: AI による医療臨床データの匿名化

新型コロナウイルス感染症（COVID-19）の突然の流行に直面して、私たちは記録的なデータ侵害を目撃しました。最近の IBM のレポートでは、データ侵害のコストも劇的に上昇していることが判明しました。

ヘルスケアは間違いなくデータ侵害によって最も大きな影響を受ける業界の 1 つであり、データ侵害 1 件あたりのコストは平均 920 万ドルに上ります。このような侵害で最も頻繁に流出する情報の種類は、機密性の高い顧客データです。

製薬会社やヘルスケア会社は、患者データを保護しながら、厳格なガイダンスに従って組織および運営する必要があります。したがって、侵害は多大な損害をもたらす可能性があります。たとえば、企業は創薬段階を通じて個人を特定できる情報 (PII) を収集、処理、保存する必要があり、治験が終了して臨床申請を提出する際には、公表される結果における患者のプライバシーを保護するために注意を払う必要があります。

欧州医薬品庁 (EMA) 規則 No. 0070 とカナダ保健省が発行した「臨床情報の公開」規則はどちらも、患者の回復のための結果の使用を最小限に抑えることを期待して、データの匿名化に関する具体的な提案を提示しています。身元情報のリスク。

これらの規制では、データプライバシーの擁護に加えて、コミュニティが確実にデータに取り組むことができるように試験データの共有も義務付けています。しかし、これは間違いなく企業をジレンマに陥らせます。

それでは、製薬会社は、研究結果をタイムリーかつ費用対効果の高い効率的な方法で公開しながら、データのプライバシーと透明性のバランスをどのようにとっているのでしょうか? AI テクノロジーが提出プロセスのワークロードの 97% 以上を引き受け、企業の運用負担を大幅に軽減できることが事実で証明されています。

臨床研究結果 (CSR) を匿名化することが非常に難しいのはなぜですか?

臨床申請の匿名化を実装する過程で、企業は主に 3 つの主要な課題に直面します。

非構造化データは処理が困難です。 臨床試験データの中には、多くのデータが含まれます。そのほとんどは非構造化データです。研究結果には大量のテキストデータ、スキャンした画像、表が含まれているため、処理が非効率になります。研究報告書は多くの場合、数千ページに及ぶため、その中の機密情報を特定することは、干し草の山から針を見つけるようなものです。さらに、この種の処理を自動化できる標準化された技術トレーニングソリューションはありません。

手動プロセスは煩雑でエラーが発生しやすいです: 現在、製薬会社は臨床研究の提出を匿名化するために何百人もの従業員を雇用しています。チーム全体が 25 を超える複雑な手順を実行する必要があり、一般的な概要ドキュメントの処理には最大 45 日かかる場合があります。また、何千ページもの資料を手動でレビューする場合、その面倒なプロセスによりエラーが発生することがよくあります。

規制ガイドラインの自由な解釈: 規制には多くの詳細な提案がありますが、詳細はまだ不完全です。たとえば、カナダ保健省の「臨床情報の公開」規制では、ID 情報の回復リスクを 9% 未満にすることが求められていますが、具体的なリスク計算方法については詳しく説明されていません。

以下では、問題解決の観点から、このような匿名化のニーズに対応できる具体的なソリューションを想定します。

拡張分析を使用して人間の言語で機密情報を識別する

次の 3 つの要素は、テクノロジー主導の匿名化ソリューションの構築に役立ちます:

処理用の自然言語 AI 言語モデル (NLP) )

現在、AI はアーティストのように創作したり、医師のように診断したりできます。深層学習テクノロジーは AI の多くの進歩を促進し、AI 言語モデルはそのバックボーンの 1 つです。人間の言語を処理するように設計されたアルゴリズムの 1 つである AI 言語モデルは、患者名、社会保障番号、郵便番号などの固有表現の検出に特に優れています。

これらの強力な AI モデルは、無意識のうちにパブリックドメインの隅々に浸透し、公開文書を使用して大規模にトレーニングされています。有名な Wikipedia に加えて、40,000 人の患者の減感作データを含む MIMIC-III v1.4 データベースも、AI モデルをトレーニングするための貴重なリソースとなっています。もちろん、モデルのパフォーマンスを向上させるために、ドメインの専門家は社内の臨床試験レポートに基づいてモデルのその後の再トレーニングを実行する必要もあります。

ヒューマンマシンループ設計による精度の向上

カナダ保健省によって提案された 9% のリスク閾値基準は、およそ 95% のモデル精度要件に大まかに変換できます (通常は再現率または測定値を使用します)。精度による）。 AI アルゴリズムは、大量のデータを調べ、複数のトレーニングサイクルを実行して精度を向上させることができます。ただし、技術的な改善だけでは臨床応用に備えるのに十分ではなく、これらのモデルには人間による指導やサポートも必要です。

臨床試験データの主観性に対処し、結果を改善するために、分析ソリューションは人間と連携して機能するように設計されています。これは拡張知能と呼ばれます。つまり、人間は人間と機械のループの一部とみなされ、データのラベル付けやモデルのトレーニングを担当するだけでなく、ソリューションが効果を発揮した後も定期的にフィードバックを提供します。このようにして、モデルの精度と出力パフォーマンスが向上します。

協力的なアプローチで問題を解決する

研究に 1,000 人の患者が参加し、そのうち 980 人が米国本土の出身で、残りの 20 人が南米の出身であると仮定します。では、これら 20 人の患者のデータは編集 (黒塗り) または匿名化する必要があるのでしょうか?同じ国または大陸内の患者サンプルを選択する必要がありますか?攻撃者はどのような方法でこの匿名化された情報を年齢、郵便番号、その他のデータと組み合わせて、最終的に患者の身元を復元する可能性がありますか?

残念ながら、これらの質問に対する標準的な答えはありません。臨床申請ガイダンスをより明確に解釈するには、製薬メーカー、臨床研究機関 (CRO)、テクノロジーソリューションプロバイダー、学術界の研究者が力を合わせて協力する必要があります。

AI 主導の匿名化方法

上記の基本的なアイデアを踏まえて、次のステップはそれらを組み合わせて完全なソリューションプロセスを構築することです。匿名化ソリューション全体のさまざまなテクノロジーは、私たちが業務ですでに使用している実際の方法に基づいている必要があります。

臨床研究レポートには、前述したさまざまな非構造化データ要素に加えて、さまざまな構造化データ (人口統計情報や住所エントリなどの数値およびアイデンティティエンティティ) が含まれています。これは、悪意のあるハッカーがこれらを機密の名前付きエンティティに復元できないように適切に処理する必要があります。構造化データは比較的処理が簡単ですが、AI アルゴリズムは非構造化データの難しさを克服する必要があります。

したがって、非構造化データ (通常はスキャン画像や PDF などの形式) は、まず光学式文字認識 (OCR) やコンピュータービジョンなどのテクノロジを使用して読み取り可能な形式に変換されます。その後、AI アルゴリズムが文書に適用され、個人を特定できる情報が検出されます。アルゴリズムのパフォーマンスを向上させるために、ユーザーはサンプル結果に関するフィードバックを共有して、システムがこれらの信頼性の低い分析の処理方法を理解できるようにすることができます。

プライバシー保護: AI による医療臨床データの匿名化

AI を活用した匿名化手法

匿名化が完了したら、対応する ID 復元のリスクも評価する必要があります。この研究では通常、母集団の背景を参照し、他の同様の試験からのデータと組み合わせる必要があります。リスク評価は、一連の要素を通じて、検察官、ジャーナリスト、マーケティング担当者の 3 つの主要なリスクシナリオを特定することに重点を置いています。これら 3 つのグループは、それぞれのニーズに基づいて患者情報の復元を試みます。

リスクレベルが規定の推奨値の 9% に達するまで、匿名化プロセスではさらに多くのビジネスルールとアルゴリズムの改善が導入され、反復サイクルで有効性が向上します。次に、他のテクノロジーアプリケーションと統合し、機械学習オペレーション (ML Ops) プロセスを確立することで、匿名化ソリューション全体を実際のワークフローに組み込むことができます。

アルゴリズムよりも難しい課題 - データ品質

製薬会社にとって、このような匿名化ソリューションは提出サイクルを最大 97% 短縮できます。さらに重要なのは、この半自動化されたワークフローにより、人間の関与を確保しながら効率が向上します。しかし、AI を活用した匿名化ソリューションを構築する際の最大の課題は何でしょうか?

実際、ほとんどのデータサイエンスの実践と同様、この作業に対する最大の障害は、名前付きエンティティの識別に使用される AI アルゴリズムではなく、調査レポートを、データサイエンスで処理できる高品質のデータに変換する方法です。あい。形式、スタイル、構造が異なるドキュメントの場合、対応するコンテンツ取り込みパイプラインが失われることがよくあります。

したがって、AI 匿名化ソリューションは、新しいドキュメントのエンコード形式に適応したり、画像や表のスキャンの開始位置と終了位置を正確に検出したりするために、常に微調整する必要があります。明らかに、この作業面は AI 匿名化において最も時間とエネルギーを消費する領域です。

臨床研究における匿名化の新たな課題

テクノロジーの急速な進歩により、臨床研究の匿名化は今後も困難が軽減され、より効率的になるでしょうか? AI を活用したソリューションは確かに優れていますが、注意が必要な新たな課題も存在するでしょう。

まず、ソーシャルメディア、デバイスの使用状況、オンライン追跡を通じて収集された消費者データにより、ID 復元のリスクが大幅に増加しています。攻撃者は、この公開情報と臨床研究データを組み合わせて、患者を正確に特定することができます。さらに懸念されるのは、悪意のあるハッカーが AI の結果を積極的に応用しており、製薬会社よりも先を行く可能性があることです。

最後に、国固有の慣行に対応するために規制は進化し続けています。おそらく、近いうちに一部の国が臨床申請の匿名化に関する特定の規制を発表することになるでしょう。これにより、企業がコンプライアンスを維持するための複雑さとコスト負担が確実に増大するでしょう。しかし、よく言われるように、未来は明るいが道は曲がりくねっており、AI テクノロジーの成熟した発展は、少なくとも業界全体に問題を克服する希望をもたらします。

以上がプライバシー保護: AI による医療臨床データの匿名化の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

Huggingface smollmであなたの個人的なAIアシスタントを構築する方法Apr 18, 2025 am 11:52 AM

オンデバイスAIの力を活用：個人的なチャットボットCLIの構築最近では、個人的なAIアシスタントの概念はサイエンスフィクションのように見えました。ハイテク愛好家のアレックスを想像して、賢くて地元のAI仲間を夢見ています。

メンタルヘルスのためのAIは、スタンフォード大学でのエキサイティングな新しいイニシアチブによって注意深く分析されますApr 18, 2025 am 11:49 AM

AI4MHの最初の発売は2025年4月15日に開催され、有名な精神科医および神経科学者であるLuminary Dr. Tom Insel博士がキックオフスピーカーを務めました。 Insel博士は、メンタルヘルス研究とテクノでの彼の傑出した仕事で有名です

2025年のWNBAドラフトクラスは、成長し、オンラインハラスメントの成長と戦いに参加しますApr 18, 2025 am 11:44 AM

「私たちは、WNBAが、すべての人、プレイヤー、ファン、企業パートナーが安全であり、大切になり、力を与えられたスペースであることを保証したいと考えています」とエンゲルバートは述べ、女性のスポーツの最も有害な課題の1つになったものに取り組んでいます。アノ

Pythonビルトインデータ構造の包括的なガイド-AnalyticsVidhyaApr 18, 2025 am 11:43 AM

導入 Pythonは、特にデータサイエンスと生成AIにおいて、プログラミング言語として優れています。大規模なデータセットを処理する場合、効率的なデータ操作（ストレージ、管理、アクセス）が重要です。以前に数字とstをカバーしてきました

Openaiの新しいモデルからの代替案からの第一印象Apr 18, 2025 am 11:41 AM

潜る前に、重要な注意事項：AIパフォーマンスは非決定論的であり、非常にユースケース固有です。簡単に言えば、走行距離は異なる場合があります。この（または他の）記事を最終的な単語として撮影しないでください。これらのモデルを独自のシナリオでテストしないでください

AIポートフォリオ| AIキャリアのためにポートフォリオを構築する方法は？Apr 18, 2025 am 11:40 AM

傑出したAI/MLポートフォリオの構築：初心者と専門家向けガイド説得力のあるポートフォリオを作成することは、人工知能（AI）と機械学習（ML）で役割を確保するために重要です。このガイドは、ポートフォリオを構築するためのアドバイスを提供します

エージェントAIがセキュリティ運用にとって何を意味するのかApr 18, 2025 am 11:36 AM

結果？燃え尽き症候群、非効率性、および検出とアクションの間の隙間が拡大します。これは、サイバーセキュリティで働く人にとってはショックとしてはありません。しかし、エージェントAIの約束は潜在的なターニングポイントとして浮上しています。この新しいクラス

Google対Openai：学生のためのAIの戦いApr 18, 2025 am 11:31 AM

即時の影響と長期パートナーシップ？ 2週間前、Openaiは強力な短期オファーで前進し、2025年5月末までに米国およびカナダの大学生にChatGpt Plusに無料でアクセスできます。このツールにはGPT ‑ 4o、Aが含まれます。

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポートライブラリとヘッダーファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。

DVWA

Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、

SecLists

SecLists は、セキュリティテスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティテスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティテストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジングペイロード、機密データパターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテストマシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。