딥러닝 모델의 예측 품질을 향상시키는 비밀 무기 - 상황 인식 데이터-일체 포함-php.cn

집

기술 주변기기

일체 포함

딥러닝 모델의 예측 품질을 향상시키는 비밀 무기 - 상황 인식 데이터

PHPz

Apr 11, 2023 pm 11:28 PM

데이터연산딥러닝

번역가 | Zhu Xianzhong

리뷰어 | Sun Shujuan

이 글에서는 딥러닝 모델의 입력 데이터를 최적화하는 방법을 여러분과 공유하고 싶습니다. 데이터 과학자이자 데이터 엔지니어로서 저는 이 기술을 내 작업에 성공적으로 적용했습니다. 구체적인 실제 개발 사례를 통해 상황별 정보를 사용하여 모델 입력 데이터를 강화하는 방법을 배우게 됩니다. 이는 더욱 강력하고 정확한 딥 러닝 모델을 설계하는 데 도움이 됩니다.

딥러닝 모델의 예측 품질을 향상시키는 비밀 무기 - 상황 인식 데이터

딥 러닝 모델은 상황별 정보를 통합하는 데 매우 뛰어나기 때문에 매우 강력합니다. 원본 데이터의 차원에 여러 컨텍스트를 추가하여 신경망의 성능을 향상시킬 수 있습니다. 우리는 영리한 데이터 엔지니어링을 통해 이를 달성할 수 있습니다.

새로운 예측 딥러닝 알고리즘을 개발할 때 특정 사용 사례에 완벽하게 적합한 모델 아키텍처를 선택할 수 있습니다. 입력 데이터와 실제 예측 작업에 따라 다양한 방법을 생각해 보았을 것입니다. 이미지를 분류하려는 경우에는 컨볼루션 신경망을 선택하고, 시계열을 예측하거나 텍스트를 분석하는 경우에는 LSTM 네트워크를 선택할 가능성이 높습니다. 유망한 선택이 될 수 있습니다. 올바른 모델 아키텍처에 대한 결정은 모델에 유입되는 데이터 유형에 따라 결정되는 경우가 많습니다.

결과적으로 올바른 입력 데이터 구조를 찾는 것(즉, 모델의 입력 레이어 정의)은 모델 설계에서 가장 중요한 단계 중 하나가 되었습니다. 나는 보통 다른 어떤 것보다 입력 데이터를 형성하는 데 더 많은 개발 시간을 투자합니다. 명확하게 말하면, 주어진 원시 데이터 구조를 다룰 필요가 없으며 적절한 모델을 찾으면 됩니다. 기능 엔지니어링 및 기능 선택을 내부적으로 처리하는 신경망의 기능("엔드 투 엔드 모델링")은 입력 데이터의 구조 최적화에서 면제되지 않습니다. 우리는 모델이 데이터로부터 최선의 이해를 얻고 가장 정보에 입각한 결정(즉, 가장 정확한 예측)을 내릴 수 있는 방식으로 데이터를 제공해야 합니다. 여기서 "비밀" 요소는 상황 정보입니다. 즉, 가능한 한 많은 맥락으로 원시 데이터를 풍부하게 해야 합니다.

컨텍스트란 무엇인가요?

그럼 위에서 "컨텍스트"란 구체적으로 무엇을 의미하나요? 예를 들어 보겠습니다. Mary는 음료 소매 회사의 판매 예측 시스템을 개발하는 새로운 일을 시작하는 데이터 과학자입니다. 간단히 말해서, 그녀의 임무는 특정 매장과 특정 제품(레모네이드, 오렌지 주스, 맥주...)이 주어지면 그녀의 모델이 특정 매장에서 이 제품의 향후 판매를 예측할 수 있어야 한다는 것입니다. 예측은 수백 개의 다양한 매장에서 제공되는 수천 개의 다양한 제품에 적용됩니다. 지금까지 시스템은 잘 작동해 왔습니다. Mary의 첫날은 영업 부서에서 보냈습니다. 비록 경험이 풍부한 영업 회계사인 Peters가 수동으로 수행했지만 예측 작업은 이미 완료되었습니다. 그녀의 목표는 도메인 전문가가 특정 제품에 대한 미래 수요를 결정하는 기준을 이해하는 것입니다. 훌륭한 데이터 과학자로서 Mary는 Peters의 수년간의 경험이 어떤 데이터가 모델에 더 가치가 있는지 정의하는 데 매우 도움이 될 것이라고 예상했습니다. 이를 알아보기 위해 Mary는 Peters에게 두 가지 질문을 했습니다.

첫 번째 질문: "다음 달 베를린 매장에서 특정 브랜드의 레모네이드 몇 병을 판매할지 계산하기 위해 어떤 데이터를 분석했나요? 데이터를 어떻게 해석했나요?" 베를린에서 레모네이드 판매의 첫 단계를 밟았습니다." 그런 다음 그는 자신의 전략을 설명하기 위해 다음 그래프를 그렸습니다.

딥러닝 모델의 예측 품질을 향상시키는 비밀 무기 - 상황 인식 데이터

위 그래프에서는 7월/8월(베를린 여름 시간)에 정점을 이루는 연속 곡선이 있음을 알 수 있습니다. 여름에는 기온이 높아지면서 간식을 선호하게 되므로 제품 판매가 증가하는 것은 매우 직관적입니다. 더 짧은 시간(약 한 달)에서는 예측할 수 없는 이벤트(랜덤 노이즈)로 인해 약 10개 품목 범위 내에서 판매량이 변동하는 것을 볼 수 있습니다.

피터스는 이어 "여름에 매출이 늘었다가 겨울에 매출이 감소하는 패턴이 반복되는 걸 보면 앞으로도 이런 일이 일어날 가능성이 높다고 생각해서 그 가능성을 토대로 매출을 추정한다"고 덧붙였다. 이것은 합리적으로 들립니다.

Peters는 두 데이터 포인트의 거리가 시간 차이로 정의되는 시간적 맥락에서 판매 데이터를 해석합니다. 데이터가 시간순으로 정렬되어 있지 않으면 해석하기 어렵습니다. 예를 들어, 히스토그램의 매출 분포만 살펴본다면 시간적 맥락이 사라지고 향후 매출에 대한 최선의 추정치는 모든 값의 중앙값과 같은 일부 집계 값이 됩니다.

데이터가 특정 방식으로 정렬되면 컨텍스트가 나타납니다.

데이터베이스에서 "무료" 컨텍스트를 저장하려면 판매 예측 모델에 과거 판매 데이터를 올바른 시간순으로 입력해야 한다는 것은 말할 필요도 없습니다. 딥 러닝 모델은 우리의 뇌(이 경우에는 Peters의 뇌)와 유사하게 상황별 정보를 통합하는 데 매우 뛰어나기 때문에 매우 강력합니다.

딥 러닝이 이미지 분류 및 이미지 객체 감지에 왜 그렇게 효과적인지 궁금한 적이 있습니까? 일반 이미지에는 이미 많은 "자연스러운" 맥락이 있기 때문입니다. 이미지는 기본적으로 두 가지 배경 차원, 즉 x 방향의 공간적 거리와 y 방향의 공간적 간격에 따라 배열된 빛 강도의 데이터 포인트입니다. 그리고 애니메이션 형식(이미지의 시간 순서)으로서의 영화는 세 번째 맥락적 차원으로 시간을 추가합니다.

컨텍스트는 예측에 매우 유익하기 때문에 더 많은 컨텍스트 차원을 추가하여 모델 성능을 향상시킬 수 있습니다. 이러한 차원이 원본 데이터에 이미 포함되어 있더라도 마찬가지입니다. 우리는 다음에 설명하는 몇 가지 영리한 데이터 엔지니어링 방법을 통해 이를 달성했습니다.

우리는 모델이 데이터에서 최상의 의미를 도출하고 가장 정확한 정보를 바탕으로 결정을 내릴 수 있는 방식으로 데이터를 제공해야 합니다. 나는 보통 다른 어떤 것보다 입력 데이터를 형성하는 데 더 많은 개발 시간을 투자합니다.

컨텍스트가 풍부한 데이터 디자인

Mary와 Peters의 토론으로 돌아가 보겠습니다. Mary는 대부분의 경우 실제 데이터가 위의 차트만큼 좋지 않다는 것을 알고 차트를 약간 수정하여 다음과 같이 표시했습니다.

딥러닝 모델의 예측 품질을 향상시키는 비밀 무기 - 상황 인식 데이터

Mary가 묻는 두 번째 질문은 다음과 같습니다. 마지막 판매 데이터 포인트가 일반적인 소음 수준보다 높습니까? 이는 실제 시나리오일 수 있습니다. 어쩌면 제품이 성공적인 마케팅 캠페인을 진행하고 있을 수도 있습니다. 아마도 이러한 경우에는 효과가 오래 지속됩니다. 또는 미래의 매출은 동일한 수준으로 유지될 수도 있습니다. 예를 들어, 베를린의 방문 학교 수업이 우연히 가게에 들어와 모든 아이들이 이 레모네이드를 구입하는 경우가 있을 수 있습니다. 이 경우 매출 성장은 안정적이지 않으며 노이즈 데이터로만 간주될 수 있습니다. 이 경우 이것이 실제 매출 효과인지 어떻게 판단합니까?”

Peters가 대답하기 전에 머리를 긁는 것을 볼 수 있습니다. "이 경우에는 베를린과 유사한 매장의 매출을 보고 있습니다. 예를 들어 함부르크와 뮌헨에 있는 매장이 있습니다. 매장은 독일의 주요 도시에도 위치해 있기 때문에 비교할 수 있습니다. 저는 베를린에 있는 매장을 고려하지 않습니다. 서로 다른 취향과 선호도를 가진 다양한 고객을 기대할 수 있기 때문입니다."

그는 두 가지 가능한 시나리오를 사용하여 다른 매장의 판매 곡선을 합산했습니다. "베를린에서 판매량이 늘어나는 걸 보면 소음인 것 같아요. 하지만 함부르크와 뮌헨에서도 레모네이드 판매량이 늘어나는 걸 보면 안정화 효과가 있을 것으로 기대해요." 어려운 상황에서 Peters는 더 많은 정보를 바탕으로 결정을 내리기 위해 더 많은 데이터를 고려합니다. 그는 다양한 매장의 맥락에서 새로운 차원의 데이터를 추가합니다. 위에서 언급했듯이 컨텍스트는 데이터가 특정 방식으로 정렬될 때 발생합니다. 매장 컨텍스트를 생성하려면 먼저 거리 측정값을 정의하여 그에 따라 다양한 매장의 데이터를 정렬해야 합니다. 예를 들어 Peters는 매장이 위치한 도시의 크기에 따라 매장을 차별화합니다.

일부 SQL 및 Numpy 프로그래밍 기술을 적용하여 모델에 유사한 컨텍스트를 제공할 수 있습니다. 먼저 회사 매장이 위치한 도시의 인구 규모를 이해해야 합니다. 그런 다음 인구 차이를 기준으로 모든 매장 간의 거리를 측정합니다. 마지막으로 모든 판매 데이터를 2D 매트릭스로 결합합니다. 여기서 첫 번째 차원은 다음과 같습니다. 시간, 두 번째 차원은 매장 거리 측정 기준입니다.

딥러닝 모델의 예측 품질을 향상시키는 비밀 무기 - 상황 인식 데이터

그림의 판매 매트릭스는 최근 레모네이드 판매에 대한 좋은 개요를 제공하며 결과 패턴을 시각적으로 설명할 수 있습니다. 판매 매트릭스의 왼쪽 하단에 있는 데이터 포인트를 살펴보세요. 이는 베를린의 가장 최근 판매 데이터입니다. 유사한 매장(예: 버거)은 급격한 매출 증가를 반복하지 않기 때문에 밝은 점은 예외일 가능성이 높습니다. 반면 유사점포들은 7월 최고 매출을 재현했다.

따라서 맥락을 생성하려면 항상 거리 측정법을 추가해야 합니다.

이제 Peters가 말한 내용을 제품이 위치한 도시의 인구 규모를 기반으로 모델링할 수 있는 수학 용어로 번역합니다. 새로운 상황별 차원을 추가할 때 올바른 거리 측정법을 매우 신중하게 고려해야 합니다. 이는 우리가 예측하려는 개체에 어떤 요인이 영향을 미치는지에 따라 다릅니다. 영향을 미치는 요인은 전적으로 제품에 따라 달라지며 이에 따라 거리 표시도 조정되어야 합니다. 예를 들어, 독일의 맥주 판매를 살펴보면 소비자가 현지 양조장에서 제품을 구매할 가능성이 높다는 것을 알 수 있습니다(독일 전역에 약 1,300개의 양조장을 찾을 수 있음).

쾰른 사람들은 보통 쿠르쉬를 마시지만, 뒤셀도르프 지역으로 북쪽으로 30분을 운전하면 사람들은 쿠르쉬를 피하고 더 진한 몰티어 알 스페셜 맥주를 선호합니다. 따라서 독일 맥주 판매의 경우 지리적 거리를 기준으로 매장 거리를 모델링하는 것이 합리적인 선택일 수 있습니다. 그러나 다른 제품 카테고리(레모네이드, 오렌지 주스, 스포츠 음료…)의 경우에는 그렇지 않습니다.

추가 컨텍스트 차원을 추가했기 때문에 잠재적인 예측 모델이 다양한 시간과 매장에서 레모네이드 판매 프로필을 얻을 수 있는 풍부한 컨텍스트 데이터 세트를 만들었습니다. 이를 통해 모델은 최근 판매 내역을 확인하고 다른 위치의 유사한 매장을 좌우로 살펴보며 베를린 매장의 향후 판매에 대해 정보에 입각한 결정을 내릴 수 있습니다.

여기에서 추가 상황별 차원으로 제품 유형을 추가할 수 있습니다. 따라서 우리는 레모네이드(예측 대상)와의 유사성에 따라 순위가 매겨진 다른 제품의 데이터를 사용하여 판매 매트릭스를 강화합니다. 이번에도 좋은 유사성 측정항목을 찾아야 합니다. 콜라가 오렌지 주스보다 레모네이드에 더 가깝나요? 어떤 데이터를 바탕으로 유사성 순위를 정의할 수 있나요?

매장의 경우에는 도시의 인구를 나타내는 연속적인 측정값을 가지고 있습니다. 이제 우리는 제품 카테고리를 다루고 있습니다. 우리가 정말로 찾고 싶은 것은 레모네이드와 유사한 판매 행동을 보이는 제품입니다. 레모네이드와 달리 모든 제품에 대해 시간별 판매 데이터에 대한 상호 상관 분석을 수행할 수 있습니다. 이런 방식으로 우리는 각 제품에 대한 Pearson 상관 계수를 얻어 판매 패턴이 얼마나 유사한지 알려줍니다. 콜라와 같은 청량음료는 레모네이드와 유사한 판매 패턴을 보일 수 있으며 여름 동안 판매량이 증가합니다. 다른 제품은 완전히 다르게 작동합니다. 예를 들어, 크리스마스 시장에서 판매되는 따뜻하고 달콤한 와인인 Gühwein은 12월에 판매 최고치를 기록한 후 나머지 기간에는 거의 판매가 없을 수 있습니다.

【역자 주】Time-resolved: 물리학이나 통계학의 이름. 이와 관련하여 일반적으로 사용되는 다른 단어로는 시간 분해 진단, 시간 분해 스펙트럼 등이 있습니다.

딥러닝 모델의 예측 품질을 향상시키는 비밀 무기 - 상황 인식 데이터

상호 상관 분석에 따르면 Glühwein 와인의 피어슨 계수는 더 낮고(실제로는 음수), 코카콜라의 피어슨 계수는 더 높습니다.

판매 매트릭스에 3차원을 추가하더라도 2차원을 반대 방향으로 결합하여 제품 컨텍스트를 포함할 수 있습니다. 이렇게 하면 가장 중요한 판매 데이터(베를린 레모네이드 판매)가 중앙에 놓입니다.

딥러닝 모델의 예측 품질을 향상시키는 비밀 무기 - 상황 인식 데이터

더 많은 기능 추가

이제 매우 유용한 데이터 구조를 갖게 되었지만 지금까지는 단 하나의 기능만 있습니다. 특정 시간에 특정 상점에서 특정 제품에 대해 판매되는 제품입니다. 이는 이미 강력하고 정확한 예측을 하기에는 충분할 수 있지만, 다른 데이터 소스에서 유용한 정보를 추가할 수도 있습니다.

예를 들어 음료 구매 행동은 날씨에 따라 달라질 가능성이 높습니다. 예를 들어, 매우 더운 여름에는 레모네이드에 대한 수요가 증가할 수 있습니다. 우리는 매트릭스의 두 번째 레이어로 날씨 데이터(기온 등)를 제공할 수 있습니다. 날씨 데이터는 판매 데이터와 동일한 맥락(매장 위치 및 제품)으로 정렬됩니다. 다른 제품에 대해서도 동일한 기온 데이터를 얻을 수 있습니다. 그러나 시간과 매장 위치에 따라 차이가 있어 데이터에 유용한 정보를 제공할 수 있습니다.

딥러닝 모델의 예측 품질을 향상시키는 비밀 무기 - 상황 인식 데이터

이러한 방식으로 판매 및 온도 데이터를 추가로 포함하는 3차원 행렬을 갖게 됩니다. 온도 데이터를 포함하여 추가적인 상황별 측정기준을 추가하지 않았습니다. 앞서 지적했듯이 데이터가 특정 방식으로 정렬되면 컨텍스트가 발생합니다. 우리가 구축한 데이터 컨텍스트를 위해 시간, 제품 유사성, 매장 유사성을 기준으로 데이터를 정렬했습니다. 그러나 특징의 순서(이 경우 행렬의 3차원)는 관련이 없습니다. 실제로 우리의 데이터 구조는 RGB 컬러 이미지와 동일합니다. RGB 이미지에는 두 가지 컨텍스트 차원(공간 차원 x 및 y)과 세 가지 색상 레이어(빨간색, 녹색, 파란색)가 있습니다. 이미지를 올바르게 해석하기 위해 색상 채널의 순서는 임의적입니다. 일단 정의한 후에는 순서대로 유지해야 합니다. 그러나 특정 맥락으로 구성된 데이터의 경우 거리 측정 기준이 없습니다.

즉, 입력 데이터의 구조를 미리 결정할 수 없습니다. 따라서 새로운 타당성 지표를 발굴하기 위해서는 창의성과 직관력을 최대한 발휘해야 할 때입니다.

요약

시간 해결 판매 데이터에 두 개의 추가 컨텍스트와 추가 기능 레이어를 추가하여 두 개의 "채널"(판매 및 온도)이 있는 2차원 "그림"을 얻습니다. 이 데이터 구조는 특정 매장의 최근 레모네이드 판매에 대한 포괄적인 보기뿐만 아니라 유사한 매장 및 유사한 제품의 판매 및 날씨 정보를 제공합니다. 지금까지 우리가 만든 데이터 구조는 심층 신경망(예: 여러 컨볼루션 레이어 및 LSTM 단위 포함)을 통한 해석에 매우 적합합니다. 하지만 공간적 제약으로 인해 이를 기반으로 적합한 신경망 설계를 시작하는 방법에 대해서는 논의하지 않겠습니다. 이것이 내 후속 기사의 주제가 될 수 있습니다.

나는 당신이 자신만의 아이디어를 가질 수 있기를 바라며, 입력 데이터의 구조가 미리 정해져 있지 않더라도 모든 창의력과 직관을 활용하여 확장할 수 있습니다.

일반적으로 컨텍스트가 풍부한 데이터 구조는 무료로 제공되지 않습니다. 회사 전체 매장에서 다양한 제품을 예측하려면 상황에 맞게 풍부한 수천 개의 판매 프로필 정보(각 매장 제품 믹스에 대한 하나의 매트릭스)를 생성해야 합니다. 데이터를 필요한 형식으로 만들고 후속 신경망 빠른 훈련 및 예측 주기에 제공하기 위해 효과적인 처리 및 버퍼링 조치를 설계하려면 많은 추가 작업을 수행해야 합니다. 물론 이렇게 하면 "규칙을 깨고" 매우 현명한 결정을 내릴 수 있는 것처럼 보일 수 있기 때문에 정확한 예측을 할 수 있고 시끄러운 데이터가 있는 경우에도 매우 강력한 원하는 딥 러닝 모델을 얻을 수 있습니다.