>기술 주변기기 >일체 포함 >빅데이터 거버넌스에 AI 알고리즘 적용

빅데이터 거버넌스에 AI 알고리즘 적용

PHPz
PHPz앞으로
2023-04-12 13:37:031827검색

빅데이터 거버넌스에 AI 알고리즘 적용

이 글은 빅데이터 거버넌스에 AI 알고리즘을 적용한 Datacake의 경험을 주로 공유합니다. 이 공유는 다섯 부분으로 나누어집니다. 첫 번째 부분은 빅 데이터와 AI의 관계를 설명합니다. 빅 데이터는 AI를 제공할 수 있을 뿐만 아니라 AI를 사용하여 자체 서비스를 최적화할 수도 있습니다. 두 부분은 상호 지원적이고 의존적입니다. AI 모델의 적용 사례를 소개합니다. 빅 데이터 작업의 상태를 종합적으로 평가하여 후속 데이터 거버넌스를 위한 정량적 기반을 제공합니다. 세 번째 부분에서는 AI 모델을 사용하여 Spark 작업 실행 매개변수 구성을 지능적으로 추천하고 목표를 달성하는 적용 사례를 소개합니다. 네 번째 부분에서는 SQL 쿼리 시나리오에서 모델별로 작업 실행 엔진을 지능적으로 추천하는 사례를 소개합니다. 다섯 번째 부분에서는 빅데이터의 전체 수명주기에서 AI의 적용 시나리오를 기대합니다.

1. 빅데이터와 AI

빅데이터 거버넌스에 AI 알고리즘 적용

클라우드 컴퓨팅의 일반적인 개념은 대규모 데이터를 수집하고 저장하여 빅데이터, AI 모델을 채굴하고 학습하는 것입니다. 추가로 형성됩니다. 이 개념은 빅데이터가 AI를 제공한다고 암묵적으로 가정하지만, AI 알고리즘이 빅데이터에 피드백을 줄 수도 있다는 사실을 무시합니다. 그들 사이에는 상호 지원적이고 의존적인 관계가 있습니다.

빅데이터 거버넌스에 AI 알고리즘 적용

빅데이터의 전체 수명주기는 6단계로 나눌 수 있습니다. 각 단계는 AI 알고리즘을 적절하게 사용하면 이러한 문제를 해결하는 데 도움이 될 수 있습니다.

데이터 수집: 이 단계에서는 수집된 데이터가 완전한지, 데이터 수집 속도가 빠른지 등 데이터 수집의 품질, 빈도, 안전성에 더욱 주의하겠습니다. 빠르거나 너무 느린지, 데이터 수집 속도가 너무 빠르거나 느린지 여부, 데이터가 둔감화되었거나 암호화되었는지 등. 이때 AI는 유사한 애플리케이션을 기반으로 로그 수집의 합리성을 평가하고, 이상 탐지 알고리즘을 사용하여 데이터 양의 급격한 증가 또는 감소를 탐지하는 등 몇 가지 역할을 할 수 있습니다.

데이터 전송: 이 단계에서는 데이터의 가용성, 무결성 및 보안에 더 많은 주의를 기울이고 AI 알고리즘을 사용하여 일부 오류 진단 및 침입 감지를 수행할 수 있습니다.

데이터 저장: 이 단계에서는 데이터의 저장 구조가 합리적인지, 리소스 사용량이 충분히 낮은지, 충분히 안전한지 등에 더 많은 관심을 기울입니다. AI 알고리즘 일부 평가 및 최적화를 수행하는 데에도 사용할 수 있습니다.

데이터 처리: 이 단계는 가장 확실한 영향과 최적화 이점을 제공하는 단계입니다. 핵심 문제는 AI가 여러 시작점에서 최적화될 수 있다는 것입니다.

데이터 교환: 데이터 보안 문제와 관련된 기업 간의 협력이 점점 더 많아지고 있습니다. 예를 들어 널리 사용되는 연합 학습은 데이터를 더 효율적이고 안전하게 공유하는 데 도움이 될 수 있습니다.

데이터 파기: 데이터를 삭제하지 않고 그대로 저장하는 것은 불가능하므로 데이터를 삭제할 수 있는 시기와 위험성이 있는지를 고려해야 합니다. 비즈니스 규칙을 기반으로 AI 알고리즘은 데이터 삭제의 시기와 관련 영향을 결정하는 데 도움을 줄 수 있습니다.

전체적으로 데이터 수명주기 관리에는 고효율, 저비용, 보안이라는 세 가지 주요 목표가 있습니다. 과거의 접근 방식은 전문가의 경험에 의존하여 몇 가지 규칙과 전략을 공식화하는 것이었지만, 이는 높은 비용과 낮은 효율성과 같은 매우 명백한 단점이 있었습니다. AI 알고리즘을 올바르게 활용하면 이러한 단점을 방지하고 빅데이터 기반 서비스 구축에 피드백할 수 있습니다.

2. 빅 데이터 작업 상태 평가

Qingzi Technology에는 여러 가지 응용 시나리오가 구현되었습니다. 첫 번째는 빅 데이터 작업 상태 평가입니다.

빅데이터 거버넌스에 AI 알고리즘 적용

빅데이터 플랫폼에서는 매일 수천 개의 작업이 실행됩니다. 그러나 많은 작업들이 정확한 수치를 산출하는 단계에만 머물러 있고, 작업의 실행시간, 리소스 소모 등에 대한 관심이 부족하여 많은 작업에서 효율성이 낮고 리소스가 낭비되는 결과를 낳고 있습니다.

데이터 개발자가 작업 상태에 관심을 갖기 시작하더라도 작업의 상태를 정확하게 평가하기는 어렵습니다. 실패율, 시간 소모, 자원 소모 등 작업과 관련된 지표가 많고, 작업의 복잡성이나 처리되는 데이터의 양에는 자연스러운 차이가 있기 때문에 단순히 해당 작업을 선택하는 것은 분명히 불합리합니다. 특정 지표의 절대값을 평가 기준으로 삼습니다.

작업 건강을 정량화하지 않으면 어떤 작업이 건강에 좋지 않고 관리가 필요한지 판단하기 어렵고, 문제가 있는 곳과 치료를 어디서 시작해야 할지조차 알 수 없습니다. 효과나 특정 지표는 개선되지만 다른 지표는 악화됩니다.

요구 사항: 위의 문제에 직면하여 작업의 포괄적인 건강 상태를 정확하게 반영하기 위한 정량적 지표가 시급히 필요합니다. 규칙을 수동으로 작성하는 것은 비효율적이고 불완전하므로 기계 학습 모델의 기능을 활용하는 것이 좋습니다. 목표는 모델이 작업에 대한 정량적 점수와 글로벌 분포에서의 위치를 ​​제공하고 작업의 주요 문제와 솔루션을 제공할 수 있다는 것입니다.

이러한 요구를 충족하기 위해 당사의 기능 모듈 솔루션은 소유자 이름으로 모든 작업에 대한 등급, 작업 비용, CPU 사용률, 메모리 사용률 등 주요 정보를 관리 인터페이스에 표시하는 것입니다. 이런 방식으로 작업의 상태를 한눈에 알 수 있어 작업 소유자가 나중에 작업을 더 쉽게 관리할 수 있습니다.

빅데이터 거버넌스에 AI 알고리즘 적용

둘째, 채점 함수의 모델 솔루션에 대해서는 분류 문제로 처리합니다. 직관적으로 작업 채점은 분명히 회귀 문제이며 0에서 100 사이의 실수가 주어져야 합니다. 그러나 이를 위해서는 충분한 수의 채점된 샘플이 필요하며 수동 라벨링은 비용이 많이 들고 신뢰할 수 없습니다.

그래서 문제를 분류 문제로 변환하는 것을 고려하고, 분류 모델이 제공하는 클래스 확률을 실제 점수에 추가로 매핑할 수 있습니다. 우리는 작업을 좋은 작업 1과 나쁜 작업 0의 두 가지 범주로 나누며, 빅 데이터 엔지니어가 라벨을 붙입니다. 소위 좋은 작업은 일반적으로 동일한 작업 볼륨과 복잡성에서 짧은 시간이 걸리고 더 적은 리소스를 소비하는 작업을 말합니다.

빅데이터 거버넌스에 AI 알고리즘 적용

모델 교육 프로세스는 다음과 같습니다.

첫 번째 샘플은 실행 시간, 사용된 리소스, 실행 실패 여부 등이 포함된 샘플 준비입니다. 빅 데이터 엔지니어는 규칙이나 경험에 따라 라벨을 좋은 카테고리와 나쁜 카테고리로 분류합니다. 그런 다음 모델을 훈련할 수 있습니다. 우리는 이론과 실제 모두 XGboost가 더 나은 분류 결과를 가지고 있음을 입증했습니다. 모델은 결국 작업이 "좋은 작업"일 확률을 출력합니다. 확률이 높을수록 최종 매핑된 작업 점수가 높아집니다.

빅데이터 거버넌스에 AI 알고리즘 적용

훈련 후 거의 50개의 원래 특성에서 19개 특성이 선별되었습니다. 이러한 19개 특성은 기본적으로 작업이 좋은 작업인지 여부를 결정할 수 있습니다. 예를 들어, 실패 횟수가 많고 자원 활용도가 낮은 대부분의 작업은 점수가 너무 높지 않으며 이는 기본적으로 인간의 주관적인 감정과 일치합니다.

빅데이터 거버넌스에 AI 알고리즘 적용

모델을 사용하여 작업 점수를 매긴 후 0~30점 미만의 작업은 건강에 좋지 않으며 긴급하게 관리가 필요한 작업임을 알 수 있습니다. 30~60점 사이의 작업은 허용 가능한 상태의 작업입니다. 비교적 건강이 양호하며 현 상태를 유지해야 합니다. 이런 방식으로 정량적 지표를 통해 작업 소유자가 일부 작업을 적극적으로 관리하도록 유도하여 비용 절감 및 효율성 향상이라는 목표를 달성할 수 있습니다.

모델 적용으로 다음과 같은 이점을 얻을 수 있습니다.

① 첫째, 작업 소유자는 자신의 이름으로 작업의 상태를 알 수 있으며, 점수와 순위를 통해 작업에 관리가 필요한지 여부를 알 수 있습니다.

② 정량적 지표는 후속 작업 관리의 기초를 제공합니다.

3 작업 관리가 완료된 후 얼마나 많은 이익과 개선이 이루어졌는지 점수를 통해 정량적으로 표시할 수도 있습니다.

3. Spark 작업을 위한 지능형 매개변수 조정

빅데이터 거버넌스에 AI 알고리즘 적용

두 번째 적용 시나리오는 Spark 작업을 위한 지능형 매개변수 조정입니다. Gartner 조사에 따르면 클라우드 사용자가 소비하는 클라우드 리소스의 70%가 불필요하게 낭비되는 것으로 나타났습니다. 클라우드 리소스를 신청할 때 많은 사람들이 성공적인 작업 수행을 위해 더 많은 리소스를 신청할 수 있으며 이로 인해 불필요한 낭비가 발생합니다. 작업을 생성할 때 기본 구성을 사용하는 사람들도 많지만 실제로는 이것이 최적의 구성이 아닙니다. 신중하게 구성할 수 있다면 매우 좋은 결과를 얻을 수 있으며, 이는 운영 효율성과 성공을 보장할 뿐만 아니라 많은 리소스를 절약할 수도 있습니다. 그러나 작업 매개변수 구성은 구성 항목의 의미를 이해하는 것 외에도 구성 항목 간 연관의 영향을 고려해야 합니다. 전문가의 경험에 의존하는 것조차 최적성을 달성하기 어렵고, 규칙 기반 전략은 동적으로 조정하기 어렵습니다.

이것은 모델이 작업의 원래 실행 시간을 변경하지 않고 유지하면서 작업 클라우드 리소스의 활용도를 향상시키기 위해 작업 작업에 대한 최적의 매개변수 구성을 지능적으로 권장할 수 있기를 바랍니다.

빅데이터 거버넌스에 AI 알고리즘 적용

작업 매개변수 조정 기능 모듈의 경우 우리가 설계한 솔루션에는 두 가지 상황이 포함됩니다. 첫 번째는 일정 기간 동안 온라인에서 실행된 작업에 대한 것이고, 모델은 기반으로 추천할 수 있어야 합니다. 가장 적절한 구성 매개변수는 사용자가 아직 온라인에 접속하지 않은 작업에 대한 것입니다. 모델은 작업 분석을 통해 합리적인 구성을 제공할 수 있어야 합니다.

빅데이터 거버넌스에 AI 알고리즘 적용

다음 단계는 모델을 훈련하는 것입니다. 먼저 모델의 출력 대상을 결정합니다. 구성 가능한 항목은 300개 이상이며, 모델에서 이를 모두 제공하는 것은 불가능합니다. 테스트와 연구를 통해 작업 실행 성능에 가장 큰 영향을 미치는 세 가지 매개 변수, 즉 실행기의 코어 수, 전체 메모리 양, 인스턴스 수를 선택했습니다. 각 구성 항목에는 기본값과 조정 가능한 범위가 있으며 실제로 매개변수 공간이 제공되며 모델은 이 공간에서 최적의 솔루션만 찾으면 됩니다.

훈련 단계에는 두 가지 옵션이 있습니다​. 첫 번째 옵션은 경험적 규칙을 학습하는 것입니다. 규칙을 사용하여 초기 단계에서 매개변수를 추천하면 온라인에 접속한 후 결과가 좋습니다. 따라서 빠르게 온라인에 접속한다는 목표를 달성하려면 모델이 먼저 이 규칙 세트를 학습하도록 하세요. 모델 훈련 샘플은 규칙을 기반으로 이전에 계산된 70,000개 이상의 작업 구성입니다. 샘플 특성은 작업의 실행 내역 데이터(예: 작업에서 처리한 데이터의 양, 리소스 사용량, 작업에 소요된 시간)입니다. 등) 및 일부 통계 정보(예: 지난 7일 동안의 평균 소비량, 최대 소비량 등)입니다.

기본 모델 여러 종속 변수가 있는 다중 회귀 모델을 선택했습니다. 일반적인 회귀 모델은 독립 변수가 많지만 종속 변수는 하나뿐인 단일 출력입니다. 여기서는 세 가지 매개변수를 출력하려고 하므로 기본적으로 LR 모델인 여러 종속 변수가 있는 다중 회귀 모델을 사용합니다. ​

빅데이터 거버넌스에 AI 알고리즘 적용

​위 그림은 이 모델의 이론적 근거를 보여줍니다. 왼쪽은 세 가지 구성 항목으로 구성된 다중 레이블입니다. β는 각 특성의 계수이고 Σ는 오류입니다. 학습 방법은 단항 회귀와 동일하며 최소 제곱법을 사용하여 Σ의 각 요소의 제곱합을 최소로 추정합니다.

옵션 1의 장점은 빠르게 규칙을 익히고 경험할 수 있으며, 비용도 상대적으로 저렴하다는 것입니다. 단점은 최적화 상한이 규칙만큼 좋은 효과를 얻을 수 있지만 이를 초과하기가 더 어렵다는 것입니다. ​

빅데이터 거버넌스에 AI 알고리즘 적용

두 번째 옵션은 베이지안 최적화(Bayesian Optimization)입니다. 그 아이디어는 강화 학습과 유사합니다. 매개변수 공간에서 시도하여 최적의 구성을 찾으려고 합니다. 여기서 베이지안 프레임워크를 사용하는 이유는 이전 시도의 기반을 사용할 수 있고 다음 시도에서 더 나은 위치를 빠르게 찾기 위한 사전 경험을 가질 수 있기 때문입니다. 전체 학습 프로세스는 매개변수 공간에서 수행되며 검증을 위해 구성을 무작위로 샘플링한 다음 실행한 후 사용량, 비용 등과 같은 일부 지표에 주의를 기울여 이것이 맞는지 여부를 결정합니다. 최적의 상태로 조정이 완료될 때까지 위 단계를 반복합니다. 모델이 학습된 후에는 사용 중에 트릭 오어 트리팅(trick-or-treating) 프로세스도 있습니다. 새 작업이 과거 작업과 어느 정도 유사하면 구성을 다시 계산할 필요가 없으며 이전 최적 구성을 사용할 수 있습니다. 직접 사용됩니다.

빅데이터 거버넌스에 AI 알고리즘 적용

이 두 가지 솔루션을 시도하고 실천한 결과 특정 결과가 달성되었음을 확인할 수 있습니다. 기존 작업의 경우 모델에서 권장하는 구성 매개변수에 따라 수정한 후 작업의 80% 이상이 리소스 활용도를 약 15% 향상할 수 있으며 일부 작업의 리소스 활용도는 두 배까지 향상됩니다. 그러나 두 솔루션 모두 실제로 단점이 있습니다. 학습 규칙의 회귀 모델은 최적화의 상한이 낮습니다. 전역 최적화의 베이지안 최적화 모델의 단점은 다양한 시도가 필요하고 비용이 너무 높다는 것입니다.

빅데이터 거버넌스에 AI 알고리즘 적용

향후 탐색 방향은 다음과 같습니다.

의미 분석: Spark 의미론은 다양한 코드 구조와 연산자 기능을 포함하여 비교적 풍부합니다. 작업 매개변수 구성 및 리소스 소비에 대해 설명합니다. 그러나 현재 우리는 작업의 과거 실행 상태만 사용하고 Spark 의미 자체를 무시합니다. 이는 정보 낭비입니다. 다음으로 할 일은 코드 레벨까지 침투해 스파크 작업에 포함된 연산자 함수를 분석하고 그에 따라 좀 더 세밀하게 튜닝하는 일이다.

분류 튜닝: Spark에는 순수 분석, 개발, 처리 등 다양한 응용 시나리오가 있습니다. 다양한 시나리오의 튜닝 공간과 목표도 다르기 때문에 분류 최적화가 필요합니다. .

프로젝트 최적화: 실제로 직면하는 어려움 중 하나는 적은 수의 샘플과 높은 테스트 비용으로, 프로젝트나 프로세스를 최적화하려면 관련 당사자의 협력이 필요합니다.

4. SQL 작업 실행 엔진의 지능적인 선택

세 번째 적용 시나리오는 SQL 쿼리 작업 실행 엔진의 지능적인 선택입니다.

빅데이터 거버넌스에 AI 알고리즘 적용

Background:

(1) SQL 쿼리 플랫폼은 데이터 분석가, R&D 등 대부분의 사용자가 가장 많이 접하고 가장 확실한 경험을 갖고 있는 빅데이터 제품입니다. , 또는 제품 관리자는 원하는 데이터를 얻기 위해 매일 많은 SQL을 작성합니다.

(2) 많은 사람들은 SQL 작업을 실행할 때 기본 실행 엔진에 주의를 기울이지 않습니다. 일부 간단한 쿼리 시나리오에서는 계산의 장점은 실행 속도가 빨라진다는 점이지만, 저장 용량이 충분하지 않으면 바로 중단된다는 단점이 있습니다. 반면 Spark는 실행에 더 적합합니다. 이 시나리오에서는 OOM이 발생하더라도 작업 실패를 방지하기 위해 디스크 스토리지가 사용됩니다. 따라서 다양한 작업 시나리오에 다양한 엔진이 적합합니다.

(3) SQL 쿼리 효과는 작업 수행 시간과 리소스 소모를 종합적으로 고려해야 하며, 리소스 소모를 고려하지 않고 쿼리 속도를 과도하게 추구하거나 쿼리 효율성에 영향을 주어서는 안 됩니다. 자원을 절약하십시오.

(4) 업계에는 RBO, CBO 및 HBO의 세 가지 주요 전통적인 엔진 선택 방법이 있습니다. RBO는 규칙 기반 최적화 프로그램입니다. 규칙 형성이 어렵고 업데이트 빈도가 낮습니다. CBO는 비용 기반 최적화를 너무 많이 추구하면 작업 실행 실패로 이어질 수 있습니다. . 상대적으로 과거 데이터로 제한됩니다.

빅데이터 거버넌스에 AI 알고리즘 적용

은 사용자가 SQL 문을 작성하고 실행을 위해 제출하면 모델이 자동으로 사용할 엔진을 결정하고 창 프롬프트를 표시합니다. 실행을 위해 권장되는 엔진입니다.

빅데이터 거버넌스에 AI 알고리즘 적용

모델의 전반적인 솔루션은 SQL 문 자체를 기반으로 실행 엔진을 추천하는 것입니다. 어떤 테이블이 사용되는지, 어떤 함수가 사용되는지 등은 SQL 자체에서 알 수 있기 때문에 이 정보가 SQL의 복잡성을 직접적으로 결정하여 실행 엔진 선택에 영향을 줍니다. 모델 훈련 샘플은 이전에 실행된 SQL 문에서 가져오며, 이전 실행 조건을 기반으로 모델 레이블이 표시됩니다. 예를 들어 실행하는 데 시간이 오래 걸리고 많은 양의 데이터가 포함되는 작업은 Spark에서 실행하기에 적합한 것으로 표시됩니다. 나머지는 Presto에서 실행하는 데 적합합니다. 샘플 특징 추출은 NLP 기술, N-gram 및 TF-IDF 방법을 사용하여 구문을 추출하여 문장에 얼마나 자주 나타나는지 확인하여 핵심 구문을 추출합니다. 이 작업 후에 생성된 벡터 기능은 매우 큽니다. 먼저 선형 모델을 사용하여 3000개의 기능을 필터링한 다음 XGBoost 모델을 최종 예측 모델로 학습하고 생성합니다.

빅데이터 거버넌스에 AI 알고리즘 적용

학습 후에도 모델 예측의 정확도가 약 90% 이상으로 여전히 비교적 높은 것을 확인할 수 있습니다.

빅데이터 거버넌스에 AI 알고리즘 적용

모델의 최종 온라인 신청 프로세스는 다음과 같습니다. 사용자가 SQL을 제출한 후 모델은 사용자가 원래 선택한 엔진과 다른 경우 언어 변환 모듈을 호출하여 변환을 완료합니다. SQL문의 엔진을 전환한 후 실행이 실패하면 성공적인 작업 실행을 보장하기 위해 실행을 위해 사용자의 원래 엔진으로 다시 전환하는 장애 조치 메커니즘이 있습니다.

빅데이터 거버넌스에 AI 알고리즘 적용

이 방법의 이점은 모델이 자동으로 가장 적합한 실행 엔진을 선택하고 사용자가 추가 학습을 하지 않고도 후속 명령문 변환을 완료할 수 있다는 것입니다.

또한 모델 추천 엔진은 기본적으로 원래 실행 효율성을 유지하면서 실패율을 줄일 수 있으므로 전반적인 사용자 경험이 향상됩니다.

마지막으로, 불필요한 고비용 엔진 사용 감소 및 작업 수행 실패율 감소로 인해 전체 리소스 비용 소비가 감소합니다.

2부~4부에서는 빅데이터 플랫폼에서 AI 알고리즘을 적용한 세 가지 사례를 공유했습니다. 볼 수 있는 특징 중 하나는 사용된 알고리즘이 특별히 복잡하지는 않지만 효과는 매우 분명하다는 것입니다. 이는 우리가 빅 데이터 플랫폼 운영 중 문제점이나 최적화 공간을 주도적으로 이해하도록 영감을 줍니다. 적용 시나리오를 결정한 후 다양한 기계 학습 방법을 사용하여 이러한 문제를 해결하여 혁신을 실현할 수 있습니다. AI 알고리즘을 빅데이터로 피드백합니다.

5. 빅데이터 거버넌스에서 AI 알고리즘의 적용 전망

마지막으로 빅데이터 거버넌스에서 AI 알고리즘의 적용 시나리오를 기대합니다.

빅데이터 거버넌스에 AI 알고리즘 적용

위에 소개된 세 가지 응용 시나리오는 데이터 처리 단계에 더 집중되어 있습니다. 실제로 1장에서 논의한 AI와 빅데이터의 관계를 반영하듯 AI는 전체 데이터 수명주기에서 상대적으로 좋은 역할을 할 수 있습니다.

예를 들어, 데이터 수집 단계에서는 로그가 합리적인지 판단할 수 있으며, 전송 중에 침입 탐지를 수행하면 처리 중에 비용을 더욱 절감하고 효율성을 높일 수 있습니다. 교환 중 데이터 보안, 파기 시 파기 시기 및 파기 관련 영향 등을 판단할 수 있습니다. 빅데이터 플랫폼에는 AI에 대한 다양한 적용 시나리오가 있으며 이는 단지 소개에 불과합니다. AI와 빅데이터 간의 상호 지원 관계는 미래에 더욱 두드러질 것이라고 믿습니다. AI 지원 빅데이터 플랫폼은 데이터를 더 잘 수집하고 처리할 수 있으며, 더 나은 데이터 품질은 결과적으로 더 나은 AI 모델을 훈련하는 데 도움이 되어 선순환을 달성할 수 있다고 믿습니다. 주기.

6. Q&A 세션

Q1: 어떤 종류의 규칙 엔진이 사용됩니까?

A1: 여기서 소위 매개변수 튜닝 규칙은 작업 실행 시간이 몇 분을 초과하는지, 작업 수행 시간이 몇 분을 초과하는지 등 수동 튜닝 경험을 바탕으로 초기 빅데이터 동료들이 공식화한 것입니다. 처리된 데이터 수가 초과하는지, 작업에 권장되는 코어 수 또는 메모리 양 등이 있습니다. 이는 오랜 기간 동안 축적된 규칙 집합이며, 온라인에 접속한 후 결과가 비교적 좋기 때문에 이 규칙 집합을 사용하여 매개변수 추천 모델을 학습합니다.

Q2: 종속변수는 매개변수 조정만 되나요? 빅데이터 플랫폼의 성능 불안정이 계산 결과에 미치는 영향을 고려했나요?

A2: 매개변수 추천을 할 때 우리는 단지 저비용만 추구하는 것이 아닙니다. 그렇지 않으면 추천 리소스가 부족해 작업이 실패하게 됩니다. 종속변수에는 매개변수 조정만 있지만 불안정성을 방지하기 위해 추가 제한 사항을 추가합니다. 첫 번째는 모델의 특성이며, 분리된 날의 값이 아닌 일정 기간 동안의 평균값을 선택합니다. 두 번째는 모델에서 권장하는 매개변수에 대해 실제 구성 값과의 차이를 비교합니다. 차이가 너무 크면, 과도한 일회성 조정으로 인한 미션 실패를 방지하기 위해 슬로우 업 및 슬로우 다운 전략을 사용할 것입니다.

Q3: 회귀 모델과 베이지안 모델을 동시에 사용할 수 있나요?

A3: 아니요. 방금 언급했듯이 매개변수 추천을 위해 두 가지 솔루션을 사용했습니다. 회귀 모델은 규칙 학습에 사용되고 베이지안 최적화 프레임워크는 나중에 사용됩니다. 동시에 사용되지 않습니다. 이전 학습 규칙의 장점은 과거 경험을 빠르게 사용할 수 있다는 것입니다. 두 번째 모델은 이전 모델을 기반으로 더 나은 또는 최적의 구성을 찾을 수 있습니다. 그 둘은 동시에 사용되기보다는 순차적이거나 점진적인 관계에 속한다.

Q4: 더 많은 기능을 확장하기 위해 의미 분석 도입을 고려하고 있나요?

A4: 네. 방금 언급했듯이 Spark 매개변수 조정을 수행할 때 우리가 사용하는 유일한 정보는 기록 실행 상태뿐이지만 아직 Spark 작업 자체에는 주의를 기울이지 않았습니다. Spark 자체에는 실제로 다양한 연산자, 단계 등 많은 정보가 포함되어 있습니다. 의미를 분석하지 않으면 많은 정보가 손실됩니다. 따라서 다음 계획은 Spark 작업의 의미를 분석하고 매개변수 계산을 지원하기 위해 더 많은 기능을 확장하는 것입니다.

Q5: 매개변수 추천이 비합리적이어서 작업 이상 또는 심지어 실패로 이어질 수 있나요? 그렇다면 이러한 시나리오에서 비정상적인 작업 오류와 작업 변동을 줄이는 방법은 무엇입니까?

A5: 모델에 전적으로 의존하는 경우 가능한 가장 높은 리소스 활용도를 추구할 수 있습니다. 이 경우 권장 매개변수는 메모리를 30g에서 5g으로 줄이는 등 더 급진적일 수 있습니다. 따라서 모델 추천 외에 매개변수 조정 범위가 몇 g를 초과할 수 없는지 등 추가 제약 조건, 즉 슬로우 업 및 슬로우 다운 전략을 추가하게 됩니다.

Q6: 시그모이드 2022의 매개변수 튜닝과 관련된 글이 있습니다. 참고할 만한 것이 있나요?

A6: 작업 지능형 매개변수 조정은 여전히 ​​인기 있는 연구 방향이며, 다양한 분야의 팀이 다양한 방법 모델을 채택했습니다. 시작하기 전에 언급하신 Sigmoid 2022 논문을 포함하여 다양한 업계 방법을 조사했습니다. 비교와 연습 끝에 마침내 우리가 공유한 두 가지 솔루션을 시도해 보았습니다. 앞으로도 우리는 이 방향의 최신 개발에 지속적으로 주의를 기울이고 추천 효과를 향상시키기 위한 더 많은 방법을 시도할 것입니다.

오늘의 나눔은 여기까지입니다. 모두 감사합니다.

위 내용은 빅데이터 거버넌스에 AI 알고리즘 적용의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제