인물태그 시스템 구축 및 응용실습

王林앞으로: 2024-03-07 11:50:07837검색

1. 이미지 태그 시스템

Qunar는 각 비즈니스 개발 프로세스에서 독립적인 이미지 태그 시스템을 구축했습니다. 회사가 지속적으로 성장함에 따라 각 사업의 초상 라벨링 시스템을 통합하는 것이 필요합니다. 기술적인 관점에서 볼 때 통합 프로세스는 상대적으로 간단하지만 비즈니스 수준의 통합은 더 복잡합니다. 각 라벨은 비즈니스마다 정의가 다르기 때문에 통합이 어려워집니다. 통합 라벨 시스템이 회사의 전반적인 전략에 더 잘 부합할 수 있도록 각 라벨의 논리와 일관성을 보장하기 위한 심층적인 키워드 추출 및 최적화가 필요합니다.

인물태그 시스템 구축 및 응용실습

1. 세로 태그란 무엇입니까

사용자 행동은 애플리케이션에서 사용자가 수행한 작업을 의미하는 반면, 비즈니스 로그는 클릭, 주문 및 검색 행동. 세로 태그는 규칙 통계 및 마이닝 알고리즘을 통해 사용자 행동 및 비즈니스 데이터를 분석하여 얻은 사용자 다차원 데이터입니다. 사용자 행동과 비즈니스 데이터를 분석함으로써 사용자의 선호도와 요구사항을 더 잘 이해할 수 있으며, 이를 통해 사용자에게 보다 개인화되고 정확한 서비스를 제공할 수 있습니다. 이러한 사용자 초상화 태그는 기업이 대상 사용자 그룹을 더 잘 찾고, 대상 마케팅 전략을 수립하고, 사용자 경험을 개선하는 데 도움이 될 수 있습니다. 기업은 사용자 행동과 비즈니스 데이터에 대한 심층적인 분석을 통해 사용자의 행동 패턴을 더 잘 이해하고 사용자에게 더 나은 제품과 서비스를 제공함으로써 사용자 만족도와 충성도를 높일 수 있습니다. 2. 세로 태그에 대한 수요 Source

인물태그 시스템 구축 및 응용실습 각 비즈니스에서 부서는 자체 초상화 라벨링 플랫폼을 구축하지만 목표가 다르기 때문에 요구 사항도 다릅니다. 예를 들어 항공권 사업은 일반적으로 마케팅을 목표로 하고 호텔 사업은 일반적으로 서비스를 목표로 합니다. 우리는 실제 비즈니스 요구에서 시작하여 회사 경영진, 인턴 및 기타 다양한 직급의 직원을 포함한 다양한 부서와 소통하여 심층적인 수요 조사를 수행하여 통합 라벨링 시스템이 비즈니스 요구를 더 잘 충족할 수 있도록 해야 합니다. 통합 과정에서 사용자 초상화 라벨 요구 사항은 주로 마케팅 위험 제어, 내부 비즈니스 분석 애플리케이션 및 사용자 설명의 세 가지 범주로 나뉩니다.

마케팅 위험 제어: 사용자 마케팅, 개인화된 추천, 정확한 광고 및 사용자 위험 제어.

비즈니스 분석: 비즈니스 최적화 분석, 다차원적인 비즈니스 지표 모니터링, 신규 비즈니스 제품 설계 안내.
사용자 설명: 단일 사용자의 정의, 플랫폼 사용자의 포지셔닝 및 업계 보고서.
3. 초상 태그의 분류

인물태그 시스템 구축 및 응용실습 는 초상 태그를 구축하는 과정에서 사업 분류와 기술 분류로 나누어집니다.

비즈니스 프로세스를 주요 분류 기준으로 1차 및 2차 카테고리를 중심으로 사용자 요구에서 비즈니스에 필요한 사용자 초상화 분류를 추출하고 지속적으로 확장 및 개선해 나가고 있습니다.

또한 다양한 기술적 요구에 따라 초상화 태그의 생성, 저장 및 호출을 실현하려면 적절한 기술 스택을 선택해야 합니다.

인물태그 시스템 구축 및 응용실습 어떤 기술을 사용해야 하는지 판단하기 위해서는 우선 인물 태그의 정의와 목적을 명확히 할 필요가 있습니다. 둘째, 태그의 업데이트 주기와 액세스 방법을 고려해야 하며, 이를 통해 태그를 온라인으로 처리해야 하는지, 오프라인으로 처리해야 하는지, 어떤 스토리지 리소스를 선택할지 결정해야 합니다. 마지막으로 이러한 요소를 기반으로 초상화 라벨링 시스템을 구현하고 시스템의 성능과 안정성을 보장하기 위해 적절한 기술 스택을 선택할 수 있습니다. 이러한 기술적 분류를 통해 인물 태그 시스템을 더 잘 관리하고 유지할 수 있으며 확장성과 사용성을 향상시킬 수 있습니다

(1) 구축 방법

통계 클래스: SQL에 의존하여 완성할 수 있습니다.
규칙 유형: 데이터 분석가, 비즈니스 분석가, 제품 운영자 등 특정 비즈니스 배경을 가진 사람들을 위해 비즈니스에 대한 이해를 통해 규칙 유형 레이블을 만듭니다. 비즈니스에 대한 이해에 따라 변화가 발생합니다.
모델 클래스: 이 유형의 레이블을 사용하려면 알고리즘 팀이 복잡한 계산을 수행하거나 샘플 데이터가 필요합니다. 일부 기본 라벨과 달리 모델 라벨은 정확성에 문제가 있을 수 있으며 100% 정확할 수 없습니다. 때때로 우리가 얻는 샘플 수가 매우 제한되어 있어 높은 수준의 라벨 정확도를 유지하기 어렵기 때문입니다. 따라서 모델 클래스 레이블의 경우 정확도와 유용성을 향상시키기 위해 다른 방법과 기술을 찾아야 할 수도 있습니다.

(2) 업데이트 주기

나열된 시간별, 주별, 월별 업데이트 주기 외에도 현재 스트리밍 업데이트에 가까운 실시간 라벨 업데이트도 구현하고 있습니다.

(3) 접근 방법

초상화 라벨링 플랫폼은 대용량 데이터와 사용자 요청을 처리해야 하기 때문에 일부 대기업의 경우 배경 기술 스택에 따라 적절한 접근 방법을 선택해야 합니다. , 사용자 수와 데이터 볼륨이 매우 크기 때문에 태그를 효율적으로 저장하고 호출하는 방법을 고려해야 합니다. 일부 태그는 오프라인에서만 구축해야 하는 반면 다른 태그는 온라인에서 호출해야 할 수도 있습니다. 오프라인 태그의 경우 Redis 또는 HBase에 데이터를 저장하는 등 높은 저장 비용을 차지하지 않는 리소스를 선택할 수 있습니다. 온라인 태그의 경우 시스템이 사용자의 요청에 신속하게 대응하고 안정적인 서비스를 제공할 수 있는지 확인하는 것이 필요합니다. 따라서 접근 방식을 선택할 때 시스템 성능과 안정성을 보장하기 위해 실제 상황에 따라 절충과 선택을 해야 합니다.

4. 초상 라벨 시스템 구축 과정

인물태그 시스템 구축 및 응용실습

초상 라벨 시스템 제작 과정에서는 최종적으로 라벨을 생성하기 위해 다양한 데이터 소스에 대한 일련의 처리를 수행해야 합니다. 그 중 ID Mapping이 핵심 링크이다. ID 매핑의 목표는 특히 초기 단계 기업의 경우 다양한 등록 방법으로 인해 여러 ID가 동일한 사용자를 가리키는 문제를 해결하는 것입니다. 예를 들어, 사용자가 이메일을 통해 등록한 후 휴대폰 번호를 바인딩하거나 변경할 수 있거나, 로그인 없이 사용을 허용한 경우 등의 경우, 동일한 사용자에 해당하는 여러 개의 ID가 발생할 수 있습니다.

이 문제를 해결하기 위해 ID 매핑은 다중 장치 연결을 구현하는 작업을 맡습니다. 또한 ID 매핑은 위험 관리를 위한 중요한 기본 단계이기도 합니다. ID 매핑을 통해 다양한 장치의 사용자를 더 잘 식별하고 연결할 수 있으므로 더 나은 위험 제어 및 보안 관리가 가능합니다. 합리적인 ID 매핑 설계 및 관리를 통해 사용자 개인정보 보호 및 데이터 보안을 강화하는 동시에 초상화 라벨링 시스템의 정확성과 신뢰성을 향상시킬 수 있습니다.

2. 이미지 태깅 플랫폼

이미지 태깅 플랫폼은 CDP 플랫폼이라고도 불리며, 이미지 태그 제작, 데이터 분석, 비즈니스 애플리케이션, 효과 분석 및 기타 서비스를 포함합니다. 아래 그림은 Qunar CDP 플랫폼의 기능적 아키텍처를 보여줍니다.

인물태그 시스템 구축 및 응용실습

Qunar.com에서는 발병 이후 내부 역량 구축을 강화하고 주류 전략 플랫폼과 이미지 태그를 통합했습니다. 현재 플랫폼은 초상화 태그의 전체 수명주기를 포괄하며 초상화 구성, 군중 선택 및 최종 마케팅 활동과 같은 기능을 실현할 수 있습니다. 이러한 통합을 통해 데이터 중심의 마케팅 전략이 더 잘 실현될 수 있으며 사용자 초상화와 마케팅 활동이 원활하게 연결될 수 있습니다. 이는 마케팅 효율성과 사용자 만족도를 향상시키는 데 도움이 되며 기업 내 데이터 통합 및 협업에도 도움이 됩니다.

인물태그 시스템 구축 및 응용실습

3. 공통 알고리즘 세로 레이블

1. 공통 모델 클래스 레이블 공통 알고리즘 유형

실제로는 샘플 및 기술 스택 기반 , 일반적으로 사용할 수 있습니다 모델 라벨링 알고리즘은 다음 범주로 나뉩니다.

인물태그 시스템 구축 및 응용실습

(1) 분류 알고리즘: 비즈니스 프로세스에서 서클 선택 및 비즈니스 필터링을 위해 예측 클래스 레이블을 사용하려면 모델을 훈련하고 최적화하는 데 충분한 샘플 데이터가 필요하므로 예측 정확도가 향상됩니다. 예측 태그는 주문결제 예측에만 국한되지 않고, 검색결제 예측, 검색예측, 상세페이지 예측 등도 포함될 수 있습니다.

(2) 추천 알고리즘: 정렬 및 우선순위 지정과 관련되어 있어 더 광범위한 최첨단 지식과 기술 스택이 필요합니다. 추천 알고리즘의 목표는 회상 세트에서 사용자에게 적합한 호텔 객실 유형을 추천하는 것입니다. 예를 들어, 부모-자식 여행 시나리오의 경우 추천 알고리즘은 트윈룸이나 스위트룸과 같은 적합한 호텔 객실 유형을 사용자에게 추천할 수 있습니다.

(3) 지식 그래프: 그래프 데이터베이스 기술을 사용하여 사용자와 주변 관계를 더 잘 드러냅니다. 비정상 사용자를 식별하고 악의적인 사용자인지 여부를 판단하는 등 위험 제어 시나리오에는 많은 응용 프로그램이 있습니다.

(4) 인과 추론: 사용자에게 문자 메시지와 푸시 메시지를 보내는 것이 마케팅 효과에 미치는 영향을 설명하기 위해 예를 사용하고 비용 문제도 포함됩니다.

(5) 그래픽 및 이미지: 그래픽과 이미지 처리 기술을 결합하여 그래픽과 이미지를 표시합니다. 여기에는 이미지 분할, 인식 및 기타 기술이 포함되지만, 사용자 태그를 통한 이미지 라벨링에 역으로 적용되는 경우가 더 많습니다. 예를 들어, 부적절한 댓글을 게시한 사용자의 경우 해당 라벨을 추출하여 그래픽 이미지 라벨링 알고리즘에 적용하여 라벨링의 효율성과 정확성을 향상시킵니다.

(6) NLP 로봇

(7) 유사 마케팅 알고리즘: 시드 사용자를 통한 확장 마케팅을 위한 알고리즘.

인물태그 시스템 구축 및 응용실습

수요 유형에 따라 다양한 분류 방법이 있습니다.

단일 엔터티: 관계 네트워크 또는 지식 그래프를 통해 다른 관련 엔터티를 찾습니다. 예를 들어, 지식 그래프를 사용하여 엔터티 간의 관계를 발견하고 이를 통해 단일 엔터티의 관련 엔터티를 확장할 수 있습니다.
비즈니스 엔터티 세트: 특정 비즈니스와 관련된 태그로, 비즈니스 자체에서 생성되며 사람이 제어하지 않습니다. 예를 들어, 호텔 검색 사용자 또는 항공권 검색 사용자를 대상으로 비즈니스를 마케팅하고 확장하려면 비즈니스 엔터티 태그에 대한 심층 분석 및 마이닝을 통해 사용자 요구와 행동을 더 잘 이해하여 비즈니스 전략을 최적화하고 전환율을 개선해야 합니다. 요금과 사용자 경험. 비즈니스 엔터티 세트는 브랜드 모델, 연관 규칙, 솔루션 라벨링 플랫폼 등을 통해 확장되어 더욱 풍부한 세로 라벨 또는 세로 사용자를 얻을 수 있습니다.
규칙 엔터티 집합: 특정 규칙이나 조건에 따라 생성된 레이블을 나타냅니다. 이러한 태그는 일반적으로 제품 팀에서 비즈니스에 대한 이해를 바탕으로 태그 도구를 사용하여 특정 규칙을 충족하는 사용자 그룹을 선택하는 데 사용됩니다. 예를 들어 여행 일정이나 객실 유형을 추천하는 과정에서 일부 사용자는 베이징에서 항공권과 호텔을 구매한 적이 있을 수 있습니다. 그런 다음 특정 행동 체인을 가진 이러한 사용자를 마케팅 프로모션의 대상 그룹으로 사용할 수 있습니다. 관계형 엔터티 및 클러스터링 알고리즘을 사용하여 처리할 수 있습니다. 클러스터링 알고리즘을 수행할 때 클러스터링에 규칙 레이블만 사용할 수는 없고 다른 레이블도 사용해야 한다는 점에 유의하는 것이 중요합니다. 동시에 규칙 태그와 밀접하게 관련된 태그를 규칙 태그와 혼합하지 않아야 합니다. 이러한 상황을 방지하기 위해 솔루션 태그 플랫폼은 태그와 다른 태그 간의 상관관계 분석을 제공하여 사용자가 유사한 태그를 필터링할 수 있도록 돕습니다.
행동 엔터티 세트: 사용자 행동을 기반으로 생성된 태그입니다. 이러한 태그는 사용자의 행동 특성과 수요 유형을 분석하여 그에 맞는 마케팅 전략을 개발합니다. 예를 들어 베이징 항공권과 호텔을 구매한 사용자의 경우 구매 시간, 빈도, 선호도 등의 행동 특성을 추가로 분석하여 보다 타겟화된 마케팅 전략을 개발할 수 있습니다.

2. 지식 그래프와 빈번한 패턴을 기반으로 한 유사 알고리즘

인물 태그에만 의존하여 선별하면 요구 사항을 충족하지 못하는 대상 사용자가 대량으로 생성될 수 있습니다. 어려운 문제. 가치, 활동 등에 따른 정렬과 같은 전통적인 방법은 선택된 사용자가 대상 사용자 그룹과 가장 유사한지 확인하기 어렵습니다. 지식 그래프나 빈번한 패턴을 통해 사용자 간의 유사성을 측정할 수 있으며, 이러한 유사성은 정량화 가능하고 확장 가능합니다. 관계 수준을 통해 알고리즘은 대상 사용자와 유사한 사용자 그룹을 보다 정확하게 찾을 수 있습니다.

인물태그 시스템 구축 및 응용실습

3. 인과 추론에 기반한 유사 알고리즘

기존 연관 규칙 및 초상화 레이블과 비교하여 인과 추론은 더 깊은 문제를 해결할 수 있습니다. 연관 규칙과 초상화 레이블은 주로 "맥주를 사는 사용자가 기저귀도 살 수 있다"와 같은 상관 관계 문제를 해결하지만 이러한 상관 관계가 존재하는 이유를 설명할 수는 없습니다. 이러한 상관 관계는 문화와 시장이 다르면 적용되지 않을 수도 있습니다. 따라서 과거 데이터와 모델을 통한 인과 추론을 통해 사용자 행동과 전환에 영향을 미치는 핵심 요인을 찾아낼 수 있다. 이러한 핵심 요소는 관계 검색을 통해 찾을 수 있으며, 이를 통해 사용자 행동과 비즈니스 프로세스를 더 잘 이해하는 데 도움이 됩니다.

예를 들어 오른쪽 상단의 빨간색 부분은 비즈니스에 대한 이해를 통해 비즈니스 프로세스를 더 잘 반영하는 부분을 필터링하여 더 많은 사용자를 확장합니다.

인물태그 시스템 구축 및 응용실습

4. 사물 초상

인물태그 시스템 구축 및 응용실습

사물 초상을 구성하는 과정에서는 주로 도시, 상권, 경로 등 사물의 속성과 특징에 중점을 둡니다. 호텔 초상화 등 이러한 속성은 개체를 보다 정확하게 설명하고 이해하는 데 도움이 되며 초상화에 대한 풍부한 콘텐츠를 제공합니다.

인물태그 시스템 구축 및 응용실습

사용자 초상화에 비해 사물 초상화는 사물 간의 유사성을 강조합니다. 실제로 우리는 일반적으로 객체의 유사성을 사용하여 추천 및 순위 지정과 같은 작업을 수행합니다. 객체 간의 유사성을 측정하기 위해 속성 벡터, 임베딩 등 다양한 방법을 사용할 수 있습니다. 이러한 방법은 객체를 벡터로 표현하고 이러한 벡터를 사용하여 유사성 계산을 수행할 수 있습니다. 객체 초상화를 구축하는 프로세스는 사용자 초상화를 구축하는 프로세스와 유사하지만 실제 애플리케이션에서는 비즈니스 요구 사항과 시나리오를 기반으로 적절한 조정과 최적화를 수행해야 합니다. 동시에 개체의 초상화가 비즈니스 요구 사항을 정확하게 반영하도록 개체 간의 관계 및 계층 구조에 대한 심층 분석을 수행하는 것도 필요합니다.

인물태그 시스템 구축 및 응용실습

또한 물체의 이미지를 구성하는 과정에서 몇 가지 핵심 문제에도 주의를 기울여야 합니다.

(1) 비슷하다고 해서 비슷하다는 뜻은 아닙니다. 예를 들어 임베딩 방법을 사용할 때 고가치 사용자 그룹이 5성급 호텔을 검색하는 경우 이러한 5성급 호텔 간의 상관 관계가 강할 수 있습니다. 그러나 일부 비즈니스 시나리오에서는 이러한 상관 관계가 적용되지 않을 수 있습니다. 따라서 특정 비즈니스 시나리오를 기반으로 객체의 유사성을 신중하게 고려해야 합니다.

(2) 콜드 스타트 문제. 예를 들어 호텔 프로파일링에서 새 호텔이 온라인 상태가 되면 사용자 행동 데이터가 부족할 수 있습니다. 이 문제를 해결하기 위해 속성 거리를 사용하여 대규모 레이블 속성을 추출하고 사용자 친화적인 세로 레이블을 구성하고 이 레이블을 사용하여 유사성 계산을 수행할 수 있습니다.

(3) 해석성

인물태그 시스템 구축 및 응용실습

네. 이미지 태그 적용 시나리오

응용 프로그램 1: 마케팅 군중 선택 및 확산

인물태그 시스템 구축 및 응용실습

초상화 태그는 중요한 역할을 합니다. 마케팅의 선택과 확산과정에서 중요한 역할을 한다. 세로 태그를 합리적으로 활용함으로써 운영자는 선택된 사용자 그룹에 대해 보다 상세한 분석 및 선별을 수행할 수 있습니다. 운영자는 초기에 선택된 사용자 그룹이 너무 크거나 작다고 느끼거나 마케팅 효과를 더욱 확장하거나 최적화해야 한다고 느낄 때 이를 수행할 수 있습니다. 세로 태그를 통해 확산되거나 재선택되어 더 나은 마케팅 결과를 얻을 수 있습니다.

그러나 세로 태그를 선택하고 퍼뜨릴 때 가장 흔히 발생하는 문제는 사용자 전환 및 운영 개입의 4사분면입니다. 이 4개 사분면은 각각 다양한 상황에 대해 다양한 대응이 필요한 다양한 사용자 전환 상태와 운영 개입 전략을 나타냅니다. 예를 들어 전환율이 높고 개입이 낮은 사용자의 경우 전환율이 낮고 개입이 낮은 사용자에 대해 현상 유지 전략을 채택할 수 있으며 전환을 촉진하는 전략을 채택할 수 있습니다.

신청 과정에서 인물 태그의 마케팅 선택 및 확산의 4단계는 다음과 같습니다.

과학적 분석: 사용자 데이터를 심층적으로 분석하고 대상 그룹을 정확하게 찾아 전환 효과를 향상시킵니다.

보조 서클 선택: 태그를 사용하여 타겟 사용자를 효율적으로 필터링하고 마케팅 활동의 타당성과 효율성을 높일 수 있습니다.

지능형 확장: 알고리즘과 모델을 기반으로 사용자 그룹을 지능적으로 분류하고 확장하여 마케팅 범위를 확장합니다.

모델 구현: 실제 마케팅 활동과 결합하여 이미지 태그와 전략을 최적화하여 최고의 마케팅 결과를 달성합니다.

인물태그 시스템 구축 및 응용실습

애플리케이션 2: 비즈니스 지표 속성 분석

인물태그 시스템 구축 및 응용실습

세로 태그 시스템을 사용하여 비즈니스 지표의 품질을 분석하고 전략을 더욱 최적화하세요. 비즈니스 반복 과정에서 우리는 일반적으로 속성 분석 알고리즘 및 비즈니스 분석과 같은 방법을 사용하여 전략을 생성합니다. 그런 다음 실험 측정을 수행하면 실험 전략이 제대로 수행되면 완전히 실행됩니다.

인물태그 시스템 구축 및 응용실습

그러나 이 과정에서 지표의 질을 어떻게 분석할 것인가와 실험 결과의 질을 어떻게 분석할 것인가라는 두 가지 문제에 직면하게 됩니다. 이러한 문제를 해결하기 위해서는 비즈니스 지표에 대한 귀인분석을 실시해야 합니다. 먼저, 리포트, 알람 등을 통해 비즈니스 문제를 발견하고, 문제의 원인을 찾아내고, 구체적인 시나리오와 실제 전환 관계를 명확히 합니다. 다음으로, 문제의 원인을 찾아 원인이 통제 가능한지 통제 불가능한지 판단합니다. 제어할 수 없는 경우 자연스러운 불안감일 수 있으며, 제어할 수 있는 경우에는 이 문제를 일으키는 알 수 없는 시나리오가 있는지 추가로 조사해야 합니다.

정성 분석 모듈에서는 제어 가능한 요소와 제어할 수 없는 요소를 명확히 하고 알려지지 않은 일부 시나리오에서 문제의 원인을 탐색합니다. 마지막으로 비즈니스 담당자에게 이를 수행할 시나리오를 안내하기 위한 제안이 제공됩니다. 이 시나리오는 실제로 특정 사업의 전환율이 하락했음을 의미하며, 전체 사업에 대한 분석 과정을 통해 비시장 요인과 통제 가능한 요인의 비율을 파악할 수 있습니다. 시장 요인의 비중이 크다면, 많은 인력과 물적 자원을 즉시 사용하지 않고도 나중에 문제를 해결할 수 있습니다.

응용 프로그램 3: AB 실험 성능 분석

인물태그 시스템 구축 및 응용실습

Qunar의 AB 실험 시스템을 담당하는 과정에서 우리는 종종 몇 가지 어려움에 직면합니다. 제품팀에서 실험을 완료하기 위해 많은 시간과 자원을 투자한 후, 실험 결과가 유의미하지 않은 경우 '왜 실험이 유효하지 않은가', '다음 반복의 방향은 무엇인가?' 등의 질문이 생기기 쉽습니다. "

이러한 문제를 해결하기 위해 AB 실험 성능 분석을 실시했는데, 이는 크게 세 부분으로 나누어 진행되었습니다. 먼저, 비즈니스 프로세스 퍼널 모델, 핵심 사용자 초상화 라벨 식별, 비즈니스 도메인 오해의 소지가 있는 라벨 식별을 통한 볼륨 개선 부족으로 인해 실험 결과가 좋지 않은지 확인하려고 했습니다. 둘째, 의사결정나무 등의 분석방법을 활용하여 다른 실험과의 충돌이나 개선이 유의미한 비율에 도달하지 못하는 상황 등 질적 개선에 문제가 있는지 탐색한다. 마지막으로, 작업 효과를 정량화하고 각 작업이 목표에 미치는 영향을 명확히 합니다.

이러한 분석 과정을 통해 제품팀이 보다 효율적인 최적화 방향을 선택할 수 있도록 구체적인 지침을 제공하여 질적 향상을 이룰 수 있습니다. 이러한 분석은 제품 반복 방향을 최적화하는 데 도움이 될 뿐만 아니라 회사의 리소스와 시간을 절약하고 전반적인 비즈니스 결과를 향상시킵니다.

5. Q&A 세션

Q1: 사용자 행동과 비즈니스 로그의 차이점은 무엇인가요?

A1: 사용자 행동 데이터는 주로 클릭 등 앱 측에서 사용자의 상호 작용 행동을 기록합니다. 이 데이터는 주로 사용자의 상호 작용 프로세스를 반영합니다. 비즈니스 데이터에는 상담원 연결 과정, 물류 정보 등 백그라운드에서 처리되는 다양한 정보가 포함됩니다. 이러한 데이터는 사용자에게는 보이지 않지만 전체 비즈니스 프로세스를 이해하고 사용자 경험을 향상시키는 데에도 중요합니다. 실제 운영에서는 사용자 행동과 비즈니스 프로세스를 더 잘 분석하고 이해하기 위해 이러한 데이터를 세로 태그 시스템에 통합해야 합니다. 예를 들어, 전자상거래 플랫폼의 경우 일부 데이터는 사용자와 관련이 없을 수 있지만 일부 데이터는 사용자 경험 및 비즈니스 프로세스와 관련되어 있으므로 적절한 심사 및 처리가 필요합니다.

Q2: 현재 스트리밍 라벨링은 어떻게 이루어지나요? 더 복잡한 태그 규칙을 지원할 수 있나요? 데이터를 기반으로 개발되나요, 아니면 시각적으로 구성되나요?

A2: 스트리밍 태그는 Flink와 같은 도구를 사용하는 등 스트리밍 컴퓨팅을 통해 구현할 수 있습니다. 사용자는 정의된 데이터를 드래그 앤 드롭하여 스트리밍 계산을 통해 라벨을 계산할 수 있습니다. 동시에 사용자 정의된 계산을 위해 Python 코드 또는 SQL 코드를 업로드할 수도 있습니다. 또한 Spark 및 기타 방법을 통해서도 지원할 수 있습니다. 스트리밍 태그에서는 다양한 요구 사항을 충족하기 위해 계산 양과 기간을 제한해야 합니다.

스트리밍 태그는 복잡한 태그 규칙을 지원할 수 있습니다. 사용자는 Python 코드 또는 SQL 코드를 업로드하여 보다 복잡한 레이블 계산을 구현할 수 있습니다.

스트리밍 태그는 데이터 개발과 시각적 구성이라는 두 가지 방법으로 구현할 수 있습니다. Qunar 플랫폼에서 사용자는 정의된 데이터를 드래그 앤 드롭하여 스트리밍 컴퓨팅을 통해 레이블을 계산하거나 맞춤형 계산을 위해 Python 코드 또는 SQL 코드를 업로드할 수 있습니다.

Q3: 실시간 태그란 무엇인가요?

A3: 실시간 태그는 사용자 행동이나 비즈니스 이벤트가 발생할 때 실시간으로 계산되어 적용되는 태그를 의미합니다. 예를 들어, 사용자가 프런트 엔드 인터페이스에 불만 사항을 제출하면 시스템은 사용자의 요구 사항과 주문 문제를 실시간으로 분석하고 해당 실시간 레이블로 사용자에게 레이블을 지정합니다. 이러한 종류의 실시간 라벨링은 시기적절한 처리 및 최적화를 위해 사용자 요구와 문제를 신속하게 반영할 수 있습니다. 회사마다 실시간 태그에 대한 정의가 다릅니다. Qunar의 경우 3초 이내는 실시간으로 간주되지만 시간은 비실시간 시나리오로 간주됩니다.

Q4: ID 매핑은 여러 개의 휴대폰 번호/기기 번호를 고유한 ID로 식별합니까? 아니면 각 사용자가 고유한 ID를 가지고 있습니까? 예를 들어, 두 개의 기기에 하나의 휴대전화 번호가 로그인되어 있는데, 그 중 하나가 다른 휴대전화 번호에 로그인되어 있는 경우는 1개인가요, 3개인가요?

A4: 모바일 인터넷이 대중화되면서 더 많아졌습니다. 그리고 더 많은 회사들이 휴대폰 번호를 사용자의 고유 식별자로 사용하기 시작했습니다. 원클릭 로그인은 업계에서 일반적인 관행이 되어 사용자가 더 쉽게 로그인하고 애플리케이션을 사용할 수 있게 되었습니다. Qunar와 같은 플랫폼의 경우 휴대폰 번호도 고유한 사용자 ID로 사용합니다. 대부분의 경우 당사는 휴대전화 번호를 사용자의 고유 식별자로 취급합니다. 다만, 특별한 경우에는 이용자가 휴대폰 번호를 변경하는 경우도 고려하여 그에 따라 처리하도록 하겠습니다. 또한, 사용자를 보다 잘 관리하고 식별하기 위해 두 개의 장치에 휴대폰 번호가 로그인되어 있는 경우 일련의 판단을 통해 사용자의 장치 보유 상태를 판단합니다. 사용자가 일시적으로 장치에 로그인하면 해당 사용자를 접속자로 간주합니다. 사용자가 장치를 장기간 보유하면 해당 사용자를 소유자로 간주합니다.

Q5: 제품 라벨의 적용 시나리오는 무엇입니까?

A5: 가장 일반적인 것은 제품 가격입니다. 제품 가격을 개인화하려면 제품 태그를 사용해야 합니다. 이 레이블은 내부 및 외부 요인의 특정 값을 기반으로 계산됩니다. 내부 요인이 제대로 분류되지 않으면 외부 요인의 영향이 과장될 수 있습니다. 무차별 대입법과 유사한 것으로 이해할 수 있습니다. 모든 요소를 넣고 시도한 다음 각 요소가 얼마나 영향을 미치는지 확인하고 각 요소의 상관 관계 또는 인과 관계를 판단합니다.

Q6: 실시간 비즈니스 라벨을 맞춤화하고 개발해야 합니까?

A6: 실시간 태그가 구축된 후, 기본 통계를 통해 얻을 수 있는 일부 실시간 태그를 개발 레벨을 통해 소진하기 위해 최선을 다했습니다. 규칙, 모델 등 실시간 태그는 맞춤화하고 개발해야 합니다.

Q7: 태그의 수명주기를 관리하는 방법은 무엇입니까?

A7: 구축 초기에는 사용 후 사용되지 않는 일회용 태그가 있을 예정입니다.

Q8: AB 실험의 최소 표본 크기를 결정하기 위해 일부 통계적 방법을 사용할 수 있습니까? AB 실험에 대한 표준 계산 프로세스가 있습니다. 통계적으로 유의미한 효과를 달성하는 데 필요한 대략적인 표본 크기를 알 수 있습니까?

A8: 소규모 기업의 경우 선천적으로 트래픽이 충분하지 않을 수 있습니다. 최소 샘플 크기를 달성하려는 경우 운영 수준에서는 불가능하므로 최소 샘플 크기가 있을 때 일부가 필요합니다. 도달하지 못했습니다. 실험 효과를 빠르고 대략적으로 추론할 수 있습니다.

Q9: 사용자 구경 초상화의 구경 종류는 어떻게 저장되고 표시되나요? 단일 태그 외에도 사용자 초상화에는 사용자 선호도 관점을 형성하는 여러 태그가 있습니다. 이 두 가지 유형의 태그를 더 잘 저장하는 방법은 무엇입니까?

A9: 회사마다 다르다는 것을 보여주세요. 스토리지 관점에서 볼 때 Qunar에는 여러 가지 저장 방법이 있습니다. 주로 빠른 실시간 응답을 위해 일부 데이터의 중복 저장을 허용할 수 있습니다. 즉, 태그에 액세스할 때 액세스하는 데 시간이 적게 소요됩니다.

Q10: 솔루션 라벨 구성에 모델을 적용하는 방법은 무엇인가요?

A10: 사실 현재 Qunar에서의 실습을 통해 대형 모델이 알고리즘 라벨링에 널리 사용됩니다. 첫째, 가장 간단한 예입니다. 사용자 초상화를 만들 때 POI 랜드마크 데이터가 일부 문서에서 추출되는 경우가 많습니다. 아마도 이 곳의 정확도는 일부 문서보다 훨씬 좋습니다. 우리가 과거에 직접 만든 모델입니다. 그리고 지식 그래프를 구축할 때 엔터티 명확성, 엔터티 병합 등이 발생합니다.

Q11: 프로파일링 알고리즘 엔지니어도 순위 추천을 구현해야 합니까?

A11: 아니 사실 이 추천은 엔지니어를 추천하기 위한 것이지만 추천 알고리즘은 초상화 엔지니어의 결과를 사용해야 합니다. 초상화 엔지니어는 초상화 라벨의 품질과 적용 시나리오를 명확하게 설명해야 합니다. 추천 순위 엔지니어가 사용하는 것이 더 좋습니다.

위 내용은 인물태그 시스템 구축 및 응용실습의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

Python sql 架构标识符栈事件算法 hbase redis spark flink 数据库 nlp 数据分析 embedding

성명：

이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

이전 기사：SAP는 혁신으로 고객의 승리를 돕고, AI 시대는 데이터 중심 비즈니스 혁신의 미래를 만듭니다.다음 기사：SAP는 혁신으로 고객의 승리를 돕고, AI 시대는 데이터 중심 비즈니스 혁신의 미래를 만듭니다.

인물태그 시스템 구축 및 응용실습

1. 이미지 태그 시스템

1. 세로 태그란 무엇입니까

비즈니스 프로세스를 주요 분류 기준으로 1차 및 2차 카테고리를 중심으로 사용자 요구에서 비즈니스에 필요한 사용자 초상화 분류를 추출하고 지속적으로 확장 및 개선해 나가고 있습니다.

(1) 구축 방법

(2) 업데이트 주기

(3) 접근 방법

4. 초상 라벨 시스템 구축 과정

2. 이미지 태깅 플랫폼

3. 공통 알고리즘 세로 레이블

1. 공통 모델 클래스 레이블 공통 알고리즘 유형

2. 지식 그래프와 빈번한 패턴을 기반으로 한 유사 알고리즘

3. 인과 ​​추론에 기반한 유사 알고리즘

4. 사물 초상

네. 이미지 태그 적용 시나리오

응용 프로그램 1: 마케팅 군중 선택 및 확산

애플리케이션 2: 비즈니스 지표 속성 분석

응용 프로그램 3: AB 실험 성능 분석

5. Q&A 세션

Q1: 사용자 행동과 비즈니스 로그의 차이점은 무엇인가요?

Q2: 현재 스트리밍 라벨링은 어떻게 이루어지나요? 더 복잡한 태그 규칙을 지원할 수 있나요? 데이터를 기반으로 개발되나요, 아니면 시각적으로 구성되나요?

Q3: 실시간 태그란 무엇인가요?

Q5: 제품 라벨의 적용 시나리오는 무엇입니까?

Q6: 실시간 비즈니스 라벨을 맞춤화하고 개발해야 합니까?

Q7: 태그의 수명주기를 관리하는 방법은 무엇입니까?

Q8: AB 실험의 최소 표본 크기를 결정하기 위해 일부 통계적 방법을 사용할 수 있습니까? AB 실험에 대한 표준 계산 프로세스가 있습니다. 통계적으로 유의미한 효과를 달성하는 데 필요한 대략적인 표본 크기를 알 수 있습니까?

Q9: 사용자 구경 초상화의 구경 종류는 어떻게 저장되고 표시되나요? 단일 태그 외에도 사용자 초상화에는 사용자 선호도 관점을 형성하는 여러 태그가 있습니다. 이 두 가지 유형의 태그를 더 잘 저장하는 방법은 무엇입니까?

Q10: 솔루션 라벨 구성에 모델을 적용하는 방법은 무엇인가요?

Q11: 프로파일링 알고리즘 엔지니어도 순위 추천을 구현해야 합니까?

관련 기사

3. 인과 추론에 기반한 유사 알고리즘