>  기사  >  기술 주변기기  >  Fudan, "뉴스 추천 생태계 시뮬레이터" SimuLine 출시: 단일 시스템으로 독자 10,000명, 작성자 1,000명, 추천 100회 이상 지원

Fudan, "뉴스 추천 생태계 시뮬레이터" SimuLine 출시: 단일 시스템으로 독자 10,000명, 작성자 1,000명, 추천 100회 이상 지원

WBOY
WBOY앞으로
2023-06-12 11:57:431184검색

더 효과적인 뉴스 추천 시스템을 설계하려면 온라인 뉴스 커뮤니티의 진화를 이해하는 것이 중요하지만, 적절한 데이터 세트와 플랫폼이 부족하여 추천 시스템이 커뮤니티 진화에 어떻게 영향을 미치는지 이해하는 데 기존 연구는 제한되어 있으며, 이로 인해 장기간에 걸친 문제가 발생할 수 있습니다. 용어 결과 유틸리티에 대한 차선책 시스템 설계.

이 문제에 대응하기 위해 푸단대학교 컴퓨터공학부 CISL 연구팀은 뉴스 추천 생태계 진화 시뮬레이션 플랫폼인 SimuLine을 개발했습니다.

SimuLine은 사전 훈련된 언어 모델과 역성향점수를 기반으로 실제 데이터로부터 인간 행동을 반영하는 잠재 공간을 구축한 후 에이전트 기반 모델링을 사용하여 뉴스 추천 생태계의 진화 역학을 시뮬레이션합니다.

SimuLine은 단일 서버(256G 메모리, 소비자급 그래픽 카드)에서 10,000명 이상의 독자와 1,000명 이상의 제작자를 대상으로 100회 이상의 생성-추천-상호작용 시뮬레이션을 지원하는 동시에 정량적 지표, 시각화 및 포괄적인 분석 프레임워크를 제공합니다. 여기에는 텍스트 해석이 포함됩니다.

광범위한 시뮬레이션 실험을 통해 SimuLine은 커뮤니티 진화 프로세스를 이해하고 추천 알고리즘을 테스트하는 데 큰 잠재력을 가지고 있음이 나타났습니다.

Fudan, 뉴스 추천 생태계 시뮬레이터 SimuLine 출시: 단일 시스템으로 독자 10,000명, 작성자 1,000명, 추천 100회 이상 지원

저자: Zhang Guangping, Li Dongsheng, Gu Hansu, Lu Xun, Shang Li, Gu Ning

논문 주소: https://arxiv.org/abs/2305.14103

뉴스 추천 생태계 진화 시뮬레이션 플랫폼

소셜 미디어(Social Media)의 인기로 인해 사람들은 뉴스를 게시하고 얻기 위해 점점 더 온라인 뉴스 커뮤니티에 의존하고 있습니다. 매일 수백만 개의 뉴스가 생성됩니다. 저자는 다양한 유형의 온라인에 게시합니다. 뉴스 커뮤니티는 추천 시스템의 배포를 통해 많은 사용자가 읽습니다.

뉴스 콘텐츠의 생산과 소비와 함께 온라인 뉴스 커뮤니티는 지속적으로 역동적인 진화 과정을 거치고 있습니다.

다른 유형의 온라인 커뮤니티와 마찬가지로 온라인 뉴스 커뮤니티의 발전도 유명한 수명주기 이론을 따릅니다. 즉, '창업' - '성장' - '성숙' - '쇠퇴'의 단계를 거칩니다. " 순으로.

생명주기 이론의 관점을 통해 온라인 커뮤니티의 진화 모델을 탐구하고 생명주기의 각 단계의 운영에 대한 많은 연구 작업이 이루어졌습니다.

그러나 온라인 뉴스 커뮤니티의 가장 중요한 기술 인프라 중 하나인 추천 시스템이 온라인 뉴스 커뮤니티의 진화에 미치는 영향은 여전히 ​​수수께끼에 싸여 있습니다.

이 수수께끼를 풀기 위해 푸단대학교 컴퓨터과학과 CISL 연구팀은 다음 세 가지 연구 질문에 집중하고 시뮬레이션 실험을 통해 그 답을 찾으려고 노력했습니다.

1) 뉴스 추천 생태계 (뉴스 추천 생태계, NRE) 라이프 사이클의 각 단계의 특징은 무엇입니까?

2) NRE의 진화를 이끄는 핵심 요소는 무엇이며, 이러한 요소들은 어떻게 상호 작용하여 진화 과정에 영향을 미치나요?

3) 추천 시스템의 설계 전략을 통해 더 나은 장기적 다자간 효율성을 달성하여 커뮤니티가 "쇠퇴"하는 것을 방지하는 방법은 무엇입니까?

이 세 가지 연구 질문에 답하기 위해 CISL 연구팀은 뉴스 추천 생태계 진화 시뮬레이션 플랫폼인 SimuLine을 개발했습니다.

SimuLine은 먼저 실제 데이터 세트를 기반으로 합성 데이터를 생성합니다. 원본 데이터 세트에 내재된 노출 편향 문제(Exposure Bias)를 해결하기 위해 SimuLine은 편향을 제거하기 위해 역성향 점수(Inverse Propensity Score)를 도입했습니다.

인간의 의사결정 과정에 가까운 잠재 공간을 구축하기 위해 SimuLine은 대규모 말뭉치를 기반으로 사전 학습된 언어 모델(Pretrained Language Models)을 도입하여 잠재 공간을 구축합니다. 마지막으로 SimuLine은 에이전트 기반 시뮬레이션을 사용합니다. 모델링)은 뉴스 추천 생태계에서 사용자, 콘텐츠 제작자 및 추천 시스템의 행동과 상호 작용을 시뮬레이션합니다.

합성 데이터 생성

사용자를 대표하는 시뮬레이터를 만들려고 할 때 가장 먼저 떠오르는 질문은 "사용자의 다양한 행동을 어떻게 특성화해야 하는가?"입니다.

실제로 이에 대한 질문이 하나 있습니다. 질문 추천 시스템 분야에서 널리 사용되는 매우 간단한 솔루션은 잠재 공간을 구축한 다음 사용자의 관심사와 뉴스 콘텐츠를 이 공간에 매핑하는 것입니다.

이런 방식으로 잠재 공간의 벡터 유사성을 통해 뉴스에 대한 사용자의 선호도를 측정한 후 일련의 행동 논리와 규칙을 정의하는 것이 매우 편리합니다.

Fudan, 뉴스 추천 생태계 시뮬레이터 SimuLine 출시: 단일 시스템으로 독자 10,000명, 작성자 1,000명, 추천 100회 이상 지원

Construction

그러면 이 숨겨진 공간을 어떻게 만들까요?

어떤 학생들은 "이게 뭐가 그렇게 어려운데!? 추천 알고리즘을 쓰는 거 아닌가요? 추천 알고리즘을 이용해서 하나 배워보는 건 어떨까요?"

정말 좋은 생각이에요. 접근 방식이지만 몇 가지 명백한 문제가 있습니다.

CISC 연구팀이 가장 당황한 점은 "알고리즘 교란"이라는 논리적 취약점입니다. 즉, 추천 알고리즘 A를 사용하여 잠재 공간을 구축하고 사용자와 뉴스를 실제 행동 결정으로 매핑하는 경우입니다. 그렇다면 이후의 시뮬레이션 과정에서 사용되는 알고리즘 B는 피팅 알고리즘 A가 되지 않을까요? (이것은 증류 학습을 어느 정도 아는 학생들에게는 친숙하게 보일까요?)

그리고 현재 추천 알고리즘의 대부분은 여전히 ​​블랙박스 모델입니다. 눈을 감고 알고리즘 혼란을 무시하더라도 시뮬레이션 데이터를 분석할 때 여전히 혼란스러울 것입니다(이 차원이 점점 커지고 있지만 무엇입니까? 이 차원은 무엇을 의미합니까?

연구팀이 당황하던 찰나, 하얀 섬광이 번쩍였다: 대규모 코퍼스를 기반으로 훈련된 언어 모델이 있다고 말하기 전에 기사를 본 것 같았다(여전히 베르트의 세계였다) 당시에는 ChatGPT가 아직 탄생하지 않았음)은 기본적인 인간 인식(즉, 유명한 왕 – 남성 + 여성 = 여왕)을 수행할 수 있었습니다.

그렇다면 이것은 잠재 공간 구축에 매우 적합하지 않을까요?

1. 사용자와 뉴스를 인코딩할 수 있습니다.

2. 체화된 인간의 인식은 기본적이고 보편적이어야 하므로 알고리즘 혼란 문제를 피해야 합니다.

3. 숨겨진 공간의 각 차원이 무엇을 나타내는지는 확실하지 않지만 이는 공간에 영향을 미치지 않습니다. 유사성 벡터 검색을 통해 공간 내 각 지점에 대한 텍스트에 대한 대략적인 설명을 제공합니다.

정말 훌륭해요! 결정은 당신의 것입니다!

Mapping

다음 단계는 사용자와 뉴스를 이 공간에 매핑하는 것입니다.

뉴스는 이야기하기 쉽습니다. 뉴스에는 풍부한 텍스트 정보가 있어야 하며 직접 인코딩할 수 있어야 합니다. 그런데 사용자는 이를 어떻게 처리해야 할까요? 사용자가 좋아하는 뉴스를 히스토리에서 평균을 구하는 것이 가능한가요?

안돼!

가증스러운 교란 알고리즘이 이번에는 노출 편향이라는 이름으로 돌아왔습니다. 이는 사용자가 좋아하는 뉴스는 사용자가 봐야 하기 때문에 사용자의 좋아요 기록이 반드시 사용자의 관심을 완전히 반영하지는 않는다는 의미입니다. 사용자가 보는 뉴스는 추천 시스템에 의해 필터링되었기 때문에 사용자가 좋아하지 않았을 가능성이 있습니다.

다행히도 수년간의 급속한 발전 끝에 추천 시스템 분야의 무기고는 충분합니다. 연구팀은 Unbiased Recommendation Warehouse에서 이 문제를 해결하기 위한 편리한 무기인 Inverse Propensity Score(IPS)를 발견했습니다.

간단히 말하면 추천 샘플의 노출 밀도를 추정하여 가중치를 부여함으로써 모델 학습 과정에서 발생하는 편향을 상쇄하여 사용자의 코딩 문제를 해결하는 것입니다.

최종 콘텐츠 제작자의 콘텐츠 게시 행위는 노출 편향의 영향을 받지 않으며, 과거 기록에 직접적인 가중치가 부여됩니다. 실제로 위의 작업을 마친 후 데이터 준비 작업은 기본적으로 완료되었지만 여전히 두 가지 부족한 점이 있습니다.

· 첫째, 데이터 규모가 조정되지 않았으며 컴퓨팅 리소스에 적합하지 않을 수 있습니다( 작은 당나귀가 큰 당나귀를 당긴다/큰 당나귀 모양공)

· 둘째, 사용자의 사생활이 존중되지 않습니다. 따라서 연구팀은 원본 데이터 세트의 사용자 코딩을 기반으로 생성 모델 레이어를 추가했습니다.

뉴스 플랫폼은 항상 파티션 탐색(금융, 스포츠, 기술 등)으로 설계되어 있고 다양한 파티션에 사용자가 클러스터링되는 것도 당연하다는 점을 고려하여 연구팀은 GMM(Gaussian Mixture Model)을 다음과 같이 홍보했습니다. 이 작업을 담당합니다.

에이전트 모델링

사전 데이터 준비 작업이 완료되면 사용자 행동 모델링을 시작할 수 있습니다.

연구팀은 개인의 행동과 개인 간의 상호작용을 모델링한 후, 다수의 에이전트를 배치하여 그룹의 역학을 시뮬레이션하는 에이전트 기반 모델링 방식을 채택했습니다.

Fudan, 뉴스 추천 생태계 시뮬레이터 SimuLine 출시: 단일 시스템으로 독자 10,000명, 작성자 1,000명, 추천 100회 이상 지원


단순히 사용자의 온라인 뉴스 읽기 과정(예: 오늘 Toutiao를 읽을 때)을 상기하면 사용자는 먼저 특정 페이지의 추천 시스템에서 추천하는 일련의 뉴스를 보게 되며, 그런 다음 사용자는 각 뉴스의 제목, 사진 및 요약을 탐색하여 특정 뉴스가 사용자의 관심을 불러일으키면 뉴스를 읽은 후 해당 내용이 무엇인지 확인하기 위해 클릭합니다. 뉴스가 좋고, 읽을 가치가 있거나 자신의 견해와 일치하면 사용자는 좋아요 및 기타 방법을 통해 뉴스에 대한 동의를 표현합니다.

Definition

이 과정에서 사용자와 뉴스의 상호작용은 세 가지 수준(노출, 클릭, 좋아요)으로 나눌 수 있으며, 그 중 클릭과 좋아요가 사용자의 적극적인 행동이며, 이를 위해서는 사용자 에이전트에서 정의되어야 합니다.

여기서 연구팀은 사용자의 클릭 행동을 확률적 선택 행동으로 요약합니다. 사용자는 특정 확률을 가지고 있습니다. 목록에서 관심 있는 뉴스를 선택하고 클릭하여 읽으세요.

이 정의는 가장 일치하는 뉴스를 직접 클릭하는 것보다 더 유연합니다. 즉, 반드시 일치도가 높다는 의미는 아니며 실제 상황에 더 부합합니다.

좋아요의 행동에 관해서는 단순히 뉴스의 일치 정도를 고려할 수는 없습니다. 결국 우리 모두 알고 있듯이 뉴스에서는 헤드라인을 차지하는 현상이 여전히 흔합니다.

따라서 연구팀은 뉴스 보도의 가치를 일반적으로 나타내기 위해 '뉴스 품질'이라는 추상적인 개념을 도입했습니다. 이와 같이 사용자의 유사 행위는 주관적인 관심도와 객관적인 품질로 특징지어질 수 있습니다.

연구팀은 에이전트의 유사 행동을 제어하기 위해 기대 모델을 사용합니다. 구체적으로, 먼저 관심 매칭 정도와 뉴스 품질을 기반으로 특정 뉴스를 읽는 사용자의 효용(Utility)을 계산합니다. 기대(연구 팀은 이 기대의 특정 값을 나타내기 위해 하이퍼파라미터 임계값을 사용함)와 유사한 동작이 트리거됩니다.

이 디자인에 대한 직관적인 설명은, 그것이 나에게 적합하기 때문이든 보고서 자체가 매우 객관적이고 포괄적이기 때문에 어떤 뉴스가 나를 행복하게 한다면 주저하지 않고 좋아할 것이라는 것입니다.

또한 뉴스를 읽는 과정에서 사용자의 관심이나 의견은 분명히 고정되어 있지 않습니다.

예를 들어 사용자가 매우 좋아하는 뉴스 보도를 본 경우 관련 뉴스를 더 깊이 파고드는 사용자의 욕구를 자극할 수 있습니다. 반대로 보도가 사용자에게 완전히 우스꽝스럽다고 느끼게 한다면, 사용자는 앞으로 유사한 보고서를 볼 때 보고서의 세부 사항을 보기 위해 해당 보고서를 클릭할 가능성이 줄어들 것입니다.

이 현상은 연구팀에서 사용자 드리프트 모델로 모델링했습니다.

창의적 행동 모델링

다음은 뉴스 제작자의 창의적 행동을 모델링합니다.

현실 세계의 뉴스 창작은 다양한 요인에 의해 영향을 받게 됩니다. 연구팀은 이를 탐욕스러운 과정으로 단순화합니다. 즉, 저자는 항상 자신이 만드는 뉴스가 더 많은 독자들에게 인식될 수 있기를 바랍니다.

특정 에이전트 행동제어 연구팀은 사용자 클릭과 유사한 솔루션을 채택합니다. 크리에이터는 이전 라운드에서 생성한 뉴스의 좋아요를 기반으로 확률 샘플링을 수행하고 새로운 생성 라운드의 주제를 선택한 후 집중합니다. 뉴스 제작을 위한 주제에 관한 것입니다. 뉴스 생성 과정은 잠재 공간의 주제 중심 가우스 분포에서 샘플링하는 과정과 유사하게 모델링됩니다.

뉴스의 내용(잠재 공간 표현) 외에도 뉴스의 품질도 모델링되어야 합니다. 이는 현실의 법칙과 일치하는 두 가지 기본 가정을 기반으로 합니다.

1. 작성자가 받는 좋아요 수와 수입 간에는 긍정적인 상관관계가 약간 감소합니다. 즉, 작성자가 받는 좋아요 수가 많아집니다. , 읽을수록 수입이 늘어나지만 좋아요 수가 늘어날수록 단일 좋아요로 인한 수입은 점차 감소합니다.

2. 예산이 더 충분합니다. 이를 바탕으로 이전 라운드의 좋아요 수를 다음 라운드의 뉴스 품질로 매핑하는 기능을 구축하여 뉴스 생성의 품질을 제어할 수 있습니다.

추천 시스템 모델링

마지막으로 추천 시스템의 동작을 모델링합니다.

알고리즘 추천과 콜드 스타트 ​​추천은 뉴스 추천 시스템의 두 가지 기본 구성 요소입니다. 개인화된 알고리즘 추천을 제공하기 위해 추천 시스템은 먼저 BPR 등의 추천 알고리즘을 사용하여 과거 상호 작용 데이터로부터 임베딩 공간의 사용자 및 뉴스 표현을 학습합니다. 추천 알고리즘에 의해 학습된 공간을 참조하기 위해 임베딩 공간을 사용하고 추천 목록을 생성하는 데 사용되는 실제 사용자 관심 공간을 인코딩하는 대규모 언어 모델).

그러나 사용자의 유사 행동에 대한 불확실성과 뉴스 유효성 창의 제한으로 인해 알고리즘 추천은 단순 무작위 추천을 통해 모든 사용자를 포괄할 수 있다고 보장할 수 없습니다.

과거 상호작용 기록이 부족하여 새로 생성된 뉴스는 알고리즘 추천에 참여할 수 없습니다. SimuLine은 무작위 추천, 경험적 추천 알고리즘(예: 과거에 좋아했던 크리에이터의 새로운 보고서)과 같은 전략을 적용하여 콜드 스타트 ​​뉴스를 추천합니다.

또한 SimuLine은 속보, 콘텐츠 제작자 기반 프로모션, 주제 기반 프로모션 등 다른 경험적 뉴스 추천 전략도 지원합니다.

모든 추천 전략에는 독립적인 푸시 할당량이 있습니다. 추천 시스템은 모든 채널의 뉴스 추천을 결합하여 최종 추천 목록을 구성합니다.

시뮬레이션 실험

데이터는 그대로! 모델이 만들어졌습니다! 다음은 몇 가지 흥미로운 실험입니다!

연구팀은 뉴스 추천 분야에서 널리 사용되는 Adressa 데이터 세트를 선택했습니다. 이 데이터 세트는 2017년 2월 특정 주간의 노르웨이 뉴스 웹사이트 www.adressa.no의 전체 웹 로그를 제공합니다. 다른 우수한 뉴스 추천 데이터와 함께 다른 뉴스 컬렉션(예: Microsoft의 MIND)과 비교하여 기본적으로 매우 중요한 뉴스 작성자 정보를 제공합니다. 이에 따라 언어 모델은 기본적으로 노르웨이어를 지원하는 BPEmb를 사용합니다. 배포에 대한 자세한 내용은 이 문서의 4장 첫 번째 섹션을 참조하세요.

그럼 SimuLine의 시뮬레이션 결과를 분석하는 방법은 무엇일까요? SimuLine은 참조할 수 있도록 다양한 관점에서 포괄적인 분석 프레임워크를 제공합니다.

첫 번째는 가장 일반적으로 사용되는 정량적 지표 평가 시스템입니다.

뉴스 추천 생태계의 진화 과정을 충분히 반영하기 위해 연구팀은 기존 문헌에 등장하는 정량적 지표를 요약하고 다음 5가지 측면에서 비교적 완전한 평가 시스템을 구축했습니다.

1 ) 좋아요 수 및 Gini 지수를 포함한 상호작용. Gini 지수가 낮을수록 더 나은 공정성을 나타냅니다.

2) 알고리즘 추천이 적용되는 사용자 수 및 뉴스를 포함한 적용 범위; 제한 시간 동안 뉴스의 평균 품질, 좋아요 수에 따라 가중치가 부여된 뉴스 품질, 뉴스 품질과 좋아요 수 사이의 Pearson 상관 계수

4) Jaccard를 포함한 균질화 사용자 간 지수, 값이 높을수록 사용자 간 뉴스 읽기의 중복 정도가 높아집니다.

5) 사용자와 좋아하는 뉴스 간의 잠재 공간 표현 코사인 유사성을 포함한 일치 정도.

1. 라이프 사이클

다음 세 그림은 각각 다양한 Agent 하이퍼파라미터 조건에서 사용자, 창작자, 추천 시스템의 정량적 평가 결과를 보여줍니다. simulation 시뮬레이션 프로세스와 결과는 다양한 하이퍼 파라미터에서, 대략 10 라운드와 20 세기에 비교적 안정적임을 알 수 있습니다. 라운드는 구분선(다양한 지표는 어느 정도 변동함)이며 시스템의 진화는 명확한 단계를 보여줍니다(단계 전환이 발생하는 라운드는 그림에서 파란색 수직선으로 표시됨). 잘 알려진 수명주기 이론.

첫 번째 발견은 다음과 같습니다. 추천 시스템으로 구동되는 온라인 뉴스 커뮤니티는 다양한 사용자 그룹에서 자연스럽게 "창업" - "성장" - "성숙 및 쇠퇴"의 수명주기를 보여줍니다.


2. 사용자 차별화Fudan, 뉴스 추천 생태계 시뮬레이터 SimuLine 출시: 단일 시스템으로 독자 10,000명, 작성자 1,000명, 추천 100회 이상 지원

정량적 지표 외에도 시각화도 커뮤니티 발전 과정을 이해하는 데 도움이 되는 중요한 도구입니다. Fudan, 뉴스 추천 생태계 시뮬레이터 SimuLine 출시: 단일 시스템으로 독자 10,000명, 작성자 1,000명, 추천 100회 이상 지원

연구팀은 PCA 차원 축소 시각화를 통해 다음과 같은 시스템 진화 과정의 스냅샷 세트를 얻었습니다. (뉴스는 파란색으로 표시되고, 기록이 비슷한 사용자는 녹색으로, 기록이 없는 사용자는 빨간색으로 표시됩니다. 노드 size 좋아요/좋아요 수를 나타냅니다.

Fudan, 뉴스 추천 생태계 시뮬레이터 SimuLine 출시: 단일 시스템으로 독자 10,000명, 작성자 1,000명, 추천 100회 이상 지원

Fudan, 뉴스 추천 생태계 시뮬레이터 SimuLine 출시: 단일 시스템으로 독자 10,000명, 작성자 1,000명, 추천 100회 이상 지원

정량적 지표는 다단계 패턴을 보여주지만 잠재공간 표현의 진화 추세는 일관됨을 알 수 있다. - 루프 사용자) 및 루프 외부 사용자.

서클 내 사용자는 관심분야가 집중되어 안정적인 커뮤니티를 형성하는 반면, 서클 외부 사용자는 분산된 관심분야를 보입니다.

10라운드에서 20라운드 사이의 진화 과정에서 사용자는 기본적으로 차별화를 완성했는데, 이는 성장 단계가 사용자 참여에 결정적인 역할을 한다는 것을 보여줍니다.

이것은 두 번째 발견으로 이어집니다. 추천 시스템에 의해 구동되는 온라인 뉴스 커뮤니티는 필연적으로 커뮤니티 주제의 융합을 낳고 사용자의 차별화로 이어질 것입니다. 사용자 참여를 결정하는 중요한 시기는 성장 단계입니다.

3. 관심 동화

앞서 언급했듯이 SimuLine은 대규모 사전 학습 언어 모델을 통해 잠재 공간을 구축하므로 공간의 각 벡터를 전달할 수 있습니다. 텍스트 해석을 위한 유사 단어 검색을 통해 사례 연구를 통해 개별 사용자의 진화를 이해하는 데 도움을 줍니다.

연구팀은 서클 내 사용자와 서클 외부 사용자 중에서 각각 3명의 사용자를 무작위로 선택했습니다. 아래 표는 이들의 관심분야 변화를 보여줍니다.

Fudan, 뉴스 추천 생태계 시뮬레이터 SimuLine 출시: 단일 시스템으로 독자 10,000명, 작성자 1,000명, 추천 100회 이상 지원

서클에 속한 사용자의 관심사는 '배우'에서 '일'로, '오슬로'에서 '노르웨이'에서 '유럽'으로 점점 추상화되고 광범위해지고 일반화됩니다. " ". 사용자마다 진화 속도는 다르지만 모두 50라운드에서 수렴됩니다. 이러한 현상은 추천 시스템과의 지속적인 상호 작용의 결과로 사용자의 선호도가 개인화된 틈새 주제에서 플랫폼에서 널리 논의되는 트렌드 주제로 점진적으로 이동하는 것을 반영합니다.

서클 외부 사용자의 경우 관심분야가 조금씩 바뀌지만 항상 구체적이고 개인화된 주제에 집중합니다. 예를 들어, 사용자 4번과 6번은 시뮬레이션 프로세스 전반에 걸쳐 각각 "운동선수", "차" 및 "청구서"에 관심을 유지했습니다.

이것은 세 번째 발견으로 이어집니다. 추천 시스템에 의해 구동되는 온라인 뉴스 커뮤니티에서는 추천 시스템과의 지속적인 상호 작용을 통해 사용자의 개인화된 관심사가 동화됩니다.

4. 시작 단계

위의 세 가지 강력한 도구인 정량적 지표, 시각화 및 텍스트 번역을 사용하여 SimuLine은 시스템의 진화 과정에 대한 포괄적인 물리적 검사를 수행할 수 있습니다. .

추천제도를 중심으로 한 온라인 뉴스 커뮤니티의 진화과정은 생애주기이론과 일맥상통하므로, 생애주기의 관점에서 생애단계별로 커뮤니티가 어떻게 진화하는지 분석해 보자.

우선 대략 처음 10라운드에 해당하는 시작 단계를 분석해 보겠습니다.

시스템이 처음부터 구축되었기 때문에 추천 시스템에는 초기 단계에서 추천 알고리즘을 훈련시키기 위한 데이터가 부족합니다. 이에 따라 이 단계에서는 사용자의 콜드 스타트 ​​문제를 해결하기 위해 무작위 추천과 휴리스틱 추천을 사용하는 것이 최우선입니다.

추천을 위해 더 정확한 알고리즘을 사용할 수 없기 때문에 이 단계의 추천 결과는 관심 매칭 측면에서 만족스럽지 못한 경우가 많습니다. 따라서 이 단계의 유사한 행동은 주로 뉴스의 품질에 의해 좌우됩니다. 이는 정량적 지표에 반영됩니다. 이는 열과의 강한 양의 상관관계입니다.

한 단계 더 나아가 스타트업 단계에서 커뮤니티 발전의 두 가지 주요 원동력을 찾을 수 있습니다.

1) 품질 피드백 루프, 즉 품질과 인기는 긍정적인 상관 관계를 기반으로 서로를 홍보합니다. 즉, 좋은 것이 좋을수록 더 많은 사람들이 좋아할 것이고, 더 많은 사람들이 좋아할 수록 작가의 호감도가 높아집니다. 작성자의 소득이 높을수록 더 나은 품질의 뉴스 보도를 작성하려는 동기가 높아집니다.

2) 관심 품질의 혼란, 즉 사용자 관심을 정확하게 추정하기 위한 충분한 양의 데이터를 축적하기 전; , 추천 알고리즘은 품질 기반 포인트를 사용합니다. 마치 사용자의 관심 때문에 행동이 유발된 행동으로 혼동되는 것처럼 말입니다. 이 두 가지 원동력은 서로를 촉진하여 인기 콘텐츠 제작자가 점차 증가하는 과잉 노출을 얻을 수 있게 하며(크리에이터 및 뉴스 지니 지수의 상승에 반영), 사용자의 개인화된 관심에 대한 만족도를 더욱 압박합니다(사용자의 감소에 반영). 좋아하는 뉴스 사이의 잠재적인 공간적 유사성). 그러나 대부분의 사용자는 여전히 향상된 뉴스 품질의 혜택을 누릴 수 있습니다(사용자 유사 행동의 지니 지수 감소로 반영).

요약하자면 네 번째 발견을 얻을 수 있습니다. 시작 단계에서 시스템은 무작위 추천과 고품질 뉴스로부터 사용자 관심도를 추정하기 위한 데이터를 축적하여 초기 시작 사용자 문제를 해결합니다. 품질 피드백 루프와 관심 품질 혼란은 과다 노출을 통해 매우 인기 있는 콘텐츠 제작자의 출현에 기여합니다.

5. 성장 단계

사용자 관심도에 대한 추천 알고리즘의 추정은 점점 더 정확해지며, 이와 같은 행위는 점차 품질 중심에서 관심 중심, 품질 인기와의 상관관계는 점차 약해집니다. 시뮬레이션 라운드 수가 증가함에 따라 스타트업 기간 동안 생성된 뉴스는 점차 만료되고 추천 후보에서 철회됩니다. 먼저 관심-품질 혼란이 사라지기 시작하고 점차 품질 피드백 루프가 최종 종료됩니다.

성장 단계에서는 각 서클의 사용자 영역에서 뉴스 밀도가 고르지 않습니다. 주류 뉴스 주제 방향에서는 밀도가 높은 반면, 다른 방향에서는 밀도가 상대적으로 낮습니다.

그 결과, 사용자가 좋아하는 뉴스는 통계적으로 주류 뉴스 주제에 더 가까울 가능성이 높습니다. 이와 같은 유사한 행동의 미묘한 편차는 계속해서 나타나며, 지속적인 강화 효과로 사용자 관심도가 점차 주류 뉴스 주제로 이동하고 있습니다. .

반대로, 서클 밖의 사용자는 "좋아요 없음 - 알고리즘 추천이 처리할 수 없음 - 낮은 추천 정확도 - 좋아요는 더욱 적음"이라는 교착 상태에 빠지게 됩니다. 뉴스의 품질 때문에 때때로 뉴스를 좋아하지만 추천 알고리즘은 데이터 시간 제한 내에 관심도를 추정할 만큼 충분한 데이터를 축적할 수 없습니다. 좋아요 수에 따른 뉴스 품질은 양질의 뉴스에 대한 인기가 떨어지면서 전반적으로 안정적으로 유지되었습니다.

품질 피드백 루프가 종료되면 콘텐츠 제작자는 더 이상 과도한 관심을 받을 수 없게 되어 저널리즘의 질이 저하됩니다. 품질에 민감한 사용자는 더 이상 좋아하지 않을 수 있으며 이로 인해 사용자 적용 범위가 감소할 수 있습니다.

결론적으로 다섯 번째 발견을 얻을 수 있습니다. 성장 단계에서는 원 안의 사용자가 분포 편차의 영향을 받아 공통 주제로 진화하는 반면, 원 외부의 사용자는 교착 상태에 빠져 사용자가 분화. 점점 더 정확한 알고리즘 권장 사항으로 인해 품질 피드백 루프가 종료되고 결과적으로 커뮤니티는 품질에 민감한 일부 사용자를 잃습니다.

6. 성숙 및 쇠퇴 단계

커뮤니티는 대부분의 주요 지표가 안정화되는 성숙 및 쇠퇴 단계에 들어갑니다.

이 단계에서 서클의 사용자는 공통 주제의 버블에 동적으로 유지됩니다. 비록 다른 뉴스를 클릭하면 관심이 버블의 가장자리로 옮겨질 수 있지만 밀도로 인해 곧 사라질 것입니다. 차이가 있습니다. 중앙으로 돌아갑니다.

뉴스에 대한 지니 지수는 높은 반면, 콘텐츠 창작자의 지니 지수는 낮습니다. 이는 동일한 창작자가 만든 뉴스라도 인기도에 큰 차이가 있음을 보여줍니다.

탐욕스러운 생성 메커니즘 외에도 뉴스 생성 과정 자체가 매우 무작위적이므로 거품도 자연스럽게 확장되는 경향을 보입니다.

버블 확장으로 인해 뉴스 후보자가 더욱 다양해지고, 주제에 민감한 일부 사용자의 탈퇴도 점차 발생합니다.

여기서 여섯 번째 발견을 얻을 수 있습니다. 성숙 및 쇠퇴 단계에서 서클의 사용자는 공통 주제를 공유하고 콘텐츠 제작자는 이러한 주제에 대한 다양한 뉴스를 게시합니다. 커뮤니티는 안정적이고 느린 확장을 유지해왔지만 동시에 관심분야에 민감한 일부 사용자를 잃었습니다.

7. 진화는 어떻게 일어나는 걸까요?

Discovery 1부터 Discovery 6까지 연구팀이 집중한 첫 번째 연구 질문에 답하세요. 뉴스 추천 생태계(NRE)의 수명 주기 각 단계의 특징은 무엇인가요?

다음으로 모든 지식을 종합하여 두 번째 연구 질문인 NRE의 진화를 이끄는 핵심 요소는 무엇이며 이러한 요소가 어떻게 상호 작용하여 진화 과정에 영향을 미치는가에 대해 답해 보겠습니다.

다음 그림은 온라인 뉴스 커뮤니티 진화의 핵심 요소와 영향 메커니즘을 요약합니다. 노출 편향과 교착 상태의 재출현이 해당 서클 내 사용자의 다양한 진화 추세의 직접적인 원인임을 알 수 있습니다. 그리고 이는 서클 밖의 사용자로 이어지며, 이는 더욱 사용자의 차별화와 주제의 융합으로 이어집니다.

Fudan, 뉴스 추천 생태계 시뮬레이터 SimuLine 출시: 단일 시스템으로 독자 10,000명, 작성자 1,000명, 추천 100회 이상 지원

다시 나타나는 노출 편향은 여러 요인의 조합으로 인해 발생합니다.

우선, 정보 이론의 관점에서 추천 알고리즘은 정보 압축 과정으로 설명할 수 있으며, 이는 필연적으로 데이터 세트에 자주 등장하는 뉴스(즉, 뉴스)가 인기 편향으로 이어집니다. 좋아요가 많을수록) 추천 성능을 향상시키기 위해 더 효율적으로 코딩됩니다. 커뮤니티의 진화 과정을 반영하면, 널리 논의되는 공통 주제가 알고리즘 추천 채널에서 개인화된 주제의 노출 자원을 장악하게 될 것이라는 점을 반영합니다.

둘째, 콘텐츠 창작자의 영리 추구 성격으로 인해 공익적인 주제를 중심으로 뉴스를 만드는 데 더 많은 의욕이 있으며, 이는 자연스럽게 인기 있는 주제에서 개인화된 주제로 보도 밀도가 감소하게 됩니다. 이런 의미에서, 프로세스 전반에 걸쳐 무작위 추천이 사용되더라도 분포 편차로 인해 커뮤니티가 주제 수렴 방향으로 발전할 수 있습니다.

마지막으로 필터 버블과 노출 편향은 서로를 촉진하여 사용자 관심도에 미묘한 변화를 가져옵니다. 알고리즘은 사용자가 과거에 좋아했던 뉴스를 기반으로 유사한 보도를 추천합니다. 뉴스 노출이 제한되어 있어 사용자가 노출 편향을 인지하기가 더 어렵습니다.

또한, 인기 뉴스에 대한 추천 시스템의 편향은 다양한 진화 단계에서 다양한 영향을 보여줍니다.

창업 단계에서는 관심질 혼란이 있고, 뉴스 품질과 인기 사이에 강한 상관관계가 있으며, 인기 편향은 특히 고품질 뉴스 노출 강화에 반영됩니다.

데이터가 축적되고 알고리즘 추천 성능이 향상되면서 유사 행위가 품질 중심보다 관심 중심으로 변해 관심-품질 혼란과 품질-인기 상관 관계가 약화됩니다. 인기편향도 질 높은 뉴스를 추천하는 것에서 단순히 인기가 높은 뉴스를 추천하는 것으로 점차 진화했다.

이러한 기존 추진력과 새로운 추진력의 전환 과정에서 인기가 높고 수준 높은 뉴스 주제를 육성하는 것은 사용자 참여를 촉진하는 데 중요한 역할을 합니다.

결론적으로 일곱 번째 발견을 얻을 수 있습니다. 인기 편향, 뉴스 배포 편향, 필터 버블이 함께 노출 편향으로 이어지며, 이는 사용자 차별화와 주제 수렴에 영향을 미치는 핵심 요소입니다. 인기가 높은 고품질 뉴스는 서클 외부 사용자 간의 교착 상태를 깨는 데 중요합니다.

8. 커뮤니티 쇠퇴를 피하는 방법은 무엇인가요?

마지막으로 SimuLine의 강력한 시뮬레이션 및 분석 기능을 사용하여 세 번째 연구 질문인 추천 시스템의 설계 전략을 통해 더 나은 장기적 다자간 효율성을 달성하는 방법을 탐색합니다. 그로 인해 커뮤니티를 피하여 "쇠퇴"하게 됩니까?

연구팀은 가장 기본적이고 일반적인 휴리스틱 추천 방법인 구독 기반 뉴스 콜드 스타트, 핫 검색 목록, 주제 홍보, 창작자 홍보 등 4가지 방법을 테스트했습니다. 다음 세 가지 그림은 위의 네 가지 방법을 기본 추천 시스템에 적용한 커뮤니티 진화 결과를 나타냅니다.

Fudan, 뉴스 추천 생태계 시뮬레이터 SimuLine 출시: 단일 시스템으로 독자 10,000명, 작성자 1,000명, 추천 100회 이상 지원

Fudan, 뉴스 추천 생태계 시뮬레이터 SimuLine 출시: 단일 시스템으로 독자 10,000명, 작성자 1,000명, 추천 100회 이상 지원

Fudan, 뉴스 추천 생태계 시뮬레이터 SimuLine 출시: 단일 시스템으로 독자 10,000명, 작성자 1,000명, 추천 100회 이상 지원

(1) 구독 기반 뉴스 콜드 런칭은 사용자와 콘텐츠 창작자 간의 안정적인 교차 노출 관계를 형성하여 출시 단계를 향상시키려는 시도입니다. 품질 피드백 루프가 나타납니다.

그러나 이러한 접근 방식은 심각한 독점을 초래했습니다. 선점 우위를 달성하지 못한 콘텐츠 제작자는 품질 피드백 루프에 의해 억압되어 알고리즘 적용 범위와 뉴스의 평균 품질을 파괴하여 뉴스의 다양성을 감소시킵니다. 전체 지역사회 생태계가 심각하게 위협받고 있습니다.

(2) 핫 검색 목록은 가장 일반적인 온라인 커뮤니티 구성 요소로, 뉴스 품질과 인기도 간의 긍정적인 상관 관계에 의존합니다. 이 방법을 사용하면 사용자에게 더 높은 품질의 뉴스 추천을 제공할 수 있습니다. 동시에 활용과 탐구의 관점에서 속보를 읽는 것은 사용자의 기존 관심의 한계를 뛰어넘는 일종의 사용자 탐색으로 간주될 수 있으며 이는 필터 버블의 부정적인 영향을 줄이는 데 도움이 됩니다.

그러나 이러한 접근 방식으로는 이전 기사에서 논의한 인기와 품질의 상관 관계가 붕괴되는 것을 막을 수 없으며, 이는 속보 추천의 효율성이 감소하는 결과를 낳습니다.

(3) 마지막으로 플랫폼 홍보가 있습니다. 특정 주제나 특정 작가에 대한 추가 노출을 제공함으로써 플랫폼은 추천 콘텐츠를 적극적으로 규제할 수도 있습니다. 콘텐츠 창작자를 홍보하면 안정적인 노출 관계를 구축할 수 있고, 품질 피드백 루프를 활용해 인기가 높은 고품질 뉴스를 육성할 수 있습니다.

그러나 구독 기반 뉴스 콜드 스타트 ​​전략과 달리 현재의 품질 피드백 루프가 해로운 독점을 조성하기 전에 프로모션을 적극적으로 종료할 수 있으므로 사용자 경험과 창작자의 창의성이 보장됩니다. 관심 매칭과 무관한 뉴스 전파 채널로서 필터 버블의 부정적인 영향을 완화할 수도 있습니다. 또한 품질 피드백 루프를 재구성함으로써 인기 뉴스에 대한 추천 시스템의 편향을 고품질 뉴스에 대한 유익한 추천으로 유도합니다.

SimuLine은 특정 주제 홍보를 대상으로 한 실험에서 무작위로 주제를 선택하는데, 이는 인기 주제와 맞춤 주제가 홍보될 확률이 동일하다는 것을 의미하므로 상대적으로 노출이 적은 맞춤 주제의 경우 홍보의 영향이 상대적으로 작습니다.

이 방법은 이론적으로 서클 외부의 사용자 참여를 높이는 데 사용할 수 있습니다. 그러나 홍보된 뉴스의 품질을 보장할 수 없고 노출량을 좋아요 수로 환산하기가 어렵기 때문에 이 효과는 다음과 같습니다. 방법이 제한되어 있습니다.

결론적으로 여덟 번째 결과를 얻을 수 있습니다. 일반적인 추천 시스템 설계 전략 중 콘텐츠 제작자를 위한 주기적인 프로모션이 가장 효과적입니다. 고품질 피드백 루프를 적극적으로 구축함으로써 커뮤니티 전체에 인기 있고 고품질 뉴스 주제의 물결을 만들 수 있으며 플랫폼은 정기적인 재설정을 통해 독점을 제어할 수 있습니다.

요약

본 글에서 CISL 연구진은 뉴스 추천 생태계의 진화 과정을 분석하기 위한 시뮬레이션 플랫폼인 SimuLine을 설계 및 개발했으며, 이를 기반으로 온라인 뉴스 커뮤니티의 진화 과정을 상세하게 분석했다. SimuLine에서.

SimuLine은 인간의 행동을 잘 반영하는 이해 가능한 잠재 공간을 구축하고, 이를 기반으로 에이전트 기반 모델링을 통해 뉴스 추천 생태계에 대한 상세한 시뮬레이션을 수행합니다.

연구팀은 스타트업, 성장, 성숙, 쇠퇴 단계를 포함하여 온라인 뉴스 커뮤니티 진화의 전체 라이프사이클을 분석하고 각 단계의 특성을 분석하는 동시에, 뉴스 커뮤니티의 핵심 요소와 영향을 설명하는 관계도를 제안했습니다. 진화 과정 메커니즘.

마지막으로 연구팀은 구독 기반 뉴스 콜드 스타트, 핫 뉴스 및 플랫폼 프로모션 사용을 포함하여 추천 시스템 설계 전략이 커뮤니티 진화에 미치는 영향을 조사했습니다.

앞으로 CISL 연구팀은 보다 강력하고 현실적인 시뮬레이션을 수행하기 위해 뉴스의 텍스트 콘텐츠 생성과 소셜 네트워크 활동의 행동 모델링을 고려할 것입니다.

연구팀은 SimuLine이 데이터 세트를 기반으로 한 온라인 사용자 실험 및 오프라인 실험 외에 세 번째 옵션을 제공하여 추천 시스템 평가를 위한 훌륭한 도구로도 사용될 수 있다고 믿습니다(이것이 SimuLine이라는 이름을 붙인 주된 이유이기도 합니다). .

연구팀은 또한 추천 시스템 연구 커뮤니티가 사용자 차별화와 주제 수렴의 직접적인 원인이기도 한 추천의 노출 편향 문제를 해결하기 위해 최근 일련의 편향 보정 추천 알고리즘을 제안했다는 사실에 주목했습니다. .

본 글은 구체적인 추천 알고리즘보다는 추천 시스템의 시스템 설계에 대해 논의하는 데 초점이 맞춰져 있기 때문에 연구팀에서는 이 문제를 열린 주제로 남겨두고 SimuLine이 이러한 방향의 향후 연구를 추진할 수 있기를 바랍니다.

위 내용은 Fudan, "뉴스 추천 생태계 시뮬레이터" SimuLine 출시: 단일 시스템으로 독자 10,000명, 작성자 1,000명, 추천 100회 이상 지원의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제