최근에는 게임 데이터 통계 백그라운드 작업을 하고 있습니다. 가장 기본적인 기능은 등록 및 로그인 로그를 분석하여 사용자 데이터를 표시하는 것입니다. 회사 내부 테스트에서는 사용자 수가 매우 적어 성능 문제는 발견되지 않았습니다. 그런데 이 이틀이 실제 테스트 환경에 들어가자 오후부터 사용자가 엄청나게 몰려들기 시작했고, 데이터를 반환하는 데 몇 초가 걸렸습니다. 등록인원은 괜찮았습니다. 밤에는 온라인 사용자의 통계가 기본적으로 시간 초과되어 열 수 없습니다. 게임 측에 어떤 버그가 있는지는 모르겠지만 로그인에 문제가 있는 경우가 많아 온라인 및 등록자가 많지 않습니다. 하지만 이 정도의 데이터로는 쿼리 속도가 충분하지 않아 매우 당황스럽습니다.
지금은 게임의 버그를 확인하고 있고, 저도 통계 백엔드의 코드 성능을 살펴보고 있습니다. 우선, 제가 통계에 사용하는 데이터는 슬레이브 데이터베이스에서 가져온 것이고, 게임은 메인 데이터베이스를 사용한다는 점을 설명하겠습니다. 게다가 여기에는 관리자가 소수이므로 게임 서버의 성능에 영향을 미치는 것은 불가능합니다. .
오늘 프로젝트 팀장이 모든 데이터베이스를 회사 서버로 가져왔습니다. 통계 플랫폼의 성능 문제가 어디에 있는지 확인하기 위해 복사본을 로컬 컴퓨터에 복사했습니다. 그런 다음 등록 통계조차도 매우 느리다는 것을 알았습니다. 서버에서 반환하는 데 약 2초가 걸렸고 로컬 컴퓨터에서는 20초 이상이 걸렸으며 종종 시간 초과되었습니다(PHP의 기본 구성은 30초 시간 초과입니다). ; 온라인 통계가 확실하지 않다는 것은 말할 필요도 없습니다. 데이터베이스를 살펴보니 그날 등록된 기록은 약 3,500건(가짜 데이터 포함)에 불과했습니다. 5분 간격으로 집계되어 하루에 288건이 발생했습니다. 물론 이것은 데이터베이스에 대한 288번의 루프 쿼리가 아니며, 죽도록 꾸짖을 것입니다.
특정 기간 내 등록 수를 계산하는 논리도 매우 간단합니다. 각 기간에 한 번씩 데이터를 순회하여 시간을 비교하면 +1이 제공됩니다. 그런데 왜 단지 100만 주기의 간단한 논리가 30분밖에 걸리지 않는 걸까요?
핵심 문제는 시간 비교에 있습니다. 우리 모두는 타임스탬프가 시간 크기를 비교하는 보다 과학적인 방법이라는 것을 알고 있으며, 데이터베이스에 기록되는 시간은 일반적으로 YYYY-mm-dd HH: 형식입니다. ii:ss, PHP에는 타임스탬프로 변환하는 strtotime 함수가 있습니다. 그러나 * foreach 3500에 대한 288의 축복을 받은 후, 여기서 실행 시간은 무려 30분에 이릅니다.
$nowDayDT = strtotime( date('Y-m-d') ); $__startT = microtime(TRUE); for($i=0; $i<$allTime; $i += $gapTime){ $count = 0; //用于数据比较的 $startDT = $nowDayDT+$i; $endDT = $nowDayDT+$i+$gapTime; //用于显示的 $xAxis1 = date('H:i', $nowDayDT+$i); $xAxis2 = date('H:i', $nowDayDT+$i+$gapTime); foreach($rawData as $line){ $time = strtotime($line['log_dt']); if( $startDT<=$time && $time<$endDT ){ $count ++; } } $resArr[] = [ 'date'=>$xAxis1.'~'.$xAxis2, 'number'=>$count ]; } echo microtime(TRUE)-$__startT;
이런 경우에는 기본적으로 이 strtotime 함수를 더 이상 사용할 수 없으니 시간 크기를 비교할 수 있는 다른 방법은 없을까요? 대답은 매우 간단하고 대략적입니다. PHP에서 두 날짜 및 시간 문자열을 직접 비교할 수 있습니다! 따라서 수정된 코드는 다음과 같습니다. 그러면 현재 실행시간은 약 0.3초
$__startT = microtime(TRUE); for($i=0; $i<$allTime; $i += $gapTime){ $count = 0; //用于数据比较的 $startDT = date('Y-m-d H:i:s', $nowDayDT+$i); $endDT = date('Y-m-d H:i:s', $nowDayDT+$i+$gapTime); //用于显示的 $xAxis1 = date('H:i', $nowDayDT+$i); $xAxis2 = date('H:i', $nowDayDT+$i+$gapTime); foreach($rawData as $line){ $time = $line['log_dt']; if( $startDT<=$time && $time<$endDT ){ $count ++; } } $resArr[] = [ 'date'=>$xAxis1.'~'.$xAxis2, 'number'=>$count ]; } echo microtime(TRUE)-$__startT;
탐색한 후 최적화
문제를 발견할 수도 있고, 대한 내부에 중첩됨 foreach의 성능이 약간 걱정스럽습니다. 내부의 foreach를 완전히 탐색해야 합니까? 실제로는 필요하지 않습니다. SQL 데이터를 확인하면 시간순으로 정렬됩니다. 최적화된 시간 비교 알고리즘은 다음과 같습니다.
for{ ... foreach($rawData as $line){ $time = $line['log_dt'];//strtotime($line['log_dt']); //优化算法计算 if($time<$startDT) continue; //小于开始时间则跳过 if($time>=$endDT) break; //大于结束时间则结束 $count ++; //否则为符合条件 //原始的算法 // if( $startDT<=$time && $time<$endDT ){ // $count ++; // } } ...}
여기서는 continue 및 break 키워드를 교묘하게 사용하여 루프를 건너뛰고 전체 루프를 종료합니다. 이번에는 하루 중 첫 번째 시간의 통계에서 후속 데이터의 상당 부분을 직접 건너뛸 수 있습니다. 결국 총 이동 시간은 약 0.12초로 단축됐다.
요약하자면, 대규모 데이터 처리에서는 순회 중 데이터 변환을 피하고 원리가 복잡한 일부 기능의 사용을 피해야 합니다. strtotime 등