문자열에서 IPv4 주소를 얻는 가장 빠른 방법
문제의 원본 코드:
UINT32 GetIP(const char *p) { UINT32 dwIP=0,dwIP_Part=0; while(true) { if(p[0] == 0) { dwIP = (dwIP << 8) | dwIP_Part; break; } if(p[0]=='.') { dwIP = (dwIP << 8) | dwIP_Part; dwIP_Part = 0; p++; } dwIP_Part = (dwIP_Part*10)+(p[0]-'0'); p++; } return dwIP; }
더 빠른 벡터화 해결책:
x86 명령어 세트를 활용하여 문제에 대한 보다 효율적인 해결책이 아래에 제시됩니다.
UINT32 MyGetIP(const char *str) { // Load and convert input __m128i input = _mm_lddqu_si128((const __m128i*)str); input = _mm_sub_epi8(input, _mm_set1_epi8('0')); // Generate shuffled array __m128i cmp = input; UINT32 mask = _mm_movemask_epi8(cmp); __m128i shuf = shuffleTable[mask]; __m128i arr = _mm_shuffle_epi8(input, shuf); // Calculate coefficients __m128i coeffs = _mm_set_epi8(0, 100, 10, 1, 0, 100, 10, 1, 0, 100, 10, 1, 0, 100, 10, 1); // Multiply and accumulate __m128i prod = _mm_maddubs_epi16(coeffs, arr); prod = _mm_hadd_epi16(prod, prod); // Reorder result __m128i imm = _mm_set_epi8(-1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, 6, 4, 2, 0); prod = _mm_shuffle_epi8(prod, imm); // Extract result return _mm_extract_epi32(prod, 0); }
ShuffleTable:
void MyInit() { int len[4]; for (len[0] = 1; len[0] <= 3; len[0]++) for (len[1] = 1; len[1] <= 3; len[1]++) for (len[2] = 1; len[2] <= 3; len[2]++) for (len[3] = 1; len[3] <= 3; len[3]++) { int slen = len[0] + len[1] + len[2] + len[3] + 4; int rem = 16 - slen; for (int rmask = 0; rmask < 1<<rem; rmask++) { int mask = 0; char shuf[16] = {-1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1}; int pos = 0; for (int i = 0; i < 4; i++) { for (int j = 0; j < len[i]; j++) { shuf[(3-i) * 4 + (len[i]-1-j)] = pos; pos++; } mask ^= (1<<pos); pos++; } mask ^= (rmask<<slen); _mm_store_si128(&shuffleTable[mask], _mm_loadu_si128((__m128i*)shuf)); } } }
평가:
이 솔루션은 벡터화 기술로 인해 훨씬 더 빠르며 원본 코드보다 성능이 7.8배 더 뛰어납니다. 3.4GHz 프로세서의 단일 코어에서 초당 약 3억 3,600만 개의 IP 주소를 처리할 수 있습니다.
위 내용은 IPv4 주소를 문자열에서 정수로 변환하는 속도를 높이기 위해 벡터화 기술을 어떻게 사용할 수 있습니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!