이 기사에서는 먼저 풀링에 해당하는 작업을 설명한 다음 풀링의 몇 가지 원리를 분석하고 마지막으로 풀링의 Python 구현을 제공합니다.
1. 풀링에 해당하는 연산
우선 풀링 전체에 대한 직관적인 개념을 가지고 있습니다(즉, 풀링의 입력, 출력 및 구체적인 기능을 설명하지만 구체적인 내용은 무시합니다). 구현 세부 사항): 풀링의 입력은 행렬이고 출력은 행렬입니다. 완성된 함수는 입력 행렬의 로컬 영역에 대해 연산을 수행하여 해당 영역에 해당하는 출력이 해당 특성을 가장 잘 나타낼 수 있도록 하는 것입니다. 영역. 그림 1에 도시된 바와 같이, 왼쪽 그림의 노란색 행렬은 입력 행렬을 나타내고, 오른쪽 그림의 파란색 행렬은 출력 행렬을 나타내며, 동적 주황색 행렬은 선택된 입력 행렬의 국소 영역을 나타내며, 해당 지역을 가장 잘 대표하는 대표자가 최종적으로 선택된 모든 대표자는 원래 입력 행렬에 해당하는 공간 위치 관계에 따라 출력 행렬에서 정렬됩니다.
이 과정은 선거 과정에 비유할 수 있습니다. 베이징 시장을 선출하려면 베이징의 각 구에서 해당 구의 이익에 가장 적합한 대표를 선출하고 선출된 대표가 베이징 시장을 선출하는 방법을 결정하는 것이 가능한 접근 방식입니다. 물론, 우리는 각 지역구에서 선출된 대표자들이 해당 지역의 이익을 가장 잘 충족시킬 수 있기를 바랍니다. 풀링과 간단히 비유하자면, 베이징 〈-〉 입력 행렬; 조양구, 하이뎬구 및 기타 〈-〉 지역은 〈-〉 출력 행렬을 나타냅니다(회의 중 지리적 위치에 따라 앉는 경우). 풀링의 특성과 매우 유사합니다).
2. 풀링의 원리
지역 대표를 선정하는 과정에서 우리는 일반적으로 해당 지역에서 가장 권위 있는 대표를 선정하는 것입니다. 지역 사람들을 대표자로 사용하거나(맥스 풀링에 해당), 해당 지역의 모든 사람들의 일반적인 특성을 가장 잘 대표할 수 있는 사람들을 대표로 선택합니다(평균 풀링에 해당). 이에 따라 풀링에는 두 가지 일반적인 방법이 있습니다. 지역 면적 값이 가장 큰 사람이 해당 지역을 대표하거나 해당 지역의 모든 값의 평균을 해당 지역을 대표하는 사람이 됩니다.
해당 지역에서 가장 평판이 좋은 사람을 대표로 선택하는 것과 해당 지역의 모든 사람의 일반적인 특성을 가장 잘 대표하는 사람을 대표로 선택하는 것의 이점은 다음과 같습니다.
1 ) 한 지역의 최고 권위자가 시장을 선출할 때 편견을 가져서는 안 되지만, 노년기에 의존하여 해당 지역 일반 대중의 의견을 대변하지 못할 수도 있습니다(지역 최대치). 가치는 그 지역의 일반적인 특성을 쉽게 무시할 수 있음)
2) 그 지역에 사는 모든 사람들의 일반적인 특성을 가장 잘 대표하는 사람이 그 지역에 있는 모든 주민의 가장 큰 권리와 이익을 대표할 수 있지만, 제한된 인지 능력(지역 평균이 작아서 인지 능력이 제한됨)을 선택할 때 시장이 되면 엉뚱한 일이 일어나기 쉽습니다.
3) 해당 지역의 사람들이 어느 정도 이동의 자유도(이동불변, 회전불변에 해당)를 가지고 있다면 위의 두 가지 대표선정 방식에는 기본적으로 아무런 영향이 없습니다.
풀링에 대한 형식적인 설명
관련 이론에 따르면: (1) 동네의 제한된 크기로 인해 추정값의 분산이 증가합니다. 오류로 인해 추정된 평균 오프셋의 변동이 발생합니다. 일반적으로 평균 풀링은 첫 번째 오류를 줄이고 이미지의 배경 정보를 더 많이 유지할 수 있는 반면, 최대 풀링은 두 번째 오류를 줄이고 더 많은 텍스처 정보를 유지할 수 있습니다.
일반적으로 풀링의 입력 차원은 높고 출력 차원은 낮습니다. 이는 위의 풀링 원리 설명을 바탕으로 어느 정도 차원 축소로 이해할 수 있습니다. 우리는 이것이 차원 축소 프로세스가 입력의 가장 중요한 정보 중 일부를 크게 유지한다고 추론할 수 있습니다. 실제 풀링 적용에서는 실제 문제의 특성을 바탕으로 상세한 분석을 진행해야 합니다. 사실 풀링의 작동 원리와 원리를 알고 나면, 구체적인 문제들과 잘 결합된다면 좋은 혁신 포인트가 되겠죠, 하하.
3. pooing의 Python 구현
코드를 작성할 때 저자의 생각 중 일부는 다음과 같습니다. 질문:
1) 입력 행렬은 mxn 또는 mxnxp일 수 있습니다. 코드를 작성할 때 이 두 가지 형식을 직접 고려하면 어디서부터 시작해야 할지 알 수 없습니다(고려해야 할 상황이 많습니다). , 그리고 다차원 행렬은 제가 스스로 하기 쉽습니다. 주의 깊게 분석한 결과, mxn 행렬의 풀링을 구현하면 mxn 행렬의 구현을 사용하여 mxnxp 행렬을 쉽게 구현할 수 있다는 것을 발견했습니다.
2) mxn 행렬 입력의 경우 그림 1의 주황색 상자가 입력 행렬을 정확하게 덮을 수 없으므로 입력 행렬을 확장해야 합니다. 확장도 매우 간단합니다. 마지막 poolStride에 해당하는 poolSize가 입력 행렬을 덮을 수 있다면 다른 것들도 확실히 덮을 수 있습니다.
3) 마지막으로 for 루프도 비슷한 작업을 수행합니다.
def pooling(inputMap,poolSize=3,poolStride=2,mode='max'): """INPUTS: inputMap - input array of the pooling layer poolSize - X-size(equivalent to Y-size) of receptive field poolStride - the stride size between successive pooling squares OUTPUTS: outputMap - output array of the pooling layer Padding mode - 'edge' """ # inputMap sizes in_row,in_col = np.shape(inputMap) # outputMap sizes out_row,out_col = int(np.floor(in_row/poolStride)),int(np.floor(in_col/poolStride)) row_remainder,col_remainder = np.mod(in_row,poolStride),np.mod(in_col,poolStride) if row_remainder != 0: out_row +=1 if col_remainder != 0: out_col +=1 outputMap = np.zeros((out_row,out_col)) # padding temp_map = np.lib.pad(inputMap, ((0,poolSize-row_remainder),(0,poolSize-col_remainder)), 'edge') # max pooling for r_idx in range(0,out_row): for c_idx in range(0,out_col): startX = c_idx * poolStride startY = r_idx * poolStride poolField = temp_map[startY:startY + poolSize, startX:startX + poolSize] poolOut = np.max(poolField) outputMap[r_idx,c_idx] = poolOut # retrun outputMap return outputMap # 测试实例 test = np.array([[1,2,3,4],[5,6,7,8],[9,10,11,12]]) test_result = pooling(test, 2, 2, 'max') print(test_result)
테스트 결과:
요약: 먼저 기술의 입력, 출력 및 기능을 이해한 다음 실제 사례에서 비슷한 것을 찾습니다. 마지막으로 기술을 달성 가능한 단계로 분류합니다.