이 글은 주로 Python에서 희소 행렬을 구현하는 예제 코드를 소개합니다. 편집자는 이것이 꽤 좋다고 생각합니다. 이제 이를 여러분과 공유하고 참고할 것입니다. 에디터를 따라가서 살펴보겠습니다
공학 실습에서 큰 행렬은 일반적으로 희소 행렬이므로 희소 행렬을 어떻게 처리하는가가 실무에서 매우 중요합니다. 이 기사에서는 Python의 구현을 예로 들어 먼저 희소 행렬이 어떻게 저장되고 표현되는지 살펴보겠습니다.
1. 희소 모듈에 대한 예비 연구
파이썬의 scipy 모듈에는 희소 행렬을 풀기 위해 특별히 고안된 희소 모듈이라는 모듈이 있습니다. 이 글의 내용 대부분은 실제로 sparse 모듈을 기반으로 합니다.
첫 번째 단계는 희소 모듈을 가져오는 것입니다
>>> from scipy import sparse
. 그런 다음 먼저 살펴보겠습니다.
>>> help(sparse)
그리고 우리가 가장 우려하는 부분을 직접 찾아보세요:
Usage information ================= There are seven available sparse matrix types: 1. csc_matrix: Compressed Sparse Column format 2. csr_matrix: Compressed Sparse Row format 3. bsr_matrix: Block Sparse Row format 4. lil_matrix: List of Lists format 5. dok_matrix: Dictionary of Keys format 6. coo_matrix: COOrdinate format (aka IJV, triplet format) 7. dia_matrix: DIAgonal format To construct a matrix efficiently, use either dok_matrix or lil_matrix. The lil_matrix class supports basic slicing and fancy indexing with a similar syntax to NumPy arrays. As illustrated below, the COO format may also be used to efficiently construct matrices. To perform manipulations such as multiplication or inversion, first convert the matrix to either CSC or CSR format. The lil_matrix format is row-based, so conversion to CSR is efficient, whereas conversion to CSC is less so. All conversions among the CSR, CSC, and COO formats are efficient, linear-time operations.
이 설명을 통해 우리는 희소 모듈 일반적인 이해. 희소 모듈에 희소 행렬을 저장하는 방법에는 7가지가 있습니다. 다음에는 이 7가지 방법을 하나씩 소개하겠습니다.
2.coo_matrix
coo_matrix는 가장 간단한 저장 방법입니다. 0이 아닌 요소의 정보를 저장하려면 행, 열 및 데이터 세 개의 배열을 사용하십시오. 세 배열의 길이는 동일하며, row는 요소의 행을 보유하고, col은 요소의 열을 보유하며, data는 요소의 값을 보유합니다. 일반적으로 coo_matrix는 행렬을 생성하는 데 주로 사용됩니다. 왜냐하면 coo_matrix는 행렬의 요소를 추가, 삭제 또는 수정할 수 없기 때문입니다. 행렬이 성공적으로 생성되면 다른 형태의 행렬로 변환됩니다.
>>> row = [2,2,3,2] >>> col = [3,4,2,3] >>> c = sparse.coo_matrix((data,(row,col)),shape=(5,6)) >>> print c.toarray() [[0 0 0 0 0 0] [0 0 0 0 0 0] [0 0 0 5 2 0] [0 0 3 0 0 0] [0 0 0 0 0 0]]
한 가지 주의할 점은 coo_matrix를 사용하여 행렬을 생성할 때 동일한 행 및 열 좌표가 여러 번 나타날 수 있다는 것입니다. 실제로 행렬이 생성된 후 해당 좌표값을 합산하여 최종 결과를 얻습니다.
3.dok_matrix 및 lil_matrix
dok_matrix 및 lil_matrix는 행렬의 요소가 점진적으로 추가되는 시나리오에 적용 가능합니다. doc_matrix의 전략은 사전을 사용하여 0이 아닌 행렬의 요소를 기록하는 것입니다. 당연히 사전의 키에는 기록된 요소의 위치정보의 조상이 저장되며, 그 값은 기록된 요소의 구체적인 값이다.
>>> import numpy as np >>> from scipy.sparse import dok_matrix >>> S = dok_matrix((5, 5), dtype=np.float32) >>> for i in range(5): ... for j in range(5): ... S[i, j] = i + j ... >>> print S.toarray() [[ 0. 1. 2. 3. 4.] [ 1. 2. 3. 4. 5.] [ 2. 3. 4. 5. 6.] [ 3. 4. 5. 6. 7.] [ 4. 5. 6. 7. 8.]]
lil_matrix는 두 개의 목록을 사용하여 0이 아닌 요소를 저장합니다. data는 각 행에 0이 아닌 요소를 저장하고, 행은 0이 아닌 요소가 있는 열을 저장합니다. 이 형식은 요소를 한 번에 하나씩 추가하고 행 관련 데이터를 빠르게 검색하는 데에도 적합합니다.
>>> from scipy.sparse import lil_matrix >>> l = lil_matrix((6,5)) >>> l[2,3] = 1 >>> l[3,4] = 2 >>> l[3,2] = 3 >>> print l.toarray() [[ 0. 0. 0. 0. 0.] [ 0. 0. 0. 0. 0.] [ 0. 0. 0. 1. 0.] [ 0. 0. 3. 0. 2.] [ 0. 0. 0. 0. 0.] [ 0. 0. 0. 0. 0.]] >>> print l.data [[] [] [1.0] [3.0, 2.0] [] []] >>> print l.rows [[] [] [3] [2, 4] [] []]
위의 두 가지 희소 행렬 구성 방법은 일반적으로 0이 아닌 요소를 점진적으로 추가하여 행렬을 구성한 다음 빠르게 계산할 수 있는 다른 행렬 저장 방법으로 변환하는 데 사용된다는 것을 위의 분석에서 쉽게 알 수 있습니다.
4.dia_matrix
대각선 보관방식입니다. 열은 대각선을 나타내고 행은 행을 나타냅니다. 대각선의 요소가 모두 0이면 생략됩니다.
원래 행렬이 대각 행렬인 경우 압축률이 매우 높아집니다.
인터넷에서 찾은 사진인데 원리는 누구나 쉽게 이해할 수 있어요.
5.csr_matrix 및 csc_matrix
csr_matrix, 전체 이름은 Compressed Sparse Row이며 행렬을 행 단위로 압축합니다. CSR에는 숫자 값, 열 번호, 행 오프셋의 세 가지 유형의 데이터가 필요합니다. CSR은 수치와 열 번호의 의미가 coo의 의미와 일치하도록 하는 코딩 방식이다. 행 오프셋은 값에서 행의 첫 번째 요소의 시작 오프셋 위치를 나타냅니다.
인터넷에서 원리를 더 잘 반영할 수 있는 사진도 찾았어요.
파이썬에서 사용하는 방법 보기:
>>> from scipy.sparse import csr_matrix >>> indptr = np.array([0, 2, 3, 6]) >>> indices = np.array([0, 2, 2, 0, 1, 2]) >>> data = np.array([1, 2, 3, 4, 5, 6]) >>> csr_matrix((data, indices, indptr), shape=(3, 3)).toarray() array([[1, 0, 2], [0, 0, 3], [4, 5, 6]])
어때요, 이해하기 어렵지 않나요?
문서에 나와 있는 내용을 살펴보겠습니다
Notes | ----- | | Sparse matrices can be used in arithmetic operations: they support | addition, subtraction, multiplication, pision, and matrix power. | | Advantages of the CSR format | - efficient arithmetic operations CSR + CSR, CSR * CSR, etc. | - efficient row slicing | - fast matrix vector products | | Disadvantages of the CSR format | - slow column slicing operations (consider CSC) | - changes to the sparsity structure are expensive (consider LIL or DOK)
실제 행렬 연산에는 csr_matrix가 더 적합하다는 것을 어렵지 않게 알 수 있습니다.
csc_matrix는 csr_matrix와 유사하지만 컬럼을 기준으로 압축되어 있어 별도로 소개하지 않습니다.
6.bsr_matrix
Block Sparse Row 형식은 이름에서 알 수 있듯이 차단 개념을 기반으로 행렬을 압축합니다.
위 내용은 희소 행렬을 처리하는 방법은 무엇입니까? 희소 행렬 튜토리얼의 Python 구현의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!