집 >백엔드 개발 >파이썬 튜토리얼 >Python 카운터: collections.Counter를 사용하는 방법은 무엇입니까?

Python 카운터: collections.Counter를 사용하는 방법은 무엇입니까?

王林앞으로: 2023-05-08 13:34:071134검색

1. 소개

카운터 도구는 빠르고 편리한 계산을 제공합니다. 카운터는 해시 가능한 개체를 계산하는 데 사용되는 dict의 하위 클래스입니다. 이는 사전 키처럼 저장된 요소와 해당 개수를 값으로 포함하는 컬렉션입니다. Count는 0과 음수를 포함한 모든 정수 값이 될 수 있으며 Counter 클래스는 다른 언어의 bag 또는 multiset과 약간 비슷합니다. 간단히 말해서 통계적으로 계산할 수 있습니다. 몇 가지 예를 살펴보겠습니다.
예:

#计算top10的单词
from collections import Counter
import re
text = &#39;remove an existing key one level down remove an existing key one level down&#39;
words = re.findall(r&#39;\w+&#39;, text)
Counter(words).most_common(10)
[(&#39;remove&#39;, 2),(&#39;an&#39;, 2),(&#39;existing&#39;, 2),(&#39;key&#39;, 2),(&#39;one&#39;, 2)(&#39;level&#39;, 2),(&#39;down&#39;, 2)] 


#计算列表中单词的个数
cnt = Counter()
for word in [&#39;red&#39;, &#39;blue&#39;, &#39;red&#39;, &#39;green&#39;, &#39;blue&#39;, &#39;blue&#39;]:
    cnt[word] += 1
cnt
Counter({&#39;red&#39;: 2, &#39;blue&#39;: 3, &#39;green&#39;: 1})


#上述这样计算有点嘛，下面的方法更简单，直接计算就行
L = [&#39;red&#39;, &#39;blue&#39;, &#39;red&#39;, &#39;green&#39;, &#39;blue&#39;, &#39;blue&#39;] 
Counter(L)
Counter({&#39;red&#39;: 2, &#39;blue&#39;: 3, &#39;green&#39;: 1}

요소는 반복 가능 항목에서 계산되거나 다른 매핑(또는 카운터)에서 초기화됩니다.

from collections import Counter

#字符串计数
Counter(&#39;gallahad&#39;) 
Counter({&#39;g&#39;: 1, &#39;a&#39;: 3, &#39;l&#39;: 2, &#39;h&#39;: 1, &#39;d&#39;: 1})

#字典计数
Counter({&#39;red&#39;: 4, &#39;blue&#39;: 2})  
Counter({&#39;red&#39;: 4, &#39;blue&#39;: 2})

#计数
Counter(cats=4, dogs=8)
Counter({&#39;cats&#39;: 4, &#39;dogs&#39;: 8})

Counter([&#39;red&#39;, &#39;blue&#39;, &#39;red&#39;, &#39;green&#39;, &#39;blue&#39;, &#39;blue&#39;])
Counter({&#39;red&#39;: 2, &#39;blue&#39;: 3, &#39;green&#39;: 1})

2. 기본 작업

1 "반복 가능 시퀀스"에서 각 요소의 발생 횟수를 계산합니다.

1.1 목록/문자열에 미치는 영향

다음은 두 가지 사용 방법입니다. 하나는 직접 사용하는 것이고, 다른 하나는 인스턴스화 후에 사용하는 것입니다. 자주 호출하려는 경우 당연히 후자가 더 간결합니다. Counter를 쉽게 호출할 수 있습니다. 다양한 메서드는 다른 반복 가능한 시퀀스에서도 동일합니다.

#首先引入该方法
from collections import Counter
#对列表作用
list_01 = [1,9,9,5,0,8,0,9]  #GNZ48-陈珂生日
print(Counter(list_01))  #Counter({9: 3, 0: 2, 1: 1, 5: 1, 8: 1})
 
#对字符串作用
temp = Counter(&#39;abcdeabcdabcaba&#39;)
print(temp)  #Counter({&#39;a&#39;: 5, &#39;b&#39;: 4, &#39;c&#39;: 3, &#39;d&#39;: 2, &#39;e&#39;: 1})
#以上其实是两种使用方法，一种是直接用，一种是实例化以后使用,如果要频繁调用的话，显然后一种更简洁

1.2 결과 출력

#查看类型
print( type(temp) ) #<class &#39;collections.Counter&#39;>
 
#转换为字典后输出
print( dict(temp) ) #{&#39;b&#39;: 4, &#39;a&#39;: 5, &#39;c&#39;: 3, &#39;d&#39;: 2, &#39;e&#39;: 1}
 
for num,count in enumerate(dict(temp).items()):
    print(count)
"""
(&#39;e&#39;, 1)
(&#39;c&#39;, 3)
(&#39;a&#39;, 5)
(&#39;b&#39;, 4)
(&#39;d&#39;, 2)
"""

1.3 내장된 items() 메소드를 사용하여 출력

분명히 이 방법은 사전으로 변환한 다음 출력하는 것보다 더 편리합니다:

print(temp.items()) #dict_items([(&#39;e&#39;, 1), (&#39;c&#39;, 3), (&#39;b&#39;, 4), (&#39;d&#39;, 2), (&#39;a&#39;, 5)])
 
for item in temp.items():
    print(item)
"""
(&#39;a&#39;, 5)
(&#39;c&#39;, 3)
(&#39;d&#39;, 2)
(&#39;e&#39;, 1)
(&#39;b&#39;, 4)
"""

2. 빈번한 발생 요소

는 Most_common() 메소드를 사용하여 n개의 가장 일반적인 요소와 해당 요소의 발생 횟수를 포함하는 목록을 반환하며, 공통성을 높은 것부터 낮은 것으로 정렬합니다. n이 생략되거나 None인 경우, Most_common()은 카운터의 모든 요소를 반환합니다. 동일한 개수 값을 가진 요소는 처음 나타나는 순서대로 정렬됩니다. 상위 단어 빈도를 계산하는 데 자주 사용되는 단어:

#求序列中出现次数最多的元素
 
from collections import Counter
 
list_01 = [1,9,9,5,0,8,0,9]
temp = Counter(list_01)
 
#统计出现次数最多的一个元素
print(temp.most_common(1))   #[(9, 3)]  元素“9”出现3次。
print(temp.most_common(2)) #[(9, 3), (0, 2)]  统计出现次数最多个两个元素
 
#没有指定个数，就列出全部
print(temp.most_common())  #[(9, 3), (0, 2), (1, 1), (5, 1), (8, 1)]

Counter(&#39;abracadabra&#39;).most_common(3)
[(&#39;a&#39;, 5), (&#39;b&#39;, 2), (&#39;r&#39;, 2)]

Counter(&#39;abracadabra&#39;).most_common(5)
[(&#39;a&#39;, 5), (&#39;b&#39;, 2), (&#39;r&#39;, 2), (&#39;c&#39;, 1), (&#39;d&#39;, 1)]

3. ) 및 sort ()Method

설명: 각 요소가 count 값에 지정된 횟수만큼 반복되는 반복기를 반환합니다. 요소는 처음 나타나는 순서대로 반환됩니다. 요소의 개수가 1보다 작으면 elements()는 이를 무시합니다.
예:

c = Counter(a=4, b=2, c=0, d=-2)
list(c.elements())
[&#39;a&#39;, &#39;a&#39;, &#39;a&#39;, &#39;a&#39;, &#39;b&#39;, &#39;b&#39;]

sorted(c.elements())
[&#39;a&#39;, &#39;a&#39;, &#39;a&#39;, &#39;a&#39;, &#39;b&#39;, &#39;b&#39;]

c = Counter(a=4, b=2, c=0, d=5)
list(c.elements())
[&#39;a&#39;, &#39;a&#39;, &#39;a&#39;, &#39;a&#39;, &#39;b&#39;, &#39;b&#39;, &#39;d&#39;, &#39;d&#39;, &#39;d&#39;, &#39;d&#39;, &#39;d&#39;]

from collections import Counter
 
c = Counter(&#39;ABCABCCC&#39;)
print(c.elements()) #<itertools.chain object at 0x0000027D94126860>
 
#尝试转换为list
print(list(c.elements())) #[&#39;A&#39;, &#39;A&#39;, &#39;C&#39;, &#39;C&#39;, &#39;C&#39;, &#39;C&#39;, &#39;B&#39;, &#39;B&#39;]
 
#或者这种方式
print(sorted(c.elements()))  #[&#39;A&#39;, &#39;A&#39;, &#39;B&#39;, &#39;B&#39;, &#39;C&#39;, &#39;C&#39;, &#39;C&#39;, &#39;C&#39;]
 
#这里与sorted的作用是： list all unique elements，列出所有唯一元素
#例如
print( sorted(c) ) #[&#39;A&#39;, &#39;B&#39;, &#39;C&#39;]

공식 문서 예:

# Knuth&#39;s example for prime factors of 1836:  2**2 * 3**3 * 17**1
prime_factors = Counter({2: 2, 3: 3, 17: 1})
product = 1
for factor in prime_factors.elements():  # loop over factors
    product *= factor  # and multiply them
print(product)  #1836
#1836 = 2*2*3*3*3*17

4.subtract() 빼기 연산: 출력은 결과가 0이거나 0보다 작은 개수를 무시하지 않습니다.

반복 객체 또는 맵 객체에서 요소를 빼냅니다. 두 입력 모두 출력은 0 또는 음수일 수 있습니다.

c = Counter(a=4, b=2, c=0, d=-2)
d = Counter(a=1, b=2, c=3, d=4)
c.subtract(d)
c
Counter({&#39;a&#39;: 3, &#39;b&#39;: 0, &#39;c&#39;: -3, &#39;d&#39;: -6})

#减去一个abcd
str0 = Counter(&#39;aabbccdde&#39;)
str0
Counter({&#39;a&#39;: 2, &#39;b&#39;: 2, &#39;c&#39;: 2, &#39;d&#39;: 2, &#39;e&#39;: 1})

str0.subtract(&#39;abcd&#39;)
str0
Counter({&#39;a&#39;: 1, &#39;b&#39;: 1, &#39;c&#39;: 1, &#39;d&#39;: 1, &#39;e&#39;: 1}

subtract_test01 = Counter("AAB")
subtract_test01.subtract("BCC")
print(subtract_test01)  #Counter({&#39;A&#39;: 2, &#39;B&#39;: 0, &#39;C&#39;: -2})

여기서 숫자는 0으로 줄어들 수 있으며 0과 음수를 포함할 수 있습니다:

subtract_test02 = Counter("which")
subtract_test02.subtract("witch")  #从另一个迭代序列中减去元素
subtract_test02.subtract(Counter("watch"))  #^……
 
#查看结果
print( subtract_test02["h"] )  # 0 ,whirch 中两个，减去witch中一个，减去watch中一个，剩0个
print( subtract_test02["w"] )  #-1

5. 사전 메서드

일반적으로 사전 메서드는 사전과 다르게 작동하는 두 가지 메서드가 있다는 점을 제외하면 Counter 개체에 사용할 수 있습니다.

fromkeys(iterable): 이 클래스 메소드는 Counter에서 구현되지 않습니다.
update([iterable-or-mapping]): 반복 가능한 객체의 요소 수를 계산하거나 다른 매핑 객체(또는 카운터)에서 추가하면 요소 수가 추가됩니다. 또한 반복 개체는 (키, 값) 쌍이 아닌 시퀀스 요소여야 합니다.

sum(c.values())                 # total of all counts
c.clear()                       # reset all counts
list(c)                         # list unique elements
set(c)                          # convert to a set
dict(c)                         # convert to a regular dictionary
c.items()                       # convert to a list of (elem, cnt) pairs
Counter(dict(list_of_pairs))    # convert from a list of (elem, cnt) pairs
c.most_common(n)                   # n least common elements
+c                              # remove zero and negative counts

6. 수학 연산

이 함수는 매우 강력하며 다중 집합(카운터에서 0보다 큰 요소)을 생성하기 위해 Counter 객체와 결합할 수 있는 여러 수학 연산을 제공합니다. 더하기 및 빼기는 해당 요소 수를 더하거나 빼서 카운터를 결합합니다. 교차점과 합집합은 해당 개수의 최소값 또는 최대값을 반환합니다. 각 작업은 부호 있는 카운트를 허용하지만 출력에서는 결과가 0이거나 0보다 작은 카운트를 무시합니다.

c = Counter(a=3, b=1)
d = Counter(a=1, b=2)
c + d                       # add two counters together:  c[x] + d[x]
Counter({&#39;a&#39;: 4, &#39;b&#39;: 3})
c - d                       # subtract (keeping only positive counts)
Counter({&#39;a&#39;: 2})
c & d                       # intersection:  min(c[x], d[x]) 
Counter({&#39;a&#39;: 1, &#39;b&#39;: 1})
c | d                       # union:  max(c[x], d[x])
Counter({&#39;a&#39;: 3, &#39;b&#39;: 2})

print(Counter(&#39;AAB&#39;) + Counter(&#39;BCC&#39;))
#Counter({&#39;B&#39;: 2, &#39;C&#39;: 2, &#39;A&#39;: 2})
print(Counter("AAB")-Counter("BCC"))
#Counter({&#39;A&#39;: 2})

및 "and"or"연산:

print(Counter(&#39;AAB&#39;) & Counter(&#39;BBCC&#39;))
#Counter({&#39;B&#39;: 1})
 
print(Counter(&#39;AAB&#39;) | Counter(&#39;BBCC&#39;))
#Counter({&#39;A&#39;: 2, &#39;C&#39;: 2, &#39;B&#39;: 2})

단일 덧셈 및 뺄셈(단항 연산자)은 빈 카운터에서 더하거나 빼는 것을 의미하며, 이는 카운트 값에 양수 또는 음수 값을 곱하는 것과 동일하며 동일한 출력이 발생합니다. 결과가 0이거나 0보다 작은 개수는 무시합니다:

c = Counter(a=2, b=-4)
+c
Counter({&#39;a&#39;: 2})
-c
Counter({&#39;b&#39;: 4})

텍스트 유사성, 가중 유사성을 계산하는 알고리즘 작성:

def str_sim(str_0,str_1,topn):
    topn = int(topn)
    collect0 = Counter(dict(Counter(str_0).most_common(topn)))
    collect1 = Counter(dict(Counter(str_1).most_common(topn)))       
    jiao = collect0 & collect1
    bing = collect0 | collect1       
    sim = float(sum(jiao.values()))/float(sum(bing.values()))        
    return(sim)         

str_0 = &#39;定位手机定位汽车定位GPS定位人定位位置查询&#39;         
str_1 = &#39;导航定位手机定位汽车定位GPS定位人定位位置查询&#39;         

str_sim(str_0,str_1,5)    
0.75

7 총 요소 수, Keys() 및 Values()를 계산합니다.

from collections import Counter
 
c = Counter(&#39;ABCABCCC&#39;)
print(sum(c.values()))  # 8  total of all counts
 
print(c.keys())  #dict_keys([&#39;A&#39;, &#39;B&#39;, &#39;C&#39;])
print(c.values())  #dict_values([2, 2, 4])

8. . 단일 요소 결과 조회

from collections import Counter
c = Counter(&#39;ABBCC&#39;)
#查询具体某个元素的个数
print(c["A"])  #1

10. 삭제(del)

for elem in &#39;ADD&#39;:  # update counts from an iterabl
    c[elem] += 1
print(c.most_common())  #[(&#39;C&#39;, 2), (&#39;D&#39;, 2), (&#39;A&#39;, 2), (&#39;B&#39;, 2)]
#可以看出“A”增加了一个，新增了两个“D”

12. Clear()

del c["D"]
print(c.most_common())  #[(&#39;C&#39;, 2), (&#39;A&#39;, 2), (&#39;B&#39;, 2)]
del c["C"]
print(c.most_common())  #[(&#39;A&#39;, 2), (&#39;B&#39;, 2)]

3. 하위 클래스, 주로 액세스하는 개체의 빈도를 계산하는 데 사용됩니다.

elements(): 요소 수가 1보다 작은 경우 반복 계산 횟수를 반환합니다. 무시됩니다.

most_common([n]): 가장 자주 액세스되는 n개의 요소를 제공하는 목록을 반환하고

subtract([iterable-or-mapping]): iterable에서 요소를 뺍니다. 객체, 입력 및 출력은 0 또는 음수일 수 있으며 이는 빼기 기호의 역할과 다릅니다. -
update([iterable-or-mapping]): 반복 가능한 객체의 요소를 계산하거나 다른 매핑 객체에서 추가합니다( 또는 카운터)

예:

d = Counter("CCDD")
c.update(d)
print(c.most_common())  #[(&#39;B&#39;, 2), (&#39;A&#39;, 2), (&#39;C&#39;, 2), (&#39;D&#39;, 2)]

```
c.clear()
print(c)  #Counter()
```

위 내용은 Python 카운터: collections.Counter를 사용하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명：

이 기사는 yisu.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

이전 기사：다양한 프로그래밍 언어에서의 기수 정렬의 원리와 구현 방법다음 기사：다양한 프로그래밍 언어에서의 기수 정렬의 원리와 구현 방법