>  기사  >  백엔드 개발  >  Python을 사용하여 이미지 데이터를 수집하는 방법은 무엇입니까?

Python을 사용하여 이미지 데이터를 수집하는 방법은 무엇입니까?

PHPz
PHPz앞으로
2023-05-09 09:34:161608검색

요청 보내기

Python을 사용하여 이미지 데이터를 수집하는 방법은 무엇입니까?

먼저 URL을 결정합니다. 먼저 개발자 도구를 사용하여 원하는 데이터를 찾습니다. 웹페이지의 소스코드에 해당 내용이 있는 것으로 확인되었습니다.

url = 'https://www.hexuexiao.cn/tj/WuJiayi/'

res = requests.get(url)

# print(res.text)
html_url = re.findall(&#39;<a href="https://www.hexuexiao.cn/a/(\d+).html" rel="external nofollow"  >&#39;,res.text,re.S)
urls = sorted(list(set(html_url)), key=html_url.index)

여기서 html_url 변수의 값은 웹사이트 이미지에 대한 링크를 일치시키는 데 사용되는 정규식 개체입니다. 코드 블록 list(set(html_url))는 목록 개체를 컬렉션 개체로 변환합니다. set() 메서드를 사용하여 목록 개체를 컬렉션 개체로 변환합니다. 목록 개체를 컬렉션 개체로 변환하는 방법입니다. 컬렉션의 요소를 컬렉션으로 변환하는 방법입니다. html_url.indexhtml_url의 각 요소가 정렬을 위해 원본 HTML 문자열에 나타나는 횟수를 나타내는 정수 개체입니다. html_url 变量的值是一个正则表达式对象,用于匹配网站图片的链接。代码块 list(set(html_url)) 将列表对象转换为集合对象,使用 set() 方法将列表对象转换为集合对象,这是一个将列表中的元素转换为集合的方法。html_url.index 是一个整数对象,表示 html_url中各元素在原始 HTML 字符串中出现的次数,以此来实现排序。

保存数据

for url1 in urls:
    for page in range(0,10):
        url2 = f&#39;https://www.hexuexiao.cn/a/{url1}-{page}.html&#39;
        # print(url2)
        res1 = requests.get(url2)
        # print(res1.text)
        url3 = re.findall(&#39;<img  src=(.*?)/ alt="Python을 사용하여 이미지 데이터를 수집하는 방법은 무엇입니까?" ></a>&#39;,res1.text,re.S)[0]
        print(url3)
        url3=re.sub(&#39;&#39;,"",url3)
        print(url3)

我们这段代码中的 urls 列表是一个字典,其中键是 URL,值是页码。在循环中,我们使用 range() 函数从 0 到 9 迭代页码。接下来,我们使用 requests.get() 方法分别获取每个页面的 HTML 代码,并使用正则表达式匹配出所有的图片链接。最后,我们使用 requests.get() 方法获取每个图片链接的内容,并将其写入一个文件中。

保存图片

 content = requests.get(url3).content
        with open(&#39;图片\&#39; + str(num) + &#39;.jpg&#39;, mode=&#39;wb&#39;) as f:
            f.write(content)

我们这段代码中的 content 变量的值是从图片链接 url3 中获取的内容。然后,使用 with open() 语句打开一个二进制文件,并将 content 写入文件中。在这个过程中,num

데이터 저장

rrreee

우리 코드의 urls 목록은 사전이며, 여기서 키는 URL이고 값은 페이지 번호입니다. 루프에서는 range() 함수를 사용하여 페이지 번호를 0에서 9까지 반복합니다. 다음으로 requests.get() 메소드를 사용하여 각 페이지의 HTML 코드를 얻고 정규식을 사용하여 모든 이미지 링크를 일치시킵니다. 마지막으로 requests.get() 메서드를 사용하여 각 이미지 링크의 콘텐츠를 가져와 파일에 씁니다. 🎜🎜이미지 저장🎜rrreee🎜코드의 content 변수 값은 이미지 링크 url3에서 가져온 콘텐츠입니다. 그런 다음 with open() 문을 사용하여 바이너리 파일을 열고 파일에 content를 씁니다. 이 과정에서 num 변수의 값은 현재 파일의 이미지 일련번호입니다. 사진을 얻는 방법은 이전에 오디오를 얻는 방법과 동일하며 바이너리 파일로 저장됩니다. 🎜🎜이렇게 하면 이미지 데이터가 저장됩니다. 여기서는 효과를 보여주지 않겠습니다. 이미지의 주소를 찾으면 얻을 수 있습니다. 🎜

위 내용은 Python을 사용하여 이미지 데이터를 수집하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 yisu.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제