BeautifulSoup을 사용하여 웹페이지에서 보이는 텍스트 보존 웹페이지에서 보이는 텍스트를 추출하는 것은 스크립트, 댓글 및 기타 요소로 인해 복잡한 작업이 될 수 있습니다 내용이 어수선해지는 경우가 많습니다. 이 문제를 극복하려면 BeautifulSoup의 findAll() 기능을 활용하세요. 표시되는 텍스트 식별 표시되는 텍스트를 효과적으로 타겟팅하려면 다음 기준을 사용하세요. , <script> 내의 요소를 무시합니다. <head>, <title>, <meta> 및 [document].</li> <li>댓글 개체의 인스턴스를 필터링합니다.</li> </ul> <p><strong>솔루션 구현</strong></p> <ol><li><strong>정의 가시성 필터:</strong></li></ol> <pre>from bs4.element import Comment def tag_visible(element): if element.parent.name in ['style', 'script', 'head', 'title', 'meta', '[document]']: return False if isinstance(element, Comment): return False return True</pre> <ol start="2"><li><strong>가시 텍스트 추출:</strong></li></ol> <pre>from bs4 import BeautifulSoup import urllib.request def text_from_html(body): soup = BeautifulSoup(body, 'html.parser') texts = soup.findAll(text=True) visible_texts = filter(tag_visible, texts) return u" ".join(t.strip() for t in visible_texts)</pre> <ol start="3"><li><strong>샘플 사용법:</strong></li></ol> <pre>html = urllib.request.urlopen('http://www.nytimes.com/2009/12/21/us/21storm.html').read() print(text_from_html(html))</pre> <p><strong>출력:</strong></p> <p>이 코드는 지정된 웹페이지에서 스크립트, 댓글, 기타 비텍스트 요소.</p>