드림위버 시스템은 흔히 사용되는 아티클 시스템으로 비교적 조작이 쉽습니다. 많은 기능 중 수집 시스템은 잘못된 수집 영역 설정, 잘못된 수집 규칙 편집, 수집 후 공백 등 일부 초보자에게는 골치 아픈 문제가 될 수 있습니다. 오늘 우리는 직면할 가능성이 더 높은 몇 가지 문제에 대해 자세히 설명하겠습니다.
먼저 백엔드에 로그인하고 각각 컬렉션 - 컬렉션 노드 관리를 클릭한 후 컬렉션 관리 설정 인터페이스로 들어갑니다.
여기에는 두 가지 옵션이 있는데, 하나는 원본 노드를 수정하는 것입니다(주로 수집할 수 없게 된 이전 설정 오류 또는 기타 설정), 하나는 노드를 직접 추가하는 것입니다. 대부분은 주로 새 노드입니다. 클릭한 후 다음 단계에서 "일반 기사"를 선택하여 확인합니다.
그런 다음 노드 이름을 입력합니다(가져오기 중 오류를 피하기 위해 열과 관련된 이름을 사용하는 것이 좋습니다). 그런 다음 첫 번째 핵심 사항은 대상 페이지 인코딩입니다. 자신의 웹페이지가 아닌 대상 웹페이지의 코드를 입력해야 합니다. 보기 방법: 대상 웹사이트의 아무 페이지나 열고, 빈 공간을 마우스 오른쪽 버튼으로 클릭합니다. - 소스 코드 보기(인코딩은 일반적으로 처음 몇 줄에 있습니다)
그런 다음 규칙 목록을 채우고, 하나는 생성하는 것입니다. 일괄 URL, 일반적으로 강력한 규칙이 있는 사용자에게 적합합니다. 또는 컬렉션이 위에서 아래로 이루어져야 합니다. 예를 들어 다음 열을 타겟팅합니다.
첫 번째 페이지 목록: http://youqubu.cn/tansuo/list_5_1.html
두 번째 페이지 목록: http://youqubu.cn/tansuo/list_5_2.html.
이 목록 규칙에서 가장 중요한 것은 유사점을 채우고 차이점을 변수인 일치 기호로 보완하는 것입니다. 실제로 이 비교를 통해 http://youqubu.cn/tansuo/list_5_.html이 모두 동일하므로 변수가 1.2.3.4임을 알 수 있습니다. . 따라서 일치하는 URL은
http://youqubu.cn/tansuo/list_5_(*).html입니다.
다른 하나는 목록 URL을 목록 규칙으로 수동으로 지정하는 것인데 비교적 간단합니다. 수집해야 할 모든 항목의 목록 페이지를 작성하기만 하면 됩니다. (특정 페이지나 변수가 많은 페이지만 수집하는 데 더 적합합니다.)
참고: 많은 웹사이트의 칼럼 홈페이지는 http://xxx.xx/xxx/ 형식으로 표시됩니다. less 다음과 같은 변수 항목입니다. 따라서 변수 항목을 찾는 방법은 목록의 다음 페이지를 클릭하는 것입니다. 여전히 명확하지 않은 경우 목록의 두 번째 페이지와 세 번째 페이지를 비교하면 단계적으로 변수 항목을 찾을 수도 있습니다. 4.
이 단계는 목록에 있는 기사의 모든 주소를 가져오는 것입니다. 목록 페이지에서 모든 기사 페이지 주소를 가져와야 합니다. http://youqubu.cn/tansuo/list_5_1.html의 목록을 예로 들어 보겠습니다. 목록 아래 첫 번째 기사의 제목을 복사한 후 목록 페이지의 빈 공간을 마우스 오른쪽 버튼으로 클릭 - 소스코드 보기, Ctrl+F를 눌러 검색, 방금 복사한 제목 붙여넣기 후 소스코드 내 위치 찾기 텍스트. 실제로 이에 대한 특정 규칙이 있습니다. 그런 다음 소스 코드의 어느 부분이 고유하고 목록에 있는 모든 기사의 주소를 포함할 수 있는지 찾습니다(참고: 시작 코드 검색은 목록의 첫 번째 기사 제목에서 시작하여 위로 올라가야 하며 끝 코드 검색은 목록의 첫 번째 기사 제목부터 시작해야 합니다. 아래로 보기 시작). 이 소스코드를 보면 알 수 있습니다. 시작 코드:
下一步的缩略图我们可以选择不采集,因为织梦本身是会把第一张图片默认为缩略图的,这个看实际情况。下面是对网址的筛选:包含的意思是:这个步骤六选择的代码区间的文章网址只有包含了这部分才会被采集(这里有两种情况:1。譬如上面演示的地址,它是以超链接的形式,不是完整的网址,所以这种情况千万不要填写包含。2.就是列表涉及到多个链接的,比如标签这样的,最好填写包含,填写你想要的网址有的,不想要的网址没有的部分)。然后下一步。这边会列出因为上面填写的规则所采集到的列表页中文章的网址。如果是空白:我们可以先删除必须包含和不能包含,点击下一步测试,如果能采集到连接但是很乱,那就是你这步包含相关填错了;如果这样操作还是没有采集到东西,那就是“包含文章网址区域”这步填写错了。
分页规则也主要分两种:一种是直接填写默认代码:{path}{file}_{p}{ext} 然后选择分页列表规则(如下图)。 另一种是打开目标文章页,找到有上下几页的文章,右键查看源码,找到这部分代码,填写方式和文章页网址区域的方法一样,然后右边选择:全部列出的分页列表。(第二种方法要注意,因为涉及到多页,填写首尾代码的时候一定要多翻几张,然后查看源代码,把你认为共同的代码在多个页面查找下,因为可能出现你选择的代码在首页是可以找到的,在2.3四页后面就没有了,那就说明这个不是公用代码,你填上去也会导致采集不到分页的)
分页设置好后,我们主要设置标题规则和内容规则。时间规则和作者、来源规则这里不细说,这个不是所有人都需要的,这步谈到的规则都可以获取区间的方式得到内容或者填入固定的词语。首先是标题规则:我们以:http://youqubu.cn/tansuo/362.html。这个文章页来做说明。我们先复制标题名字,然后在源代码中查找。示例中查找我们可以发现这里有五个相同的部分,而且冲对比中发现,这个其实是有两种写法的。1.完全包含这个文字的代码区间,不带其他文字:
여기서 주의하셔야 할 것은 광고코드나 불필요한 것들을 차단하는 내용입니다. 일반적인 상황에서는 IMG를 제외한 다른 모든 항목을 필터링할 수 있습니다. 사진을 원하지 않는 경우에는 모두 선택하면 됩니다.
마지막으로 저장을 클릭하여 웹 페이지 수집을 시작합니다. 수집이 완료된 후 수집-수집 노드 관리를 클릭합니다. 입력 후 방금 수집한 노드 앞의 박스를 체크한 후 "데이터 내보내기"를 클릭하고 가져오려는 컬럼을 선택하고 확인합니다. (마지막 단계는 반복 제목 설정입니다.)
DedeCMS 관련 기술 기사를 더 보려면 DedeCMS Tutorial 칼럼을 방문하여 알아보세요!
위 내용은 Dedecms 수집 규칙을 작성하는 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!