Heim >CMS-Tutorial >DEDECMS >So verwenden Sie die dedecms-Sammlung

So verwenden Sie die dedecms-Sammlung

(*-*)浩
(*-*)浩Original
2019-07-16 15:04:203912Durchsuche

Am Beispiel der offiziellen Website von Dreamweaver sammeln wir die PHP-Tutorial-Spalte unter der Webmaster Academy und öffnen die Listenadresse http://www.dedecms.com/web-art/PHP_jiaocheng.

So verwenden Sie die dedecms-Sammlung

Melden Sie sich im Backend an, geben Sie „Collection Node Management“ ein, erstellen Sie einen neuen Knoten und wählen Sie das Inhaltsmodell als „Ordinary Article“ aus.

1. Legen Sie die Grundinformationen des Knotens fest (Empfohlenes Lernen: dedecms-Tutorial)

Geben Sie zunächst einen Knotennamen ein ist leicht zu merken und auszuwählen. Der Zielseitencode ist GB2312, und der Anti-Hotlink-Modus muss nicht eingestellt werden. Da für die Zielseite keine Einschränkungen gelten, wird dieses Element nicht geändert. Das Standardzeitlimit des Systems beträgt 10 Sekunden.

2. Legen Sie die Regeln für die Listen-URL-Erfassung fest

In diesem Schritt müssen wir einige Einstellungen vornehmen, die Artikellistenadresse abrufen, zur Zielseitenlistenseite zurückkehren, und beobachten Sie die Änderungen zwischen den Seiten. Es kann festgestellt werden, dass nur die Zahlen nach „14_“ regelmäßige inkrementelle Änderungen aufweisen.

Homepage: http://www.dedecms.com/web-art/PHP_jiaocheng/list_14_1.html

Mitte: http://www.dedecms.com/web-art/PHP_jiaocheng /list_14_(*).html

Letzte Seite: http://www.dedecms.com/web-art/PHP_jiaocheng/list_14_172.html

Kopieren Sie eine Paging-Adresse und kehren Sie zu „Neu“ zurück Wählen Sie auf der Seite „Sammlungsknoten hinzufügen“ „Quellattribut“ als „Batch Generate List URL“ aus, fügen Sie die Adresse in die „Matching URL“ ein, ändern Sie die Regeländerung als (*) und geben Sie 1 in die „Batch Generate Address“ ein Einstellungen“ (*) Bis 172 bedeutet dies, dass alle Adressen von der ersten Seite bis zu den letzten 172 Seiten der Liste generiert werden.

Testen Sie es. Im Popup-Fenster können wir sehen, dass 172 Adressdatensätze durchgeschleift sind und es reibungslos eingerichtet ist. Manchmal stoßen wir auf eine Liste, die schwer zu erhalten ist. Dann können wir die unregelmäßige Adresse in das Textfeld „Manuell angegebene Listen-URL“ kopieren, um sie zu sammeln.

3. Regeln für den Artikel-URL-Abgleich festlegen

Die Quellseite des Artikels wurde oben angegeben. In diesem Schritt müssen Sie die Artikeladressseite finden, die den Anforderungen entspricht Anforderungen auf diesen Seiten. Öffnen Sie eine Listenseite und beachten Sie, dass das Feld in der linken Spalte alle benötigten Adressen enthält. In diesem Fall können die klar unterschiedenen Seiten nach „HTML am Anfang der Region“ und „HTMLL am Ende“ gefiltert werden der Region“-Einstellungen.

Es können jedoch auch andere Methoden verwendet werden. Bewegen Sie die Maus zu verschiedenen Linkadressen und beobachten Sie die vollständige Adresse, die in der unteren linken Ecke des Browsers angezeigt wird. Die von uns benötigten Adressen enthalten alle „PHP_jiaocheng/20“, dann geben wir sie in „Must Contain“ ein.

Wenn es um komplexe Seiten geht, können sie zusammen verwendet werden. Durch das Hinzufügen regulärer Regeln gibt es fast keine Adressen, die nicht herausgefiltert werden können. Bestätigen Sie abschließend und fahren Sie mit dem nächsten Schritt „Regeln für die Erfassung von Webinhalten“ fort.

So verwenden Sie die dedecms-Sammlung

4. Regeln für die Erfassung von Webseiteninhalten

Im Folgenden wird die Methode zum Festlegen der Liste vorgestellt Wenn die Sammlung dienen soll, besteht die Funktion der oben genannten ein bis drei Schritte lediglich darin, dass die Vorspeise als Leitfaden für den folgenden Hauptgang dient. Der nächste Schritt besteht darin, vorzustellen, wie Artikelinhalte von der Zielseite erfasst werden. Dieser Schritt ist der wichtigste Teil der gesamten Sammlung.

Kehren Sie weiterhin zur PHP-Tutorialliste von DreamWeaver zurück und öffnen Sie einen Artikel in der Liste. Hier nehmen wir den Artikel „Reguläre Ausdrücke“ als Beispiel: http://www.dedecms.com/web -art /PHP_jiaocheng/20070420/38633.html, kopieren Sie diese Adresse in die „Vorschau-URL“. Da nicht alle Artikel von DreamWeaver paginiert sind, muss die Paginierung hier nicht festgelegt werden, und Sie können die Seite „Festes Sammlungsprojekt“ direkt aufrufen

(Hinweis: Wenn der gesammelte Inhalt Paging enthält, müssen Sie nur die entsprechenden Regeln im Paging-Navigationsteil festlegen. Hier sind alle aufgelisteten Paging-Listen, oberen und unteren Seiten oder unvollständigen Paging-Listen, die entsprechend festgelegt werden müssen der Inhalt. Ja)

Das Folgende ist der zitierte Inhalt:

Alle aufgelisteten paginierten Listen: Der paginierte Inhalt listet alle Links auf, wie unten gezeigt

Up- und Down-Seitenformular oder unvollständige Paging-Liste: Einzelne Seite zeigt den aktuellen Paging-Inhalt an, unvollständige Anzeigelisten-Formular

5. Feste Sammlungselemente

Hier eingeben Im ersten Schritt beginnen wir mit der Analyse des Seitenquellcodes. Die Sammlung ist nichts anderes als die Analyse der Struktur der HTML-Seite, um den benötigten Inhalt zu erhalten. Daher müssen wir über ein gewisses Verständnis des HTML-Codes verfügen und in der Lage sein, den erforderlichen Inhalt durch Anzeigen der Seitenquelldatei zu finden. Es ist am besten, mehrere weitere Seiten zur Analyse zu öffnen und die Ähnlichkeiten zu finden.

Es wird empfohlen, die Dreamweaver-Analyse zu verwenden. Bei der Analyse des Seitencodes ist es viel bequemer, die Suchfunktion häufiger zu verwenden. Suchen Sie insbesondere nach dem Auffinden des Tags nach Duplikaten, um Analysefehler zu reduzieren.

1) Artikeltitel: Der Titel dieser Seite lautet „Regulärer Ausdruck“ und drücken Sie Strg+F in Dreamweaver, um alle zu durchsuchen. Aufgrund der Einzigartigkeit wählen wir hier das Tag „

Regular Expression

“ in Zeile 105 aus, kopieren es in die entsprechende Regel des Artikeltitels „Fixed Collection Project“ und ersetzen es durch das Schlüsselwort „[ content]" Titel, letztendlich

[content]

.

2) Autor: Setzen Sie die Suche mit dem Schlüsselwort „Autor“ fort. Nur 110 Zeilen haben eindeutige Vorkommen. Kopieren Sie sie zusammen mit den Tags vor und nach „alluse“ zu den passenden Regeln und verwenden Sie „[content]“, um den Ort zu ersetzen.“ gesammelt werden.

3) Quelle: Wie oben. Suchen Sie das Tag in Zeile 109, kopieren Sie es und verwenden Sie [content], um den zu sammelnden Ort zu ersetzen. Wenn die Quelle Hyperlink-Tags enthält, die Sie entfernen möchten, geben Sie im Feld „Filterregel“ die folgenden Regeln zum Herausfiltern ein:

<a>]*)> <br></a><br>

4) Veröffentlichungszeitpunkt: Kopieren, einfügen und ändern Sie die gleichen Vorgänge wie oben unter Zeile 111.

5) Artikelinhalt: Durchsuchen Sie den Anfang des Artikelinhalts. Beispiel: „Teil Eins“ hat das Ziel in Zeile 118 gefunden. Klicken Sie auf die Statusleiste

und stellen Sie fest, dass nicht der gesamte Artikelinhalt angezeigt werden kann Weiter zum vorherigen

, blauer Inhalt wählt den gesamten Inhalt aus, da er weiß, dass
Kopieren Sie die Tags vor und nach dem Inhalt in die entsprechende Regel.

Zu diesem Zeitpunkt sind die Einstellungen für die Inhaltsfilterung abgeschlossen.

6. Knotensammlung

Wenn Ihr Sammlungsknoten auf einmal abgeschlossen ist und der Test erfolgreich ist, klicken Sie bei Aufforderung auf die Schaltfläche, um direkt zu sammeln, der Knoten jedoch vorher geschrieben Ja, Sie müssen zur „Knotenverwaltungsseite“ gehen, um die zu sammelnden Knoten zu überprüfen, und zum Sammeln auf die Schaltfläche „Sammeln“ klicken. Wenn Sie neue Inhalte von allen Knoten sammeln möchten, gehen Sie zur Seite „Überwachungssammlung“, um den Vorgang durchzuführen.

Sie können die Anzahl der pro Seite erfassten Daten für jede Seitensammlung festlegen. Stellen Sie sie im Allgemeinen nicht zu hoch ein, da das System sie sonst möglicherweise nicht verarbeiten kann und einige Teile nicht erfasst werden können Es wird empfohlen, 15 nicht zu überschreiten.

Die Anzahl der Threads gibt an, wie viele Threads jedes Mal gleichzeitig gesammelt werden. Eine Erhöhung der Anzahl der Threads kann die Sammlung beschleunigen, erhöht aber auch die Belegung der Serverressourcen Verwenden Sie es mit Vorsicht. Wenn die Ziel-Site über ein Anti-Refresh-Limit verfügt, können Sie es hier entsprechend der Anti-Refresh-Limit-Zeit der Ziel-Site festlegen. Andernfalls ist der Standardwert 0 Sekunden.

Zusätzliche Optionen Diese drei Einstellungen sollten wörtlich leicht verständlich sein, damit Sie entsprechend Ihren tatsächlichen Bedürfnissen auswählen können.

Abholung abgeschlossen.

Weitere technische Artikel zum Thema WordPress finden Sie in der Spalte WordPress-Tutorials, um mehr darüber zu erfahren!

Das obige ist der detaillierte Inhalt vonSo verwenden Sie die dedecms-Sammlung. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Vorheriger Artikel:So optimieren Sie DedecmsNächster Artikel:So optimieren Sie Dedecms