Rumah > Soal Jawab > teks badan
Saya kebetulan mempunyai projek yang menarik untuk dilakukan semasa mempelajari web java.
Sekolah kami memerlukan kad kredit untuk larian pagi Jabatan Sukan menyediakan tapak web pertanyaan, tetapi tidak menyediakan antara muka.
Saya ingin membuat tapak web/WeChat backend untuk menangkap maklumat daripada tapak web sekolah dan menyimpannya dalam pangkalan data Kemudian pengguna boleh menyemak rekod larian mereka melalui laman web/WeChat saya. Dan paparkan kedudukan dan fungsi lain berdasarkan rekod ini.
Untuk membuat pertanyaan, anda hanya perlu memberikan nombor dan nama pelajar anda Data ini sudah tersedia.
Log masuk simulasi dilaksanakan menggunakan httpclient. Keseluruhan halaman diperolehi
Halaman tersebut ialah jadual yang memaparkan rekod. Apakah yang perlu digunakan untuk mengekstrak data daripada halaman?
Mengenai arah web java, saya hanya akan menggunakan jsp untuk menulis tambah, padam, ubah suai dan semak. Saya tidak tahu banyak tentang apa yang berikut.
Saya ingin melakukan operasi merangkak pengurusan latar belakang sedemikian untuk mengembalikan pertanyaan pengguna.
Di manakah saya harus mula belajar? Atau apakah jenis teknologi/rangka kerja yang digunakan?
Mengenai tapak web pertanyaan:
Satu elemen ialah bilangan latihan larian.
Yang berikut ialah rekod yang sepadan Setiap rekod memaparkan masa berjalan, khusus untuk minit.
Merangkak bukanlah bahagian yang paling sukar. Masalahnya ialah bagaimana untuk membina sistem pengurusan seperti itu.
Saya sedar saya tidak boleh mengulas. . .
Terima kasih!
PHP中文网2017-06-12 09:21:16
Saya hanya mengatakannya secara santai, kerana saya tidak memikirkan sebarang kaedah.
Gunakan Jsoup untuk merangkak data halaman, haha
代言2017-06-12 09:21:16
Fikirkan beberapa perkara, mari bercakap secara ringkas:
1 Tangkapan data, anda boleh menulis program crawler anda sendiri, merumuskan peraturan masa untuk merangkak data, dll.
2 Kaedah lain untuk mengekstrak kandungan halaman web yang berkesan dan mereka bentuk struktur data ID pelajar haruslah unik adalah untuk mengisih mengikut bilangan kali, kerana selepas memikirkannya, , jika menyusun mengikut masa adalah tidak munasabah, kerana tidak ada cara untuk menilai masa berjalan pagi yang sebenar, maka saya hanya akan bercakap mengikut bilangan kali di sini simpan terus medan bilangan larian dalam jadual pelajar, kurangkan pertanyaan melalui jadual rekod, dan tingkatkan Kecekapan bermakna mengekalkan medan ini apabila pemprosesan data diperlukan
三叔2017-06-12 09:21:16
Secara umumnya, anda mendapat data yang anda inginkan (seperti pakej jsoup) berdasarkan elemen httpclient
这样的工具将返回包拿到,解析报文实体(这里指html
页面),接下来就是利用xpath
、正则、类似于jQuery
方式解析DOM
Jika ia masih terlalu menyusahkan, anda boleh menggunakan rangka kerja webmagic
巴扎黑2017-06-12 09:21:16
Simulasikan log masuk: Gunakan penyemak imbas untuk membuka halaman log masuk dan amati url yang menerima ID pelajar dan kata laluan;