Rumah  >  Soal Jawab  >  teks badan

Perangkak web - Bagaimana menggunakan java untuk merangkak maklumat dan membuat sistem kedudukan?

Saya kebetulan mempunyai projek yang menarik untuk dilakukan semasa mempelajari web java.
Sekolah kami memerlukan kad kredit untuk larian pagi Jabatan Sukan menyediakan tapak web pertanyaan, tetapi tidak menyediakan antara muka.
Saya ingin membuat tapak web/WeChat backend untuk menangkap maklumat daripada tapak web sekolah dan menyimpannya dalam pangkalan data Kemudian pengguna boleh menyemak rekod larian mereka melalui laman web/WeChat saya. Dan paparkan kedudukan dan fungsi lain berdasarkan rekod ini.

Untuk membuat pertanyaan, anda hanya perlu memberikan nombor dan nama pelajar anda Data ini sudah tersedia.

Log masuk simulasi dilaksanakan menggunakan httpclient. Keseluruhan halaman diperolehi
Halaman tersebut ialah jadual yang memaparkan rekod. Apakah yang perlu digunakan untuk mengekstrak data daripada halaman?

Mengenai arah web java, saya hanya akan menggunakan jsp untuk menulis tambah, padam, ubah suai dan semak. Saya tidak tahu banyak tentang apa yang berikut.

Saya ingin melakukan operasi merangkak pengurusan latar belakang sedemikian untuk mengembalikan pertanyaan pengguna.
Di manakah saya harus mula belajar? Atau apakah jenis teknologi/rangka kerja yang digunakan?

Mengenai tapak web pertanyaan:
Satu elemen ialah bilangan latihan larian.
Yang berikut ialah rekod yang sepadan Setiap rekod memaparkan masa berjalan, khusus untuk minit.

Merangkak bukanlah bahagian yang paling sukar. Masalahnya ialah bagaimana untuk membina sistem pengurusan seperti itu.
Saya sedar saya tidak boleh mengulas. . .

Terima kasih!

迷茫迷茫2686 hari yang lalu611

membalas semua(4)saya akan balas

  • PHP中文网

    PHP中文网2017-06-12 09:21:16

    Saya hanya mengatakannya secara santai, kerana saya tidak memikirkan sebarang kaedah.

    Gunakan Jsoup untuk merangkak data halaman, haha

    balas
    0
  • 代言

    代言2017-06-12 09:21:16

    Fikirkan beberapa perkara, mari bercakap secara ringkas:
    1 Tangkapan data, anda boleh menulis program crawler anda sendiri, merumuskan peraturan masa untuk merangkak data, dll.
    2 Kaedah lain untuk mengekstrak kandungan halaman web yang berkesan dan mereka bentuk struktur data ID pelajar haruslah unik adalah untuk mengisih mengikut bilangan kali, kerana selepas memikirkannya, , jika menyusun mengikut masa adalah tidak munasabah, kerana tidak ada cara untuk menilai masa berjalan pagi yang sebenar, maka saya hanya akan bercakap mengikut bilangan kali di sini simpan terus medan bilangan larian dalam jadual pelajar, kurangkan pertanyaan melalui jadual rekod, dan tingkatkan Kecekapan bermakna mengekalkan medan ini apabila pemprosesan data diperlukan

    balas
    0
  • 三叔

    三叔2017-06-12 09:21:16

    Secara umumnya, anda mendapat data yang anda inginkan (seperti pakej jsoup) berdasarkan elemen httpclient这样的工具将返回包拿到,解析报文实体(这里指html页面),接下来就是利用xpath、正则、类似于jQuery方式解析DOM Jika ia masih terlalu menyusahkan, anda boleh menggunakan rangka kerja webmagic

    balas
    0
  • 巴扎黑

    巴扎黑2017-06-12 09:21:16

    1. Simulasikan log masuk: Gunakan penyemak imbas untuk membuka halaman log masuk dan amati url yang menerima ID pelajar dan kata laluan;

    2. Tangkapan data: Mulakan permintaan dapatkan ke halaman data sukan (bawa medan kuki yang diperolehi dalam langkah sebelumnya), dapatkan respons, dan kemudian lakukan penghuraian biasa untuk mendapatkan data
    3. Cadangan: Untuk cache data yang ditanya pengguna setiap kali, contohnya, selama 2 jam, adalah disyorkan untuk menggunakan redis; untuk mendapatkan data baharu. Bagi lapisan pangkalan data, saya secara peribadi merasakan bahawa ia tidak perlu dilakukan, analisis data juga boleh dilakukan

      balas
      0
  • Batalbalas