网页爬虫 - python requests库模拟登陆学校教务网遇到数据库繁忙

Question

第一次写爬虫也是第一次在SF提问题=。=思路就是get登陆下网址获得一个cookie然后带着cookie以post方式登陆headers伪造和浏览器一模一样服务器总是返回一个数据库繁忙的界面，找了很久也不知道原因在哪 {代码...} ...

天蓬老师 · Answer

import requests

cookies = {}

headers = {
    'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) '
                  'Chrome/50.0.2661.86 Safari/537.36'
}


def get_code():
    url = 'http://222.195.242.222:8080/validateCodeAction.do'
    resp = requests.get(url, headers=headers)
    cookies['JSESSIONID'] = resp.cookies.get('JSESSIONID')
    with open('code.jpg', 'wb') as img:
        img.write(resp.content)


def login(username, password, code):
    url = 'http://222.195.242.222:8080/loginAction.do'
    form = {
        'zjh1': '',
        'tips': '',
        'lx': '',
        'evalue': '',
        'eflag': '',
        'fs': '',
        'dzslh': '',
        'zjh': username,
        'mm': password,
        'v_yzm': code
    }
    resp = requests.post(url, headers=headers, data=form, cookies=cookies)


def get_info():
    url = 'http://222.195.242.222:8080/xjInfoAction.do?oper=xjxx'
    resp = requests.get(url, headers=headers, cookies=cookies)
    print(resp.text)


if __name__ == '__main__':
    username = input(input your username: );
    password = input(input your password: );
    get_code()
    code = input('input the code: ')
    login(username, password, code)
    get_info()

Le code ci-dessus peut obtenir les données
L'idée de base est
Lorsque GET obtient le code de vérification, le serveur renvoie un cookie
Prenez simplement ce cookie, puis POSTez le formulaire
Je viens de J'étais en train d'écrire le nom de l'école récemment. Le robot d'exploration de ce site Web a rencontré et résolu de nombreux problèmes
Celui-ci est plus facile que celui de notre école...

黄舟 · Answer

Le système d'administration académique de votre école est vraiment...
Propriétaire, vous devez être patient lorsque vous travaillez comme robot d'exploration. Je n'ai rien à faire aujourd'hui, alors je vous ai aidé à y jeter un œil. le code que j'ai pu demander avec succès. Pour une interface qui ne parvient toujours pas à appeler, vous devez d'abord vous demander si vos données clés sont correctes mais renvoient toujours une erreur étrange, vous devez alors considérer d'autres champs. Vous pouvez le voir en déboguant dans le navigateur. , POST Il y a plusieurs autres champs vides dans les données de la requête. Bien sûr, cela peut effectivement n'avoir aucun sens pour le jugement en arrière-plan, mais cela ne signifie pas qu'ils n'ont tous aucun sens, donc il y en a. Si c'est faux, vous devez l'ajouter et essayer. Bien sûr, si les champs dans les données sont corrects et que c'est toujours faux, vous devez considérer les informations de l'en-tête HTTP. Les principales sont Origine, Referer et User. -Agent. Si cela ne fonctionne toujours pas, il est très probable que ce soit le cas. Les informations contenues dans le champ Cookie n'ont pas été ajoutées, comme indiqué ci-dessous. Après avoir ajouté les champs encore et encore, j'ai finalement découvert qu'il s'agissait d'un cookie. problème

r = requests.post('http://222.195.242.222:8080/loginAction.do', data={'zjh': '201406478', 'mm': '201406478', 'v_yzm': 'v2tt', 'tips': '', 'zjh1': '', 'lx': '', 'evalue': '', 'eflag': '', 'fs': '', 'dzslh': ''}, headers={'Origin': 'http://222.195.242.222:8080', 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36', 'Referer': 'http://222.195.242.222:8080/', 'Accept-Encoding': 'Accept-Encoding: gzip, deflate', 'Accept-Language': 'en-US,en;q=0.8,zh-CN;q=0.6,zh;q=0.4,zh-TW;q=0.2', 'Upgrade-Insecure-Requests': '1', 'Content-Type': 'application/x-www-form-urlencoded', 'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8', 'Cache-Control': 'max-age=0', 'Connection': 'keep-alive'}, cookies={'JSESSIONID': 'daeIK_SalL_r8cpMsrYsv'})

À ce moment, la base de données n'est plus occupée, mais la page redirigée après l'erreur de code de vérification.

Enfin, le crawl demande vraiment de la patience, surtout pour les sites dotés de stratégies anti-crawling

巴扎黑 · Answer

Rappel chaleureux, le mot de passe de votre compte a été exposé.

高洛峰 · Answer

Haha, est-ce que quelqu'un s'est connecté avec ce compte ?

PHPz · Answer

Aucun traitement de mosaïque.

网页爬虫 - python requests库模拟登陆学校教务网遇到数据库繁忙

répondre à tous(5)je répondrai