[Python] Automatizzare inserimento dati su pagina web

Gollum1 gollum1.smeagol1 a gmail.com
Dom 30 Nov 2014 17:35:57 CET


Il 30 novembre 2014 15:09, Marco De Paoli <depaolim a gmail.com> ha scritto:
>
>
> Il giorno 29 novembre 2014 20:46, Gollum1 <gollum1.smeagol1 a gmail.com> ha
> scritto:
>>
>> Il 29 novembre 2014 17:49:34 CET, girolamo <girolamo.nellesca a gmail.com>
>> ha scritto:
>>
>> >
>> >scusa se rispondo tardi, ma c'e' qualche ragione particolare per cui
>> >non stai usando la libreria mechanize?
>> >
>> >http://wwwsearch.sourceforge.net/mechanize/
>> >
>
>
> boh, io ero partito con mechanize e mi trovavo bene
> ma requests la trovo ancora più compatta ed efficace
>
>>
>> Perché non la conoscevo... Appena posso gli do un occhio... Grazie
>
>
> se vuoi dopo dacci un feedback su quale ti sembra meglio...

Non mancherò... ora sto cominciando ad analizzare i log della
connessione "umana",
Non capisco però una cosa...
già dalla prima connessione, trovo che viene mandato un cookies, ma
non è stato precedentemente settato da nessuna parte, non c'erano
stati ancora scambi con il server (la cache del browser è
disabilitata).

PLSTreeSaveStateCookie=1%2C2%2C3%2Croot

vi mando lo scambio completo della prima sessione... da cui poi ricevo
il cookies di sessione correttamente...



===================================
https://10.24.144.13/ucmuser/main

GET /ucmuser/main HTTP/1.1
Host: 10.24.144.13
User-Agent: Mozilla/5.0 (Windows NT 6.1; rv:33.0) Gecko/20100101 Firefox/33.0
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
Accept-Language: it-IT,it;q=0.8,en-US;q=0.5,en;q=0.3
Accept-Encoding: gzip, deflate
Cookie: PLSTreeSaveStateCookie=1%2C2%2C3%2Croot
Connection: keep-alive

HTTP/1.1 200 OK
Cache-Control: private
Expires: Thu, 01 Jan 1970 01:00:00 CET
Set-Cookie: JSESSIONID=4C914C461DC3828861C1A45DB7026863;
Path=/ucmuser/; Secure; HttpOnly
Content-Type: text/html;charset=utf-8
Content-Length: 2546
Date: Fri, 28 Nov 2014 05:22:39 GMT
===================================

da questo posso rilevare che si usa il metodo get e non post per
questa prima fase...

per ora sto facendo qualche piccola prova con requests, ed
effettivamente se gli faccio scaricare quello che ricevo, vedo il
sorgente della pagina corretta, corrisponde a quella del browser...
quindi questo primo passo funziona...

il prossimo passo è quello di ingannare la pagina di login, facendogli
credere che sia stata fatta la verifica che dovrebbe fare il file js
che scarica in uno dei passaggi intermedi (forse per questo sarebbe
meglio mechanize, in quanto dovrebbe pensare lui a fare la parte del
browser e gestirsi il tutto)...

Byez
-- 
Gollum1 - http://www.gollumone.it
Tesssssoro, dov'é il mio tessssoro...


Maggiori informazioni sulla lista Python