<div dir="ltr"><div class="gmail_extra"><div class="gmail_quote">2015-07-11 8:07 GMT+02:00 Andrea D'Amore <span dir="ltr"><<a href="mailto:and.damore@gmail.com" target="_blank">and.damore@gmail.com</a>></span>:<br><div><br></div><div>> [...]</div><div> </div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><span class="">
<br>
>> Qual è la differenza con il caso di stringhe Python e Java, entrambe<br>
>> immutabili?<br>
<br>
> Mi riferivo a tutt'altra cosa, quando parlavo di oggetti immutabili.<br>
</span><span class="">> Gli oggetti che git gestisce (e.g. tree, blog, commit) non hanno nulla a che<br>
> fare con la rappresentazione delle stringhe nei vari linguaggi di programmazione.<br>
<br>
> Gli oggetti di git sono immutabili nel senso che una volta aggiunto, ad<br>
> esempio, un file (blob) nel repository, questo file non può più essere modificato.<br>
<br>
</span>L'OP ha spiegato che vuole confrontare due stringhe in Py e Java con<br>
SHA-1, come git.<br>
Tu gli hai risposto che potrebbe non essere il modo migliore per le<br>
stringhe, immediatamente dopo aver evidenziato esplicitamente che nel</blockquote><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
caso di git gli oggetti trattati sono immutabili. Questa vicinanza<br>
suggerisce che usare SHA-1 nelle stringhe non è il modo migliore<br>
perché non sono immutabili, cosa che non è vera.<br>
<br></blockquote><div><br></div><div>Quello che volevo dire è che se vuoi confrontare due oggetti A e B, fare</div><div>hash(A) == hash(B) normalmente è conveniente solo se A è immutabile, come accade</div><div>in git dove A ad esempio è un oggetto blog dentro il repository.</div><div>In questo caso hash(A) lo devi calcolare solo una volta.</div><div><br></div><div>Ho usato stringa invece di oggetto perchè l'OP parlava di stringhe.</div><div><br></div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
La mia domanda è quale sia la differenza nei due scenari, non mi è<br>
chiara la tua risposta alla mia domanda, mi sembra parli d'altro.<br>
Senza sapere altro sullo scenario dell'OP, cioè se ad esempio deve<br>
confrontare due stringhe al mese o duecentomila al minuto, direi che<br>
se vuole confrontare due stringhe "di grosse dimensioni" (magari dei<br>
testi scritti in linguaggio naturale da un utente umano e non dei<br>
tentativi specifici di avere una collisione) può farlo tranquillamente<br>
con SHA-1.<br>
<br></blockquote><div><br></div><div>Se dovessi confrontare oggetti di grosse dimensioni (non parliamo di stringhe, perchè rappresentano testo</div><div>mentre qui in generale conviene parlare di bytes) io partirei con farlo nel modo semplice, ossia confrontando</div><div>i vari chunks di 4kb o 8kb.</div><div><br></div><div>Se i due oggetti sono su computer diversi, come nel caso dell'OP, questo approccio non diventa più conveniente.</div><div>Però invece di confontare l'SHA-1 calcolato sugli interi oggetti, io confronterei l'SHA-1 calcolato sui singoli chunks.</div><div><br></div><div>Il problema di usare una funzione di hash, però, resta quello che hash(A) == hash(B) non garantisce che</div><div>A == B.</div><div></div></div><br></div><div class="gmail_extra">> [...]</div><div class="gmail_extra"><br></div><div class="gmail_extra">Ciao Manlio</div></div>