Nel 1935 il linguista statunitense George Kingsley Zipf notò un curioso schema nella frequenza delle parole. In un qualsiasi testo la parola più frequente appare due volte più spesso della seconda più frequente, e c'è ancora di più: la terza parola più frequente frequenza appare un terzo delle volte rispetto alla prima, la quarta un quarto e così via.
La legge di Zipf non vale solamente per la lingua inglese, ma anche per l'italiano e tutte le altre lingue, perfino quelle talmente antiche da non essere state ancora decifrate. Per quanto lo schema sia stato confermato da tempo, nessuno è mai stato in grado di spiegarlo.
Adesso però Sander Lestrade, linguista dell'Università Radboud (Paesi Bassi), propone una spiegazione: la legge di Zipf può essere spiegata dall'interazione in un testo tra la struttura delle frasi (sintassi) e il significato delle parole (semantica).
Utilizzando simulazioni di computer, Lestrade è stato in grado di mostrare che né la sintassi né la semantica riescono da sole ad indurre una distribuzione zipfiana, ma loro combinazione ha successo.
«Dal momento che si usano gli articoli prima di quasi tutti i nomi, i singoli articoli appaiono più spesso dei nomi». Ma non è sufficiente: «Nell'ambito dei nomi ci sono anche grandi differenze: la parola "cosa", ad esempio, è molto più comune di "sottomarino" e può essere utilizzata più frequentemente. Ma per essere effettivamente frequente, una parola non deve neppure essere troppo generica».
Origini italiane. Per la sua legge, Zipf si ispirò al Principio di Pareto. Nel 1896 l'economista italiano Vilfredo Pareto si accorse che l'80% dei terreni era di proprietà del 20% della popolazione. Ma, ancora una volta, non era finita: osservando le piante di piselli del suo giardino notò che il 20% dei bacelli conteneva l'80% dei piselli.
Per motivi imperscutabili, queste proporzioni si ritrovano ovunque nel mondo, naturale e non: nel 1989 il 20% della popolazione possedeva l'82,7% delle ricchezze; negli Stati Uniti il 20% dei pazienti usa l'80% delle risorse mediche e via così.
Anche la legge di Zipf trova riscontro nella statistica di eventi non connessi alle parole. Dalla magnitudine dei terremoti alle mosse di apertura negli scacchi, dal diametro dei crateri sulla Luna al traffico dei siti Internet: in tutti questi (e molti altri) casi, la scala della frequenza è sempre zipfiana.