Glottocronologia

La glottocronologia (dal greco antico: γλῶττα=lingua, e χρóνος=tempo, cioè la cronologia delle lingue) è la parte della lessicostatistica che studia le relazioni tra le lingue e la loro divergenza o evoluzione nel tempo.^[1]

L'idea fu sviluppata dal linguista americano Morris Swadesh (1909-1967) sulla base di due assunti:

esiste un vocabolario di base relativamente stabile (che oggi viene chiamato lista di Swadesh) in tutte le lingue del mondo
la sostituzione delle parole avviene in modo analogo al decadimento radioattivo, con una velocità costante nel tempo tale che circa il 14% del lessico di base di una lingua viene sostituito ogni mille anni.

La lista originale di Swadesh ha avuto notevoli estensioni nel corso del tempo, ma il suo contributo iniziale è così assestato che la glottocronologia viene di fatto associata al suo nome.^[1]^[2]

Glottocronologia di Swadesh

Assunzioni di base

Il metodo glottocronologico si basa su due postulati espliciti formulati dal linguista americano Morris Swadesh:

Il tasso di sostituzione lessicale è approssimativamente costante se consideriamo periodi molto lunghi, almeno per quanto riguarda il lessico di base.
Il tasso di sostituzione lessicale, almeno per il vocabolario di base, è approssimativamente uniforme in tutte le lingue del mondo.

La formulazione matematica di questi due postulati è espressa dalle seguenti equazioni:

Se m(t) è la percentuale di parole di base mantenute da una lingua dopo un periodo t (in unità di tempo), il primo postulato può essere scritto nella forma seguente:

{\frac {dm(t)}{dt}}=-{\frac {m(t)}{C}}

Dove C è una costante omogenea a t (cioè nella stessa unità di t).

La soluzione di questa equazione differenziale è:

m(t)=e^{-{\frac {t}{C}}}

Il secondo postulato implica che C deve essere una costante universale, valida per tutte le lingue umane. Seguendo l'idea di Swadesh di un tasso di variazione del 14% per millennio per il vocabolario di base, arriviamo alla seguente stima per C:

C=-{\frac {t}{\ln(m(t))}}=-{\frac {t}{\ln((1-{\frac {14}{100}})^{({\frac {t}{1000\mathrm {anni} }})})}}=-{\frac {1000\mathrm {anni} }{\ln(1-{\frac {14}{100}})}}

C\approx 6630\mathrm {anni}

Partendo da questa stima, il tempo di separazione T_s può essere stimato confrontando la percentuale di parole imparentate trattenute p_C:

T_{s}={\frac {\log(p_{C})}{\log(p_{0})}}

tra una lingua e la sua lingua madre, e

T_{s}\approx {\frac {\log(p_{C})}{2\cdot \log(p_{0})}}

tra due lingue aventi una lingua madre comune, dove p₀ = 0,86 (= 86%) è la percentuale di ritenzione per millennio stimata da Swadesh.

Robert Lees successivamente aggiustò il valore medio, stimandolo all'80,5% per millennio.

Il metodo è stato confrontato con la datazione al carbonio-14, utilizzata in archeologia. Grazie ad esso è virtualmente possibile calcolare la data approssimativa in cui due o più lingue imparentate avrebbero formato un nucleo comune. Le due procedure hanno somiglianze, ma con una notevole differenza: la degradazione del carbonio-14 è sempre costante e non dipende da condizioni esterne.

Calibrazione

Morris Swadesh stimò che il tasso di sostituzione nella lista dei 100 termini del vocabolario base si attestava attorno al 14%, per cui il tasso di ritenzione è p₀ = 0.86 (= 86%). Successivamente Robert Lees modificò il valore medio, calcolandolo in 80,5% per millennio. Altri linguisti hanno stimato tassi di ritenzione del 92-95%, eliminando i prestiti e concentrandosi solamente sul rimpiazzo nativo all'interno della lingua.

Si può dimostrare che la lista è formata da termini di differente stabilità (tasso di sostituzione individuale), per cui il tasso di cambio non può essere costante, ma decresce in dipendenza del fatto che le parole più volatili o instabili vengono rimpiazzate; quindi la proporzione di parole stabili trattenute va aumentando in proporzione al numero di parole trattenute. Questo fatto è stato analizzato in diverse modifiche posteriori della glottocronologia.

Anche le fluttuazioni statistiche possono essere importanti, giacché il numero di parole imparentate trattenuto segue una distribuzione polinomiale del tipo:

P_{k}={\begin{pmatrix}100\\k\end{pmatrix}}p^{k}(1-p)^{100-k}

Per differenti valori del tasso di ritenzione, si può vedere che il valore atteso del tempo di separazione si allontana dal valore teorico:

Autore	Tasso di ritenzione $p\,$	Tasso di variazione $1-p\,$	Tempo di separazione (teorico)	Tempo di separazione (medio) $\mu \,$	Tempo di separazione (stimato) $\sigma \,$
M. Swadesh	0,86	0,14	1000 anni	1005 anni	8,51 anni
R. Lees	0,805	0,195	1000 anni	1006 anni	7,22 anni
	0,93	0,07	1000 anni	1005 anni	12,0 anni

Critiche

Il metodo glottocronologico è stato oggetto di numerose critiche. Il linguista Eugen Coșeriu nel 1962 ha fornito alcuni dati presi dalle lingue romanze che dimostrano che il suo uso potrebbe portare a inesattezze significative. Le principali obiezioni che ha riscontrato sono le seguenti:

La costante di ritenzione non è universale, varia con il tempo, l'ambiente, la lingua e il significato della parola;
Il modello dell'albero genealogico (Stammbaummodel) sembra troppo confuso quando viene applicato al campo linguistico. L'influenza tra le lingue continua spesso dopo la loro separazione, mentre la teoria glottocronologica considera che una volta che la separazione ha avuto luogo, non vi è più interazione;
Le trasformazioni fonetiche possono impedire l'identificazione di due parole imparentate (ad esempio chef in francese e head in inglese) o portare a riconciliazioni errate (ad esempio tra l'inglese day e lo spagnolo día);
Alcune lingue dispongono di sinonimi multipli per alcuni termini del vocabolario di base. Si è risposto proponendo di scegliere la parola più comune.
Una coppia di parole può essere parzialmente imparentata, come sol in spagnolo e soleil in francese. In questi casi è stato proposto di considerarli come parole completamente imparentate o di assegnare loro dei coefficienti.
In alcune lingue, il vocabolario di base contiene prestiti linguistici; in questi casi la parola non dovrebbe essere presa in considerazione.
In alcune lingue sono assenti alcuni elementi del cosiddetto vocabolario di base e si è quindi costretti a ridurre il numero di parole nella lista.

Glottocronologia modificata

La glottocronologia classica proposta da Morris Swadesh fu fortemente criticata negli anni 1960 e 1970, al punto che fu rifiutata da molti linguisti. Le prime critiche furono sollevate già in quegli anni e furono proposte alcune modifiche per risolvere in tutto o parte le contestazioni. La riconsiderazione delle critiche ha fatto scaturire una visione intermedia tra il rifiuto completo del valore della glottocronologia e l'entusiasmo con cui era stata accolta inizialmente. I sostenitori della glottocronologia modificata sostengono che, con opportune modifiche, il conteggio delle parole imparentate risulta utile per studiare la diversificazione delle famiglie linguistiche e stimare il tempo di separazione.

Van der Merwe, nel 1966, studiò l'effetto della disomogeneità nel tasso di sostituzione, suddividendo la lista delle parole in vari gruppi e assegnando ad ogni gruppo un proprio tasso di sostituzione. Questa modifica tiene conto del fatto che in tempi lunghi il tasso di sostituzione diminuisce, e quindi le parole a più alto tasso di sostituzione tendono a scomparire per prime; di conseguenza, dopo un certo tempo, le parole con tasso di sostituzione più lento tendono ad aumentare in percentuale.

Dyen, James e Cole (1967) hanno studiato l'effetto di ipotizzare che ogni significato abbia un proprio tasso di sostituzione. Se si divide la lista del vocabolario di base in due gruppi, rispettivamente con N₁ e N₂ parole, il tasso di sostituzione effettiva $\lambda _{t}\,$ soddisfa alla seguente equazione:

(N_{1}+N_{2})e^{-\lambda _{t}t}=N_{1}e^{-\lambda _{1}t}+N_{2}e^{-\lambda _{2}t}

per cui il tasso effettivo in funzione del tempo si può scrivere come:

\lambda _{t}=-{\frac {1}{t}}\ln \left(n_{1}e^{-\lambda _{1}t}+n_{2}e^{-\lambda _{2}t}\right)\approx \left(n_{1}\lambda _{1}+n_{2}\lambda _{2}\right)-{\frac {n_{1}n_{2}}{2}}(\lambda _{1}-\lambda _{2})^{2}t+{\frac {n_{1}n_{2}}{6}}(n_{1}-n_{2})(\lambda _{1}-\lambda _{2})^{3}t^{2}+\dots

dove:

n_{1}={\frac {N_{1}}{N_{1}+N_{2}}},\ n_{2}={\frac {N_{2}}{N_{1}+N_{2}}}

, indicano rispettivamente la percentuale di parole nei gruppi 1 e 2.

\lambda _{1},\lambda _{2}\,

sono i tassi di sostituzione delle parole in ciascun gruppo.

Può capitare che $\lambda _{t}\,$ , per tempi di separazione piccoli $t\approx 0$ , assuma il valore medio tra il tasso di separazione dei due gruppi.

Kruskal, Dyen e Black hanno studiato la stima della divergenza nel tempo in aggiunta al tasso di sostituzione. Sankoff (1973) suggerì di introdurre un parametro di prestito accettando la presenza dei sinonimi; ha inoltre valutato la combinazione di varie modifiche.^[3]

Partendo dal lavoro di Sankoff sulla divergenza genetica delle popolazioni in un dato contesto biologico, Embleton (1981) derivò una versione semplificata da applicare nel contesto linguistico. L'autore mostrò con alcune simulazioni che questo modello produce buoni risultati. Progressi statistici in un campo diverso, lo studio filogenetico delle variazioni del DNA nel corso del tempo, hanno prodotti studi che applicano questi risultati al contesto linguistico, rinnovando l'interesse per la glottocronologia. Tutti questi metodi hanno mostrato un'efficacia maggiore di quelli precedenti e permettono di calibrare punti dell'albero filogenetico a partire da eventi databili, interpolando in modo continuo i tassi di sostituzione; in questo modo si rende non necessaria l'originaria assunzione di un tasso di sostituzione costante.^[4]

Metodo di Starostin

Un altro tentativo di introdurre delle modifiche alla glottocronologia tradizionale, fu effettuato dal linguista russo Sergei Starostin, che propose le seguenti modifiche:

Eliminare i prestiti linguistici, che sono un fattore dirompente che altera i risultati; Sarostin si concentra sui cambiamenti dovuti al "rimpiazzo naturale" delle parole di una stessa lingua. Gli errori derivanti dal non aver corretto questo fattore, sono la causa principale per cui la stima di Swadesh era di 14 sostituzioni per millennio nella lista delle cento parole base (cioè un tasso di 0,14), mentre il tasso reale è molto più lento (dell'ordine di 0,05 o 006 per millennio). Se si introduce questa correzione, si elimina la critica avanzata dai linguisti Knut Bergsland e Voigt, dato che in base all'analisi dei dati del riksmal (l'idioma norvegese derivato dalla lingua danese), si vede che la lista di base include 15-16 prestiti da altre lingue germaniche, soprattutto il danese.
Il tasso di sostituzione non è realmente costante, ma varia con il tempo. Questo può essere attribuito ad almeno due fattori diversi:
- La possibilità che un lemma X sia rimpiazzato da un lemma Y, aumenta con il tempo da cui X è usato in una lingua; questo effetto può essere visto come un "invecchiamento delle parole", empiricamente correlato al fatto che esiste una "erosione" graduale del significato primario causata dal peso acquisito dai significati secondari sviluppatisi a partire da quello originario (cambiamento semantico).
- Prese singolarmente, le parole della lista di un vocabolario hanno tassi di sostituzione diversi (ad esempio la parola "io" in tutte le lingue è molto più resistente alla sostituzione della parola "giallo"). Come già detto, le parole meno stabili tendono a scomparire per prime, per cui mano a mano che il tempo passa, la percentuale di parole ritenute più resistenti al cambiamento tende ad aumentare. La formulazione proposta da Starostin per tener conto della dipendenza dalla stabilità individuale delle parole, assume la seguente forma:

T_{s}={\sqrt {\frac {\ln(p_{c})}{-L_{c}}}}

che rimpiazza quella originale proposta da Swadesh:

T_{s}={\frac {\ln(p_{c})}{\ln(p_{0})}}

Antichità di alcune famiglie linguistiche

Sono stati fatti dei calcoli per stimare l'antichità di alcune famiglie linguistiche. Tra le famiglie con antichità o profondità temporale inferiore a 5.000 anni (50 secoli), si trova praticamente la totalità delle famiglie ben stabilizzate, per le quali si è potuto fare una ricostruzione adeguata (RA) degli aspetti della protolingua, oltre ad alcune famiglie dove la parentela tra le lingue risulta poco controversa:^[5]^[6]

Lingue indoeuropee (RA, Eurasia, 70 secoli)
Lingue sinotibetane (RA, Estremo Oriente, 60 secoli)
Lingue caucasiche meridionali (RA, Eurasia, 40 secoli)
Lingue dravidiche (RA, Subcontinente indiano, 40 secoli)
Lingue austronesiane (RA, Sudest asiatico, Oceania e Taiwan, 35 secoli)
Lingue tai-kadai (RA, Sudest asiatico, 30 secoli)
Lingue hmong-mien (RA, Sudest asiatico, 40 secoli)
Lingue ienisseiane (RA, Siberia, 30 secoli)
Lingue ciukotko-kamciatke (RA, Siberia, 40 secoli)
Lingue eschimo-aleutine (RA, Siberia, 30 secoli)
Lingue na-dene (RA, Nordamerica, 35 secoli)
Lingue algiche (RA, Nordamerica, 30 secoli)
Lingue irochesi (RA, Nordamerica, 35 secoli)
Lingue salish (RA, Nordamerica, 45 secoli)
Lingue caddoan (RA, Nordamerica, 33 secoli)
Lingue uto-azteche (RA, Nordamerica, 48 secoli)
Lingue zapoteche (RA, Mesoamerica, 25 secoli)
Lingue maya (RA, Mesoamerica, 41 secoli)
Lingue misumalpa (RA, Centroamerica, 43 secoli)

Per alcune superfamiglie o macrofamiglie (MF) e famiglie più controverse nelle quali la ricostruzione ha incontrato maggiore difficoltà (DR),^[7] la profondità temporale è superiore a 50 secoli:

Lingue altaiche (MF, Eurasia, 77 secoli)
Lingue uraliche (DR-b, Eurasia, 60 secoli)
Lingue afroasiatiche (DR-c, Nord Africa e Medio Oriente, 113 secoli)
Lingue Niger-Congo (DR-a, Africa, 100 secoli)
Lingue nilo-sahariane (DR-c, Africa, 150 secoli)
Lingue khoisan (MF, Africa australe, 111 secoli)
Lingue trans-Nuova Guinea, (MF, Nuova Guinea, 100 secoli)
Lingue aborigene australiane, (MF, Australia, 95 secoli)
Lingue oto-mangue, (DR-b?, Mesoamerica, 55-60 secoli)
Lingue hokan, (MF, Mesoamerica, 88 secoli)

Metodologia

Lista di parole base

Il metodo originale presumeva che il vocabolario base di una lingua abbia un rimpiazzo che avviene con una velocità costante in tutte le lingue e culture, e pertanto può essere utilizzato come misura del trascorrere del tempo. Il metodo fa uso di una lista di parole, originariamente compilate da Swadesh, che si assume siano in grado di resistere ai prestiti linguistici. La lista sviluppata da Swadesh nel 1952 comprendeva un elenco di 200 termini, che egli ridusse poi a 100 nel 1955.^[8] Quest'ultima versione è quella più usata dai linguisti moderni.

Il vocabolario base era studiato in modo da includere i concetti essenziali comuni a tutte le lingue umane (come i pronomi, le parti del corpo, fenomeni celesti, verbi basilari, i numerali uno e due), eliminando quei concetti che sono specifici di una particolare cultura o tempo. Risultò presto che la situazione ideale è di fatto impossibile e che i concetti espressi dovevano essere adattati alle lingue da confrontare. Altri linguisti svilupparono pertanto liste alternative o utilizzarono un gruppo più ristretto di significati.

Viene misurata a questo punto la percentuale di parole imparentate, cioè che hanno un'origine comune. Si assume che due lingue si siano separate tanto più recentemente, quanto più è estesa la lista delle parole imparentate.

Note

^ ^a ^b Sheila Embleton (1992). HISTORICAL LINGUISTICS: Mathematical concepts. In W. Bright (Ed.), International Encyclopedia of Linguistics, p. 131-133
^ Holm, Hans J. (2007). The new Arboretum of Indo-European 'Trees'; Can new algorithms reveal the Phylogeny and even Prehistory of IE?. Journal of Quantitative Linguistics 14-2:167–214
^ Sankoff, Fully Parameterised Lexicostatistics, 1972.
^ Gray, R.D. & Atkinson, Q.D. (2003), Language-tree divergence times support the Anatolian theory of Indo-European origin, Nature, 426, pp. 435-439.
^ Søren Wichmann, 2008, Annexes.
^ Swadesh, Morris, (1963). Nuevo Ensayo de Glotocronología Yutonahua. Anales del INAH, 15:263-302.
^ Esistono diversi tipi di "difficoltà di ricostruzione": (DR-a) non si dispone di ricostruzione adeguata, (DR-b) la lista dei termini ricostruiti supera appena le 100 unità, (DR-c) le ricostruzioni da parte dei diversi autori presentano notevoli discrepanze.
^ Swadesh, Morris. (1955). Towards greater accuracy in lexicostatistic dating. International Journal of American Linguistics, 21, 121–137

Bibliografia

Arndt, Walter W. (1959). The performance of glottochronology in Germanic. Language, 35, 180–192.
Bergsland Knut & Vogt, Hans. (1962). On the validity of glottochronology. Current Anthropology, 3, 115–153.
Brainerd, Barron (1970). A Stochastic Process related to Language Change. Journal of Applied Probability, 7, 69–78.
Callaghan, Catherine A. (1991). Utian and the Swadesh list. In J. E. Redden (Ed.), Papers for the American Indian language conference, held at the University of California, Santa Cruz, July and August, 1991 (pp. 218–237). Occasional papers on linguistics (No. 16). Carbondale: Department of Linguistics, Southern Illinois University.
Campbell, Lyle. (1998). Historical Linguistics; An Introduction [Chapter 6.5]. Edinburgh: Edinburgh University Press. ISBN 0-7486-0775-7.
Chretien, Douglas (1962). The Mathematical Models of Glottochronology. Language, 38, 11–37.
Crowley, Terry (1997). An introduction to historical linguistics. 3rd ed. Auckland: Oxford Univ. Press. pp. 171–193.
Dyen, Isidore (1965). A Lexicostatistical classification of the Austronesian languages. International Journal of American Linguistics, Memoir 19.
Gray, R.D. & Atkinson, Q.D. (2003): Language-tree divergence times support the Anatolian theory of Indo-European origin. Nature, 426-435-439.
Gudschinsky, Sarah. (1956). The ABC's of lexicostatistics (glottochronology). Word, 12, 175–210.
Haarmann, Harald. (1990). Basic vocabulary and language contacts; the disillusion of glottochronology. In Indogermanische Forschungen 95:7ff.
Hockett, Charles F. (1958). Wayback Machine, (Chap. 6). New York: Macmillan.
Hoijer, Harry. (1956). Lexicostatistics: A critique. Language, 32, 49–60.
Holm, Hans J. (2003). The Proportionality Trap. Or: What is wrong with lexicostatistical Subgrouping. Indogermanische Forschungen, 108, 38–46.
Holm, Hans J. (2005). Genealogische Verwandtschaft. Kap. 45 in Quantitative Linguistik; ein internationales Handbuch. Herausgegeben von R.Köhler, G. Altmann, R. Piotrowski, Berlin: Walter de Gruyter.
Holm, Hans J. (2007). The new Arboretum of Indo-European 'Trees'; Can new algorithms reveal the Phylogeny and even Prehistory of IE?. Journal of Quantitative Linguistics, 14-2:167–214
Hymes, Dell H. (1960). Lexicostatistics so far. Current Anthropology, 1 (1), 3–44.
McWhorter John. (2001). The power of Babel. New York: Freeman. ISBN 978-0-7167-4473-3.
Nettle, Daniel. (1999). Linguistic diversity of the Americas can be reconciled with a recent colonization. in PNAS, 96(6):3325–9.
Sankoff, David (1970). On the Rate of Replacement of Word-Meaning Relationships. Language, 46.564–569.
Sjoberg, Andree; & Sjoberg, Gideon. (1956). Problems in glottochronology. American Anthropologist, 58 (2), 296–308.
Starostin, Sergei. Methodology Of Long-Range Comparison. 2002. pdf
Thomason, Sarah Grey, and Kaufman, Terrence. (1988). Language Contact, Creolization, and Genetic Linguistics. Berkeley: University of California Press.
Tischler, Johann, 1973. Glottochronologie und Lexikostatistik [Innsbrucker Beiträge zur Sprachwissenschaft 11]; Innsbruck.
Wittmann, Henri (1969). A lexico-statistic inquiry into the diachrony of Hittite. Indogermanische Forschungen, 74.1–10.[1]
Wittmann, Henri (1973). The lexicostatistical classification of the French-based Creole languages. in Lexicostatistics in genetic linguistics: Proceedings of the Yale conference, April 3–4, 1971, dir. Isidore Dyen, 89–99. La Haye: Mouton.[2]
Zipf George Kingsley (1965). The Psychobiology of Language: an Introduction to Dynamic Philology. Cambridge, MA: M.I.T.Press.

Portale Linguistica

Portale Scienze della Terra

[Embleton-1] Sheila Embleton (1992). HISTORICAL LINGUISTICS: Mathematical concepts. In W. Bright (Ed.), International Encyclopedia of Linguistics, p. 131-133

[2] Holm, Hans J. (2007). The new Arboretum of Indo-European 'Trees'; Can new algorithms reveal the Phylogeny and even Prehistory of IE?. Journal of Quantitative Linguistics 14-2:167–214

[3] Sankoff, Fully Parameterised Lexicostatistics, 1972.

[4] Gray, R.D. & Atkinson, Q.D. (2003), Language-tree divergence times support the Anatolian theory of Indo-European origin, Nature, 426, pp. 435-439.

[5] Søren Wichmann, 2008, Annexes.

[6] Swadesh, Morris, (1963). Nuevo Ensayo de Glotocronología Yutonahua. Anales del INAH, 15:263-302.

[7] Esistono diversi tipi di "difficoltà di ricostruzione": (DR-a) non si dispone di ricostruzione adeguata, (DR-b) la lista dei termini ricostruiti supera appena le 100 unità, (DR-c) le ricostruzioni da parte dei diversi autori presentano notevoli discrepanze.

[swadesh1955-8] Swadesh, Morris. (1955). Towards greater accuracy in lexicostatistic dating. International Journal of American Linguistics, 21, 121–137

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]