4. artikulli i science-s

Artikulli i revistes science (korrik 2023) i perkthyer me gogle-n. Duhet patur parasysh qe fjala ‚konjak‘ do kete kuptimin ‚i perzier‘. Me emertimin ‚Gjysmëhëna Pjellore‘ duhet kuptuar Azia e Vogel (Turqia e sotme). Me termin ‚pontike‘ kuptohet Deti i Zi‘. Me ’stepat pontiko-kaspike‘ kuptohet pjesa veriore ndermjet Detit te Zi dhe detit Kaspik. Lexim te kendshem!

Pemët gjuhësore me paraardhës të marrë si mostër mbështesin një model hibrid për origjinën e gjuhëve indo-evropiane.

Përmbledhje e redaktorit: Gjuhët e familjes indo-evropiane fliten nga pothuajse gjysma e popullsisë së botës, por origjina dhe modelet e përhapjes së tyre janë të diskutueshme. Heggarty et al. paraqesin një bazë të dhënash prej 109 gjuhësh moderne dhe 52 gjuhësh historike indo-evropiane të kalibruara në kohë, të cilat i analizuan me modele të inferencës filogjenetike Bayesian. Rezultatet e tyre sugjerojnë një shfaqje të gjuhëve indo-evropiane rreth 8000 vjet para kohës së sotme. Kjo është një datë rrënjësore më e thellë nga sa mendohej më parë, dhe përputhet me një origjinë fillestare në jug të Kaukazit, e ndjekur nga një degëzim në veri në rajonin e Stepës. Këto gjetje çojnë në një „hipotezë hibride“ që pajton provat aktuale gjuhësore dhe të ADN-së së lashtë si nga Gjysmëhëna Pjellore lindore (si burim parësor) ashtu edhe nga stepa (si atdhe dytësor). —SNV

Abstrakt i Strukturuar: HYRJE: Pothuajse gjysma e popullsisë së botës flet një gjuhë të familjes gjuhësore indo-evropiane. Megjithatë, mbetet e paqartë se ku është folur fillimisht gjuha e përbashkët stërgjyshore e kësaj familjeje (Proto-Indo-Evropiane) dhe kur dhe pse është përhapur nëpër Euroazi. Hipoteza e „Stepës“ pohon një zgjerim nga Stepa Pontike-Kaspike, jo më herët se 6500 vjet para Krishtit (viti P.E.S.), dhe kryesisht me blegtori të bazuar në kuaj nga ~5000 vjet P.E.S. Një hipotezë alternative „anatoliane“ ose „bujqësore“ pohon se indo-evropiane u shpërnda me bujqësi nga pjesë të Gjysmëhënës Pjellore, duke filluar që në ~9500 deri në 8500 vjet P.E.S. ADN-ja e lashtë (ADN-ja) tani po sjell perspektiva të reja të vlefshme, por këto mbeten vetëm interpretime indirekte të parahistorisë së gjuhës. Në këtë studim, ne testuam midis parashikimeve të thellësisë kohore të hipotezave anatoliane dhe stepore, direkt nga të dhënat gjuhësore. Ne raportojmë një kornizë të re për kronologjinë dhe sekuencën e divergjencës së gjuhëve indo-evropiane, duke përdorur metoda filogjenetike bajesiane të aplikuara në një grup të dhënash të reja të zgjeruara të fjalorit bazë në 161 gjuhë indo-evropiane.

ARSYETIMI: Analizat e mëparshme filolinguistike kanë prodhuar rezultate kontradiktore. Ne diagnostikuam dhe zgjidhëm shkaqet e kësaj mospërputhjeje, dy në veçanti. Së pari, grupet e të dhënave të përdorura kishin mostrim të kufizuar të gjuhës dhe mospërputhje të përhapur të kodimit. Së dyti, disa analiza përforcuan supozimin se gjuhët moderne të folura rrjedhin drejtpërdrejt nga gjuhët e lashta të shkruara dhe jo nga varietetet paralele të folura. Së bashku, këto probleme metodologjike shtrembëruan vlerësimet e gjatësisë së degëve dhe përfundimet e datës. Ne paraqesim një grup të dhënash të ri të konjakisë (origjina e përbashkët e fjalëve) në të gjithë indo-evropianen. Ky grup të dhënash eliminon mospërputhjet e kaluara dhe ofron një mostër gjuhësore më të plotë dhe më të balancuar, duke përfshirë 52 gjuhë jomoderne për një grup më të dendur pikash kalibrimi kohor. Ne aplikuam analizën filogjenetike Bayesian të mundësuar nga prejardhja për të testuar në vend që të zbatonin supozime të drejtpërdrejta të prejardhjes.

REZULTATET: Pak gjuhë të shkruara të lashta janë kthyer si paraardhëse të drejtpërdrejta të kladeve moderne. Ne gjejmë një moshë mesatare rrënjësore për indo-evropianen prej ~8120 vjet para Krishtit (95% dendësia më e lartë e mëvonshme: 6740 deri në 9610 vjet para Krishtit). Kronologjia jonë është e qëndrueshme në një gamë modelesh alternative filogjenetike dhe analizash ndjeshmërie që ndryshojnë nëngrupet e të dhënave dhe parametra të tjerë. Indo-evropiane tashmë ishte divergjuar me shpejtësi në degë të shumta kryesore deri në ~7000 vjet para Krishtit, pa një bërthamë koherente jo-anadollake. Indo-iranishte nuk ka lidhje të ngushtë me balto-sllavishten, duke dobësuar argumentin se ajo është përhapur nëpërmjet stepës.

PËRFUNDIM: Rezultatet tona nuk janë plotësisht në përputhje as me hipotezën e Stepës dhe as me hipotezën e bujqësisë. Provat e fundit të ADN-së së transmetuar (aADN) sugjerojnë që dega anatoliane nuk mund të ketë origjinën nga stepa, por më tepër nga jugu i Kaukazit. Për degët e tjera, zgjerimet e mundshme kandidate nga kultura Yamnaya janë të dallueshme në aADN, por disa kishin vetëm ndikim të kufizuar gjenetik. Rezultatet tona zbulojnë se këto zgjerime nga ~5000 vjet para Krishtit e tutje erdhën gjithashtu shumë vonë për kronologjinë gjuhësore të divergjencës indo-evropiane. Megjithatë, ato janë në përputhje me një atdhe përfundimtar në jug të Kaukazit dhe një degë pasuese në veri në stepë, si një atdhe dytësor për disa degë të indo-evropiane që hyjnë në Evropë me zgjerimet e mëvonshme të lidhura me Corded Ware. Filogjenetika gjuhësore dhe aADN-ja kombinohen kështu për të sugjeruar që zgjidhja e enigmës 200-vjeçare indo-evropiane qëndron në një hibrid të hipotezave të bujqësisë dhe stepës.

(foto: language trees with sampled …) Një DensiTree që tregon shpërndarjen e probabilitetit të topologjive pemë për familjen gjuhësore indo-evropiane. Aksi kohor tregon kronologjinë e vlerësuar të zgjerimit dhe divergjencës gjeografike të familjes, të kalibruar në 52 gjuhë të shkruara jomoderne. Shënimet shtojnë kontekst kronologjik në lidhje me kulturat e zgjedhura arkeologjike dhe zgjerimet e komponentëve të rëndësishëm të prejardhjes në të dhënat e aADN-së. CHG, gjuetarët-mbledhës të Kaukazit; EHG, gjuetarët-mbledhës të Lindjes (Evropës); BMAC, Kompleksi Arkeologjik Bactria-Margiana.

Abstrakt Origjina e familjes gjuhësore indo-evropiane është shumë e diskutueshme. Analizat filogjenetike bajesiane të fjalorit bazë kanë prodhuar rezultate kontradiktore, me disa që mbështesin një zgjerim bujqësor nga Anadolli ~9000 vjet para Krishtit (viti P.E.S.), ndërsa të tjerë mbështesin një përhapje me pastoralizëm të bazuar në kuaj nga Stepa Pontike-Kaspike ~6000 vjet P.E.S. Këtu paraqesim një bazë të dhënash të gjerë të fjalorit bazë indo-evropian që eliminon mospërputhjet e kaluara në kodimin përkatës. Analiza filogjenetike e mundësuar nga prejardhja e këtij grupi të dhënash tregon se pak gjuhë të lashta janë paraardhës të drejtpërdrejtë të kladeve moderne dhe prodhon një moshë rrënjësore prej ~8120 vjet P.E.S. për familjen. Edhe pse kjo datë nuk është në përputhje me hipotezën e Stepës, ajo nuk përjashton një atdhe fillestar në jug të Kaukazit, me një degë të mëvonshme në veri në stepë dhe më pas në të gjithë Evropën. Ne e pajtojmë këtë hipotezë hibride me provat e ADN-së antike të botuara së fundmi nga stepa dhe Gjysmëhëna Pjellore veriore.

Familja e gjuhëve indo-evropiane përfshin më shumë se 400 gjuhë (1, 2). Këto gjuhë fliten nga pothuajse gjysma e popullsisë së botës (2) dhe të gjitha rrjedhin nga e njëjta gjuhë burimore: Proto-indo-evropiane (PIE). Për më shumë se 200 vjet, origjina e gjuhëve indo-evropiane është diskutuar (3). Lidhja e thellë midis gjuhëve indo-evropiane, të shpërndara gjerësisht, u zbulua më shumë se dy shekuj më parë (4), por se ku flitej fillimisht gjuha e tyre e përbashkët stërgjyshore, dhe kur dhe pse u përhap kaq larg nëpër Euroazi, kanë mbetur enigma që atëherë. Debati i kohëve të fundit është përqendruar në dy hipoteza kryesore. Hipoteza e Stepës pohon se gjuhët indo-evropiane u përhapën nga Stepa Pontiko-Kaspike, jo më herët se 6500 vjet para Krishtit (viti P.E.S.), dhe kryesisht me blegtori të bazuar në kuaj nga ~5000 vjet P.E.S. (5) (Fig. 1B). Hipoteza e bujqësisë pohon se gjuhët indo-evropiane u shpërndanë me bujqësinë nga pjesë të Gjysmëhënës Pjellore, duke filluar që në ~9500 deri në 8500 vjet para Krishtit (6) (Fig. 1C). Rindërtimet gjuhësore të disa leksikëve PIE dhe kontaktet e lashta me fazat e hershme të familjes së gjuhëve urale janë interpretuar gjerësisht si mbështetje e hipotezës së Stepës (5, 7), por interpretimi i këtyre të dhënave është i diskutueshëm (8, 9) (Kutia 1). Në të kundërt, analizat e fjalorit bazë indo-evropian duke përdorur metoda filogjenetike bajesiane fillimisht mbështetën thellësinë kohore dhe origjinën gjeografike të paraqitur nga hipoteza e bujqësisë (10, 11). Punimet e fundit (12–14) kanë sfiduar ato vlerësime të hershme të thellësisë kohore, pjesërisht sepse modeli i përdorur nuk lejonte që gjuhët e lashta të ishin drejtpërdrejt paraardhëse të ndonjë gjuhe moderne. Kur tetë gjuhë të lashta u kufizuan të ishin drejtpërdrejt paraardhëse, vlerësimi i datës për rrënjën indo-evropiane u zhvendos në kornizën kohore të hipotezës së Stepës (12). Megjithatë, një problem i konsiderueshëm me këtë analizë është se detyrimi i prejardhjes së drejtpërdrejtë prodhon përfundime të datës drejt majave të pemës që bien ndesh me historitë e njohura të disa degëve të indo-evropiane. Diversifikimi i gjuhëve romane, për shembull, supozohet të ketë filluar vetëm 1000 vjet më parë (12), kur, në fakt, dallimet rajonale kishin filluar të lindnin një mijëvjeçar më parë, pasi vetë zgjerimi romak kishte çuar tashmë në „diversitet të madh në latinishten që flitej përreth Perandorisë“ (15). Në këtë studim, ne hetuam, diagnostikuam dhe zgjidhëm problemet në cilësinë e të dhënave që çuan në këto objekte në përfundimet e datimit.
(4 foto sebashku, me tekstin poshte:)

Fig. 1. Gjuhët indo-evropiane nëpër hapësirë ​​dhe kohë. (A) Gjuhët indo-evropiane të mbuluara në bazën e të dhënave IE-CoR: 109 gjuhë moderne (pika të rrumbullakëta) dhe 52 gjuhë jomoderne (diamante). Një version interaktiv është i disponueshëm në https://iecor.clld.org/languages. Ngjyrat dallojnë 12 kladet kryesore të indo-evropiane (kladet e tjera të mundshme u zhdukën pa të dhëna të mjaftueshme të shkruara). (B deri në D) Harta që tregojnë hipoteza alternative për fazat e para të zgjerimit indo-evropian. Hipoteza e një origjine në stepën perëndimore (B) bie ndesh me hipotezën e një përhapjeje më të hershme me bujqësinë (C). Harta në (D) tregon një hibrid të pjesëve të të dy hipotezave. Vlerësimet e datës për fillimin e divergjencës brenda secilës kladë kryesore jepen në vite para së tashmes. Etiketat gjuhësore në hartat e hipotezave pasqyrojnë pikat e fundit të fundit, jo domosdoshmërisht lëvizjet më të hershme.

Kutia 1 Rimëkëmbja e parahistorisë nga gjuhët. Gjuhët që rrjedhin nga e njëjta gjuhë e mëparshme paraardhëse ruajnë sinjale të asaj origjine të kaluar dhe të divergjencës së tyre që atëherë. Duke krahasuar me kujdes gjuhët brenda një familjeje, është e mundur të rindërtohen aspekte të gjuhës së tyre të përbashkët paraardhëse. Pjesa më e madhe e sistemit të tingujve PIE (fonologjia) dhe strukturës së fjalëve (morfologjia) është rindërtuar, së bashku me qindra forma individuale fjalësh. Gjuhësia ka metoda të tjera për të nxjerrë përfundime rreth parahistorisë nga të dhëna të tilla gjuhësore. Këto metoda cilësore shpesh pretendohet se mbështesin hipotezën e Stepës, por çdo përfundim i madh mbetet i diskutueshëm. * Analiza kladistike e karaktereve të përzgjedhura në fonologji, morfologji dhe konjak nuk dha asnjë „filogjeni të përsosur“ të vetme (50), por u mor për të mbështetur një nyje që bashkonte degët indo-iraniane dhe balto-sllave (5), me paralele të supozuara në aADN (49). Megjithatë, kjo nyje mbështetej vetëm në tre karaktere të dhënash. Të treja janë të diskutueshme, veçanërisht dallimi centum/satem dhe rregulli „ruki“ (seksioni SM 7.6.2.1). Nuk ka mbështetje konsensusi për këtë nyje në gjuhësinë indo-evropiane, dhe analiza jonë gjen pak mbështetje për të (një probabilitet i mëvonshëm prej vetëm 0.11). Ne gjithashtu testuam efektin e zbatimit të kësaj nyjeje dhe gjetëm pak ndikim në datën e rrënjës (Fig. 4, SA6b). Huazimet e dukshme të lashta në fazat e hershme të familjes urale (në Euroazinë veriore) janë argumentuar se kanë origjinën në degën indo-iraniane të indo-evropiane dhe kështu tregojnë stepën si vendndodhjen e mundshme të kontakteve të tilla (5). Megjithatë, fjalë të tjera të huazuara, madje edhe më herët, me gjuhët kaukaziane dhe semite, janë më të pajtueshme me një atdhe përfundimtar më në jug (54). • Paleontologjia gjuhësore supozon se forma të caktuara fjalësh të rindërtuara në PIE tregonin objekte, specie dhe koncepte të veçanta që tashmë njiheshin nga folësit e saj – më së shumti rrota. Rindërtimi vepron përmes ligjeve të ndryshimit të tingullit dhe kështu mund të jetë i saktë dhe i besueshëm në këtë nivel. Megjithatë, nuk ka ligje kuptimi krahasueshëm të rrepta dhe të parashikueshme, kështu që shpesh është shumë më sfiduese të përcaktohen saktësisht se cilat ishin kuptimet e sakta në pika të thella specifike në kohë. Të njëjtat forma fjalësh të rindërtuara janë nxjerrë si provë se folësit e PIE ose tashmë e dinin rrotën (5, 65), ose se ata ende nuk e dinin atë, dhe se shpikja daton pas gjuhës së paraardhësve të përbashkët (8, 66–68). Origjinat indo-evropiane kanë mbetur të pazgjidhura sepse të gjitha metodat kanë lënë hapësirë ​​për interpretim dhe mosmarrëveshje dhe nuk kanë arritur të sjellin konsensus mbi topologjinë e pemës, kronologjinë ose atdheun. Për detaje, shih seksionin 2.2 të SM.

ADN-ja e lashtë njerëzore (ADN-ja) tani po e riformëson debatin. Rezultatet mbështesin një fluks të konsiderueshëm të prejardhjes gjenetike nga Stepa Euroaziatike ~5000 vjet para Krishtit, e cila mund të ketë transportuar disa nga degët kryesore të Indo-Europianes në Evropë (16-18). Megjithatë, ky sinjal i prejardhjes është më pak i dukshëm në ADN-në nga Greqia Mikenase (19), Ballkani (20) dhe Anadolli (21-23), duke hedhur dyshime nëse hipoteza e Stepës mund të shpjegojë përhapjen e të gjitha degëve të familjes, veçanërisht në Mesdheun lindor dhe Azi. Kjo pamje më e plotë e ADN-së „nuk mbështet një mënyrë klasike të shikimit të hipotezës së stepës“ (24).
Ne i kapërcyem kufizimet e analizave të mëparshme gjuhësore duke kombinuar përparimet e fundit në inferencën filogjenetike Bayesian me një set të dhënash shumë më të gjerë indo-evropian. Së pari, ne përdorëm një analizë filogjenetike të paraardhësve të marrë në mostër (25) që lejon, por nuk i detyron gjuhët e lashta të jenë drejtpërdrejt paraardhëse të gjuhëve moderne (fig. S5.4). Kjo arrihet duke përdorur një pemë paraprake lindje-vdekje-marrjeje mostrash (fig. S5.4) në të cilën një ngjarje degëzimi në pemë është një ngjarje „lindjeje“ ose diversifikimi, dhe mund të ndodhin edhe ngjarje zhdukjeje të linjës („vdekje“). Çdo gjuhë e lashtë e mbuluar në setin tonë të të dhënave përfaqëson një ngjarje të „marrjes së mostrave“ nga e gjithë diversiteti i gjuhëve indo-evropiane përgjatë kohës. Në vend që të supozohet se gjuhët e lashta ishin paraardhësit e drejtpërdrejtë të të afërmve të tyre modernë, kjo qasje vlerëson nga vetë seti i të dhënave gjuhësore probabilitetin relativ që çdo gjuhë e lashtë është ose një paraardhës i drejtpërdrejtë ose një takson motër me të afërmit e saj më të afërt modernë. Modeli përcakton nga të dhënat nëse, për shembull, burimi Proto-Romanik i të gjitha gjuhëve moderne Romance kthehet drejtpërdrejt në leksikun e latinishtes klasike të shkruar, siç kufizohet nga një analizë e kohëve të fundit (12), apo në ndonjë formë paksa të ndryshme, të folur të latinishtes „Vulgare“. Për të vlerësuar kronologjinë, ne përdorëm një orë të relaksuar të pakorreluar për të lejuar që linjat e ndryshme gjuhësore në filogjeni të ndryshojnë në shkallët e ndryshimit me kalimin e kohës (26). Statusi i konjakitetit gjithashtu ndryshon shumë më shpejt në disa lloje kuptimesh sesa në të tjerat, kështu që ne testuam qasje të ndryshme për këtë, duke përdorur modele të evolucionit konjak që lejojnë shkallë të ndryshme ndryshimi për çdo kuptim individual, ose për grupe kuptimesh që tregojnë shkallë të ngjashme divergjence në konjak.

Së dyti, ne identifikuam artefakte në analizat e mëparshme filogjenetike që vijnë si rezultat i të metave dhe mospërputhjeve në grupet e të dhënave gjuhësore të përdorura (27). Për t’i zgjidhur këto, ne zbatuam një metodologji për kodimin e të dhënave të ngjashme [shih materialet plotësuese (SM) seksioni 2] për të maksimizuar qëndrueshmërinë në të gjithë grupin e të dhënave gjuhësore dhe për ta optimizuar atë si të dhënë hyrëse në analizën filogjenetike, duke krijuar një bazë të dhënash krejtësisht të re të marrëdhënieve të ngjashme indo-evropiane, të quajtur IE-CoR. IE-CoR mbulon 161 gjuhë, të koduara nga më shumë se 80 specialistë të gjuhëve të familjes indo-evropiane, për të ofruar një mostër shumë më të dendur dhe më të balancuar si brenda ashtu edhe midis nënkladave kryesore të indo-evropiane. 52 gjuhët jomoderne në IE-CoR (Fig. 1A) ofrojnë një grup shumë më të dendur kalibrimesh të të dhënave sesa bazat e të dhënave të mëparshme.

Rezultatet: Analiza jonë kryesore (Fig. 2) prodhoi një datë të vlerësuar për rrënjën e familjes gjuhësore indo-evropiane që është shumë herët për të qenë e pajtueshme me hipotezën Steppe: ~8120 vjet para Krishtit, me një rajon të besueshëm 95% nga 6740 deri në 9610 vjet para Krishtit. [Vlerësimet e datave raportohen këtu si një datë mesatare para së tashmes, e ndjekur nga rajoni i besueshëm 95% (dendësia më e lartë e mëvonshme, ose HPD), të gjitha të rrumbullakosura në dekadën më të afërt, dhe duke marrë „të tashmen“ për gjuhët moderne si 2000 e.s.] Shpërndarja e pemës së mëvonshme gjithashtu përmbante relativisht pak raste të prejardhjes së drejtpërdrejtë midis taksave gjuhësore. Nga 52 gjuhët e shkruara jomoderne në bazën e të dhënave IE-CoR, 27 teorikisht mund të konsiderohen kandidatë potencialë për të qenë paraardhës të drejtpërdrejtë të gjuhëve më të reja në kladet e tyre. Anglishtja e vjetër, për shembull, është potencialisht paraardhëse e anglishtes moderne, dhe greqishtja e lashtë (atike) e formave moderne të greqishtes. Figura 3 tregon probabilitetet paraprake dhe të mëvonshme për secilën prej këtyre gjuhëve jomoderne që të jenë një paraardhëse e drejtpërdrejtë e çdo gjuhe(je) të mëvonshme në kladën e saj (shih edhe tabelën S5.2). Analiza jonë e mundësuar nga prejardhja gjen probabilitete të mëvonshme >0.01 vetëm për katër gjuhë: Armenishtja Klasike (0.50) dhe tre forma të lashta të greqishtes (0.72, 0.39 dhe 0.31). Vetëm në dy nga këto raste probabiliteti i mëvonshëm është më i madh se 50%. Ne nuk gjetëm mbështetje për numrin më të lartë të tetë paraardhësve të drejtpërdrejtë të imponuar në analizat e mëparshme (12). Këto rezultate udhëhiqen nga të dhënat e ngjashme, jo nga pema jonë e mëparshme. Në gjuhët e mëparshme, probabilitetet e prejardhjes së drejtpërdrejtë varionin nga ~42% në 78% për të gjitha 27 gjuhët e mundshme të paraardhësve, dhe vlerësimi mesatar i datës rrënjësore ishte 5815 vjet para Krishtit (4149 deri në 8123 vjet para Krishtit). Përfshirja e të dhënave të ngjashme e zhvendosi datën rrënjë 2305 vjet më parë, në rezultatin tonë të një moshe mesatare prej 8120 vjetësh PB në pjesën e prapme.

(Figure me tekstin e meposhtem:)

Fig. 2. Shpërndarja e probabilitetit posterior të pemëve për familjen indo-evropiane. Shpërndarja e vizualizuar duke përdorur DensiTree (71). Boshti kohor tregon kronologjinë e vlerësuar të zgjerimit indo-evropian. Gjuhët, majat e të cilave nuk arrijnë skajin e djathtë janë 52 gjuhët e shkruara jomoderne, të tilla si hititishtja, tokarishtja, greqishtja mikenase dhe anglishtja e vjetër. Këto gjuhë u përdorën në analizë si kalibrime kohore. Dy kurbat gri tregojnë shpërndarjen e vlerësimeve të datës rrënjësore për pemën. Vlerësimi paraprak është gri i çelët dhe vlerësimi posterior është gri i errët.

(Pason figure tjeter, e cila nuk me del ne kompjuterin tim; dhe ka kete tekst:)

Fig. 3. Histograma e marrëdhënieve të drejtpërdrejta të prejardhjes midis gjuhëve. Baza e të dhënave IE-CoR përfshin 52 gjuhë jomoderne (p.sh., greqishtja e lashtë, latinishtja klasike dhe sanskritishtja e hershme vedike). Ky histogram tregon se sa nga këto 52 gjuhë kthehen si paraardhëse të drejtpërdrejta të çdo gjuhe tjetër në të dhënat e dhënash. Shpërndarja gri e çelët tregon probabilitetin paraprak të numrit të gjuhëve paraardhëse të drejtpërdrejta, të shpërndara rreth një vlere modale prej 28. Shpërndarja gri e errët tregon shpërndarjen e probabilitetit të pasmë. Vetëm katër gjuhë tregojnë një probabilitet të pasmë të të qenit paraardhëse të drejtpërdrejta prej >0.01%: armenishtja klasike (si paraardhëse e drejtpërdrejtë e armenishtes moderne) dhe tre variante historike të greqishtes [mikena, greqishtja e lashtë (dialekti atik) dhe greqishtja e Testamentit të Ri]. Shih tabelën S5.2.

Kjo mungesë e prejardhjes së drejtpërdrejtë, në shikim të parë, mund të duket e papritur. Anglishtja e vjetër nuk nxirret si paraardhëse e drejtpërdrejtë e anglishtes moderne, dhe as islandishtja e vjetër nuk është drejtpërdrejt paraardhëse e islandishtes moderne. Megjithatë, është e rëndësishme të sqarohet se çfarë përfaqëson një ndarje midis prejardhjeve në analizat filogjenetike të grupeve të të dhënave të ngjashme. Një ndarje nuk korrespondon vetëm me ndryshimin kryesor midis „gjuhëve“ diskrete, të pakuptueshme reciprokisht. Përkundrazi, prejardhjet në parim duhet të jenë tashmë të ndara nga njëra-tjetra që ato të jenë të lira të fillojnë të zhvillohen ndryshe. Vetëm pasi të ndahen prejardhjet, mund të shfaqen ndryshimi/ndryshimet e para midis tyre në leksemën mbizotëruese që përdorin, madje edhe për vetëm një kuptim të vetëm në grupin e të dhënave. Pra, edhe dialektet ose regjistrat (të shkruar kundrejt të folurit) të „së njëjtës“ gjuhë mund të përfaqësojnë nën-prejardhje të ndryshme, paralele. Kështu, prejardhja midis gjuhëve të shkruara të së kaluarës dhe atyre të folura bashkëkohore mund të mos jetë plotësisht e drejtpërdrejtë (seksioni 7 i SM). Një gjuhë e tërë, e marrë në kuptimin e gjerë si gjuhë që përfshin regjistra të shumtë dhe variante rajonale, nuk ka nevojë të korrespondojë vetëm me një prejardhje të vetme, por mund të përfshijë nën-ngarje të veçanta që janë ende shumë afër njëra-tjetrës në filogjene. “Latinishtja” si një e tërë përfshinte si latinishten klasike të shkruar ashtu edhe paraardhësen e folur të gjuhëve romane.

Në historinë e anglishtes, termi „Anglishtja e Vjetër“ në fakt i referohet një grupi dialektesh të ndryshme. Të dhënat e anglishtes së vjetër të IE-CoR bazohen në saksonishten perëndimore, si më e dokumentuara nga këto dialekte. Siç pasqyrojnë saktë rezultatet tona, ky nuk ishte dialekti që është më drejtpërdrejt paraardhësi i anglishtes moderne (28). Po kështu, sanskritishtja e teksteve të shenjta vedike nuk është paraardhësi i drejtpërdrejtë i gjuhëve moderne indike, por ishte një dialekt i dallueshëm simotër. Edhe prakritët ndërmjetës të Indisë mesjetare „nuk rrjedhin nga sanskritishtja“ (29) dhe, konkretisht, „nuk kthehen drejtpërdrejt në dialektin që formoi bazën e vedike“ (29), i cili dallohej si një „dialekt i largët perëndimor“ (30). Regjistri formal i një gjuhe të shkruar zakonisht ndryshon nga gjuha e folur bashkëkohore në përdorimin mbizotërues të fjalëve të ndryshme në një pjesë të vogël të fjalorit, dhe kjo përfshin konkretisht kuptimet brenda grupit të referencës IE-CoR të leksikut bazë. Edhe një paraardhës pothuajse i drejtpërdrejtë mund të pritet të tregojë disa dallime leksikore me prejardhjen paraardhëse të gjuhëve moderne të folura. Për shembull, gjuhët moderne romane nuk rrjedhin drejtpërdrejt nga latinishtja klasike e shkruar (31). Në vend të kësaj, „origjina e gjuhëve romane qëndron në gjuhën e folur (të pakthyeshme)… [dhe] gjithmonë do të ketë një mospërputhje midis burimeve latine dhe gjuhës prindërore të gjuhëve romane“ (32). Edhe një ndryshim, në një kuptim të vetëm të 170 në grupin e referencës IE-CoR, logjikisht përfshin nën-linja të ndara, dhe kjo prejardhje nuk është plotësisht e drejtpërdrejtë. Në kuptimin gojë që IE-CoR do të thotë, për shembull, latinishtja klasike os nuk u trashëgua në asnjë gjuhë moderne romane, dhe kështu nuk konsiderohet termi kryesor në Proto-Romancë. Shumica e gjuhëve romane përdorin terma të ngjashëm që rrjedhin në vend të bucca (pra, italisht bocca, spanjisht boca dhe frëngjisht bouche, për shembull), e cila në latinishten bisedore përdorej tashmë posaçërisht në kuptimin gojë që në fillim të Katonit të Vjetër (234–149 p.e.s.) (33). Ky ndryshim i vetëm është tashmë i mjaftueshëm për të nënkuptuar që një analizë filogjenetike e leksemave primare (dhe kështu gjendjeve të konjakut) midis latinishtes klasike dhe proto-romanike do t’i kthente këto saktë si nënlinja të ndara, dhe nuk është një shembull i izoluar. Në praktikë, „shumë fjalë klasike latine nuk mbijetojnë në romancë“ (15), ose mbijetojnë vetëm sporadike, edhe në fjalorin bazë IE-CoR, siç është ha dhe shko (15). Modeli ynë i mundësuar nga prejardhja kthen analizën standarde gjuhësore në këtë rast: se latinishtja klasike e shkruar nuk është në fakt drejtpërdrejt paraardhëse e gjuhëve moderne të folura romane. Konkretisht, në kuptimet ku latinishtja klasike ka një grup të ngjashëm të ndryshëm nga ai në të gjitha gjuhët romane, modeli identifikon saktë se cila degë po sjell risi në secilin rast. Edhe format e vetme të latinishtes klasike identifikohen saktë si mbajtje, dhe format romane si risi në degën („të folur“) të romancës (shih seksionin 6.3 të SM). Po kështu, islandishtja e vjetër e shkruar nuk është drejtpërdrejt paraardhëse e islandishtes moderne të folur. Kjo bie ndesh me supozimet e zbatuara në analizat e mëparshme të kufizuara nga prejardhja (12). Vetëm në katër raste gjuhë të shkruara historike specifike [armenishtja klasike dhe disa forma të greqishtes së lashtë (34, 35)] ishin aq afër paraardhëses së gjuhëve të mëvonshme në kladet e tyre saqë ishin pothuajse të padallueshme në mostrën IE-CoR të fjalorit bazë.

Validimi dhe analizat e qëndrueshmërisë : Vlefshmëria e rezultateve tona mund të vlerësohet në tre mënyra. Së pari, vlerësimet e datave të ndarjes së prejardhjes mund të validohen kundrejt të dhënave historike të njohura. Kufizimet e prejardhjes së përdorura në analizat e mëparshme prodhuan data të ndarjes së prejardhjes shumë të fundit për të qenë të pajtueshme me historitë e njohura: asnjë divergjencë midis gjuhëve nordike perëndimore deri në vitin 1650 të erës sonë, asnjë në gjuhën romane deri në vitin 1000 të erës sonë dhe asnjë në gjuhën indiane deri në vitin 100 të erës sonë (12). Këto objekte zhduken nga analiza e mundësuar nga prejardhja në Fig. 2. Islandishtja dhe faroishtja, për shembull, tani datohen si ndarje nga prejardhjet skandinave kontinentale ~830 të erës sonë (470 deri në 950 të erës sonë), në përputhje të ngushtë me vendbanimin e parë nordik të Ishujve Faroe dhe Islandës në shekullin e nëntë. Divergjenca fillestare brenda gjuhës romane datohet me saktësi në Perandorinë Romake në shekujt e parë të erës sonë. Divergjenca brenda gjuhës indiane datohet në ~4370 vjet para Krishtit. (3640 deri në 5250 vjet para Krishtit), në përputhje me sanskritishten vedike që tashmë është paksa divergjente nga linja(t) paraardhëse të gjuhëve moderne indike të folura (30). Përfundimi i një ndarjeje indo-iraniane në ~5520 vjet para Krishtit (4540 deri në 6800 vjet para Krishtit) mund të duket, në shikim të parë, i habitshëm. Pritjet e vendosura janë për një datë më të afërt, bazuar në nivelin e perceptuar të ngjashmërisë midis sanskritishtes vedike dhe avestane – gjuhët më të hershme të njohura të lashta në degët indike dhe iranike, përkatësisht. Megjithatë, këto gjykime të ngjashmërisë gjuhësore kanë qenë kryesisht impresioniste (36) në vend që të kuantifikohen. Në kuptimet e përcaktuara saktësisht IE-CoR, vedika e hershme dhe avestane e re ndajnë vetëm 58.7% konjak (37). Kjo përputhet me nivelin e konjakut që mbijeton midis nënlinjave më të ndryshme brenda kladës Romance, për shembull, pas afërsisht dy mijëvjeçarësh që nga përhapja e Perandorisë Romake. Vedikja e hershme dhe avestanja e re datojnë përkatësisht të paktën nga mesi i mijëvjeçarit të katërt dhe mesi i mijëvjeçarit të tretë para Krishtit. Një thellësi kohore dy mijëvjeçarë më herët (~5520 vjet para Krishtit) për ndarjen midis prejardhjeve të tyre (indishte kundrejt iranishtes) është kështu në përputhje me mbivendosjen prej 58.7% të konjakut midis tyre. Më gjerësisht, gjuhët e lashta indo-evropiane tregojnë ngjashmëri të ngushta në disa aspekte të morfologjisë së tyre inflekcionale (lakimi i emrave dhe zgjedhimi i foljeve) dhe fonologjisë. Këto ngjashmëri shpesh janë supozuar se nënkuptojnë një periudhë kohore relativisht të shkurtër divergjence që nga gjuha e tyre e përbashkët e paraardhësve, por këto përshtypje janë gjithashtu të pacaktuara. Vlerësimi ynë i thellësisë kohore nënkupton një periudhë të gjatë stabiliteti relativ në këto aspekte, ndërsa indo-evropianishtja e hershme divergjoi më shpejt në aspekte të tjera. Zgjidhja e këtyre kontrasteve të dukshme në shkallët e ndryshimit në aspekte të ndryshme të gjuhës (38) është një objektiv për kërkime të ardhshme (shih seksionin 2.2.3 të SM).

Së dyti, topologjia jonë e pemës së gjuhëve mund të vlerësohet kundrejt klasifikimeve të vendosura të gjuhëve indo-evropiane. Këto klasifikime identifikojnë 10 deri në 12 nëngrupe kryesore të dëshmuara: anatoliane, tokare, shqipe, armene, greke, indike+iraniane, baltike+sllave, gjermanike, italike dhe kelte. Analizat tona (Fig. 2 dhe fig. S6.1) i kthyen të gjitha këto me probabilitet 100% të mëvonshëm, duke përfshirë dy kladet më të thella të njohura gjerësisht, indo-iraniane dhe balto-sllave. Përtej kësaj, metodologjia cilësore në gjuhësinë historike nuk ka arritur të arrijë një konsensus se si këto degë kryesore lidhen me njëra-tjetrën në një degëzim të rendit më të lartë, në fazat më të hershme të zgjerimit indo-evropian. Të dhëna të ndryshme gjuhësore mbështesin struktura pemësh kontradiktore. Klasifikimet ose janë të diskutueshme ose mbështeten në një grabujë të pastrukturuar (2). Analiza jonë, megjithatë, gjen mbështetje të fortë për klade specifike të thella – gjetje që lidhen drejtpërdrejt me interpretimin e rezultateve më të fundit të aDNA-së në të gjithë Evropën (16–19, 23, 39). Veçanërisht, greqishtja shkon me armenishten, ndërsa një kladë kryesore evropiane e veçantë bashkon gjermaniken, keltezen dhe italiken (me balto-sllave si më të afërtën). Në rrënjën e indo-evropiane, rezultatet tona i kthejnë anatolianet dhe tokaret si klada thellësisht divergjente. Megjithatë, mbështetja për formimin e një klade të përbashkët prej tyre është shumë e kufizuar (një probabilitet i mëvonshëm prej vetëm 25.9%). Të tre kladat më të thella kanë mbështetje <26%, në përputhje me mungesën e konsensusit midis gjuhëtarëve. Kjo mund të pasqyrojë „vazhdimësi dialektore“ komplekse në fazat e hershme të indo-evropiane (40). Drejt majave të pemës, në periudhën historike kur marrëdhëniet gjuhësore njihen më me besueshmëri, rezultatet tona në përgjithësi përputhen ngushtë me klasifikimet e vendosura, siç janë marrëdhëniet midis gjuhëve të lashta në kladën greke. Brenda kladave kryesore, shumica e nëngrupeve të pritura kthehen gjithashtu. Në romancë, për shembull, degët rumune dhe sardeze janë më të hershmet që ndahen. Romanca iberike kthehet gjithashtu si një nëngrup, siç janë gjermaniket veriore, perëndimore dhe lindore; Sllavishtja Lindore dhe Perëndimore; dhe Keltishtja Goidelike dhe Britonike. Së fundmi, vërejmë disa pjesë të pemës sonë të besueshmërisë maksimale të kladës (MCC) që nuk janë në përputhje me klasifikimet e vendosura. Gjuhët Nuristani të Hindu Kushit, për shembull, janë të vendosura më ngushtë me fqinjët e tyre indikë sesa pritej në bazë të të dhënave të tjera gjuhësore, veçanërisht fonologjisë. Brenda gjermanikës kontinentale perëndimore, frizianishtja dhe varietetet historike të gjermanishtes duken të gabuara, ashtu si gjuhë të ndryshme brenda iranikës jugperëndimore. Shtojca (seksioni 8 i SM) ofron një diskutim të plotë të pjesëve të papritura të topologjisë.
Së treti, ne kryem një gamë të gjerë analizash për të testuar qëndrueshmërinë e rezultateve tona ndaj qasjeve alternative. Për të identifikuar modelin më të përshtatshëm të evolucionit të ngjashëm, së pari krahasuam katër modele (M1 deri në M4). Analiza jonë M1 përdori një model të zinxhirit Markov në kohë të vazhdueshme (CTMC) për të dhënat binare, me heterogjenitet të shkallës gama. Analizat tona nga M2 deri në M4 përdorën të gjitha një model kovarion binar, i cili u lejon gjuhëve të ngjashme të kalojnë midis shkallëve të shpejta dhe të ngadalta në pikat e filogjenisë, duke u mundësuar gjuhëve të pësojnë shpërthime ndryshimi. M2 deri në M4 secila përdori një model të ndryshëm vendi për të akomoduar ndryshimin në shkallët e ndryshimit të ngjashëm. M2 përdori një shkallë për të gjitha kuptimet, M4 lejoi një shkallë të ndryshme për çdo kuptim, dhe M3 ishte një qasje e ndërmjetme, kompromisi duke përdorur tetë shkallë të ndryshme mutacioni, sipas numrit të grupeve të ngjashme për kuptim (në grupe nga 1 deri në 10, 11 deri në 20, etj.). Siç tregohet në Fig. 4 (M1 deri në M4), rezultatet për thellësinë e vlerësuar të kohës së indo-evropiane ishin të ngjashme në të katër modelet. Për të identifikuar se cili model performoi më mirë, ne përdorëm marrjen e mostrave të shtegut për të vlerësuar probabilitetin marxhinal logaritmik të secilës analizë (41). Modeli me performancën më të mirë ishte M3 – kovarioni binar me shkallë të grupuara (shih tabelën S5.4) – kështu që e morëm këtë si analizën tonë kryesore, për të cilën raportojmë rezultatet këtu.
Për të testuar më tej qëndrueshmërinë e rezultateve tona, ne vazhduam me këtë model më të përshtatshëm, M3, por e ndryshuam analizën në një sërë aspektesh të tjera: analizat tona të ndjeshmërisë SA1 deri në SA10 (Fig. 4). Në SA1, ne trajtuam dy kalibrime datash veçanërisht të pasigurta. Sanskritishtja Vedike dhe Avestane janë ndër gjuhët më të vjetra në IE-CoR dhe kështu ofrojnë pika kalibrimi veçanërisht të thella. Megjithatë, datimi i tyre është i diskutueshëm sepse nuk kanë mbijetuar dorëshkrime origjinale. Prandaj, ne e ripërpunuam modelin tonë kryesor (M3) duke i hequr këto dy kalibrime të thella. Efekti në datën rrënjë për indo-evropianen ishte i papërfillshëm: vetëm 94 vjet (1.16%) më i vjetër, në 8214 vjet B.P. (6785 deri në 9571 vjet B.P.; Fig. 4, SA1). Ne gjithashtu e përsëritëm analizën kryesore me të dhënat e rregulluara në një trajtim alternativ të një lloji të transmetimit horizontal (huazime paralele) midis taksave gjuhësore (Fig. 4, SA2). Përsëri, efekti në vlerësimin e moshës së rrënjës ishte minimal: 7934 vjet PB (6487 deri në 9455 vjet PB), domethënë 186 vjet (2.29%) më i ri.
Ne testuam më tej qëndrueshmërinë e rezultateve tona në varësi të kushtëzimit në rrënjë (ngjarja e parë e degëzimit), në vend të origjinës (fillimi i degës rrënjë) si në analizat e mëparshme (13, 42). Kjo çoi në një moshë mesatare të rrënjës 690 vjet (8.52%) më të vjetër, me më shumë pasiguri: 8812 vjet para Krishtit (6648 deri në 11,419 vjet para Krishtit; Fig. 4, SA3). Numërimi i taksoneve të gjuhëve diskrete është kompleks, duke pasur parasysh natyrën klinike të dallimit midis gjuhës dhe dialektit, kështu që ne testuam edhe vlera alternative për shpërndarjen paraprake në probabilitetin e marrjes së mostrave aktualisht (Fig. 4, SA4). Në analizën kryesore, ne supozuam një diversitet themelor gjuhësor të ditëve të sotme midis 400 dhe 600 gjuhëve në të gjithë indo-evropianishten (1, 2). Ndryshimi i këtij supozimi nuk ndikon ndjeshëm në moshën e rrënjës (8120 vjet para Krishtit). Duke supozuar se 200 deri në 400 gjuhë janë të pranishme sot, jepet një moshë rrënjësore prej 8064 vjetësh para Krishtit (6582 deri në 9585 vjet para Krishtit), ose 56 vjet (0.69%) më e re (Fig. 4, SA4a). Duke supozuar se 600 deri në 800 gjuhë jepet 8177 vjet para Krishtit (6838 deri në 9595 vjet para Krishtit), ose 57 vjet (0.70%) më e vjetër (Fig. 4, SA4b). Për disa gjuhë të lashta, korpuset e teksteve që kanë mbijetuar përmbajnë të dhëna të kufizuara, duke i paragjykuar potencialisht analizat. Prandaj, ne kryem një analizë të mëtejshme të ndjeshmërisë (Fig. 4, SA5) pa 10 gjuhët më të prekura nga të dhënat që mungojnë; kjo dha një datë rrënjësore vetëm 2 vjet (0.02%) më të re, duke konfirmuar se analiza jonë kryesore është e qëndrueshme ndaj përqindjeve të larta të të dhënave që mungojnë në gjuhë të tilla.
(Ne krah te dy teksteve me siper jepet fig.4 me tekstin e meposhtem:)
Fig. 4. Shpërndarjet e probabilitetit të pasëm të moshës së vlerësuar të gjuhës indo-evropiane krahasuar në të katër modelet e testuara (M1 deri në M4) dhe të gjitha 10 analizat e ndjeshmërisë (SA1 deri në SA10) si teste qëndrueshmërie. M1: Modeli i zinxhirit Markov në kohë të vazhdueshme (CTMC) për të dhëna binare, me heterogjenitet të shkallës gama. M2: Modeli i kovarionit binar për të dhëna binare, me një shkallë të vetme të përbashkët mutacioni për të gjitha kuptimet. M3: Modeli i kovarionit binar me tetë shkallë të ndryshme mutacioni, sipas numrit të grupeve të ngjashme për kuptim (në grupe nga 1 deri në 10, 11 deri në 20, e kështu me radhë). M4: Modeli i kovarionit binar me një shkallë të dallueshme mutacioni për secilin prej 170 kuptimeve IE-CoR. SA1: Me kalibrimet e majës për Vediken e Hershme dhe Avestane të Re të hequra. SA2: Me huazimet paralele jo të përjashtuara, por të koduara si grupe unike të ngjashme. SA3: Me kushtëzimin paraprak të paraardhësit më të fundit të përbashkët, jo origjinën. SA4a: Me një probabilitet mostrimi duke supozuar 200 deri në 400 gjuhë moderne. SA4b: Me një probabilitet mostrimi duke supozuar 600 deri në 800 gjuhë moderne. SA5: Me 10 gjuhë të dëshmuara dobët të hequra. SA6a: Me kufizime të synuara të kladave të rendit të ulët. SA6b: Me kufizime të kladave të rendit të lartë duke ndjekur topologjinë Ringe (5). SA7a: Me një kufizim prejardhjeje vetëm për latinishten. SA7b: Me kufizime prejardhjeje për pesë gjuhët me një probabilitet posterior >0 të të qenit paraardhës. SA7c: Me të gjitha 27 kufizimet e prejardhjes së mundshme nga distanca. SA8a: Duke përdorur nëngrupin „e gjerë“ (12) të bazës së të dhënave IELex me paraardhësit e aktivizuar, por jo të zbatuar. SA8b: Duke përdorur nëngrupin „e gjerë“ (12) të bazës së të dhënave IELex me paraardhësit e zbatuar. SA9: Me 57 kuptime të hequra, ato për të cilat rindërtimi i gjendjes paraardhëse (në analizën M3) tregoi polimorfizëm për kuptim në rrënjë. SA10: Duke përdorur një model shumëgjendjesh të evolucionit kognativ. Të gjitha analizat e ndjeshmërisë nga SA1 deri në SA9 bazohen në modelin M3, modelin me performancën më të mirë.

Topologjitë tona bazohen në llojin e të dhënave më të përpunueshëm për vlerësimin e kronologjisë: konjaku në fjalorin bazë (27, 38). Megjithatë, klasifikimet e gjuhëve të vendosura bazohen kryesisht në fonologji dhe morfologji. Historitë evolucionare nuk përkojnë domosdoshmërisht saktësisht në këto nivele të ndryshme të gjuhës. Aty ku pemët tona të konjakut largohen më shumë nga klasifikimet e vendosura (për gjuhët nuristane, iranianishten jugperëndimore dhe brenda gjermanikishtes perëndimore; shih seksionin 7.1 të SM), ne testuam efektin e zbatimit të kufizimeve të kladave të rendit më të ulët për të zbatuar një topologji në përputhje me kriteret fonologjike dhe morfologjike të pakontestueshme (Fig. 4, SA6a). Kjo e zhvendosi datën mesatare të rrënjës indo-evropiane 804 vjet më herët (9.90% më e vjetër). Veçmas, ne zbatuam kufizime të rendit më të lartë në marrëdhëniet më të thella midis të gjitha degëve kryesore të indo-evropiane, për të zbatuar një topologji të marrë për të mbështetur hipotezën e Stepës (5) (Fig. 4, SA6b). Kjo e zhvendosi vlerësimin e datës së rrënjës 444 vjet më herët (5.47% më e vjetër), më larg kronologjisë së stepës.
Me grupet e të dhënave të mëparshme indo-evropiane, zbatimi i kufizimeve të prejardhjes çoi në vlerësime shumë më të reja të moshës së rrënjës, të mjaftueshme për t’i sjellë ato në diapazonin kohor të parashikuar nga hipoteza Steppe (12). Për të testuar ndikimin e zbatimit të prejardhjes së drejtpërdrejtë në grupin tonë të ri të të dhënave IE-CoR, ne zbatuam tre analiza të ndryshme të kufizuara nga prejardhja (seksioni 7.5 i SM). Në analizën tonë kryesore, vetëm katër gjuhë kishin >0.01 mbështetje për të qenë paraardhës të drejtpërdrejtë. Zbatimi i këtyre si kufizime të prejardhjes, dhe madje shtimi i tjetrës (anglishtja e vjetër, me mbështetje vetëm 0.0024), pati efekt minimal në shpërndarjen e datës së rrënjës, duke e zhvendosur vlerësimin mesatar më vonë me vetëm 46 vjet (0.57% më të re) (Fig. 4, SA7b dhe tabela S7). Nëse, në kundërshtim me gjetjet tona, latinishtja klasike e shkruar është megjithatë e kufizuar të jetë drejtpërdrejt paraardhëse e gjuhës romantike të folur, data mesatare e rrënjës lëviz më vonë me 331 vjet (4.08% më të re; Fig. 4, SA7a), në 7889 vjet para Krishtit; por brenda gjuhës romane, ndarjet e para në rumanisht dhe sarde janë shumë vonë për të qenë të pajtueshme me treguesit historikë dhe gjuhësorë (seksioni 6.5 i SM). Edhe nëse i kufizojmë të 27 gjuhët IE-CoR që mund të mendohen sadopak si paraardhëse të drejtpërdrejta, rrënja zhvendoset më vonë vetëm me 506 vjet (6.23% më e re), në 7614 vjet para Krishtit (6239 deri në 9182 vjet para Krishtit; Fig. 4, SA7c). Prandaj, me të dhënat IE-CoR, kufizimet e prejardhjes nuk çojnë në mosha rrënjësore rrënjësisht më të reja.
Kjo qëndrueshmëri ndaj kufizimeve të prejardhjes nxitet nga qëndrueshmëria më e madhe e IE-CoR krahasuar me të dhënat e mëparshme të Njohjes Leksikore Indo-Evropiane (IELex) (11, 12). Për ta konfirmuar këtë, ne morëm nëngrupin „e gjerë“ (12) të IELex me kufizimet e tij të shoqëruara të kladës (12) dhe aplikuam në të modelin tonë kryesor të analizës, të mundësuar nga prejardhja, dhe pemën më parë, me (SA8b) dhe pa (SA8a) tetë kufizimet e sugjeruara të prejardhjes (12). Kjo konfirmoi se me IELex, ndryshe nga të dhënat tona IE-CoR, zbatimi i prejardhjes së drejtpërdrejtë e zhvendos vlerësimin mesatar të datës rrënjësore në një kornizë kohore shumë më të re, më të re me 3632 vjet (42.1%), nga 8629 vjet B.P. (Fig. 4, SA8a) në 4997 vjet B.P. (Fig. 4, SA8b). Ky kontrast në të dhënat e IELex, i cili është shumë më i ndjeshëm ndaj kufizimeve të prejardhjes sesa të dhënat tona IE-CoR, shpjegohet duke krahasuar gjatësitë e degëve terminale me gjuhët e supozuara të paraardhësve në analizat e mundësuara nga prejardhja për secilin të dhëna (fig. S7.8). Këto degë terminale janë shumë më të gjata (në disa raste me >3000 vjet) me të dhënat e „gjera“ të IELex sesa me IE-CoR. Kjo gjatësi e tepërt e degës shkaktohet nga numri i madh i hyrjeve të tepërta në bazën e të dhënave IELex, duke përfaqësuar jo vetëm fjalën kryesore për një kuptim të caktuar në çdo gjuhë, por një ose më shumë fjalë shtesë të ngjashme në kuptim (domethënë, sinonime të afërta) megjithëse jo termin kryesor (27). Në IELex, këto sinonime të afërta ishin futur në mënyrë shumë të paqëndrueshme në gjuhë të ndryshme (shih fig. S1.4 dhe seksionin 1.4 të SM). Në një analizë filogjenetike, këto hyrje të tepërta barazohen me fitime (ose humbje) shtesë në evolucionin kognativ. Kur kufizimet i detyrojnë gjatësitë e degëve në zero (domethënë, prejardhja e drejtpërdrejtë), fitimet ose humbjet artifaktuale që do të kishin rënë mbi këto degë të gjata terminale shtyhen të ndodhin mbi gjuhën e paraardhësve të kufizuar, pas kalibrimit të saj kohor. Kjo nga ana tjetër fryn vlerësimet e shkallëve të ndryshimit në të gjithë pemën [nga një mesatare prej 0.0055 (0.0046–0.0066) në 0.0132 (0.0119–0.0145) ndryshime për grup të ngjashëm për mijë vjet], dhe këto vlerësime më të shpejta të shkallës rezultojnë në vlerësime më të reja të moshës së rrënjës (12). Me të dhënat IE-CoR, pa sinonime të tepërta, rezultatet janë shumë më të qëndrueshme ndaj shtimit ose heqjes së kufizimeve të prejardhjes. Një vlerësim i moshës së re për indo-evropianen rezultoi vetëm nga zbatimi i kufizimeve të papërshtatshme të prejardhjes në një grup të dhënash problematik.
Artefaktet që lindin nga sinonimet e tepërta janë pjesë e një çështjeje më të gjerë metodologjike. Evolucioni leksikor është shumëgjuhësh, por shumica e metodave të analizës filogjenetike marrin të dhëna hyrëse në format binar. IE-CoR ndjek protokolle të rrepta për të siguruar qëndrueshmëri të të dhënave shumë afër një objektivi vetëm të grupit të vetëm primar të ngjashëm të pranishëm për kuptim për gjuhë. (IE-CoR mund të pranojë dhe pranon raste të sinonimisë absolute në kuptim dhe përdorim, por këto janë të rralla.) Për të testuar ndikimin e polimorfizmit, ne përdorëm rindërtimin e gjendjes stërgjyshore për të identifikuar çdo kuptim për të cilin modeli ynë kryesor i kovarionit në fakt „rindërtoi“ më shumë se një grup të ngjashëm për kuptim në rrënjë. Në SA9, ne e riekzekutuam analizën kryesore, por me këto kuptime të „polimorfizmit rrënjësor“ të përjashtuara, duke lënë një nëngrup të mbetur prej 113 nga 170 kuptimet origjinale të IE-CoR. Efekti në moshën e rrënjës ishte minimal: vetëm 255 vjet (3.11%) më i ri, në 7955 vjet B.P. (6427 deri në 9436 vjet para Krishtit; Fig. 4, SA9).
Një alternativë më radikale është kalimi në një model të ndryshëm filogjenetik që merr drejtpërdrejt karaktere shumëgjendjesh si të dhëna hyrëse, në vend të atyre binare. Ne hartuam një model shumëgjendjesh dhe e aplikuam atë në të dhënat IE-CoR, si SA10. Ky model ktheu vlerësime dukshëm më të reja të datës rrënjësore: 2057 vjet (25.1%) më të reja, në 6153 vjet B.P. (4926 deri në 7884 vjet B.P.; Fig. 4, SA10), dhe kështu brenda diapazonit të hipotezës origjinale Steppe (5). Ky kontrast rezulton veçanërisht nga një ndryshim në mënyrën se si modelet trajtojnë polimorfizmin. Modeli ynë kryesor i kovarionit binar në fakt pranon polimorfizmin për kuptim, aty ku mbështetet nga të dhënat (zakonisht gjatë një periudhe kalimi nga një fjalë në tjetrën si termi kryesor për një kuptim të caktuar). Megjithatë, për analizën SA10, modeli shumëgjendjesh kërkonte një supozim se nuk ka polimorfizëm në asnjë fazë në pemë. Në shumë aspekte, rezultatet tregojnë se kjo përfaqëson një keqspecifikim relativisht serioz të modelit. Të vlerësuara kundrejt klasifikimeve të përcaktuara për familjen indo-evropiane, topologjia dhe kronologjia (relative dhe absolute) e pemës shumështetërore janë shumë më të papritura dhe problematike sesa pema nga modeli kryesor i kovarionit binar. Për shembull, modeli shumështetëror e kthen tokarishten si një degë të vonë, të vendosur thellë brenda pemës indo-evropiane së bashku me shqipen, dhe nuk arrin të dallojë saktë sllavishten lindore nga ajo perëndimore.
Për më tepër, në pothuajse të gjitha rastet ku ndarjet gjuhësore mund të datohen historikisht, modeli shumëgjendjesh nënvlerëson seriozisht thellësinë kohore të këtyre ndarjeve, duke e kompresuar kronologjinë në të gjithë tabelën. Si një pikë referimi cilësore të mëtejshme të performancës, ne përdorëm rindërtimin e gjendjes së paraardhësve në BEAST2 për të identifikuar çdo risi të nxjerrë në degën terminale për secilën gjuhë të lashtë. Modeli kovarion ktheu rezultatet e pritura, duke identifikuar grupe të ngjashme unike për taksat individuale të gjuhëve. Modeli shumëgjendjesh dështoi të kthente shumë prej këtyre si risi, duke treguar qartë një specifikim të gabuar të modelit dhe duke zbuluar pse modeli shumëgjendjesh nënvlerëson thellësitë kohore. Prandaj, ne ruajmë rezultatet tona kryesore nga modeli binar kovarion (shih seksionin 7.10 të SM për detaje dhe arsye të mëtejshme).

Interpretim : Mbështetja jonë e fortë për një vlerësim të datës rrënjësore prej ~8120 vjet para Krishtit (6740 deri në 9610 vjet para Krishtit) ka implikime të mëdha për origjinën e familjes indo-evropiane, parahistorinë e Euroazisë dhe interpretimin e rezultateve të fundit të aDNA-së. Pyetja indo-evropiane përqendrohet në vendin ku është folur fillimisht gjuha paraardhëse PIE, përpara se ndonjë nga degët e saj të para të divergjonte jashtë. Teoritë kryesore rivale emërtohen dhe përcaktohen nga vendi ku e vendosin atë atdhe përfundimtar: hipoteza e Stepës ose hipoteza anatoliane (shih Kutitë 2 dhe 3).

Kutia 2 Gjuhësia, arkeologjia dhe gjenetika. Edhe pse indo-evropiani është një koncept gjuhësor, ishin kryesisht arkeologët ata që përcaktuan dhe zhvilluan teoritë më të njohura konkurruese mbi origjinën e tij: hipoteza e Stepës (7, 65, 69) dhe hipoteza anatoliane, ose hipoteza e „bujqësisë“ (6, 70). Kohët e fundit, ADN-ja ka sjellë rezultate dhe perspektiva të reja revolucionare dhe mund të ofrojë kufizime dhe vlerësime kronologjike për madhësinë e ngjarjeve migratore në të kaluarën. Gjuhësia, arkeologjia dhe gjenetika përdorin të dhëna dhe metoda shumë të ndryshme. Të dhënat e tyre të ndryshme dhe të pjesshme të së kaluarës mund të plotësojnë njëra-tjetrën, por lidhja e tyre nuk është e drejtpërdrejtë. „Kulturat“ e nxjerra nga të dhënat arkeologjike nuk përputhen një-me-një me gjuhët. Në mënyrë të ngjashme, si përputhjet ashtu edhe mospërputhjet mund të lindin midis prejardhjeve gjuhësore dhe gjenetike, sepse gjuhët mund të përhapen ose demografikisht ose kulturorisht (shih seksionin 2.1.2 të SM) (9). Gjetjet në një disiplinë nuk përbëjnë provë ose mbështetje të drejtpërdrejtë të atyre në një tjetër, por mund të jenë më pak ose më shumë të pajtueshme me hipotezat konkurruese për parahistorinë indo-evropiane. Folësit e gjuhëve indo-evropiane nuk formojnë një popullsi gjenetikisht homogjene. Nuk ka një profil të vetëm gjenetik dhe të qëndrueshëm nga Islanda në Bangladesh. Realisht, vetëm një komponent i pjesshëm i prejardhjes mund të jetë i përbashkët për të gjithë ose shumicën e folësve të gjuhëve indo-evropiane përgjatë kohës dhe hapësirës. Debati aktual përqendrohet në atë se cila nga dy „ngjyruesit gjurmues“ të mundshëm përputhet më mirë me (Proto-)indo-evropianen. • Profili i prejardhjes së popullatave të kulturës Yamnaya në Stepën Pontike-Kaspike u përhap gjerësisht gjatë Epokës së Bronzit, nga ~5000 vjet para Krishtit. Ky profil është një përzierje afërsisht e barabartë (ad)ekuivalente e dy prejardhjeve më të hershme: prejardhja lindore (evropiane) e gjuetarëve-mbledhësve (EHG) fillimisht dominuese në Pontike-Kaspike dhe prejardhja neolitike e gjuetarëve-mbledhësve të Kaukazit (CHG)/iraniane që u përzie në Pontike-Kaspike nga ~7000 vjet para Krishtit. • Ky komponent CHG vetëm është një kandidat alternativ për ngjyrën gjurmuese indo-evropiane. Ai është gjetur për herë të parë në jug të Kaukazit, por nga ~7000 vjet para Krishtit e tutje ka arritur edhe në Stepën Pontike-Kaspike. Ndryshe nga EHG, komponenti CHG ishte gjithashtu i lartë në Anadoll në kohën e Hitejve, të cilët flisnin degën anatoliane të indo-evropiane, dhe mbetet i lartë midis folësve të degës indo-iraniane deri më sot. Megjithatë, këta komponentë të prejardhjes nuk janë vetë entitete statike të vetme. Përkundrazi, ato përfaqësojnë pamje të çastit në kohë në parahistori, secila që del nga format paraprake dhe përzierjet e tyre. Prejardhja gjenetike është fluide dhe klinike, dhe një çështje zgjidhjeje, dhe për këtë arsye sfiduese për t’u ndjekur – dhe për t’u lidhur me prejardhjet gjuhësore – në mënyrë të qartë gjatë shumë mijëvjeçarëve.

Kutia 3 : Çfarë fshihet në një emër? Perceptime në ndryshim të hipotezës së Stepës. Pyetja indo-evropiane përqendrohet në vendin ku flitej fillimisht gjuha e përbashkët paraardhëse e PIE-së, përpara se ndonjë nga degët e saj të para të ndahej nga jashtë. Teoritë kryesore rivale emërtohen dhe përcaktohen nga vendi ku e vendosin atë atdhe përfundimtar: hipoteza e Stepës (5) bie ndesh si me hipotezën anatoliane (6) ashtu edhe me një hipotezë më pak të njohur armene (53, 54). Në hipotezën e Stepës, të gjitha degët e indo-evropiane në fund të fundit kthehen në migrime nga Stepa Pontike-Kaspike. Sipas përkufizimit, kjo ka përfshirë një origjinë stepe për degët anatoliane dhe tokare (5). Hipoteza të tjera njohin një rol të spikatur për stepën, si një pikë referimi për disa degë të indo-evropiane që shkojnë ose drejt perëndimit (54) – ose drejt lindjes, në variantin B të Renfrew (6). Megjithatë, këto hipoteza hedhin poshtë idenë se të gjitha degët kanë origjinën në stepë. Ata në vend të kësaj pohojnë se indo-evropianishtja ia detyron shkallën dhe diversitetin e saj të plotë zhvillimeve kulturore dhe demografike jo vetëm në Stepën Pontike-Kaspike, por në fund të fundit edhe shkaqeve më të hershme, më të thella në tokat më në jug, në Kaukazin jugor ose në Gjysmëhënën Pjellore veriore. Rezultatet e hershme të aADN-së mbështetën një „migrim masiv“ nga stepa, në pjesë të Evropës, megjithëse u kualifikua si „një“ burim për „të paktën disa“ gjuhë indo-evropiane „në Evropë“ (16). Ndërsa të dhënat e aADN-së janë rritur, interpretimet kanë vazhduar të përmbahen nga identifikimi i stepës si burim i të gjitha degëve, veçanërisht indo-iranishtes (45) dhe veçanërisht anatolianishtes (21, 23, 24). Anatolianishtja shpesh hipotezohet si e para që degëzohet nga pjesa tjetër e familjes, e ndjekur nga tokarishtja. Nuk ka konsensus të plotë gjuhësor për këtë, por „anatolianishtja e para“ ka çuar në emra dhe kualifikime alternative që mund të errësojnë çështjen e atdheut. Nëse (vetëm) gjuhët indoevropiane ekzistuese ose të vona doli nga stepa, ndërsa anatolianishtja dhe/ose tokarishtja e zhdukur nuk doli, atëherë në mënyrë strikte stepa nuk ishte atdheu origjinal. Edhe nëse familja ripagëzohet „indo-anatolianisht“ (23) – gjë që nuk pasqyron as mbulimin e saj gjeografik dhe as një rend të veçantë degëzimi – kjo nuk e ndryshon pyetjen themelore se ku ishte atdheu origjinal i familjes në tërësi. Lidhja e anatolianishtes brenda familjes nuk është në dyshim, kështu që nëse ajo (ose ndonjë degë tjetër) nuk e ka origjinën në stepë, atëherë origjina indoevropiane nuk qëndron në hipotezën e stepës, por në një formë të hipotezës hibride.

Gjetjet e ADN-së së lashtë mbështesin zgjerime të mëdha në Evropën veri-qendrore jo vetëm nga Stepa Pontike-Kaspike (16), por edhe nga Stepa Pyjore (39), e datuar midis 5000 dhe 4500 vjet para Krishtit dhe e lidhur me kulturën Corded Ware (16). Rezultatet tona tregojnë mbështetje të plotë (probabilitet 100% i mëvonshëm) për disa nga degët kryesore evropiane të indo-evropiane që mbeten në një kladë të thellë të përbashkët deri afërsisht në këtë thellësi kohore. Gjermanikja dhe kelte vlerësohet se janë divergjuar nga njëra-tjetra ~4890 vjet para Krishtit (3720 deri në 6190 vjet para Krishtit), dhe italike prej tyre disi më herët, ~5560 vjet para Krishtit (4230 deri në 6980 vjet para Krishtit). Balto-sllave është më pak e lidhur ngushtë me këto të treja, duke u ndarë më herët, ~6460 vjet para Krishtit (5040 deri në 7940 vjet para Krishtit).

Megjithatë, degët shqiptare, greke, armene dhe anatoliane janë të gjitha të ndara nga kjo kladë kryesore evropiane shumë më thellë në pemë – me vlerësime të moshës mesatare shumë kohë përpara se prejardhja „stepë“ të përhapej në Evropë. Pra, si në kronologji ashtu edhe në filogjeni, ky zgjerim nga stepa shfaqet si një fazë dytësore që mbarti vetëm disa degë të indo-evropiane në Evropë. Kjo është në përputhje me gjetjet e ADN-së në rajone të tjera që nuk mbështesin parashikimet e hipotezës se të gjitha indo-evropiane e kanë origjinën në stepë (43). Aktualisht, provat e ADN-së nuk mbështesin një migrim nga stepa përmes Ballkanit në Anadoll (20, 22), ku gjurmët e prejardhjes së stepës mungojnë dukshëm në Epokën e Bronzit (21-23). ​​Prejardhja e stepës gjithashtu mungon kryesisht tek individët e lashtë grekë të Epokës së Bronzit të Hershëm, të cilët në vend të kësaj mbajnë një prejardhje të ngjashme me fermerët e hershëm evropianë dhe ~25% prejardhje të ngjashme me gjuetarët-mbledhësit/iranianët e Kaukazit (19, 44). [Kjo e fundit u raportua për herë të parë si maksimizuar te gjuetarët-mbledhës nga Kaukazi Jugor (45) dhe barinjtë/fermerët e hershëm në Iranin veriperëndimor (46, 47), veçanërisht Zagros, prandaj edhe etiketa „CHG/Iraniane“.] Prejardhja e stepës deri në 50% dëshmohet në Greqi vetëm pas ~4000 vjetësh para Krishtit në individë të Epokës së Mesme dhe të Vonë të Bronzit (Mikena) (19), me një vlerësim të datës së përzierjes prej ~4600 deri në 4000 vjet para Krishtit. Armenët e lashtë mbajnë kryesisht një përzierje kryesisht të prejardhjes së ngjashme me CHG/Iraniane (40 deri në 60%) dhe të ngjashme me neolitiken anatoliane (20 deri në 40%) dhe marrin vetëm një kontribut të vonë të prejardhjes së stepës gjatë Epokës së Vonë të Bronzit, ~3500 deri në 3000 vjet para Krishtit [siç tregohet nga shfaqja e ~15% prejardhjes së gjuetarëve-mbledhësve lindorë (evropianë)], e cila bie në përmasa të ulëta në ~2000 vjet para Krishtit. (44, 46, 48).

Prejardhja e stepës, në formën e një përzierjeje të prejardhjes EHG+CHG/iraniane, nuk arriti në Greqi dhe Armeni deri shumë kohë pas lëvizjeve të popullsisë në Evropën veriore dhe qendrore nga Stepa Pontike-Kaspike dhe Stepa Pyjore ~5000 vjet para Krishtit. Në rezultatet tona filogjenetike, grekët dhe armenët nuk tregojnë ndonjë lidhje të ngushtë me degët kryesore në Evropë që përputhen në mënyrë të besueshme me zgjerimin nga stepa: gjermanike-italike-kelte dhe ndoshta baltike-sllave. Megjithatë, më herët, gjatë periudhave kalkolitike dhe eneolitike ~6500 deri në 5500 vjet para Krishtit, prejardhja e CHG/iraniane ishte përhapur tashmë në Anadoll, Kaukaz, Mesopotami veriore dhe Evropën Juglindore dhe gjithashtu kishte ardhur për të formuar një pjesë integrale të peizazhit gjenomik në rajonin e Pontit të Veriut gjatë Eneolitit të Stepës. Ky zgjerim i prejardhjes së CHG/iraniane përfaqëson një kandidat alternativ për përhapjen e degëve të hershme të indo-evropiane në këto rajone.

Rezultatet nga hulumtimi i ADN-së së a-së nuk mund të pajtohen plotësisht me idenë se PIE, dhe të gjitha degët, në fund të fundit e kanë origjinën në stepë. Interpretimet e fundit të të dhënave të ADN-së së a-së (5, 49) megjithatë vazhdojnë të ndjekin një formulim të kohëve të fundit të hipotezës së Stepës (5) që e mban stepën si atdheun përfundimtar dhe parashtron një topologji peme përkatëse (5, 50, 51), megjithëse një që nuk kërkon konsensus gjuhësor. Në veçanti, në këtë hipotezë, indo-iraniku, dega kryesore lindore e indo-evropianishtes, ishte një nga dy degët e fundit kryesore që doli, nga një kladë e fundit kryesore me balto-sllavishten. Rezultatet tona e kundërshtojnë këtë si në kronologji ashtu edhe në topologjinë e pemës. Indo-iraniku degëzohet herët, ~6980 vjet para Krishtit (5650 deri në 8400 vjet para Krishtit), dhe mbështetja për një kladë të përbashkët me balto-sllavishten është minimale, me një probabilitet të mëvonshëm prej vetëm 12.3%. Të dhënat e fundit të ADN-së nga Azia Qendrore dhe Jugore kanë kërkuar të gjurmojnë lëvizjet e njerëzve në Azinë Perëndimore dhe Jugore me anë të migrimeve drejt jugut nga stepa. Megjithatë, për periudhën 4300–3700 vjet para Krishtit, mostrat nga Kompleksi Arkeologjik Bactria-Margiana (BMAC) nuk dëshmojnë ende për ndonjë migrim të tillë drejt jugut (49). Prejardhja e stepës nuk gjendet deri rreth 3500 vjet para Krishtit, në Kulturën e Varreve Gandhara në Pakistanin verior, dhe vetëm në përmasa të kufizuara (49). Interpretimi se kjo prejardhje mund të identifikohet me shpërndarjen e parë indo-iraniane në Azinë Jugore (49) nuk është drejtpërdrejt i pajtueshëm me datën tonë të mëparshme për ndarjen e indo-iraniane nga pjesa tjetër e indo-evropiane (~6980 vjet para Krishtit). Gjithashtu zbulojmë se gjuhët indiane dhe iranike ishin divergjuar nga njëra-tjetra tashmë rreth 5520 vjet para Krishtit (4540 deri në 6800 vjet para Krishtit). Për ta pajtuar këtë me një origjinë stepe do të duhej një skenar alternativ në të cilin gjuhët indike dhe iranike u ndanë nga njëra-tjetra afërsisht dy mijëvjeçarë para se të hynin në Azinë Jugore dhe Azinë Perëndimore.

Analiza jonë tregon se familja indo-evropiane filloi me një seri ngjarjesh të mëdha degëzimi në një vazhdimësi relativisht të shpejtë. Nga ~8120 vjet para Krishtit (6740 deri në 9610 vjet para Krishtit) deri në 6140 vjet para Krishtit (4540 deri në 7880 vjet para Krishtit), indo-evropiania ishte ndarë në shtatë degë (shih Tabelën 1 dhe fig. S6.1), shumë kohë para se prejardhja „stepë“ të përhapej në Evropë dhe Altai. Këto shtatë përfshijnë degët anatoliane, greko-armene dhe indo-iraniane, për të cilat ADN-ja tregon pak ose aspak fluks gjenetik nga stepa në ~5300 deri në 4900 vjet para Krishtit – domethënë, në thellësi kohore mjaftueshëm të hershme për t’u përputhur me kohët e ndarjes së vlerësuara nga ne. Megjithatë, ADN-ja e lashtë tregon një përhapje të prejardhjes CHG/iraniane në drejtim të kundërt, nga jugu i Kaukazit në stepë në ~7000 deri në 6200 vjet para Krishtit. (48), e cila krijoi përzierjen diagnostike „stepë“ të prejardhjeve që më vonë do të hynin edhe në Evropë, ~5000 deri në 4500 vjet para Krishtit. Ky komponent CHG/Iranian gjendet së pari në jug të Kaukazit, duke përfshirë harkun verior deri në verilindje të Gjysmëhënës Pjellore, midis fermerëve të hershëm në shpatet e Maleve Zagros në Iranin perëndimor (47). I njëjti komponent i prejardhjes CHG/Iraniane (48) përzihet gjithashtu shumë (deri në ~5000 vjet para Krishtit) (22, 23) në rajonin ku dokumentohen për herë të parë gjuhët e degës anatoliane. CHG/Iraniane është prejardhja dominuese në Armeninë dhe Iranin e lashtë, në BMAC, dhe në shumicën e popullatave të sotme që flasin gjuhë të degës iraniane. Është gjithashtu një komponent i madh i prejardhjes midis folësve të degës indiane, veçanërisht në rajonet më të largëta nga jugu i Indisë që flet dravidianisht (domethënë, jo-indo-evropianisht). Kështu, është komponenti i prejardhjes CHG/iraniane që lidh më fort popullatat e kaluara që potencialisht flisnin degët e indo-evropiane në Evropë dhe në jug (dhe në lindje) të Kaukazit. Vlerësimet tona të mëparshme të datës për ndarjen e indo-iranishtes nga gjuhët e tjera indo-evropiane (49, 52) janë në përputhje me këtë skenar.

(Pason nje tabele me tekstin e meposhtem:) Tabela 1. Thellësitë kohore të vlerësuara të 12 kladeve kryesore të mirë-dëshmuara të kladeve indo-evropiane dhe të rendit më të lartë me mbështetje të probabilitetit të lartë të mëvonshëm. Të gjitha vlerësimet e datave jepen në vite para së tashmes, që do të thotë para vitit 2000 të erës sonë. Datat e „thellësisë kohore si kladë e pavarur“ për [Balto-Sllave] + [Italike + Gjermane + Kelte], Indo-Iranike, Greko-Armene, Anadollike, Tokariane dhe Shqipe janë thjesht treguese, bazuar në ndarje me <50% mbështetje të mëvonshme. Vlerësimet e datave të paraqitura janë vlerat height_median dhe height_95%_HPD në skedarin e pemës MCC; shih gjithashtu fig. S6.1.

Së bashku, rezultatet tona gjuhësore dhe të dhënat e ADN-së së a-së nuk janë plotësisht të pajtueshme as me hipotezën e Stepës (Fig. 1B) dhe as me hipotezën e bujqësisë (Fig. 1C). Në vend të kësaj, ne propozojmë një hipotezë hibride (Fig. 1D) në të cilën gjuhët indo-evropiane përhapen nga një atdhe fillestar në jug të Kaukazit, në Gjysmëhënën Pjellore veriore (Kutia 3). Vetëm një degë kryesore u përhap në veri në stepë dhe më pas në pjesën më të madhe të Evropës. Ky propozim përputhet me pjesë të një hipoteze alternative ekzistuese të „Kaukazit Jugor“ (53-55), por topologjia e pemës ndryshon. Fazat e para të migrimit janë dukshëm më të hershme, dhe migrimi kryesor në stepë ndjek një rrugë të ndryshme, përmes Kaukazit dhe jo përmes Azisë Qendrore. Çështja kryesore është se në jug të Kaukazit është vendi ku ADN-ja e a-së lokalizon për herë të parë të vetmin komponent të prejardhjes që gjendet në përmasa të larta në popullatat (të kaluara dhe të tashme) të shoqëruara si me degët indo-iraniane ashtu edhe me degët kryesore evropiane të indo-evropiane. Kjo prejardhje gjenetike u shfaq gjithashtu në Evropën Juglindore gjatë Epokës së Vonë të Kalkolitit/Epokës së Hershme të Bronzit dhe i parapriu përhapjes së prejardhjes „stepë“. (Degët Paleo-Ballkanike të Indo-Europianes fliteshin më parë në këtë rajon, por shumë pak të dhëna kanë mbijetuar për t’i përfshirë ato në të dhënat tona.) Hipoteza jonë hibride pohon se nga ky atdhe në jug të Kaukazit, nga ~8120 vjet para Krishtit, PIE filloi të divergjonte ndërsa migrimet e hershme e ndanë atë në degë të shumta të hershme. Njëra nga këto degë mund të ketë çuar indo-iranishten drejt lindjes shumë më herët sesa supozon hipoteza e Stepës, por në përputhje me kronologjinë gjuhësore në Fig. 3, në të cilën indo-iranishteja doli si një degë e dallueshme në fazat e hershme të divergjencës indo-Europiane. Një degë tjetër kryesore arriti në stepë direkt në veri përmes Kaukazit ~7000 deri në 6500 vjet para Krishtit, në përputhje me një interpretim aktual të të dhënave të ADN-së (48). Stepa u bë një atdhe dytësor për zgjerimet e mëvonshme të lidhura me Yamnaya-n dhe Corded Ware në pjesë të Evropës dhe Azisë veri-qendrore.
Rezultatet tona nuk identifikojnë drejtpërdrejt se me cilën rrugë u përhap indo-iraniane në drejtim të lindjes, kështu që mbetet e mundur që kjo degë u përhap nëpër stepë dhe Azinë Qendrore, duke u rrotulluar në veri rreth Detit Kaspik (Fig. 1D). Interpretimet e fundit të ADN-së argumentojnë për këtë (49, 52), por disa aspekte të skenarit të tyre nuk janë të lehta për t’u pajtuar me gjetjet tona gjuhësore. Për shembull, indo-iraniane është një degë e hershme e pavarur në analizat tona, pa lidhje të ngushtë me balto-sllave (shih Kutinë 1 dhe seksionin 7.6.2.1 të SM), kështu që argumenti në favor të një rruge veriore bie poshtë. Gjenetikisht, prejardhja e folësve indo-iraniane gjithashtu rrjedh shumë më tepër nga jugu i Kaukazit dhe nga Irani neolitik sesa nga stepa e Epokës së Bronzit (16) (shih Kutinë 2). Interpretimet e mëparshme të ADN-së nga një individ nga Periferia e Indusit kërkonin të përjashtonin një rrugë të drejtpërdrejtë drejt lindjes në bazë të shkallës dhe kohës së përzierjes anatoliane (49, 52), por këto janë zëvendësuar nga përsosjet metodologjike dhe analitike, të cilat nuk e përjashtojnë më plotësisht këtë skenar (56). Më kursimtare gjeografikisht, të paktën, do të ishte një rrugë për indo-iraniane direkt drejt lindjes nga një atdhe i Kaukazit Jugor përmes Rrafshnaltës Iraniane, në jug të Kaspikut (Fig. 1D).
ADN-ja e lashtë ofron prova të zgjerimeve të popullsisë në të kaluarën në të njëjtat kontekste të gjera në kohë dhe hapësirë ​​që panë gjuhët indo-evropiane të divergjonin dhe përhapeshin. Këto të dhëna të ADN-së së vjetër sugjerojnë se stepa luajti një rol të madh në përhapjen e disa prej degëve evropiane, por ato gjithashtu konfirmojnë se (të paktën) dega anatoliane nuk e ka origjinën atje. Kjo kështu tregon një atdhe përfundimtar për familjen indo-evropiane në jug të Kaukazit (23). Pyetja e qartë e mbetur është nëse të gjitha degët përveç anatoliane erdhën nga stepa, apo vetëm disa. Për disa degë, zgjerimet e popullsisë në të kaluarën dhe ngjarjet e përzierjes së zbuluara në ADN, dhe të hipotezuara se kanë përhapur ato forma të indo-evropiane, kishin vetëm ndikim të kufizuar gjenetik. Analizat tona filogjenetike bajesiane tregojnë se ato zgjerime të popullsisë kandidate datojnë gjithashtu pas divergjencave gjuhësore. ADN-ja e lashtë dhe filogjenetika gjuhësore kombinohen kështu për të sugjeruar se zgjidhja e enigmës 200-vjeçare indo-evropiane qëndron në një hibrid të hipotezave të bujqësisë dhe të stepës.

Përmbledhje e metodave : Metodologjia gjuhësore : Baza e të dhënave IE-CoR ruan të dhëna mbi marrëdhëniet e ngjashme (origjina e përbashkët e fjalëve) midis 161 gjuhëve indo-evropiane, në një grup referimi prej 170 kuptimesh themelore. Në këto gjuhë dhe kuptime, IE-CoR ka gjithsej 25,918 hyrje individuale leksemash. Këto leksema analizohen në 5013 grupe të ngjashme. Të dhënat gjuhësore dhe citimet mbështetëse mund të eksplorohen dhe shkarkohen në iecor.clld.org.
Bazat e të dhënave të përdorura në analizat e mëparshme filogjenetike janë dëmtuar nga një sërë mangësish të identifikueshme. Për t’i zgjidhur këto, IE-CoR prezanton një sërë inovacionesh në metodologjinë e dizajnit të bazës së të dhënave, mbledhjen e të dhënave dhe kodimin e të dhënave gjuhësore, si për transmetimin vertikal (të ngjashëm) ashtu edhe për atë horizontal (fjalë të huazuara). Së pari, në mbulimin e taksave gjuhësore, marrja e mostrave IE-CoR ofron mbulim më të dendur të familjes indo-evropiane: 161 gjuhë, në krahasim me 24 (51), 84 (57), 87 (10), 103 (11) dhe 52, 82 ose 94 (12) gjuhë në bazat e të dhënave të mëparshme [për një tabelë krahasuese, shih tabelën 1 në (27)]. Marrja e mostrave është gjithashtu më e balancuar në të gjitha degët kryesore të familjes indo-evropiane dhe plotëson boshllëqet në mbulimin gjeografik të bazave të të dhënave të mëparshme. IE-CoR tani mbulon, për shembull, gjuhët iranike të zhdukura të stepës dhe Azisë Qendrore, degën nuristane të gjuhëve indo-iraniane dhe galishten si një përfaqësuese të keltishtes kontinentale të lashtë. Mbulimi gjithashtu i jep përparësi gjuhëve jomoderne (52 në IE-CoR), për të ofruar sinjal më të thellë filogjenetik dhe një gamë më të plotë pikash kalibrimi për vlerësimin kronologjik.
Të dhënat gjuhësore në bazat e të dhënave të mëparshme kodoheshin në thelb nga një gjuhëtar i vetëm (51, 57) dhe janë kritikuar për cilësi të dobët të të dhënave (58). IE-CoR koordinoi më shumë se 80 specialistë në gjuhët dhe degët përkatëse. Metodologjia e bazës së të dhënave të kaluara çoi gjithashtu në kodimin e grupeve të të dhënave në mënyrë jokonsistente. Në veçanti, disa gjuhë kodoheshin me një përhapje të hyrjeve leksematike sinonimike. Kjo krijoi pabarazi të mëdha në numrin e grupeve të ngjashme të pranishme për gjuhë (fig. S1). Këto pabarazi mund të shtrembërojnë vlerësimet e gjatësive të degëve, shkallëve të evolucionit dhe kronologjisë në rezultatet filogjenetike (27) (seksioni 1.4 i SM). IE-CoR zbaton një limit të rreptë dhe të ulët tolerance prej 5% për sinonimet e shumëfishta, si dhe një metodologji të re për të minimizuar hapësirën për mospërputhje të të dhënave në të gjithë koduesit, gjuhët dhe kuptimet. Procedurat e kodimit të të dhënave ndjekin protokolle të reja eksplicite të konsistencës si për përcaktimin e leksemës në secilën gjuhë ashtu edhe për përcaktimin e ngjashme midis gjuhëve. Seti IE-CoR prej 170 kuptimesh referuese u optimizua vetë, së pari duke iu referuar analizave sasiore të stabilitetit në mbarë botën dhe huazueshmërisë së kuptimeve leksikore (59), dhe së dyti duke aplikuar të njëjtat protokolle konsistence IE-CoR për të sistematizuar (ri)përkufizimet e të gjitha kuptimeve, për të dhënë një specifikim më të ngushtë dhe më të qartë të kuptimit të saktë të synuar të secilës. Së fundmi, fjalët e huazuara janë raste të transmetimit horizontal midis gjuhëve dhe kështu një ngatërrim i mundshëm për analizat filogjenetike. IE-CoR prezanton një metodologji për të adresuar mangësitë në mënyrën se si grupet e të dhënave të mëparshme i kanë analizuar fjalët e huazuara. Në veçanti, strukturat e reja të të dhënave dallojnë pasojat e ndryshme, për analizën filogjenetike, kur ngjarjet e huazimit ose krijojnë grupe të pavarura të ngjashme të tyre ose nxisin ndryshime paralele nëpër gjuhë të shumta, tashmë divergjente. Kjo metodologji e bazës së të dhënave paraqitet e plotë në shtojcë (seksioni 3 i SM).

Analiza filogjenetike : Ne përdorim inferencën filogjenetike Bayesian (60) për të vlerësuar moshat e rrënjëve dhe sa gjuhë të lashta janë „paraardhëse të mostrës“ (domethënë, drejtpërdrejt paraardhëse të atyre moderne). Për detaje mbi metodën, shihni (61). Detajet specifike për zbatimin në të dhënat e ngjashme mund të gjenden në materialet plotësuese të punimeve të mëparshme analoge (11, 62). Analizat e mëparshme filogjenetike të të dhënave të ngjashme kanë supozuar se asnjë gjuhë në grupin e të dhënave nuk ishte drejtpërdrejt paraardhëse e ndonjë gjuhe tjetër (10, 11, 63). Duke imponuar supozimin e kundërt – se shumë gjuhë të lashta ishin drejtpërdrejt paraardhëse – ktheu vlerësime rrënjësore dukshëm të ndryshme (12), si dhe vlerësime të pambështetshme të moshës së kladës në raste historike të njohura. Në këtë studim, ne përdorëm një metodë që përdor propozime kërcimi të kthyeshëm gjatë rrjedhës së zinxhirit Markov Monte Karlo, duke lejuar që gjuhët e lashta të kalojnë nga të qenit paraardhëse në jo-paraardhëse dhe anasjelltas (25). Në këtë qasje, probabiliteti i pasmë që një gjuhë e lashtë është paraardhëse është përqindja e mostrës së pasme në të cilën ajo është paraardhëse. Përpjesëtimi aktual nuk përputhet domosdoshmërisht me supozimin se është ose zero (10, 11, 63) ose 1.
Pas punës së mëparshme (11, 62, 63), ne përdorëm modelin kovarion (64) si një model zëvendësimi dhe një orë të relaksuar të pakorreluar me një shpërndarje normale logaritmike (26). Ne përdorëm marrjen e mostrave të shtegut (41) në një gamë konfigurimesh për modelin e zëvendësimit dhe morëm përshtatjen më të mirë kur 170 kuptimet IE-CoR u grupuan nga numri i grupeve të ngjashme për kuptim, dhe secili grup ishte i lidhur me një shkallë të ndryshme mutacioni (fig. S5.3). Pema paraprake u parametrizua nga kuotienti i një shkalle diversifikimi dhe një shkalle zhdukjeje, vetë shkalla e zhdukjes, një proporcion mostrimi me kalimin e kohës dhe një probabilitet mostrimi në momentin aktual (12). Së bashku, këta parametra nxisin procesin që gjeneron pemën, duke çuar në pemë më të vjetra ose më të reja, dhe më shumë ose më pak paraardhës të marrë mostra. Ne supozuam se shkalla e diversifikimit γ dhe shkalla e zhdukjes Δ janë të të njëjtit rend madhësie (shpërndarje paraprake normale logaritmike me mesatare 0 dhe devijim standard 1 të aplikuar në kuotientin γ/Δ). Ne aplikuam një shpërndarje paraprake shumë konservatore Exp(0.2) mbi shkallën e zhdukjes, e cila përkthehet në një kohë mesatare deri në zhdukjen e linjës prej 5000 vjetësh.
Për të vlerësuar përqindjen e marrjes së mostrave, duhet të merren në konsideratë tre periudha kohore: koha para 4400 vjetësh para Krishtit, kur nuk merren mostra gjuhësh të lashta, ku përqindja e marrjes së mostrave është zero; koha pas gjuhës më të re jomoderne, pas së cilës përqindja e marrjes së mostrave është gjithashtu zero; dhe koha midis këtyre dy kufijve, kur gjuhët e lashta u morën me të vërtetë si mostra. Ky „përqindje e marrjes së mostrave të lashta“ është i kufizuar nga një shpërndarje paraprake uniforme joinformative midis 0 dhe 1. Probabiliteti i marrjes së mostrave aktualisht (çfarë proporcioni i të gjitha gjuhëve bashkëkohore mbulohet në të vërtetë në bazën e të dhënave IE-CoR) është i kufizuar nga një shpërndarje informative beta ([109,400]), e cila supozon se gjuhët moderne në të dhënat tona janë një nëngrup i rreth 400 deri në 600 gjuhëve bashkëkohore indo-evropiane. Ne gjithashtu supozuam se origjina – fillimi i degës mbi rrënjën e pemës – nuk i kalon 10,000 vjet para Krishtit, si një kufi i sipërm në fillimin e divergjencës midis gjuhëve indo-evropiane.

Falënderime : Baza e të dhënave IE-CoR u zhvillua si një ndërmarrje bashkëpunuese nga një konsorcium kontribuesish të cilët ofruan të dhëna gjuhësore duke bërë përcaktime leksemash për gjuhë individuale dhe/ose përcaktime konjaku midis gjuhëve. Falënderojmë të gjithë kontribuesit në bazën e të dhënave IE-CoR. Shumica dërrmuese e përcaktimeve të konjakut në nivelin indo-evropian të gjerë dhe të thellë u bënë nga M.Sc., me kontribute të konsiderueshme nga B.I., R.P. dhe C.F. Përcaktimet e konjakut brenda degëve specifike të indo-evropiane u bënë kryesisht nga L.J. (sllavisht), M.Sc. (greqisht dhe italikisht i lashtë), M.J.K. (kryesisht iranisht), T.J. (iranikisht), C.A. (kryesisht keltisht), H.L. (indikisht hindu-kushisht), R.F.S. (nuristanisht), R.P. (indikisht), G.H. (iranikisht), R.T. (indikisht), U. Geupel (shqiptar), M.M. (armenisht), R.I.K. (tokarisht), A. Falileyev (keltisht), E.A. (iranisht), T.P. (baltikisht), O.B. (osetisht), T.K.D.-F. (gjermanisht) dhe M.B. (gjermanisht). Kontribues të tjerë që bënë përcaktime leksemash për gjuhë të shumëfishta në një degë të caktuar janë: M.Se. (anatolianisht), N.L. (helenishtja moderne), K.Sc. (romanishtja), B.I. (keltishtja), N. Williams (kornualisht), M. Findell (gjermanisht), S. Loi (sardinisht), P. Markus (indikisht), G.K.G. (indikisht), R.P. (indikisht), N. Sims-Williams (iranikisht), R. Izadifar (iranisht) dhe S. Adibifar (iranisht). Në disa raste, një ekspert gjuhësor bëri përcaktime leksemash për një gjuhë të vetme (të renditura sipas rendit alfabetik sipas mbiemrit): G. Abete, P. Atanasov, E. Baiwir, M.-R. Bastardas, A. Benkato, L. Bevevino, G. Cadorini, L. Cheveau, C. Christodoulou, M. de Vaan, J. Delorme, S. Dworkin, C.F., M. Gheitasi, H. Hammarström, S. Hewitt, A. A. Khan, M. K., L. K. Khan, Lushaj, P. Mahmoudveysi, M. Mahommadirad, S. Mersch, J. Mock, B. Moustafa, F. Nemati, M. Nourzaei, P. Ó Muircheartaigh, M. Ourang, H. Pagan, T. Palmer, K. Rehman, G. Rhys, M.Stemanens, M.Stemanens Talebi, S. Tittel, A. Verkerk, A. Versloot, P. Videsott, N. Vuletić, M. Widmer dhe A. Zeini. Struktura bazë e bazës së të dhënave relacionale për IE-CoR u trashëgua nga sistemi LexDB dhe faqja e internetit IELex e zhvilluar nga M. Dunn. Seti i të dhënave IE-CoR u prodhua duke përdorur një sistem krijimi të bazës së të dhënave të programuar nga J. Runge dhe H.-J. Bibiko, për të futur dhe analizuar të dhëna gjuhësore, për të kryer përcaktimin e të dhënave të ngjashme dhe për të eksportuar skedarë lidhjesh dhe kalibrimi. Faqja e internetit e vizualizimit të bazës së të dhënave IE-CoR në https://iecor.clld.org u programua kryesisht nga H.-J. Bibiko, brenda kornizës së të Dhënave të Lidhura Ndër-Gjuhësore (CLLD) të zhvilluar nga R. Forkel. Falënderojmë A. Gavryushkina për këshillat mbi probabilitetet paraprake të paraardhësve të marrë në mostër dhe kufizimet e prejardhjes. Falënderojmë M. O’Reilly për përgatitjen e figurave. Së fundmi, falënderojmë A. Garrett dhe W. Chang në Departamentin e Gjuhësisë, Universiteti i Kalifornisë, Berkeley, për komentet dhe diskutimet e gjera të këtij hulumtimi.

Financimi: Ky hulumtim u financua nga Departamenti i Evolucionit Gjuhësor dhe Kulturor në Institutin Max Planck për Antropologji Evolucionare (Leipzig, Gjermani). Nga 11 shtatori 2021 deri më 10 shtator 2022, P.H. u financua nga Granti Fillestar “Valët” i ERC (ERC758967). E.A. dhe G.H. u financuan pjesërisht nga një Bursë Kërkimore Alexander von Humboldt për Hulumtues me Përvojë (2016-2018, granti Nr. 3.1-CAN-1164714-HFST-E). E.A. u financua gjithashtu pjesërisht nga një Grant Zhvillimi Insight i Këshillit të Kërkimit të Shkencave Sociale dhe Humane të Kanadasë (SSHRC) (2015-2017, granti Nr. 430-2015-00031).

Kontributet e autorëve: R.D.G. inicioi dhe koordinoi studimin. P.H. dhe C.A. hartuan bazën e të dhënave IE-CoR dhe metodologjinë e mbledhjes së të dhënave dhe koordinuan ekipin e kodimit gjuhësor. M.Sc. mbikëqyri të gjitha përcaktimet e konjakut në nivelin e thellë indo-evropian. C.A., M.Sc., L.J., M.J.K., T.J., B.I., R.P., H.L., R.F.S., G.H., M.M., R.I.K., E.A., T.P., O.B., T.K.D.-F., M.B., C.F., R.T., M.Se., N.L., K.St., K.Sc. dhe G.K.G. ishin kontribuesit kryesorë në 25,918 leksemat dhe 5013 përcaktimet e ngjashme në bazën e të dhënave IE-CoR. R.B., B.K., S.J.G. dhe D.K. kryen analizat filogjenetike, me kontributin e R.D.G., Q.D.A., P.H. dhe C.A. W.H. dhe J.K. dhanë këshilla mbi të dhënat e aADN-së. P.H., R.D.G., D.K., B.K. dhe C.A. shkruan tekstin. Të gjithë autorët komentuan mbi dorëshkrimin.

Interesa konkurruese: Të gjithë autorët deklarojnë se nuk kanë interesa konkurruese.

Disponueshmëria e të dhënave dhe materialeve: Seti i plotë i të dhënave të ngjashme me IE-CoR për gjuhët indo-evropiane të përdorura në këtë punim mund të shihet dhe eksplorohet përmes aplikacionit tonë të bazës së të dhënave në https://iecor.clld.org. Seti i plotë i të dhënave CLDF i IE-CoR 1.0 mund të shkarkohet falas në https://doi.org/10.5281/zenodo.8089434 (72). Skedarët e të dhënave .nexus dhe .xml të përdorur si të dhëna hyrëse për secilën nga analizat filogjenetike janë të disponueshme brenda skedarëve plotësues të të dhënave dhe rezultateve, të cilët janë të disponueshëm në internet në https://share.eva.mpg.de/index.php/s/E4Am2bbBA3qLngC dhe në https://doi.org/10.5281/zenodo.8147476 (73) – shih Udhëzuesin për të Dhënat Plotësuese dhe Skedarët e Rezultateve dhe Burimet Online në skedarin .pdf në materialet plotësuese. Detaje të mëtejshme se si të riprodhohen rezultatet tona jepen në seksionin 5.5 të materialeve plotësuese, mbi rrjedhën nga tabelat e të dhënave të papërpunuara IE-CoR te rezultatet filogjenetike të raportuara këtu. Nga tabelat e të dhënave të papërpunuara IE-CoR, së pari eksportuam një skedar të dhënash në formatin nexus të kërkuar si input në softuerin e analizës sasiore dhe filogjenetike të përdorur gjerësisht. Kjo u bë duke përdorur skriptin e eksportit [make_nexus.py], të shkruar nga H.-J. Bibiko dhe të disponueshëm në: https://github.com/lexibank/iecor/blob/master/iecorcommands/make_nexus.py. Softueri i analizës filogjenetike Bayesian i përdorur në këtë punim, versioni 2.6.5 BEAST, është i disponueshëm në http://www.beast2.org. Një kod tjetër specifik i përdorur është paketa BEAST2 sampled-ancestors, e disponueshme në https://github.com/CompEvol/sampled-ancestors. Analiza e ndjeshmërisë SA7 përdori kodin shtesë AncestryConstraint.java të shkruar nga D.K., i disponueshëm në https://github.com/CompEvol/sampled-ancestors/blob/master/src/sa/evolution/tree/AncestryConstraint.java. Analiza e ndjeshmërisë SA10 përdori një paketë shtesë BEAST2 të shkruar nga B.K. për të zbatuar një model shumëgjendjesh, kodi për të cilin është i disponueshëm në https://github.com/king-ben/ConceptModels. Skedarët hyrës .xml përfshijnë matricën e të dhënave të bashkësisë gjuhësore të koduara në mënyrë binare, kalibrimet e datave, konfigurimin e shpërndarjeve paraprake dhe farat e rastësishme të përdorura në analiza. Gjithashtu të disponueshme në skedarët plotësues të të dhënave dhe rezultateve janë skedarët e regjistrit për të gjitha ekzekutimet e analizave dhe shpërndarjet pasuese të pemës që rezultojnë. Për detaje të plota, shihni skedarin .pdf të Udhëzuesit për të Dhënat Plotësuese dhe Skedarët e Rezultateve dhe Burimet Online në materialet plotësuese.

Informacion mbi licencën: Të drejtat e autorit © 2023 autorët, disa të drejta të rezervuara; licencues ekskluziv Shoqata Amerikane për Avancimin e Shkencës. Nuk ka pretendime për veprat origjinale të qeverisë amerikane. https://www.science.org/about/science-licenses-journal-article-reuse

*****************

(Ky artikull ka dhe materiale suplementare, qe i gjeni pasi te shkoni tek: ie-CoR-home, aty keni edhe materiale te tjera, si ai nga Paul Hegerty.) Ne ditet pasuese do te shikoj si mund te hedh edhe figurat ketu, ndonese nje prej e tyre, ate kryesoren, e gjeni edhe ne gazetat shqiptare. 30.12.2025