首頁 >> 語言學
論語言演化研究中的語言要素量化比較法
2020年01月21日 16:37 來源:《外語教學與研究》2019年第3期 作者:李艷 字號

內容摘要:

關鍵詞:

作者簡介:

  內容提要:語言演化研究離不開方法論,最基本的方法論是主要圍繞語言各個要素(主要是詞匯)的量化比較。最初是(人工)比較法,后來發展了詞匯統計學(統計比較法)、概率模型(概率比較法)、計算機技術(工具)和生物學方法(借用),再到量化方法(量化的相似性比較法),而現代方法論已經超出了歷史語言學范圍,跨越到人類語言相似比的統計分析。

  關 鍵 詞:比較法;詞匯統計學;概率統計方法;計算機技術;生物學方法

  作者簡介:李艷,陜西師范大學外國語學院。

  基金項目:本文受到國家社科基金項目“歷史語言學理論(1960-2010)”(16BYY001)資助。

 

  歷史上首次發表的量化各種語言歷史關系的研究可能是Sapir(1916)。Kroeber & Chretien(1937)使用了74種形態和語音特征調查了9種印歐語言(1939年包括了赫梯語)。Swadesh(1952)使用詞匯表,提出了詞匯統計學方法和語言年代學方法。Embleton(1986)擴展了語言年代學方法。Dyen et al.(1992)使用詞匯統計學方法展開了印歐語言大型數據庫研究。但以上這些都不能算作真正的量化。后來的學者使用計算機操作,采用基于數據庫的歷史比較法,如20世紀90年代中期賓夕法利亞大學學者使用的20種古印歐語言數據庫(Ringe et al.2002)。隨著生物學領域一些軟件的開發,基于譜系樹模式的數據分析法應運而生。1999年8月舉行了“歷史語言學的時間深度”會議,討論了許多量化方法的使用(Renfrew et al.2000)。Nakhleh et al.(2005)收集了大量可靠的語言特征,包括詞匯、語音和形態特征等來比較不同方法對印歐語譜系樹產生的效果。方法的可靠性還需要進行檢測。語言學的評估方法一般借自生物學領域。評估方法主要根據擬態研究(simulation studies),雖然擬態在語言學領域不是主流方法論,但已經是語言學領域用于評估演化的重要方法,這就是演化語言學的量化研究。如何研究語言演化,語言要素量化比較是關鍵。

  一、Jones首創比較法

  語言分類方法很多,但有一種方法被歷史語言學家奉為金科玉律,它與印歐語譜系樹的建立息息相關,也用于世界上其他語系的研究。該方法已發展了100多年,它就是“比較法”。Harrison(2003:213)把它描述為“語言研究初期必不可少的方法”,“在缺乏書面語的情況下,它是決定語言同源關系的唯一工具”。比較法最初用于探究語言歷史,因此包括兩個不可分割的成分:闡明語言同源關系和構擬原始祖語。

  最早使用該方法的是英國的Jones。Jones(1786)根據動詞詞根和語法形式的相似,宣稱印歐語言存在發生學關系。他制定了一張表格,里面列出梵語、拉丁語、希臘語等語言中表示一些概念和音素的形式,表達相同意義或語法功能的音素在這些語言里形式相似。隨后一個世紀,有關語言演化的研究如火如荼,相應地,比較法也飛速發展,并迎來了歷史比較語言學最輝煌的時期。比較法不是簡單地強調詞匯相似,其特殊之處還在于強調重復出現的語音對應。20世紀下半葉出現了一種方法,與Jones的方法非常相似,即Greenberg(1993)的大規模比較法。他同時比較多種語言,如果相似即可判斷為同源。不過,雖然Jones之后統計學和計算機科學有了很大發展,但Greenberg卻沒有提供任何檢驗的方法。

  比較法獲得了巨大成功,現在依然用于遠距離語言比較。但其局限性也顯而易見,一是并非所有語言材料都適用該方法。句法構擬比音位和形態構擬要麻煩得多,因為我們對句法變化知之甚少,構擬起來就更難。除此之外,還要排除掉一些詞匯項,特別是象聲詞和家庭成員稱呼語。二是原始語的語音實現過于理想化。構擬語言都是理想化的,不同學者會有不同結果。三是借詞問題。如果譜系樹和譜系樹構擬沒有排除掉借詞,那就可能是過度構擬(over-reconstruct)。四是比較法本質上只局限于一定的時間深度(time-depth),如同Harrison(2003:230)所說,“時間是比較法的父母和敵手:隨時間沒有變化,就沒有任何東西可比;在大量的時間里有大量的變化,就比較不出什么東西”。最后,比較法把語言關系理想化、簡單化了。“比較法既不考慮母語內部存在分歧,也不考慮親屬語言間發生共同的變化,所以只能帶領我們走很有限的一段路程”(布龍菲爾德1980:457)。雖然存在這些局限性,但該方法并非一無是處,局限性只是提醒語言學家們合理使用,避免一些問題的產生。

  二、量化方法的發端:詞匯統計學

  歷史比較語言學領域最早最有名的量化方法并非用于語音和形態句法的比較。雖然詞匯不穩定,詞義變化莫測,但是詞匯統計學方法卻假定有一些概念遍及所有語言,而且人人使用,不易變化。這樣的詞就是跨語言量化比較的最好代表。

  第一次提出此方法的是法裔美國學者Rafinesque(1832),他比較了中美洲語言,隨后Dumont d'Urville(1834)使用同樣的方法比較了大洋洲語言,并假定了一種計算關系系數的方法。一個多世紀后Swadesh(1952)重拾該方法。詞匯統計學就是使用標準的意義量表來測算語言之間的親緣度,但總與語言年代學搞混。年代學只是找到子語從祖語分化的時間。Campbell(1998:177)這樣寫道:

  語言年代學的目的是為了找到祖語分裂為子語的時間,而詞匯統計學……是對詞匯材料的統計操作(不一定與年代有關)。從這個意義上來看,詞匯統計學的范圍更廣。然而,在實際運用中,二者幾乎從來不做區分,經常混用。

  此處使用“意義量表”而非詞匯表,因為后者易引起誤解。詞匯統計學是創建一個大眾認可的測試表,每格表示一個意義,然后比較多種語言中表示該意義的詞。不過難逃主觀性,而且易混入偶然相似詞和借詞,因此詞匯的選定難上加難,“存在一些基本詞匯或核心詞匯,相比其他類型的詞,這類詞不易被替換”(同上:177-178)。因此,Swadesh(1952:455)的限數詞匯統計法可以說在當時解決了一大難題,“找到一個含有200個相對穩定詞匯項的表不難,主要是身體部位詞、數詞、表示簡單自然物和簡單活動等的詞”,“測試表里的詞語必須是普通的非文化詞,即,它們必須是世界上隨處可見并且人人都很熟悉的東西,不僅僅是專家或有知識的人”。

  詞匯統計學比較不是根據表面相似,假若如此,就與大規模比較法相同。它所要比較的詞必須是同源詞。“詞匯統計學……的使用必須是在確定語言有同源關系之后,并且詞語必須是同源詞”(Trask 1996:362)。因此Trask堅決反對使用詞匯統計學來確定同源關系。其實,可以有兩種詞匯統計比較法:一種是未知親屬關系情況下的統計分析;一種是已知親屬關系情況下的統計分析。

  詞匯統計學自問世以來引起了許多學者的關注。他們應用該方法研究世界各地語言,取得了不錯的成績。該方法的領軍人物是Dyen。他使用詞匯統計學方法對南島語言和印歐語言進行分類。還有些學者結合其他同源判斷標準。

  跟其他方法一樣,該方法也有一些不盡如人意的地方:第一,僅僅依靠詞匯是否能夠確定語言之間的同源關系,形態和語音證據是否更能說明問題。第二,該詞匯表是否合適,如Hoijer(1956)認為,沒有哪個詞表是文化上中立的。第三,一個詞在某種語言里有多個意義,而這種多對一的情況在跨語言里比較普遍。意義的選擇就如同同義詞的選擇,主觀性很強。因此很難找到意義完全對等的詞匯。第四,某種語言中的某個詞義在另一種語言里完全沒有對等詞。第五,一些因素如借詞、傳統和禁忌都可能影響語言之間的對應。鑒于此,有學者認為,Swadesh的詞表不可靠。Gudschinsky(1956)甚至懷疑是否有可能找到一個全球通用的詞表。Dixon(1997:35-36)這樣寫道:

  Swadesh(1951)提出了一個神奇的公式來確定“同源”關系。(因此)根本沒必要花上幾十年去編纂語法書和詞典,只要找到系統對應,然后構擬就好。如果只是從大量語言里收集一個100(或是200)的核心詞匯表,然后進行比較,通過注意、觀察,發現有多少詞匯是同源的……這種捷徑絕對行不通。它是建立在不合理的假設基礎之上……在詞匯統計學還沒有完全名譽掃地之前100詞表比較(對于某些人來說)還有一段瘋狂的、幸福的時光。

  因此,找到一個具有說服力的、合理的、科學的方法論,勢在必行。

  三、量化方法的延展:概率統計法的運用

  前面討論過,大規模比較法沒有嚴格的對應,跟詞匯統計學相似,皆以詞匯為基礎,利用詞匯表進行比較。而且大規模比較法沒有比較標準,而詞匯統計學是兩兩語言間的比較。另外大規模比較法和詞匯統計學在詞表設定上似乎一致,只不過大規模比較法詞匯數量更大,難免混入借詞或偶然相似詞。如果所比較的語言歷史不清,更沒辦法確定二者是否同源。這就需要一種科學的方法,概率理論的出現似乎解決了這個問題。已出現了多種以概率為基礎的模式用于評估跨語言匹配的有效性。但有一點要注意,統計學方法就是統計,是對大量詞匯的檢測而非判斷詞語是否同源。

  Collinder(1947)為了證明烏拉爾-阿爾泰語系的存在引用了成員語言的13個相似特征。他認為,13個特征都是偶然相似的概率極小,因此語言之間極有可能存在歷史聯系。Hymes(1956)得出了相似論點,他把特里吉特語與阿薩巴斯坎語聯系起來,計算出它們有相同動詞詞綴順序的概率是1,216,189,440,000:1。Dolgoposky(1986)發現了13個不同概念詞之間的相似,認為這種偶然相似的概率可能是,因此存在一個分布廣闊的西伯利亞-印歐語系。Nichols(1996)使用概率證明了任何有著印歐性別系統的語言就可能是印歐語。概率分析和它所需的語言模型值得關注,但是語言學家對于主要根據概率得到的語言同源關系還是很小心謹慎的。

  Ringe(1992)新創了一種與之稍稍不同的概率法——對應顯著性檢測法。當期望值在0和1之間時,使用統計值是有問題的。只有那些單元格的值超過1,如英語和德語的,才能表明語言間存在真正的發生學關系,而非偶然對應。Ringe接著發明了一種統計學方法分別檢測這些頻繁的匹配。他假定單元格的匹配數可當作一個二項式問題,就如同投擲10分的硬幣,如果設定投中的概率與兩個首音出現頻率一致,就能算出100次“投擲”匹配的概率,如,在英語和德語的比較中,對應的概率可能是p=0.165×0.125=0.0206,而不匹配的概率會是(1-p)=0.9794。匹配結果是r=12,該結果在二項式分布的第99個百分位數(percentile)之外。當Ringe使用真正的語言數據比較美國英語和高地德語時,發現了99個百分位數之上的16個對應,拉丁語和英語99個百分位數之上有7個對應。另一方面,他比較了土耳其語和英語的99個百分位數,有2個對應,接近偶然相似。

  Ringe使用二項式計算匹配的顯著性受到了廣泛批評,主要在于它需要假定不斷匹配的概率,這個假設是不正確的。另外他的方法太嚴格,很難確定印歐語系同源關系的緊密性,更不要說那些還沒確定的關系。Greenberg(1993:89)認為Ringe的方法把簡單的事情復雜化了,難的事情變得不可能了。從某個方面來看他的說法很有道理,因為Ringe偏向于那些極端的結果,忽略了在1%水平上不顯著比較的單元格,不考慮它們結合起來是否表示某種發生學關系。

  以上討論的概率檢測很復雜,它們要么依靠可能有問題的假設背景,要么基于人工數據。基于真實語言的方法似乎遙不可及。而Oswalt(1970)首創的位移測試(shift test)或置換測試(permutation test)來自真實語言。他設置了兩個標準意義列表,列表里的詞相互比較,如比較A語言的詞項1與B語言的詞項2,A的詞項2與B的詞項3,以此類推直至100(即A的詞項100與B的詞項1)。后來Lohr(1999)、Baxter&Ramer(2000)、Kessler(2001)進一步將此法發揚光大。不過這種方法只是烏托邦式的想法,因為不可能把所有的排列都列出來。Kessler(同上:49)這樣說道,“100個詞需要100!個排列(幾乎是)”(100!=100×99×98...×2×1)。可見任務之艱巨。

  雖然如此,Baxter & Ramer(2000)認為,只用33詞測試表的首輔音也有可能證明英語與印地語不只是偶然相似的關系。Kessler(2001)走得更遠,他說只用首輔音就能證明同源和偶然相似的關系。不過他指出,那些關系可能不是由于同源,而是其他原因如借詞造成的。這種相似表明有著共同歷史,但是不管是在測試前還是測試后都需進一步觀察來排除接觸關系。

  置換測試法的使用使得其他類型的語言比較成為可能。如Kessler(同上)假設了一個可能重復出現的指標,試圖建立比較法最核心的語音循環對應。這種重采樣策略(resampling strategy)可用于測試任一指標的顯著性。

  另一種方法任意測試法(arbitrariness testing)來自索緒爾的思想,即聲音和意義是任意的。挑選出來的數據,先計算同行的列,Oswalt(1970)稱之為“總”得分。相同的得分以相同方式計算,但是在行之間,Oswalt(同上)稱之為“背景”分。不管是總得分還是背景分,本身沒有意義,關鍵在于它們之間的關系。準確地說,所有背景分數的比例至少與總分一樣高。這就構成了一種概率,即,如果兩種語言的詞匯沒有歷史關系的話,“總”得分會偶然出現。這個值通常被稱為分析的“顯著性水平”。有兩種計算方法:

  (一)使用循環語音對應。Ross(1950)的相依表從比較法的角度看,有可用數據,也有不可用數據,因此適于任意性測試。在表上做測試,統計數據顯著性標準技術引起了分布,當表格中的大多數數字很低時它就不能給出可靠答案。Villemin(1983)試圖解決這個問題,他對相依表的每個格分別進行測試,認為,如果任意表格有很低的顯著性水平,語言就同源。如果在上百個測試里有一個測試給出了理想的答案,那就證明該假說成立。

  Ringe在一系列論文里努力修正統計數據以避免產生錯誤的結論。他首先計算出相依表里有多少表格在選擇的顯著性水平上,在超幾何分布上有著比期望值更高的數據,其次進行二次顯著性測試,使用二項分布來看有多少統計學上顯著的表格構成統計學上的顯著性表,給定選擇的顯著性水平,作為檢驗的次數,如果形素隨機成對,兩個形素表可能就有平均數量的不同對應。Kessler(2001)使用蒙特卡羅顯著性測試完全簡化了該方法。計算總得分之后,詞語會重新排列,那么詞語就不再根據意義組成對子,而背景分也根據這個重新排列的數據計算出來。如果找到哪個分數的排列有著與總分數一樣高的背景分,那個分數就是顯著性水平。

  (二)使用相似來確定語言關系。Jones和Greenberg使用相似性來判斷語言關系,因為有著相似語音的不同源語言可能有較高的相似的總分數,而經歷多次語音變化的語言可能表面上與親屬語很不相同。隨機檢測補償了類型學方法的缺憾,因為它們被當作背景分數的一部分。Oswalt(1970)首次開發了該類型的運算法則。他使用Swadesh 100基本詞匯表找到討論中的兩種語言的翻譯等價詞,檢測數據,計算匹配次數(匹配表示兩個詞中預先確定的輔音數量與預先確定的發音特征數量彼此相似)。Oswalt計算了總分數后,一行一行地、系統地轉換一種語言的所有翻譯,以得到背景分。他為所有99個轉換計算了背景分。這個過程被Baxter等人做得更直接、更精確,他們把它轉換為真正的蒙特卡羅測試(Baxter & Ramer 2000)。

  很多研究開始調整該方法的參數。Oswalt(1998)做了5次試驗,運用不同的匹配標準來探討諾斯特拉語系各語言之間可能的關系。這樣做說明該方法機動靈活,卻不太容易解釋來自多重部分依賴性測試(multiple partially dependent test)互相矛盾的結果。在另一個變異測試中,Baxter & Ramer(2000)使用不同數據,只考慮詞首輔音,當兩個輔音是Dolgoposky類(Dolgoposky(1986)認為一系列輔音來自共同祖語)的相同成員時,可辨識出一個匹配。Kessler(2007)把Dolgoposky數據與其他六種語言進行比較,發現與其他語言一樣可靠。Kessler & Lehtonen(2006)通過對其他幾個創新進行試驗,包括同時比較多種語言、使用同一種語言的多個同義詞、翻譯相同概念,進一步闡明了蒙特卡羅法的機動靈活性。

  從統計學觀點來看,使用任意性測試法似乎是正確的。但是在使用時總是會出現一些錯誤。造成錯誤的原因主要是借詞、象聲詞及重疊形素的出現。

  四、計算機技術的使用加快了量化比較法的發展

  計算機的出現簡化了運算程序,節省了人力,加速了語言演化的研究,為遠距離語言比較帶來了曙光,同時使當代歷史語言學領域大型數據的比較更加方便可行。語言之間的比較基本上以相似為基礎,從最開始的觀察法,到后來的概率算法,均以詞匯相似為根本。詞匯(音段)統計學依然流行,只不過現階段的研究依托計算機。Oswalt(1970)是最早以相似為基礎使用計算機對語言進行分類的學者。他的方法是成對比較語言,并使用Swadesh 100詞表。他把指令整合進他的計算機程序并詳細說明哪個音位相似。如果一對詞中的某個音位相似,這對詞就相似。1960年Swadesh開發了一個詞匯計算機自動比較項目。該方法把發音相關的音位轉換為機讀符號,以便計算機能計算出語言之間詞匯相似的程度,并首次向墨西哥國立大學的學生展示,1962年又在西雅圖語言學研究所展示。不過該項目從未完成。

  Kessler(2008)利用兩種以上語言的相似,使用計算機化的大規模比較法對Greenberg使用大規模比較法收集的詞匯進行了嚴格的檢測(即顯著性測試)。他試圖計算出第一個輔音發音位置間的距離。首先分離出兩個詞語的詞根首輔音,然后計算出它們間的語音距離;對于全是元音的詞根,就用第一個元音。從廣義上來講,根據與嘴唇前部的相對距離給每兩個音位打分(唇音,0;齒音到硬腭前部音,4;硬腭音,6;軟腭音,9;軟腭后音,10);有兩個發音部位的音,如/w/,給兩個分(0,9)。兩個音位間的區別——繼而兩個詞根間的區別——被認為是這些分數的所有交叉對間的最小絕對差別。如,/j/可得6分,當與/w/比較時|6-9|比|6-0|要小,所以/j/與/w/之間的距離是3。除此之外,如果音位彼此不同要加上半分。首音位置距離比較,旨在尋找音位的模糊近似度。

  如果語言間有發生學關系,它們在大規模比較時可以放在一組,被當作一個單獨的個體。如果超過兩個語組,就采用一種類似最近鄰層次聚類(nearest-neighbor hierarchical clustering)的方法論:對所有兩兩語組之間進行比較,看哪組有緊密發生學關系,就把它們歸為一組。然后重復該過程。具體來說,對于每種語言比較,顯著性在.05水平以上,首先在計算出所有匹配的相異點的基礎上計算出效果強度(magnitude of the effect)(稱為m),然后計算出哪個是偶然的(c),隨后算出比例改善(c-m)/c。使用蒙特卡羅顯著性測試可以計算出偶然相異點c:它只不過是所有數據重排的總相異點測算的平均數。

  依靠這種聚類技術,逐步建立一個語組,它的核心是確定最有可能有發生學關系的項。對那些難以確定同源關系的偏僻地區的語言的認識逐漸變得容易起來。Kessler(2008)還評價了詞匯比較的各種標準,發現印歐語系和烏拉爾語系可構擬但不可能構成超級組合語系(joint super-family)。但是根據基因分析,7000年前的遠古印歐語與烏拉爾語肯定有聯系。

  還有一種與詞匯統計學相似的方法是自動相似性判斷程序(automated similarity judgement program,ASJP),不過相似性判斷由計算機完成,后面緊跟一套連續規則(Brown et al.2008),使用標準進化方法產生(譜系)樹。ASJP使用7個元音符號和34個輔音符號,有各種修飾詞。如果不同詞語中至少兩個連續輔音相同,即可判斷兩個詞相似,元音也考慮在內。兩種語言有著相同意義的詞的比例叫做詞匯相似比例(lexical similarity percentage,LSP),語音相似比例(phonological similarity percentage,PSP)也計算在內。語音相似比例從詞匯相似比例里減掉就得出減掉相似比例(subtracted similarity percentage,SSP)。自動相似性判斷程序距離就是100-SSP。該程序幾分鐘之內為大量成對語言產生減掉相似比例。Brown et al.(2008)為分布全球的245種語言設計了100詞匯表,運用該數據庫,該程序從29,890對語言里比較了大約300萬對詞,產生了29,890個減掉相似比例。該項目的終極目標是比較所有語言,得出100詞表。保守估計,世界上大約6,000種語言里至少有2,500種已經完整記錄下來,因此此類詞表立馬可得。用于2,500種語言的自動相似性判斷程序可能會產生3,125,000個減掉相似比例。截至目前,產生的29,890個減掉相似比例被用作計算機程序的數據庫,該程序原本是為生物學家設計,基于基因數據派生系統發育樹。使用減掉相似比例產生的譜系樹形象地反映了語言的詞匯相似性。樹上相同分支的語言比不同分支的語言在詞匯上更加相似。Brown et al.(同上)比較了該程序樹與專業歷史語言學家對著名的同源語言所做的分類,結果一致。該程序的潛在用途是發現以前沒有發現或者暫時沒有識別的語言關系。此外,還可對語言結構特點自動分析。該程序提供的詞匯自動分析與結構特點一起,已被證明是歷史語言學領域非常強大的調查工具。

  另外一種類似的方法是Nakhleh et al.(2005)發明的,它在Ringe et al.(2002)的基礎上演化而來,增加了印歐語言同源的證據。使用的運算法則采用印歐語言共同創新的發現,需要多年深入研究才能成功。與自動相似性判斷程序不同的是,Nakhleh et al.(2005)的方法不適于現在普通語言分類。

  目前自動相似性判斷程序數據庫里有超過4,500種語言和方言的數據(Brown et al.2008),依靠這些數據可制作世界語言譜系樹,不過譜系樹必須參考基因分析數據。

  Serva & Petroni(2008)把計算機技術與生物學技術結合起來,依靠詞語構建譜系樹,取得了很好的效果。他們通過測算詞語之間的正字法距離(orthographical distance)來判斷語言關系,該方法可避免同源判斷的主觀性。他們使用修改過的Levenshtein距離(或編輯距離)來測算不同語言成對詞之間的距離。兩詞間的基因距離就是被兩個詞中較長的字符串分開的編輯距離。由此,距離可取0和1間的值。Serva和Petroni使用詞對間的距離構建成對語言間的距離,第一步就是找到要構建距離的所有語言有相同意義的詞匯表,然后計算一個語言對里具有相同意義的每對詞的基因距離,最后是把每對語言間的距離解釋為詞對間的平均距離,結果就得到0和1間的數,被認為是兩種語言間的基因距離。該方法決定了需要把一個詞轉換成另一個詞的最小操作次數,由較長詞語長度決定。Serva和Petroni使用規范化的Levenshtein距離構建了1,225個詞項的上三角50×50矩陣,來表示對應50種語言的成對距離。這些基因距離被譯成成對語言之間的時間距離,產生了同等大小的新矩陣。然后使用簡單的系統發育運算法則非加權組平均法技術構建譜系樹。選擇非加權對組方法,使用算術平均數的原因就是因為它與該假說(即語言譜系樹是通過Kingman(1982)類型的合并過程產生的)最為一致。表面上看,該方法確實不錯。但是如何選擇合適的詞對,特別是遇到同一意義有多種表達的情況,是一個大問題。

  五、量化比較法的蔓延:其他領域介入

  Kessler(2008)計算機化的大規模比較法依靠輔音、元音發音位置之間的距離來確定語言的發生學關系,與“語言學距離”(linguistic distance;Heggarty2000)相似。“語言學距離”用來表示兩個語言變體之間相似/相異的程度。在語言任一領域能夠量化語言距離的任一方法都可用作測算那個領域語言隨時間變化的程度:該方法只用于單個語言的不同歷史階段。或者,可把該方法用于同一階段不同的“姊妹”語,以進行自共同祖語以來同源語言的網狀分裂測算。這是詞匯統計學,尤其是語言年代學的任務,只是為了從詞匯比較中得到基本結果——它們本身不過是簡單測算詞匯的語言距離。不過該方法已背離了歷史語言學的研究方向,成為現代人類(對象都是現代人,不是古代人)語言發音的相似度研究。根據被比較的兩個語言變體的時間深度,語音學里的語言距離有兩種方法與時間有關。當用于一種語言不同的歷史階段時(“母語與子語”比較,如拉丁語與現代意大利語),結果可能被當作測量隨時間變化的程度。當用于來自同一來源的共時語言變體時(“子語與子語”比較,如現代意大利語與現代西班牙語),它們可能代表對隨時間分裂的測算。不過測算語言學距離時會遇到以下問題:一是兩種有緊密發生學關系的語言在分化后還有不斷的聯系,導致借詞難以辨識,測出的語言學距離比實際的要近;二是擴散到遙遠地區的語言在受到外語的強烈影響后保留的同源詞比實際的要少很多,測出的距離比實際的要遠。

  Nichols(2006)使用穩定的詞匯場(stable lexical fields),如立場動詞(stance verbs,如sit、lie、stand),研究語言演變,建立遠距離發生學關系,這是基于詞匯場的音義比較法。在尋找遠古同源詞時也考慮會聚和語義演變。目前可以見到關系模式的大致輪廓,研究結果已初現。

  基本立場動詞sit、stand和lie是比較持久的詞匯,這三個詞都在Swadesh100詞表里,stand還出現在Lohr持久保留表里。立場動詞以三種共同的語法變體出現:靜止性(“站,正在站”)、目的性(“站起來;假定站的位置”)、及物性(“放在站立的位置,把某人/某物立在某一位置”)。準同源詞(quasi-cognate)方法就是在這三種意義上尋找可能的同源詞根。

  Nichols(同上)根據哪種語法變體是基本的,哪種是派生的,使用下列名稱來稱呼三種類型的立場動詞系統:基礎-靜態(base-static)、基礎-目的(base-telic)和基礎-及物(base-transitive)。印歐語立場動詞詞匯類型經常發生轉移,有三個階段,成S狀曲線。即:逐漸形成、短期快速增長、逐漸掃尾。第一階段,一個詞語在長時間里偶爾有詞匯替換,但是由于某種原因,與新的詞匯類型一致的派生形態或形態句法逐漸起主導作用。新的詞匯派生方法出現的地方可被認為是標記類型轉換的入口或轉折點。事實上,轉換并非瞬間發生,而是快速增長的S曲線的中間部分。一旦新類型到位,確定了詞匯相關部分的詞匯信息和派生,又一輪詞匯替換開始了,新的派生模式逐漸形成。即,在變化末端的掃尾期,該系統的其他地方還有無數相似的變化。

  Nichols(同上)把準同源詞初步用于立場動詞詞匯領域,通過輔音相似和詞匯類型方面的比較,認為印歐語(不包括羅曼語)似乎應與烏拉爾語歸為一組。雖然7種語言的3個準同源詞還沒檢驗,但該方法確實可行。它不僅使用準同源詞而且還使用每種語言的詞匯場結構、派生形態的類型學信息等。詞匯都是立場動詞,來自不同的語義場。該方法不僅比較準同源詞,還評估權重同源概似因子,增加減少類似時間深度的因子。

  使用語言要素(主要是詞匯)相似為基礎的量化比較法來研究語言演化大都出現在21世紀,面對浩如煙海的證據,概率方法的引入保證了證據和結果的可靠性,計算機的使用是方法論發生革命的關鍵,計算機簡化了運算程序,特別是面對蜂擁而至的大規模語言數據,光靠人力是難以勝任的。后來的學者把生物學技術引入發生學關系的研究,加強了證據的可信度,這些都推動了語言演化研究,加快了歷史比較語言學的發展。

  歷史語言關系研究可以距今7000年為界。此后,有語言文獻(最早的距今最多5000年)的資料(包括推導),最多可上推2000年;而無任何語言文獻的資料(包括推導),只有人體化石可以模擬發音狀況。實際上,只有根據基因、化石和文化遺存等資料,才能勾畫人類早期語言遷徙的大致路線。

  如何勾畫路線,確定語言演化路徑是關鍵。如何確定路徑,找到合適的方法是關鍵。本文討論了一些以語言因素相似的量化比較法,對語言演化研究、數據分析很有效果。當然,這些方法還需進一步改進。對于詞匯比較工作,則需更多詞匯,更多匹配。如果把眼光投向語言演化方面就會發現,所有這些方法都會產出一些需進一步解釋的數據和形式。計算機程序的使用提高了效率。在語言學的其他量化領域,如社會語言學和數據庫語言學,數字的獲得只是一個方面,它們的用途才是真正要考慮的。不過數字本身可說明假說的可靠性,同時也會顯示肉眼看不見的區別。

  現在歷史語言學家已有了大量可自行支配的量化方法和計算機方法來處理語言分類、語言接觸和語言變化。在某種程度上這些方法有助于更好地處理復雜的語言情況。在基于相似的分析中,未確定的或者誤用的借詞似乎提供了某種信號,據此可找到檢測由接觸導致變化的方法,除非不能確定是否發生過接觸。換言之,不僅要探討證明語言親緣關系的新方法,還要探討如何重構形成這種關系的最可能的歷史的新方法。再者,當面對同一種語言的方言或有緊密發生學關系的語言時,量化方法有助于計算變體之間的相對距離,確定哪些特征造成了這種距離。

  目前尋找合適的檢測方法仍然有一大段路要走。大多數程序原本開發出來是用于其他領域的,但是現在卻用于語言數據分析。已經有了好幾種收集或解碼數據的方法,但很少得到大眾認可,而且沒有哪種是無懈可擊的。使用這些方法的例子越多,提供的信息就越多,也就越有說服力。數據不需要總是來自真實的語言,有時計算機模擬已足夠。這些結果還可用于歷史語言學與相關學科的合作,實現“新的合成”(new synthesis),語言數據還有助于了解人類歷史。

  原文參考文獻:

  [1]Baxter,W.& A.Ramer.2000.Beyond lumping and spliting:Probabilistic issues in historical linguistics[A].In C.Renfrew et al.(eds.).2000.167-188.

  [2]Brown,C.,E.Holman,S.Wichmann & V.Velupillai.2008.Automated classification of the world's languages:A description of the method and preliminary results[J].STUF-Language Typology and Universals 61:285-308.

  [3]Campbell,L.1998.Historical Linguistics:An Introduction[M].Cambridge,MA.:The MIT Press.

  [4]Collinder,B.1947.La Parenté Linguistique et le Calcul de Probabilité[M].Uppsala:Almqvist & Wiksells Boktruckeri.

  [5]Dixon,R.1997.The Rise and Fall of Languages[M].Cambridge:CUP.

  [6]Dolgoposky,A.1986.A probabilistic hypothesis concerning the oldest relationships among the language families in northern Eurosia[A].In V.Shevoroshkin & T.Markey(eds.).Typology,Relationship,and Time[C].Ann Arbor,MI.:Karoma.27-50.

  [7]Dumont d'Urville,J.1834.Voyage de Découveries De L'Astrolabe Exécuté par Ordre du Roi Pendant les Années 1826-1827-1828-1829[M].Paris:Ministère de la Marine.

  [8]Dyen,I.,J.Kruskal & P.Black.1992.An Indo-european classification:A lexicostatistical experiment[J].Transactions of the American Philosophical Society 82:1-132.

  [9]Embleton,M.1986.Statistics in Historical Linguistics[M].Bochum:Brochmeyer.

  [10]Forster,P.& C.Renfrew(eds.).2006.Phylogenetic Methods and the Prehistory of Languages[C].Cambridge:McDonald institute for Archaeological Reseach.

  [11]Greenberg,J.1993.Observations concerning Ringe's Calculating the Factor of Chance in Language Comparison[J].Proceeding of the American Philological Society 137:79-90.

  [12]Gudschinsky,S.1956.Three disturbing questions concerning lexicostatistics[J].International Journal of American Linguistics 22:212-213.

  [13]Harrison,S.2003.On the limits of the comparative method[A].In B.Joseph & R.Janda(eds.).The Handbook of Historical Linguistics[C].Oxford:Blackwell.213-243.

  [14]Heggarty,P.2000.Quantifying change over time in phonetics[A].In C.Renfrew et al.(eds.).2000.531-562.

  [15]Hoijer,H.1956.Lexicostatistics:A critique[J].Language 32:49-60.

  [16]Hymes,H.1956.Review of Papers from the Symposium on American Indian Linguistics Held at Berkeley July 7,1951[J].Language 32:585-602.

  [17]Jones,W.1786.The third anniversary discourse,delivered 2 February 1786[A].In W.Lehmann(ed.).A Reader in Nineteenth Century Historical Indo-European Linguistics[C].Bloomington,IN.:Indiana University Press.7-20.

  [18]Kessler,B.2001.The Significance of Word Lists[M].Stanford,CA.:CSLI.

  [19]Kessler,B.2007.Word similarity metrics and multilateral comparison[A].In J.Nerbonne,G.Kondrak & T.Ellison(eds.).Proceedings of Ninth Meeting of the ACL Special Interest Group in Computational Morphology and Phonology[C].Stroudsburg,PA.:Association for Computational Linguistics.6-14.

  [20]Kessler,B.2008.The mathematical assessment of long-range linguistic relationships[J].Language and Linguistics Compass 2:821-839.

  [21]Kessler,B.& A.Lehtonen.2006.Multilateral comparison and significance testing of the Indo-Uralic question[A].In P.Forster & C.Renfrew(eds.).2006.33-42.

  [22]Kingman,J.1982.On the genealogy of large populations[J].Journal of Applied Probability 19A:27-43.

  [23]Kroeber,A.& C.Chretien.1937.Quantitative classification of Indo-European languages[J].Language 13:83-103.

  [24]Lohr,M.1999.Methods for the Genetic Classification of Languages[D].Ph.D.Dissertation.University of Cambridge.

  [25]Nakhleh,L.,D.Ringe & T.Warnow.2005.Perfect phylogenetic networks:A new methodology for reconstructing the evolutionary history of natural languages[J].Language 81:382-420.

  [26]Nichols,J.1996.The comparative method as heuristic[A].In M.Durie & M.Ross(eds.).The Comparative Method Reviewed[C].Oxford:OUP.39-71.

  [27]Nichols,J.2006.Quasi-cognates and lexical type shifts[A].In P.Forster & C.Renfrew(eds.).2006.57-66.

  [28]Oswalt,R.1970.The detection of remote linguistic relationships[J].Computer Studies 3:117-129.

  [29]Oswalt,L.1998.A probabilistic evaluation of North Eurasiatic Nostratic[A].In J.Salmons & B.Joseph(eds.).Nostratic:Sifting the Evidence[C].Amsterdam:John Benjamins.199-216.

  [30]Rafinesque,C.1832.Philology.Second letter to Mr.Champollion on the graphic systems of America,and the glyphs of Otolum or Palenque,in Central America-Elements of the glyphs[J].Atlantic Journal,and Friend of Knowledge 2:40-44.

  [31]Renfrew,C.,A.McMahon & L.Trask(eds.).2000.Time Depth in Historical Linguistics[C].Cambridge:McDonald Institute for Archaeological Research.

  [32]Ringe,D.1992.On Calculating the factor of chance in language comparison[J].Transactions of the American Philosophical Society 82:1-110.

  [33]Ringe,D.,T.Warnow & A.Taylor.2002.Indo-European and computational cladistics[J].Transactions of the Philological Society 100:59-129.

  [34]Ross,A.1950.Philological probability problems[J].Journal of the Royal Statistical Society Series B(Methodological)12:19-59.

  [35]Sapir,E.1916.Time Perspective in Aboriginal American Culture:A Study in Method[M].Ottawa:Government Printing Bureau.

  [36]Serva,M.& F.Petroni.2008.Indo-European language tree by Levenshtein distance[J].EuroPhysics Letters 81:68005.

  [37]Swadesh,M.1952.Lexico-statistic dating of prehistoric ethnic contacts[J].Proceedings of the American Philosophical Society 96:452-463.

  [38]Trask,R.1996.Historical Linguistics[M].London:Arnold.

  [39]Villemin,F.1983.Un essai de détection des origines du japonais à partir de deux méthods statistiques[A].In B.Brainerd(ed.).Historical Linguistics[C].Bochum:Brockmeyer.116-135.

  

作者簡介

姓名:李艷 工作單位:

轉載請注明來源:中國社會科學網 (責編:馬云飛)
W020180116412817190956.jpg
用戶昵稱:  (您填寫的昵稱將出現在評論列表中)  匿名
 驗證碼 
所有評論僅代表網友意見
最新發表的評論0條,總共0 查看全部評論

回到頻道首頁
QQ圖片20180105134100.jpg
jrtt.jpg
wxgzh.jpg
777.jpg
內文頁廣告3(手機版).jpg
中國社會科學院概況|中國社會科學雜志社簡介|關于我們|法律顧問|廣告服務|網站聲明|聯系我們
三张牌游戏炸金花规则