大數據里的唐宋詩詞世界

光明網 發佈 2022-03-22T23:46:23+00:00

作者:王兆鵬(國家社科基金重大項目「唐宋文學編年系地信息平台建設」首席專家、四川大學文學與新聞學院講席教授)人們習慣用史料來描述文學史的高峰狀態,而在當今大數據時代,我們或可嘗試用大數據來顯示和驗證,並透視數據背後的文學史意義,進而反思數據存在的問題和展望未來努力的方向。

作者:王兆鵬(國家社科基金重大項目「唐宋文學編年系地信息平台建設」首席專家、四川大學文學與新聞學院講席教授)

人們習慣用史料來描述文學史的高峰狀態,而在當今大數據時代,我們或可嘗試用大數據來顯示和驗證,並透視數據背後的文學史意義,進而反思數據存在的問題和展望未來努力的方向。唐宋詩詞世界華茂繁榮,大數據可帶我們領略其中新的風采。

唐宋詩詞的多個「第一」

唐詩是中國詩歌史上第一座高峰。據統計,東漢到隋末近六百年,詩歌總共才五千餘首,而到唐代,詩歌第一次超過萬首並直接跨越到五萬多首,達到前所未有的高峰。唐詩比之前的八代詩增加了七倍多,詩人由六百餘位增加到三千餘位,詩人和詩作都達到前所未有的量級。唐詩歷經三百餘年,其頂峰在盛唐。其時詩人五百餘位、詩作近八千首。依據詩歌在歷代選本中的入選頻次、被歷代詩論家品評的頻次、被後人追和的頻次和當代學者研究的頻次、被網頁著錄及評論的頻次等數據加權計算,一定程度上可評估一首詩的影響力。通過這種可量化的計算,我們可將影響力位居前列的視為名篇。在唐詩百首名篇中,盛唐占59首。而唐詩的十大名篇,盛唐更獨占8首。按名篇數量排列出的唐代十大詩人,盛唐占6位:杜甫、李白、王維、王昌齡、孟浩然和岑參。

宋詞是中國詞史上第一座高峰。詞人近一千五百位,詞作超兩萬一千闋。較之唐五代,宋詞用調增加了七百餘種,詞人詞作都增加了十多倍,表現出詞體的豐富、整體面貌的繁榮。唐五代詞人中,唯溫庭筠、馮延巳、李璟、李煜四家有詞集傳世,而宋代有三百多家有詞集流傳。詞人有詞集傳世,意味著作品多、知名度高、社會需求量大。數據顯示,宋詞在唐五代之後已達到高潮,元祐時期更達峰值。其時詞人近二百位、詞作約四千闋,比宋初和慶曆兩個時期的詞人詞作總數還多出一倍有餘。在百首宋詞名篇中,元祐時期占27闋,名列宋詞六個階段的首席。

人們習慣以宋詞作為宋代文學成就的代表,其實,宋詩也是重要的一部分。數據顯示,宋代詩人詩作的數量超越唐詩而達到新高度,詩人九千多位,詩作二十五萬餘首,是唐詩作品量的五倍多。值得注意的是,宋詩的頂峰也在元祐年間,其時詩人一千六百餘位,相當於前兩個時期詩人數量的總和;詩作五萬餘首,比前兩個時期的詩作總和還多出七千多首;宋詩的十大名篇,此時獨占5首;蘇軾、黃庭堅、王安石等影響深遠的大詩人都生活和創作在這個時期。近人陳衍論詩,說唐宋詩史上有三個輝煌的尖峰時段,所謂「上元開元、中元元和、下元元祐」,數據印證了他的判斷。

從個體詩人來看,唐詩宋詞裡誰的作品最多?數據顯示,白居易名列唐詩作品量的榜首,詩作近三千;杜甫和李白緊隨其後,都超過千首大關。宋詞中辛棄疾的詞作量位居第一,有六百餘闋,其次是蘇軾、劉辰翁。宋詩的篇數,則由陸游稱雄,凡九千多首,其次是劉克莊和楊萬里。

作品多的詩人詞家,是否影響力大、知名度高?根據綜合影響指數排名,唐代詩人影響力第一的是杜甫,其次為李白、王維,而作品量居第一的白居易,影響力排在十名之外。宋代詞人作品量和影響力第一的都是辛棄疾,蘇軾和周邦彥分別居第二、第三。高居宋詩影響力榜首的是蘇軾,作品量雄居榜首的陸游緊隨其後。

「第一」背後的文學史意義

數據不僅標示誰第一、誰領先,還蘊含更深層的文學史意義,可以探究其背後隱藏的歷史過程和變化動因,揭示規律性認識。比如,通過檢視和分析唐詩名篇崔顥《黃鶴樓》的各種數據,可以發現第一接受者李白的評價和創作比拼發揮了重要作用。可見,除自身的藝術含量外,故事傳播和意見領袖的評價也是名篇生成的重要因素。

數據能具體顯示詩人詞家名聲的高下。提到唐詩宋詞的名家,人們習稱「李杜」「蘇辛」,似乎李優於杜、蘇勝於辛。但綜合影響指數表明,杜甫高於李白、辛棄疾強於蘇軾。更令人意外的是,最受追捧的詞人不是蘇辛而是周邦彥。在一百首和三百首宋詞名篇中,周邦彥各占15首和40首,占有率遠高於蘇、辛。王國維說「詞中老杜,非先生(周邦彥)不可」,堪稱卓識。周濟《宋四家詞選》也推周邦彥為學詞的最高典範,所謂「問途碧山,歷夢窗、稼軒,以還清真之渾化」,數據印證了周濟的眼力。

數據可以明確展示名篇名家影響力的時代變化。宋明以來,崔顥《黃鶴樓》詩和蘇軾《赤壁懷古》詞的影響長盛不衰,故分別成為唐詩宋詞的第一名篇。而陳子昂《登幽州台歌》、張若虛《春江花月夜》等聲名卓著的名作,明清以前影響甚小,到近現代才廣受注目,故綜合影響力排名靠後。岳飛《滿江紅》、陸游《卜算子·詠梅》等也都是到現當代才被發掘出的名篇。周邦彥的影響力,在明清時期的詞壇遠大於蘇辛,只是到現當代由於文學價值觀念的變化才下滑落後。

數據還反映出詩人影響力與作品量的關係。杜甫、李白的詩作量名列前茅,辛棄疾、蘇軾的詞作量也是第一、第二。由此可以說,影響力大的詩人,其作品量也很大,但不能說作品量大就一定影響力大。白居易詩作量位居唐代詩人之首,綜合影響力卻沒進入前十名。陸游的詩篇比蘇軾多出兩倍,綜合影響力卻在蘇軾之後。由此可見,精品名作多才是成為影響力大的詩人的決定性因素。宋人趙汝騰《石屏詩序》說:「詩之傳,非以能多也,以能精也。精者不可多,唐詩數百家,精者才十數人,就十數人中選其精者,才數十而已。惟少陵、謫仙能多而能精,故為唐詩人巨擘也。」蘇、辛的精品名篇量也印證了趙汝騰的判斷。

數據的「不可為」和「可為」

雖然數據能在一定程度上描述顯示文學史的發展面貌和進程,揭示隱藏在歷史背後的真相與意義,但數據也有明顯的局限性。一是效度有限,只能說明文學史的部分問題,而無法有效解決所有問題。二是信度受限,無論是人工挖掘還是機器自動提取,受人的認識水平和技術水平的制約,數據的信度會有優劣高下的差異。

由於指標種類少,目前衡量名篇名家的數據還不充分完備,尤其缺少內質型數據,因此需要持續不斷地挖掘和充實。挖掘數據的難度,不僅在於到哪裡找數據,更在於要找哪些數據。文學史上從來沒有數據意識和數據存量,什麼樣的數據對衡量一個時代或一個時期的文學繁榮程度、評價作家作品的優劣高低有用有效,這既是實踐操作問題,也是理論認識問題。

大數據時代的文學數據,需要分類分層建立起文學史數據的指標體系,以確保數據的信度和效度。可以探索和討論:一個時代或一個時段文學的繁榮狀態,除了用作家作品的數量增長來衡量,還有哪些量化指標、特別是內質型指標可以體現?在創作主體維度,文學群體、文學流派的數量和規模是否應該作為衡量文學繁榮的指標?又該如何測度個體作家和文學群體或文學流派的藝術貢獻、文學史地位?在作品文本維度,如何衡定其思想情感含量和藝術審美含量?也許應該考量以下三個層面:形式層面,體裁體式的創新度、豐富度;內容層面,表現主體內在精神世界和外在社會生活世界的深廣度;藝術層面,表現技巧的難度和藝術表現的完美度等。有了完整的指標體系,才有目標和途徑去尋找發掘數據,才有可能藉助人工智慧技術,讓計算機自動分析提取數據,不斷擴大數據的種類和體量。在此基礎上,通過計算機自動提取獲得海量數據,不斷滿足大數據時代學術研究的需求。

《光明日報》( 2022年03月23日11版)

來源: 光明網-《光明日報》

關鍵字: