用大數(shù)據(jù)分析:唐代詩(shī)人白居易作品量第一 但影響力排十名之外 宋詞名篇中收錄詞作最多的不是蘇軾、辛棄疾而是周邦彥
用大數(shù)據(jù)分析唐宋詩(shī)詞,結(jié)論可能超出你的想象——唐代詩(shī)人中作品量居第一的白居易,影響力排在十名之外;宋詞名篇中收錄詞作最多的不是蘇軾、辛棄疾而是周邦彥;綜合影響指數(shù)表明,杜甫高于李白、辛棄疾強(qiáng)于蘇軾……
以上新發(fā)現(xiàn),是國(guó)家社科基金重大項(xiàng)目“唐宋文學(xué)編年系地信息平臺(tái)建設(shè)”首席專(zhuān)家、四川大學(xué)文學(xué)與新聞學(xué)院講席教授王兆鵬分析所得。
唐詩(shī)是中國(guó)詩(shī)歌史上第一座高峰。唐代詩(shī)歌五萬(wàn)多首,詩(shī)人三千余位,詩(shī)人和詩(shī)作都達(dá)到前所未有的量級(jí)。宋代詞人近一千五百位,詞作超兩萬(wàn)一千闋。
從個(gè)體詩(shī)人來(lái)看,唐詩(shī)宋詞里誰(shuí)的作品最多?王兆鵬的大數(shù)據(jù)顯示,白居易名列唐詩(shī)作品量的榜首,詩(shī)作近三千;杜甫和李白緊隨其后,都超過(guò)千首大關(guān)。宋詞中辛棄疾的詞作量位居第一,有六百余闋,其次是蘇軾、劉辰翁。宋詩(shī)的篇數(shù),則由陸游稱(chēng)雄,凡九千多首,其次是劉克莊和楊萬(wàn)里。
根據(jù)綜合影響指數(shù)排名,唐代詩(shī)人影響力第一的是杜甫,其次為李白、王維,而作品量居第一的白居易,影響力排在十名之外。宋代詞人作品量和影響力第一的都是辛棄疾,蘇軾和周邦彥分別居第二、第三。高居宋詩(shī)影響力榜首的是蘇軾,作品量雄居榜首的陸游緊隨其后。
提到唐詩(shī)宋詞的名家,人們習(xí)稱(chēng)“李杜”“蘇辛”,似乎李優(yōu)于杜、蘇勝于辛。但綜合影響指數(shù)表明,杜甫高于李白、辛棄疾強(qiáng)于蘇軾。更令人意外的是,最受追捧的詞人不是蘇、辛而是周邦彥。在一百首和三百首宋詞名篇中,周邦彥各占十五首和四十首,占有率遠(yuǎn)高于蘇、辛。
用客觀的數(shù)據(jù)去衡量、分析頗為主觀的詩(shī)詞鑒賞,是否科學(xué)、能否可行?在接受北京青年報(bào)記者專(zhuān)訪時(shí),王兆鵬強(qiáng)調(diào),雖然數(shù)據(jù)能在一定程度上描述顯示文學(xué)史的發(fā)展面貌和進(jìn)程,但也有明顯的局限性。
30年前開(kāi)始研究積累了上百萬(wàn)條數(shù)據(jù)
問(wèn):《大數(shù)據(jù)里的唐宋詩(shī)詞世界》課題的初衷是什么?
答:我1992年就開(kāi)始做唐宋詩(shī)詞的定量分析了。初衷是每人心目中都有自己的唐宋詩(shī)詞名篇。究竟歷史上哪些唐宋詩(shī)詞被視為名篇,我想用統(tǒng)計(jì)數(shù)據(jù)來(lái)分析衡量。
問(wèn):那您是如何利用大數(shù)據(jù)來(lái)衡量唐宋詩(shī)詞質(zhì)量的呢?這些數(shù)據(jù)是如何統(tǒng)計(jì)出來(lái)的?
答:唐宋詩(shī)詞作品的質(zhì)量,目前還沒(méi)找到有效數(shù)據(jù)來(lái)評(píng)估、衡量。我目前正在努力嘗試構(gòu)建文學(xué)作品質(zhì)量的評(píng)價(jià)指標(biāo)體系,以便搜集數(shù)據(jù)。這需要比較長(zhǎng)的過(guò)程。此外,個(gè)人建立的評(píng)價(jià)指標(biāo)體系,需要學(xué)界的認(rèn)同和共識(shí)。
問(wèn):關(guān)于文學(xué)指標(biāo)體系,學(xué)界目前的研究現(xiàn)狀怎樣?
答:大數(shù)據(jù)時(shí)代的文學(xué)數(shù)據(jù),需要分類(lèi)分層建立起文學(xué)史數(shù)據(jù)的指標(biāo)體系,以確保數(shù)據(jù)的信度和效度。但目前用大數(shù)據(jù)來(lái)做唐詩(shī)宋詞研究的學(xué)者不多,為學(xué)界共享的唐宋詩(shī)詞大數(shù)據(jù)也相當(dāng)有限。
從1992年到現(xiàn)在,我雖然積累了一百多萬(wàn)條和唐詩(shī)宋詞有關(guān)的數(shù)據(jù),但還不完備、不均衡。有的時(shí)段數(shù)據(jù)多,有的時(shí)段數(shù)據(jù)少;有的這一類(lèi)數(shù)據(jù)多,那一類(lèi)數(shù)據(jù)少;有的詩(shī)人數(shù)據(jù)多,有的詩(shī)人數(shù)據(jù)少。我們常感慨“書(shū)到用時(shí)方恨少”,數(shù)據(jù)更是這樣。全方位分析唐詩(shī)宋詞時(shí),常常覺(jué)得數(shù)據(jù)不夠用。
在我看來(lái),文學(xué)評(píng)價(jià)指標(biāo)體系應(yīng)該以作品為中心來(lái)建立。作家的影響力是以作品的影響力為前提。而作品評(píng)價(jià),可分兩個(gè)維度,一是相對(duì)穩(wěn)定作品的內(nèi)在文學(xué)價(jià)值,二是動(dòng)態(tài)不居作品的外在影響力。其文學(xué)價(jià)值,可考慮從內(nèi)容和形式兩個(gè)層面來(lái)評(píng)估。
作品影響力則從創(chuàng)作者、評(píng)論者、普通讀者三個(gè)層面來(lái)衡量。一是對(duì)創(chuàng)作者的影響,包括引用、化用、仿效、改編、翻譯等,體現(xiàn)出作品的典范性和吸引力;二是對(duì)評(píng)點(diǎn)者的評(píng)論和學(xué)者的研究,反映出作品在文學(xué)批評(píng)、學(xué)術(shù)研究層面的美譽(yù)度和關(guān)注度;三是在普通讀者中的傳閱度和知曉率。確定作品的價(jià)值、影響的基本要素和結(jié)構(gòu)后,再構(gòu)建計(jì)算模型,然后由計(jì)算機(jī)在相關(guān)資源庫(kù)、語(yǔ)料庫(kù)和網(wǎng)絡(luò)運(yùn)行,挖掘提取相關(guān)數(shù)據(jù),最后計(jì)算出每篇作品的得分。
