大數據觀世|第2期:300年來中國哪個城市最有名?

2020-04-10
admin


編者按


城市是文化在地理空間上的重要載體,一座城市在全球范圍內的知名度是城市綜合影響力的重要組成部分。一個國家的城市群體影響力是衡量國家非權力性影響力的重要指標。然而,受困于數據和測量的局限,學界迄今尚未對該領域進行系統性的分析。大部分針對當代城市知名度分析的途徑是通過海外抽樣問卷,這一研究方法需要較大的成本,且面臨樣本選擇的諸多問題。若我們希望觀察幾個世紀以來城市知名度的變遷軌跡,傳統的抽樣數據分析模式就顯得無所適從。書籍提及率作為城市知名度的標桿,能從長時間的歷史維度來展現城市國際知名度獲得過程的模式和特征。一個可能的思路是針對全球外文書籍內的中國城市形象進行分析研究,實現在歷史維度上看城市知名度變化的軌跡,陳云松等學者所著《近三百年中國城市的國際知名度——基于大數據的描述與回歸》一文即從該角度出發。



近三百年中國城市的國際知名度——基于大數據的描述與回歸

文 | 陳云松 吳青熹 張 翼

本文刊于《社會》2015年第5期,內容以正刊為準,未經說明,文中圖片均來自網絡


一、研究簡介

城市是人類文明在地理空間上的匯聚點,具有文化的貯存、傳播、交流、創造和發展等基本功能。在城市的諸多內涵要素中,城市文化是城市的靈魂。作為文化在地理空間上的重要載體,一座城市在全球范圍內的知名度是城市綜合影響力的重要組成部分。一個國家的城市群體的影響力,是衡量國家的非權力性影響力,也即軟實力的重要指標。因此,對城市文化影響力尤其是國際知名度的研究,具有重要的經濟、社會和政治內涵。


“大數據”尤其是數字化書籍大數據的適時出現,為開展相關的社會科學研究提供了空前的機遇。目前,谷歌圖書語料庫能提供公元1500年以來7種語言800多萬種數字化書籍的全文詞頻檢索。通過觀測和分析關鍵詞在語料庫中使用頻率的變化,我們可以發現相關的關鍵詞在人類文化發展史中或鮮為人知或饒有趣味的趨勢和現象。


本文利用谷歌圖書的百萬書籍大數據,以中國地級以上(含)城市近300年來英語書籍中出現的詞頻來展示和分析城市國際知名度的變遷及其特征。研究發現,北京、香港、上海、廣州、南京、澳門、天津、臺北、重慶和拉薩依次為近300年國際知名度的前十強。研究表明,近代中國大陸城市在國際媒體中的提及率顯著影響其國際知名度,而港澳臺城市的國際知名度和媒體提及率之間則不存在這種關聯。這意味著近代以來大陸城市的國際傳播主要通過媒體報道進入西方社會。


二、數據與策略

本文使用谷歌圖書語料庫作為中國城市國際知名度的測量來源數據庫。谷歌圖書語料庫源于谷歌公司自2004年底啟動的對哈佛、牛津等40多所頂級大學圖書館藏書及出版社贈書的數字化工程。2008年,讓-巴蒂斯特·米歇爾等人從已被數字化的1500多萬種書籍中選擇了其中500多萬種識別質量較高的非期刊書籍,作為其文化定量分析的語料庫。這500多萬種書籍時間跨度從公元1500年到2000年,含7種語言,占古登堡印刷術發明以來人類印刷出版圖書總數的4%,詞匯量達5380億。到2013年,超過3000多萬種書籍已被掃描和識別,可供分析的最新版語料庫書籍高達800多萬種,詞匯量更高達8613億。考慮到公元1500年至1700年語料庫中的書籍較為稀少,甚至有年度空缺,我們把對谷歌圖書語料庫的分析歷史的上限設定為公元1700年。考慮到2000年之后的書籍仍然在數字化過程中,為減少樣本偏誤,我們把分析歷史下限設定為公元2000年。

選取《紐約時報》自1851年創刊至今150多年的數字化語料庫作為提取中國城市媒體提及率指標的來源。《紐約時報》是美國社會代表性的主流媒體,每天在紐約出版、全世界發行,在全球范圍內具有一定的影響力。

用于檢索的“關鍵詞”設定對于本研究也很重要。在關鍵詞的設定過程中,我們注意到,絕大多數城市的英語名稱近300年來發生了巨大變化。因此,對本文所涉全部城市,我們均仔細考證了全部可能的英文名稱,然后對檢索結果進行加總,以獲得最為精確的城市檢索數據。


三、 近三百年中國城市的國際知名度

本文首先對294個城市近300年、200年、150年、100年、50年和20年的國際知名度指標進行分段分析(均截至2000年),計算出平均知名度來進行排名。從表格中可以看出,近300年、200年、150年、100年、50年(1949年之后)和20年(改革開放后)等六個不同歷史跨度的國際知名度前20強均集中在25座城市。這表明,城市國際知名度本身是較為穩定和集中的指標,盡管300年來經歷了清、中華民國和新中國三個政權,但知名城市的構成并無太大變化。

按照不同歷史跨度的平均排名,北京、香港、上海、廣州、南京、澳門、天津、臺北、重慶和拉薩穩居近代以來中國城市國際知名度的前10名。考慮到圖形識別度和篇幅限制,我們在圖1中用時間序列曲線來展示這十座中國城市的知名度。圖1最大的特點就是:城市國際知名度呈現出非常明顯的梯次和波動。所謂梯次,是指總體相對高低的層次;所謂波動,是指歷史起伏的劇烈幅度。

例如,在1700-1900年的兩百年間,北京、香港、上海和廣州之中僅北京和廣州在英語世界的書籍中被規模性地提及,且廣州獨領風騷,而北京只在1735-1744年間短暫地有所超越。直到1850年前后,上海和香港才開始出現在圖中。進入20世紀以后,除廣州長期在1860年左右的水平上下徘徊之外,其他三大城市的曲線出現了明顯的上升。其中,北京一直強勢上升并長期維持在高位運行;上海在20世紀30年代一度超越北京,但在新中國成立初期進入了低潮期,改革開放后又出現了明顯的上升勢頭;香港的國際知名度自1948年起大幅提升,80年代中后期就趕上并超過了北京,并于1997年達到了峰值。此外,在這些梯次和波動中,尤其是峰值和谷底,都富含了大量的歷史、政治、經濟和社會信息。


四、城市知名度和媒體提及率

因《紐約時報》創刊于1851年,我們分別整理了近150年、近100年、近50年和近20年相關城市在該報的提及率排名,并將其與國際知名度排名一起綜合在表3內。可以看出:媒體提及率和基于書籍大數據的知名度排名雖略有差異,但總體結構和特征都比較接近。總體上中國城市國際知名度的獲得和媒體提及率之間呈現出一個比較穩定的相關關系。
為便于和圖1的曲線比較,本文在圖2中分別繪制了北京、香港、上海、廣州、南京、澳門、天津、臺北、重慶和拉薩等知名度前10名城市的媒體提及率曲線。

不難發現,盡管曲線的變化坡度等與圖1大相徑庭(這顯然是由于媒體屬性所致),但曲線的總體梯次和時段變化則非常接近。例如,無論是在國際知名度還是在媒體提及率指標中,廣州的早期梯次都非常高,甚至超過北京、上海。在清末民初、新中國成立、中美建交等歷史關口,北京的提及率和知名度都同樣出現了曲線高峰。上海在20世紀30年代就超過了北京,香港則在90年代開始超越北京,如此等等,基本特征和圖1中知名度的變化曲線非常接近。其他城市的媒體提及曲線和國際知名度曲線也呈類似的狀態。


在大陸城市中,無論是開埠較早的廣州、上海,還是相對處于內陸的西安、沈陽,它們的國際知名度都受到媒體提及率的影響。準確地說,早前數年的媒體提及率(或其變化)可以解釋國際知名度(或其變化)。與此形成強烈反差的是,具有較長殖民地歷史的香港、澳門和臺北,其國際知名度和媒體提及率之間沒有顯著的統計關聯。這意味著,英語世界對港澳臺三城市的認知,更多地受到其他因素的影響,而不是通過媒體的中介作用。


五、 中國城市國際知名度的形成模式

根據前文的時間序列分析,可以發現,大陸城市的國際知名度更多地受到西方媒體提及率的影響,這初步驗證了本文提出的“差異化”途徑。接下來,本文將進一步完整地提出近代中國城市國際知名度形成的“二元模式”。
國際知名度獲得的二元模式,主要是指在文化交流過程中存在的直接與間接的知名度獲得過程。直接和間接交流的差異,在中國大陸城市和有較長殖民地歷史的中國城市之間表現得非常明顯。特別是,由于政治體制、市場結構和文化的差異,近代以來中國大陸城市在政治、經濟、文化和人力資源的對外交流方面存在較高壁壘,而港澳臺三城市曾長期作為殖民地,與西方社會的經濟社會來往、人文政治互動等具有天然的暢通渠道。這種差異通過路徑依賴和教育模式的復制而隨時間不斷強化(特別是在香港、澳門回歸之前)。


總體上,這種差別的存在使得中國大陸城市和有較長殖民地歷史的港澳臺三城市在國際知名度獲得方面形成了涇渭分明的兩大類型。對于港澳臺而言,它們“直接”成為中西文化對撞交流的窗口,較為接受西方文化,而西方社會也把它們視為自己的文化親族,理所當然地會給予更多關注。對于大陸城市而言,它們在近代西方社會的國際知名度幾乎只能通過當時的主要媒體來傳遞,形成“間接”的知名度獲得形式。當然,隨著20世紀80年代以來改革開放和全球化進程的加快以及交通運輸、互聯網技術的不斷提升,這種直接和間接的知名度形成差異會不斷弱化。

發表評論
評論通過審核后顯示。