32.項(xiàng)目學(xué)習(xí):解密盛唐時(shí)期詩(shī)人關(guān)系
【項(xiàng)目情境】
唐代詩(shī)人史傳有名有姓者不下千余人,他們組成了大大小小不同的朋友圈有的因?yàn)樵?shī)風(fēng)接近,如李白代表的浪漫主義、杜甫代表的現(xiàn)實(shí)主義王維代表的田園山水、岑參代表的邊塞詩(shī)風(fēng);有的因?yàn)槟挲g大體相近,如盛唐時(shí)期的李白、杜甫、賀知章等;有的因?yàn)檎娤嘟?,如韓愈作為古文運(yùn)動(dòng)的領(lǐng)袖級(jí)人物,當(dāng)時(shí)很多文人墨客以進(jìn)入他的朋友圈為榮。在盛唐時(shí)期有這樣一個(gè)朋友圈,他們的友誼跨越數(shù)十年,詩(shī)人之間通過互動(dòng)詩(shī)歌,表達(dá)抒發(fā)情感,是他們朋友圈的一種表現(xiàn)方式,用計(jì)算機(jī)來分析這個(gè)時(shí)代的唐詩(shī),就會(huì)發(fā)現(xiàn)詩(shī)人之間有著你意想不到的千絲萬縷的關(guān)系。學(xué)校某研究性學(xué)習(xí)小組利用大數(shù)據(jù)分析技術(shù),通過對(duì)詩(shī)詞分析,繪制盛唐時(shí)期幾位詩(shī)人(杜甫、李白、王維、孟浩然之間的社交關(guān)系網(wǎng)絡(luò)圖,試圖推測(cè)哪位詩(shī)人是同時(shí)代詩(shī)人的核心,哪位詩(shī)人的影響最大,從而更好地學(xué)習(xí)理解唐詩(shī)。)
【項(xiàng)目準(zhǔn)備】為完成項(xiàng)目,需要確定主題、目標(biāo)、制訂規(guī)劃等各項(xiàng)工作。在此不一一展示。明確的主題—盛唐時(shí)期的詩(shī)人及詩(shī)詞分析和詩(shī)人社交關(guān)系網(wǎng)絡(luò)圖
【項(xiàng)目實(shí)施】項(xiàng)目研究主要以詩(shī)人詩(shī)作為依據(jù)。具體實(shí)施過程如下:
(一)明確需要采集的數(shù)據(jù),選擇合適的采集途徑工具和方法。全唐詩(shī)一共四萬多首,分析采集相關(guān)數(shù)據(jù)的條件:①盛唐時(shí)期;②詩(shī)人、人之間經(jīng)常稱呼對(duì)方的別名;③考慮到同名同姓的問題,因此還需要詩(shī)人的生卒年的信息。
根據(jù)要求,完成答題。
(1)全唐詩(shī)數(shù)量較多,一共四萬多首,來源分散,存儲(chǔ)在互聯(lián)網(wǎng)不同的服務(wù)器與各客戶終端。從大數(shù)據(jù)存儲(chǔ)與計(jì)算的角度來看,由此可知大數(shù)據(jù)具有
的特征。(單選)
A.精確讓位于模糊B.價(jià)值密度低
C.分布式存儲(chǔ)D.變化速度快
(2)網(wǎng)絡(luò)上如此海量的關(guān)于唐詩(shī)的數(shù)據(jù),有文字、圖片、頻、音頻等。這些數(shù)據(jù)種類和格式也不一致,表明各種
數(shù)據(jù)共存于網(wǎng)絡(luò)中。(多選)
A.結(jié)構(gòu)化B.半結(jié)構(gòu)化
C.非結(jié)構(gòu)化D.網(wǎng)狀結(jié)構(gòu)
(3)面對(duì)繁雜的數(shù)據(jù),學(xué)習(xí)小組決定研究解密盛唐時(shí)期詩(shī)人關(guān)系,并利用計(jì)算機(jī)程序從網(wǎng)絡(luò)中采集詩(shī)人、別名等相關(guān)的文本數(shù)據(jù),并以一定的數(shù)據(jù)結(jié)構(gòu)存儲(chǔ),形成盛唐詩(shī)庫(kù)。存儲(chǔ)數(shù)據(jù)主要有兩種方式,一種是
,一種是數(shù)據(jù)云存儲(chǔ)。你建議學(xué)習(xí)小組采用
數(shù)據(jù)存儲(chǔ)方式,理由是
。
(二)利用Python程序采集、整理、分析數(shù)據(jù)。第一步,從互聯(lián)網(wǎng)中篩選出符合條件的詩(shī)人及詩(shī)作等文本,整理并形成盛唐詩(shī)庫(kù);第二步,確定人物關(guān)系分析策略,即從唐詩(shī)庫(kù)中搜索、統(tǒng)計(jì)詩(shī)人或別名的引用次數(shù),確定二人之間的疏密關(guān)系,規(guī)則是詩(shī)的標(biāo)題和正文中只要提到過對(duì)方,那么兩者之間的引用關(guān)系加1,若一首詩(shī)中提到多次對(duì)方,只算一次引用;第三步,編寫程序并調(diào)試驗(yàn)證。
用爬蟲程序段(如下圖所示)采集數(shù)據(jù)。根據(jù)要求,完成答題。
使用爬蟲程序獲取文本數(shù)據(jù)并形成唐詩(shī)庫(kù)文件所使用的數(shù)據(jù)采集方法為
(選填:系統(tǒng)日志采集法、網(wǎng)絡(luò)數(shù)據(jù)采集法、其他數(shù)據(jù)采集方法)閱讀程序可知,每首詩(shī)存放于列表poem[]中(以唐詩(shī)“春曉”為例,如下表),采集后的數(shù)據(jù)保存在poet.txt文件中,該文件是一個(gè)
(選填:數(shù)據(jù)庫(kù)文件、文檔文件、圖像文件、網(wǎng)頁(yè)文件)。該數(shù)據(jù)采集方法可以將非結(jié)構(gòu)化數(shù)據(jù)從網(wǎng)頁(yè)中抽取出來,將其存儲(chǔ)為統(tǒng)一的數(shù)據(jù)文件,并以
化的方式存儲(chǔ)(選填:結(jié)構(gòu)化、半結(jié)構(gòu)化)
Poem[1] |
Poem[1] |
Poem[2] |
Poem[3] |
“春曉” |
“唐” |
“孟浩然” |
“春眠不覺曉,……,花落知多少” |
以詩(shī)人甲、乙為例,解密二人關(guān)系。根據(jù)要求,完成答題。
(1)數(shù)據(jù)處理過程中要運(yùn)用一定的分析方法對(duì)大量、無序的數(shù)據(jù)進(jìn)行整理分析,挖掘數(shù)據(jù)內(nèi)在的結(jié)構(gòu)和規(guī)律,從而提取有價(jià)值的、有意義的數(shù)據(jù)。數(shù)據(jù)分析一般包括特征探索、關(guān)聯(lián)分析、聚類與分類等。讓計(jì)算機(jī)搜索遍歷唐詩(shī)庫(kù)中有關(guān)甲、乙兩位詩(shī)人的詩(shī)文,統(tǒng)計(jì)兩位詩(shī)人或別名相互的引用次數(shù),找尋二人之間的關(guān)聯(lián)。這是運(yùn)用了
(選填:特征探索、關(guān)聯(lián)分析、聚類與分類)方法進(jìn)行數(shù)據(jù)分析,也是
(選填:枚舉、二分查找、排序)算法思想去求解這一問題的體現(xiàn)。
(2)編制計(jì)算機(jī)程序解決問題的過程中,
是編程的核心,是解決問題的方法和步驟。選用Python程序設(shè)計(jì)語(yǔ)言編寫程序,Python屬于
(選填:分析問題、設(shè)計(jì)算法、編寫程序、調(diào)試運(yùn)行、機(jī)器語(yǔ)言匯編語(yǔ)言、高級(jí)語(yǔ)言)。圖34a示意,使用
(選填:自然語(yǔ)言、流程圖、偽代碼)進(jìn)行算法描述,且運(yùn)用循環(huán)控制結(jié)構(gòu)嵌套了
控制結(jié)構(gòu),如果要跳出本次循環(huán)體的執(zhí)行,應(yīng)使用
語(yǔ)句實(shí)現(xiàn)跳轉(zhuǎn)。
(3)閱讀程序(圖34b示意)程序中以“#”開頭的語(yǔ)句,其作用是
,程序調(diào)試完成,通過“另存為”保存文件,文件后綴名為
。
(三)分析數(shù)據(jù),進(jìn)行可視化表達(dá),并推測(cè)盛唐時(shí)期詩(shī)人關(guān)系。
解密盛唐時(shí)期詩(shī)人關(guān)系。根據(jù)要求,完成答題。
(1)數(shù)據(jù)的可視化以易于理解的方式展示和詮釋數(shù)據(jù)之間的關(guān)系趨勢(shì)與規(guī)律等使人們更好地理解數(shù)據(jù)。從常用和實(shí)用的維度,數(shù)據(jù)可視化的呈現(xiàn)類型主要分為探索型和解釋型,其中
型可以幫助人們發(fā)現(xiàn)數(shù)據(jù)背后的價(jià)值,
型則把數(shù)據(jù)簡(jiǎn)單明了地解釋給人們(選填:探索、解釋)數(shù)據(jù)分析類型不同可視化呈現(xiàn)方式也不同,如關(guān)于趨勢(shì)的分析,可用
類型的圖表呈現(xiàn),關(guān)于比例的分析,可用
類型的圖表呈現(xiàn),關(guān)于關(guān)系的分析,可用
類型的圖表呈現(xiàn)。
(2)學(xué)習(xí)小組選擇用網(wǎng)絡(luò)關(guān)系圖呈現(xiàn)盛唐時(shí)期詩(shī)人社會(huì)網(wǎng)絡(luò)關(guān)系(如圖所示)。圖中箭頭表示詩(shī)人之間的引用關(guān)系,如李白引用了賀知章那么就有李白指向賀知章箭頭;箭頭的粗細(xì)程度則表示了詩(shī)人之間引用關(guān)系的強(qiáng)弱,如李白引用孟浩然的數(shù)量達(dá)4次,箭頭就要粗一些。
(3)觀察圖示,從繪制的盛唐的詩(shī)人社交關(guān)系網(wǎng)絡(luò)圖,嘗試推測(cè)哪位詩(shī)人是盛唐詩(shī)人的核心,哪位詩(shī)人的影響最大,請(qǐng)簡(jiǎn)要闡述。(要求100字左右)
(4)通過對(duì)該項(xiàng)目案例的研究學(xué)習(xí),請(qǐng)談?wù)劥髷?shù)據(jù)對(duì)學(xué)習(xí)生活的影響。