博客專欄

EEPW首頁 > 博客 > 爬取 2 萬多張 Flickr 圖片,莫納什大學(xué)復(fù)現(xiàn) 10 年間日本櫻花開放的時(shí)空特征

爬取 2 萬多張 Flickr 圖片,莫納什大學(xué)復(fù)現(xiàn) 10 年間日本櫻花開放的時(shí)空特征

發(fā)布人:數(shù)據(jù)派THU 時(shí)間:2023-07-17 來源:工程師 發(fā)布文章

內(nèi)容一覽:近年來,全球氣候變化形勢嚴(yán)峻,由此引發(fā)的蝴蝶效應(yīng),正深刻地影響著人類和大自然。在這一背景下,收集數(shù)百甚至數(shù)千公里范圍內(nèi)開花模式的數(shù)據(jù),了解氣候變化如何對開花植物產(chǎn)生影響,成為近年來生態(tài)研究的重要課題之一。但傳統(tǒng)的方法通常需要耗費(fèi)大量經(jīng)費(fèi),且需要較長的時(shí)間進(jìn)行采樣調(diào)查,后勤保障工作也面臨著重重困難。而近期發(fā)布在《Flora》期刊上的研究,不僅克服了這些問題,同時(shí)還揭示出前所未有的細(xì)節(jié)。


關(guān)鍵詞:時(shí)空分析   智慧生態(tài)學(xué)   SNS 數(shù)據(jù)


櫻花作為日本的國花,在大和文化中有著重要的地位。賞花(Hanami,花見),作為極具特色的民間習(xí)俗,已有了數(shù)百年的歷史。然而日本縱跨緯度約 20 度,全國可分為 6 個(gè)氣候區(qū),各地氣候差異明顯,因此櫻花綻放的時(shí)間也各有不同。每值櫻花季節(jié),日本的旅游網(wǎng)站也會詳細(xì)展示各地開花情況,供游客安排賞花時(shí)間。近年來,受到氣候變化的影響,日本櫻花的開放時(shí)間也在不斷提前。


為了探究日本櫻花的開花模式,理解氣候變化對物候?qū)W的影響,澳大利亞莫納什大學(xué)的研究團(tuán)隊(duì),利用 Python API 與計(jì)算機(jī)視覺 API,通過社交網(wǎng)站 (SNS) 數(shù)據(jù)來監(jiān)測日本的櫻花開放情況,并對實(shí)驗(yàn)結(jié)果與現(xiàn)實(shí)情況進(jìn)行了對比驗(yàn)證。目前該研究已發(fā)表在《Flora》期刊,標(biāo)題為「The spatiotemporal signature of cherry blossom flowering across Japan revealed via analysis of social network site images」。


圖片

該研究成果已發(fā)表于《Flora》期刊

論文地址:https://www.sciencedirect.com/science/article/abs/pii/S0367253023001019


 實(shí)驗(yàn)過程:數(shù)據(jù)集的爬取、過濾及分析


 數(shù)據(jù)集 


本次實(shí)驗(yàn)收集櫻花開放數(shù)據(jù)的過程可以分為兩個(gè)步驟:


1. 從社交網(wǎng)站提取圖片數(shù)據(jù),包括幾個(gè)不同的連續(xù)階段

2. 利用計(jì)算機(jī)視覺 API 及人工核驗(yàn)的方法,對數(shù)據(jù)進(jìn)行相關(guān)性過濾


考慮到 API 需要同時(shí)對時(shí)間、空間、文本進(jìn)行過濾,研究人員選擇了 Flickr 作為數(shù)據(jù)源。首先,使用 Python API 客戶端,通過搜索關(guān)鍵詞「cherry blossom」,在 Flickr 上收集帶有地理坐標(biāo)的相關(guān)圖片。


其次,設(shè)置 Bounding Box 為 31.186°N-46.178°N, 129.173°E-145.859°E,以確保圖片是在日本拍攝。時(shí)間范圍設(shè)定為 2008 年- 2018 年,以排除 COVID-19 導(dǎo)致的全球旅游業(yè)下降對數(shù)據(jù)的影響。


然后,研究人員借助從 gadm.org 獲取的日本地理邊界進(jìn)行遮罩處理,從而過濾這些數(shù)據(jù),最終獲得 80,915 張圖片。



圖片2008 年 1 月 1 日至 2018 年 12 月 31 日
Flickr 上搜索定位在日本的「cherry blossom」圖片


1、2 月份(藍(lán)色)表示春季來臨前的櫻花初放;


3-5 月份(綠色)表示記錄春季主要櫻花盛開期的攝影數(shù)據(jù)集中度;


10-12 月份(粉色)則表明了在秋季尤其 11 月達(dá)到高峰的有趣現(xiàn)象。


盡管 Flickr 的圖片通過搜索關(guān)鍵詞「cherry blossom」進(jìn)行了限制,但 SNS 內(nèi)容仍然可能會與搜索詞錯(cuò)誤關(guān)聯(lián),因此需要驗(yàn)證。


對此,研究人員將所有圖片提交至 Google Cloud Vision AI,該 API 可以根據(jù)每張圖像的視覺內(nèi)容,為其生成了描述性文本標(biāo)簽,從而對單個(gè)數(shù)據(jù)點(diǎn)相關(guān)性,自動進(jìn)行 double-check。


Google Cloud Vision AI 使用預(yù)先訓(xùn)練好的機(jī)器學(xué)習(xí)模型,在預(yù)定義類別中為圖像分配標(biāo)簽。此外,研究人員還對樣本數(shù)據(jù)進(jìn)行了額外的手動核查,如下表所示:


圖片表 1:Tokyo-filtered 數(shù)據(jù)集中,各階段的圖像數(shù)據(jù)


B 列:在 Flickr 搜索「cherry blossom」返回 28,875 張圖片,這些圖片地理坐標(biāo)都位于東京地區(qū)的行政區(qū)域內(nèi)


C 列:計(jì)算機(jī)視覺 API 為此數(shù)據(jù)集返回的文本標(biāo)簽及其相對頻率。從文本標(biāo)簽過濾器返回的圖像中,有 21,908 張被計(jì)算機(jī)視覺 API 標(biāo)記為「cherry blossom」,但由于部分圖像也被標(biāo)記為「autumn」或「maple tree」,因此被剔除后,最終得到 21,633 張圖像


D 列:結(jié)果圖像隨機(jī)選出用于人工檢查的樣本


E 列:經(jīng)人工檢查確認(rèn)為櫻花的圖像數(shù)量


F 列:每月自動處理方法(計(jì)算機(jī)視覺和標(biāo)簽分析)的預(yù)估精度,計(jì)算方法為 E/D


G 列:利用該精度,計(jì)算 2、3、4 月總共拍攝到的櫻花圖片數(shù)量,計(jì)算方法為 C*F


 評估方法 


為了估計(jì)櫻花的盛開日期,研究人員為數(shù)據(jù)集中的所有圖像生成了以天為單位的時(shí)間序列,然后用 7-day width 的三角移動平均指標(biāo) (triangular rolling average) 進(jìn)行處理,中心點(diǎn)賦 unity weight,其兩側(cè)緊鄰的點(diǎn)賦 0.75 的權(quán)重,接下來最接近的點(diǎn)分別賦 0.5 和 0.25 的權(quán)重,以此來平整由周末(休閑時(shí)間,攝影活動明顯增加)和工作日賞花人數(shù)不同而帶來的拍攝行為 (Photographic activity) 波動。


得出的圖表中所顯示的拍攝行為波峰,被確定為是櫻花盛開的全盛期(mankai)。


 對比驗(yàn)證:預(yù)測結(jié)果與實(shí)際數(shù)據(jù)一致


日本對櫻花盛開現(xiàn)象的記錄最早可追溯到公元 812 年,自 1953 年起開始有了官方正式的觀測記錄。為了驗(yàn)證團(tuán)隊(duì)的分析方法,實(shí)驗(yàn)團(tuán)隊(duì)選擇了東京和京都兩座熱門賞花城市的數(shù)據(jù),并與日本氣象公司 (JMC)、日本國家旅游組織 (JNTO) 每年公布的櫻花全面盛開日期進(jìn)行對比,計(jì)算出實(shí)驗(yàn)所得峰值日與官方公布日期之間的誤差。


通過實(shí)驗(yàn),研究團(tuán)隊(duì)得出了日本全國櫻花開放的可視化時(shí)空數(shù)據(jù),1 月下旬 (wks 3-4) 至 5 月下旬 (wks 3-4),櫻花開放首先從南部氣候溫暖的地區(qū)逐漸向北方推進(jìn),最后由南向北逐漸退縮。如圖所示:


圖片圖 2: 2008-2018 年日本櫻花拍攝地點(diǎn)
每張圖的周期對應(yīng)兩周


A-C:櫻花圖片出現(xiàn)在日本南部較溫暖的地區(qū),圖片高度集中出現(xiàn)在本州島的東京與京都的城市中心


D-F:櫻花圖片增加,開始向本州島北部延伸


G-I:櫻花位置向北擴(kuò)展,出現(xiàn)在北海道札幌,東京和京都拍攝行為依然活躍,北海道和本州島北部,櫻花拍攝行為更加集中。最后,全國范圍內(nèi)的櫻花照片逐漸減少,由南到北退去。


實(shí)驗(yàn)團(tuán)隊(duì)將經(jīng)過處理的東京與京都地區(qū)櫻花活動攝影日時(shí)間序列的峰值,與 JMC/JNTO 所公布的日期進(jìn)行了比較驗(yàn)證。結(jié)果顯示東京地區(qū)的均方根誤差為 3.21 日,京都地區(qū)為 3.32 日。如下圖:


圖片圖 3:東京地區(qū)二者評估的日期對比


左欄:通過本實(shí)驗(yàn)方法所估計(jì)的歷年東京櫻花全盛日期

中欄:JNTO 歷年報(bào)道的東京櫻花全盛日期

右欄:誤差,即二者相差天數(shù)


圖片圖 4:京都地區(qū)二者評估的日期對比


左欄:通過本實(shí)驗(yàn)方法所估計(jì)的歷年京都櫻花全盛日期

中欄:JNTO 歷年報(bào)道的京都櫻花全盛日期

右欄:誤差,即二者相差天數(shù)


在實(shí)驗(yàn)團(tuán)隊(duì)的數(shù)據(jù)中,還揭示出了櫻花在秋季開放的現(xiàn)象。這在 JNTO 所公布的數(shù)據(jù)中并沒有正式指出,體現(xiàn)出了 SNS 數(shù)據(jù)有能力解析小概率事件,揭示異常的物候?qū)W現(xiàn)象,如非季節(jié)性開放時(shí)間,這對于評估一年四季甚至意外情況下可供獲取的花粉花蜜等芳香資源極其重要。


 SNS 數(shù)據(jù):為生態(tài)研究提供新洞見


世界氣象組織今年 4 月發(fā)布的一篇文章顯示,2022 年的全球平均溫度比 1850-1900 年的平均值高出了 1.15℃,人類對氣候變化的感知較為遲滯,植物則格外敏感。在全球氣候變暖的影響下,不僅是日本櫻花,我國多地的開花植物也受到了影響。


根據(jù)武漢大學(xué)櫻花觀測數(shù)據(jù),從上世紀(jì) 60 年代開始,武漢大學(xué)櫻花的始花期明顯提前,2000 年之后更是不斷突破記錄,一度由 3 月下旬提前至 2 月下旬。


20 世紀(jì) 90 年代前,山東菏澤的牡丹開花時(shí)間主要集中在 4 月下旬,2010 年前后提前到 4 月中旬,近幾年更是在 4 月上旬便可觀測到花開。


油菜開花的時(shí)間也同樣有了顯著提前的趨勢,江西婺源油菜花今年 2 月 22 日就見花了,3 月 13 日進(jìn)入開花盛期,而在 30 年前,油菜花開花時(shí)間一般在 3 月中旬。


Kepios 發(fā)布的一份報(bào)告顯示,截止 2023 年 4 月,全球社交媒體用戶數(shù)量達(dá)到 48 億,占全球總?cè)丝诘?59.9%,平均每人每天花費(fèi) 2 小時(shí) 24 分鐘使用社交媒體應(yīng)用,產(chǎn)生海量社交網(wǎng)絡(luò)數(shù)據(jù),有望為生態(tài)研究提供新洞見。


作者在本論文中提出的 SNS 分析技術(shù),可以填補(bǔ)公開數(shù)據(jù)中缺失的部分,幫助科研人員理解氣候變化對于開花植物產(chǎn)生的不同程度的影響,對理解蜜蜂、昆蟲等重要傳粉者的行為具有積極意義。


參考文章:[1]https://www.sciencedirect.com/science/article/abs/pii/S0168192320303117[2]https://link.springer.com/chapter/10.1007/978-4-431-66899-2_8[3]http://sh.cma.gov.cn/sh/qxkp/qhbh/zhykp/202304/t20230425_5464832.html[4]https://datareportal.com/social-media-users


*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉