珍貴的紙質(zhì)老照片該如何保存?《紐約時(shí)報(bào)》與谷歌云合作,利用AI將19世紀(jì)以來(lái)的500-700萬(wàn)張歷史照片數(shù)字化。谷歌云的AI技術(shù)不僅可以將照片數(shù)字化,還能掃描照片上的筆記,分類(lèi)它們包含的位置、日期等語(yǔ)義信息 。
紙質(zhì)老照片記錄下了當(dāng)時(shí)的珍貴時(shí)刻,其中的歷史意義也更為重要,但紙質(zhì)極容易損壞,人類(lèi)該怎么保存它們,讓它們恒久遠(yuǎn)永流傳?
谷歌云(Google Cloud)利用AI將照片數(shù)字化。
在《紐約時(shí)報(bào)》位于美國(guó)時(shí)代廣場(chǎng)辦公室附近的地下室中存放了大約500萬(wàn)張到700萬(wàn)張的舊照片,存在這些照片的地方名為資料檔案室。
《紐約時(shí)報(bào)》不僅存放了這些照片,也存儲(chǔ)了有關(guān)它們是何時(shí)發(fā)布及其發(fā)布原因的相關(guān)信息。現(xiàn)在,該報(bào)正在與谷歌云合作,準(zhǔn)備將其龐大的藏品數(shù)字化。
谷歌云官方發(fā)布博客稱(chēng),它將與紐約時(shí)報(bào)合作,將龐大的照片集數(shù)字化,利用谷歌云中的工具幫助《紐約時(shí)報(bào)》安全地存儲(chǔ)照片,提供更好的界面來(lái)查找照片,甚至可以通過(guò)照片背后的數(shù)字來(lái)獲得更多照片內(nèi)蘊(yùn)含的信息。
紙質(zhì)實(shí)物易腐爛,通過(guò)AI保護(hù)珍貴的視覺(jué)遺產(chǎn)
“資料檔案室保存的照片可以追溯到19世紀(jì)末期,其中許多內(nèi)容具有巨大的歷史價(jià)值——很多照片是世界上其他地方都沒(méi)有的。 2015年,一個(gè)破損的管道淹沒(méi)了檔案館 ,使整個(gè)館藏面臨風(fēng)險(xiǎn)。 幸運(yùn)的是,當(dāng)時(shí)只有輕微的損害,但這一事件引發(fā)了人們反思:這些最寶貴的實(shí)物資產(chǎn)該如何安全存儲(chǔ)?
《紐約時(shí)報(bào)》的資料檔案室
“資料檔案室是一個(gè)易腐文件的寶庫(kù),不僅是《紐約時(shí)報(bào)》的歷史,而且是近一個(gè)多世紀(jì)以來(lái)影響我們現(xiàn)代社會(huì)的全球事件的無(wú)價(jià)編年史?!薄都~約時(shí)報(bào)》新任首席技術(shù)官Nick Rockwell說(shuō)。
不僅照片的圖像包含有價(jià)值的信息。 在許多情況下,照片的背面包括拍攝照片的時(shí)間和地點(diǎn)。Rockwell補(bǔ)充說(shuō):“照片部門(mén)和商業(yè)方面的工作人員多年來(lái)一直在探索將這些照片數(shù)字化的可能途徑。 但就像去年一樣,數(shù)字化存檔的想法似乎仍然遙不可及?!?/p>
《紐約時(shí)報(bào)》的老照片:1984年,蘋(píng)果創(chuàng)始人史蒂夫·喬布斯
為了保護(hù)這個(gè)無(wú)價(jià)的歷史,并讓《紐約時(shí)報(bào)》能夠通過(guò)更多的視覺(jué)敘事和歷史背景來(lái)增強(qiáng)其報(bào)道, 《紐約時(shí)報(bào)》正在對(duì)其檔案進(jìn)行數(shù)字化,使用谷歌云來(lái)存儲(chǔ)資料檔案室內(nèi)所有圖像的高分辨率掃描。
谷歌云是可用于存儲(chǔ)對(duì)象的系統(tǒng),它為紐約時(shí)報(bào)等客戶提供自動(dòng)生命周期管理,不同區(qū)域的存儲(chǔ)以及易于使用的管理界面和API。
AI工作原理:Google Cloud中的技術(shù)可以處理和識(shí)別照片中的大量信息
僅僅存儲(chǔ)高分辨率圖像不足以創(chuàng)建照片管理者可以輕松使用的系統(tǒng)。
有效的資產(chǎn)管理系統(tǒng)必須允許用戶輕松瀏覽和搜索照片?!都~約時(shí)報(bào)》建立了一個(gè)存儲(chǔ)和處理照片的處理系統(tǒng),并將使用Google Cloud中的技術(shù)處理和識(shí)別圖像中可以找到的文本、手寫(xiě)內(nèi)容和其他細(xì)節(jié)。
以下它的工作原理:
將圖像提取到云存儲(chǔ)后, 《紐約時(shí)報(bào)》使用Cloud Pub / Sub啟動(dòng)處理傳輸途徑以完成多項(xiàng)任務(wù)。 通過(guò)在Google Kubernetes Engine (GKE)上運(yùn)行的服務(wù)調(diào)整圖像大小,圖像的元數(shù)據(jù)存儲(chǔ)在運(yùn)行在谷歌完全托管數(shù)據(jù)庫(kù)產(chǎn)品Cloud SQL里的PostgreSQL數(shù)據(jù)庫(kù)中。
Cloud Pub / Sub幫助《紐約時(shí)報(bào)》創(chuàng)建其處理流程,而無(wú)需構(gòu)建復(fù)雜的API或業(yè)務(wù)流程系統(tǒng)。它是一個(gè)完全托管的解決方案,因此沒(méi)有時(shí)間維護(hù)底層基礎(chǔ)架構(gòu)。
谷歌云官方發(fā)布與《紐約時(shí)報(bào)》合作將照片數(shù)字化的宣傳片,講述了AI工作原理
為了調(diào)整圖像大小和修改圖像元數(shù)據(jù), 《紐約時(shí)報(bào)》使用開(kāi)源命令行程序“ImageMagick ”和“ ExifTool ”。 他們將ImageMagick和exiftool添加到Docker鏡像中,以便以最小的管理工作量、一種水平可擴(kuò)展的方式在GKE上運(yùn)行它們。 添加更多容量來(lái)處理更多圖像并不重要,當(dāng)不需要服務(wù)時(shí),《紐約時(shí)報(bào)》可以停止或啟動(dòng)其Kubernetes集群。 這些圖片還存儲(chǔ)在云存儲(chǔ)的多區(qū)域位置創(chuàng)建的存儲(chǔ)桶中,以便在多個(gè)位置提供可用性。
存檔的最后一部分是在圖像及其元數(shù)據(jù)在“紐約時(shí)報(bào)”管理系統(tǒng)中移動(dòng)時(shí)跟蹤它們。Cloud SQL是一個(gè)很好的選擇。對(duì)于開(kāi)發(fā)人員,Cloud SQL提供了一個(gè)標(biāo)準(zhǔn)的PostgreSQL實(shí)例:作為完全托管的服務(wù),無(wú)需安裝新版本、應(yīng)用安全補(bǔ)丁或設(shè)置復(fù)雜配置。 Cloud SQL為開(kāi)發(fā)者們提供了一種使用標(biāo)準(zhǔn)SQL解決方案的簡(jiǎn)單方法。
不只是存儲(chǔ)圖像,機(jī)器學(xué)習(xí)可以獲取照片上的很多信息
存儲(chǔ)圖像只是這個(gè)故事的一部分。
為了使像《紐約時(shí)報(bào)》資料檔案室的圖片更加便于使用,利用額外的GCP功能是有益的。 在《紐約時(shí)報(bào)》的案例中,掃描照片的更大挑戰(zhàn)是添加有關(guān)老照片的內(nèi)容數(shù)據(jù)。 Cloud Vision API可以幫助填補(bǔ)這一空白。
讓我們來(lái)看看《紐約時(shí)報(bào)》舊賓州車(chē)站的這張照片。 來(lái)看下這張照片的正面和背面。
這是一張漂亮的黑白照片,但沒(méi)有額外的背景,從照片的正面看不清楚它在講述什么。 照片背面包含大量有用信息,Cloud Vision API可以幫助我們處理、存儲(chǔ)和閱讀它的信息。 當(dāng)谷歌將圖像的背面提交給API(無(wú)需額外處理)時(shí),我們可以看到Cloud Vision API檢測(cè)到以下文本(譯者注:文本邏輯并非完全清晰,主要是照片上的碎片化內(nèi)容):
1985年11月27日
1992年7月28日
時(shí)鐘懸掛在1942年賓夕法尼亞車(chē)站主要大廳的入口上方,右側(cè)是車(chē)站外部,然后于1963年拆除。
在紐約出版
存儲(chǔ)于1972年4月30日
《紐約時(shí)報(bào)》那時(shí)賦予這張照片的意義:1942年擁擠的賓州車(chē)站,這個(gè)時(shí)代“只有勇敢的飛行 - 到華盛頓,邁阿密和各種各樣的車(chē)站。”
背面信息:
賓州車(chē)站的好日子/懷舊之旅
(OCT 3194
RAPR 20072
攝影:紐時(shí)時(shí)報(bào)工作人員,1942年,紐約人大學(xué)城的舊賓夕法尼亞電視臺(tái)。該人士在現(xiàn)在的Postellgesikha將軍那里建立了一個(gè)發(fā)電臺(tái)
Pub NYT Sun 5/2/93 Metro
THURSDAY EARLY RUN o cos x ET RESORT
EB 11 1988
RECEIVED DEC 25 1942 + ART DEPT. FILES
The New York Times Business at rail terminals is reflected in the hotels;
OUTWARD BOUND FOR THE CHRISTMAS HOLIDAYS The scene in Pennsylvania Station yesterday afternoor afternoothe New York Times (Greenhaus)
這是我們的Cloud Vision API的實(shí)際輸出,無(wú)需對(duì)圖像進(jìn)行額外的預(yù)處理。 當(dāng)然,數(shù)字文本轉(zhuǎn)錄并不完美,但它比處理數(shù)百萬(wàn)張圖像的替代品更快,更具節(jié)省成本。
谷歌云:將過(guò)去帶向未來(lái),使所有信息都變得可用
這只是個(gè)開(kāi)始。 類(lèi)似于《紐約時(shí)報(bào)》的公司可以使用Vision API來(lái)識(shí)別對(duì)象、地點(diǎn)和圖像。 例如,如果我們通過(guò)帶有徽標(biāo)檢測(cè)功能的Cloud Vision API傳遞上面的黑白照片,我們就可以看到賓州車(chē)站被識(shí)別出來(lái)了。
谷歌云的自然語(yǔ)言API可用于向已識(shí)別的文本添加其他語(yǔ)義信息。 例如,如果我們通過(guò)API,通過(guò)文本“紐約時(shí)報(bào)的方式 - 1942年擁擠的賓州車(chē)站,一個(gè)只有勇敢飛行的時(shí)代 - 華盛頓,邁阿密和各種各樣的車(chē)站?!闭_地將“賓州車(chē)站”,“華盛頓”和“邁阿密”識(shí)別為位置,并將整個(gè)句子分類(lèi)為“旅行”類(lèi)別和子類(lèi)別“公共汽車(chē)和鐵路”。
谷歌云在博客中聲稱(chēng),幫助《紐約時(shí)報(bào)》改造其照片檔案完全符合谷歌的使命,即組織世界范圍內(nèi)的信息并使其普遍可用和有用。
-
谷歌
+關(guān)注
關(guān)注
27文章
6171瀏覽量
105486 -
AI
+關(guān)注
關(guān)注
87文章
30998瀏覽量
269304 -
數(shù)字化
+關(guān)注
關(guān)注
8文章
8766瀏覽量
61854
原文標(biāo)題:留住老照片,谷歌用AI幫紐約時(shí)報(bào)講了500萬(wàn)個(gè)故事
文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論