凝視著農(nóng)村的夜空,您可能會看到閃亮的月亮被星星包圍。如果幸運(yùn)的話,您可能會發(fā)現(xiàn)用肉眼可見的最遠(yuǎn)的東西-仙女座星系。它是我們銀河系最近的鄰居。但這只是其中所占比例最小的部分。當(dāng)美國國家科學(xué)基金會維拉魯賓天文臺的能源部(DOE)時空傳統(tǒng)照相機(jī)(LSST)在2022年啟動時,它將在十年的時間內(nèi)拍攝370億個星系和恒星的照片。
這個巨大的望遠(yuǎn)鏡的輸出將使研究人員充滿數(shù)據(jù)。在這10年中,LSST相機(jī)將為其覆蓋的每片Southern Sky拍攝2,000張照片。每個圖像中最多可以包含一百萬個對象。
卡內(nèi)基梅隆大學(xué)和LSST Dark教授Rachel Mandelbaum說:“就數(shù)據(jù)的規(guī)模,數(shù)據(jù)量,數(shù)據(jù)的復(fù)雜性而言,它們遠(yuǎn)遠(yuǎn)超出了我們現(xiàn)有的任何數(shù)據(jù)集。”能源科學(xué)合作組織發(fā)言人。“這打開了巨大的發(fā)現(xiàn)空間。”
科學(xué)家們并不是在建造LSST相機(jī)來拍攝漂亮的照片。他們想要識別,分類和測量可以揭示有關(guān)宇宙本身結(jié)構(gòu)信息的天體。了解暗能量和其他宇宙學(xué)奧秘需要有關(guān)超新星和星系的數(shù)據(jù)。研究人員甚至可能找到全新的對象類別。
與LSST暗能量科學(xué)合作組織合作的多倫多大學(xué)天體物理學(xué)助理教授RenéeHlo?ek說:“將有一些我們從未見過的物體,因為那是新發(fā)現(xiàn)的重點。”“我們會發(fā)現(xiàn)一堆叫做怪胎或異?,F(xiàn)象的東西。”
龐大的數(shù)據(jù)量和陌生的數(shù)據(jù)將使其難以分析。盡管可能會與當(dāng)?shù)貙<乙黄鹪谠摰貐^(qū)發(fā)現(xiàn)一個新的觀星者,但科學(xué)家們對這種新的宇宙并沒有這樣的指導(dǎo)。因此,他們正在自己做。更準(zhǔn)確地說,他們正在制作許多不同的指南,可以幫助他們識別和分類這些對象。在美國能源部科學(xué)辦公室的支持下,天體物理學(xué)家正在以計算機(jī)模型的形式開發(fā)這些指南,這些模型依靠機(jī)器學(xué)習(xí)來檢查LSST數(shù)據(jù)。機(jī)器學(xué)習(xí)是一個過程,其中計算機(jī)程序會隨著時間的推移了解一組數(shù)據(jù)中的關(guān)系。
學(xué)習(xí)的計算機(jī)程序
黑暗能源科學(xué)合作組織的科學(xué)家必須快速處理數(shù)據(jù)??茖W(xué)家需要知道相機(jī)正好對準(zhǔn)正確的位置,并且每次都正確地獲取數(shù)據(jù)。這種快速處理還可以幫助他們知道自從上次拍照以來,天空中是否有任何變化。減去以前的顯示他們當(dāng)前的照片,如果有一個有趣的天體的跡象對象或現(xiàn)象。
他們還需要以準(zhǔn)確且可用的方式將大量照片組合在一起。這個項目正在調(diào)查宇宙的深處,以捕獲一些最微弱的恒星和星系的圖像。它還將在不理想的大氣條件下拍照。作為補(bǔ)償,科學(xué)家需要可以將圖像組合在一起以提高清晰度的程序。
機(jī)器學(xué)習(xí)除了處理大量數(shù)據(jù)外,還可以解決這些挑戰(zhàn)。隨著這些程序分析更多的數(shù)據(jù),它們變得越準(zhǔn)確。就像一個學(xué)會識別星座的人一樣,他們會隨著時間的推移獲得更好的判斷力。
美國能源部阿貢國家實驗室的物理學(xué)家夏娃·科瓦克斯說:“許多科學(xué)家認(rèn)為機(jī)器學(xué)習(xí)是基于光度測量(光強(qiáng)度的測量)對源進(jìn)行分類的最有前途的選擇。”
但是機(jī)器學(xué)習(xí)程序需要先自學(xué),然后才能處理大量新數(shù)據(jù)。有兩種主要的方法來“訓(xùn)練”機(jī)器學(xué)習(xí)程序:無監(jiān)督和有監(jiān)督。
無監(jiān)督機(jī)器學(xué)習(xí)就像有人從每晚的觀測中學(xué)習(xí)有關(guān)恒星的知識。該程序會在未標(biāo)記的數(shù)據(jù)上進(jìn)行自我訓(xùn)練。盡管無監(jiān)督機(jī)器學(xué)習(xí)可以對圖像進(jìn)行分組并識別異常值,但是如果沒有某種指導(dǎo)手冊,就無法對它們進(jìn)行分類。
有監(jiān)督的機(jī)器學(xué)習(xí)就像是依賴于指南的新手。研究人員向其提供了大量數(shù)據(jù),并標(biāo)有每個對象的類別。通過一遍又一遍地檢查數(shù)據(jù),程序?qū)⒘私庥^測值和標(biāo)簽之間的關(guān)系。此技術(shù)對于將對象分類到已知組中特別有用。
在某些情況下,研究人員還為程序提供了一組特定的功能,例如亮度,形狀或顏色。它們提供了每個功能與其他功能相比的重要性的指導(dǎo)。在其他程序中,機(jī)器學(xué)習(xí)程序會自行找出相關(guān)功能。
但是,監(jiān)督式機(jī)器學(xué)習(xí)的準(zhǔn)確性取決于擁有良好訓(xùn)練集的能力,以及真實訓(xùn)練集的所有多樣性和可變性。對于來自LSST相機(jī)的照片,該可變性可能包括來自在天空中移動的衛(wèi)星的條紋。標(biāo)簽也必須非常準(zhǔn)確。
曼德爾鮑姆說:“我們必須將盡可能多的物理學(xué)納入訓(xùn)練集。”“它并沒有減輕理解物理學(xué)的負(fù)擔(dān)。它只是將其轉(zhuǎn)移到問題的另一部分。”
太空高速公路上的英里標(biāo)記
宇宙中一些最有趣的物體不會停留很長時間。瞬態(tài)對象看起來很亮,在特定時間段內(nèi)逐漸消失,然后變暗。超新星-大量爆炸的恒星-是一種瞬態(tài)物體??勺儗ο蟮牧炼葧S著時間以一致的方式變化。兩者都可以使用某些類型的“標(biāo)準(zhǔn)蠟燭”,科學(xué)家可以用它們來測量與地球的距離,例如州際公路上的英里標(biāo)記。這些標(biāo)準(zhǔn)蠟燭可提供有關(guān)宇宙大小和歷史的信息。
科瓦克斯說:“如果在給定的夜晚觀察到足夠多的星系,幾乎可以肯定會發(fā)現(xiàn)超新星。”
要知道超新星是否可以用作標(biāo)準(zhǔn)蠟燭,科學(xué)家需要知道它的類型。Ia型超新星可以是標(biāo)準(zhǔn)蠟燭。就像借鑒經(jīng)驗可以告訴觀星者正在看火星還是金星一樣,計算機(jī)程序可以利用其訓(xùn)練對圖像中的超新星進(jìn)行分類。
“所有這些美中不足之處是Ia型超新星并不是完全標(biāo)準(zhǔn)的蠟燭。它們有一定程度的變異,”科瓦奇說。“理解這種變化……實際上是完成所有這些工作的核心。”
Kovacs和她的合作者創(chuàng)建了一個程序,該程序使用超新星的顏色將它們分類。以前,科學(xué)家通過讓機(jī)器學(xué)習(xí)算法將特定超新星的亮度隨時間與基于Ia型超新星的模型進(jìn)行比較來訓(xùn)練機(jī)器學(xué)習(xí)算法。但是這些程序很可能將太多的超新星歸類為Ia型。她的團(tuán)隊采取了不同的方法。他們確定了一組17個特征,這些特征表征了超新星的光曲線(光強(qiáng)的時間變化)。使用數(shù)千個模擬超新星的訓(xùn)練集,他們能夠?qū)崿F(xiàn)具有極高準(zhǔn)確性的分類。
弄清楚宇宙物體離地球有多遠(yuǎn)是機(jī)器學(xué)習(xí)的另一個有希望的領(lǐng)域。以前,科學(xué)家依靠光譜望遠(yuǎn)鏡使用光纖來精確測量這些物體的距離。但是LSST相機(jī)每晚會發(fā)現(xiàn)1000多個瞬態(tài)物體。使用此技術(shù)的后續(xù)操作太多了。Mandelbaum和她的團(tuán)隊開發(fā)了一種機(jī)器學(xué)習(xí)程序,可以僅從照片中準(zhǔn)確估算出該距離。如果可用,它也可以適應(yīng)和合并光譜數(shù)據(jù)。
但是超新星并不是唯一可以用作標(biāo)準(zhǔn)蠟燭的物體。實際上,天體物理學(xué)家經(jīng)常使用其他物體來校準(zhǔn)其距離。Mandelbaum和她的團(tuán)隊使用機(jī)器學(xué)習(xí)來發(fā)現(xiàn)其他潛在的標(biāo)準(zhǔn)蠟燭。通過提供有關(guān)許多可變恒星的程序數(shù)據(jù),他們發(fā)現(xiàn)可以提出該數(shù)據(jù)并應(yīng)用識別良好標(biāo)準(zhǔn)蠟燭的功能,而無需先對恒星進(jìn)行分類。跳過這一步驟-需要大量帶標(biāo)簽的分類數(shù)據(jù)-簡化了流程。它還有助于避免分類產(chǎn)生偏差或錯誤。該程序產(chǎn)生的恒星樣本與造父變星(一種有用但稀有的變星)一樣,都是標(biāo)準(zhǔn)蠟燭。還有另一個好處-他們的樣本中的星星通常比造父變星更明亮,更容易測量。
Kovacs說:“機(jī)器學(xué)習(xí)可以幫助您發(fā)現(xiàn)這些復(fù)雜的空間,因為人類很難在三個以上的維度上進(jìn)行思考。”
在銀河級別上進(jìn)行選擇
盡管個別恒星可以揭示大量信息,但有時您需要一個完整的星系。單獨使用照片,比起超新星本身,更容易算出超新星的主星系的距離。但是科學(xué)家必須選擇正確的宿主星系。過去,他們是手動完成匹配的。但是LSST相機(jī)將創(chuàng)建過多的數(shù)據(jù)供人類處理。
在Kovac的一個項目中,科學(xué)團(tuán)隊開發(fā)了一種算法,可在90%到92%的時間內(nèi)將宿主星系與超新星正確匹配。不夠準(zhǔn)確。但是機(jī)器學(xué)習(xí)救了我。該團(tuán)隊開發(fā)了一個機(jī)器學(xué)習(xí)程序,以告訴他們?nèi)魏畏诸愓_與錯誤的可能性。它確定原始輸出的百分之七到百分之八是最有可能的錯誤。從數(shù)據(jù)中刪除這些項目可以提高準(zhǔn)確性,并可以更輕松地手動處理棘手的照片。
挖掘集體意識
為了進(jìn)一步探索機(jī)器學(xué)習(xí)的力量,LSST相機(jī)的兩個科學(xué)小組找到了一種獨特的方式來利用科學(xué)家的才智-他們進(jìn)行了比賽。通過與面向數(shù)據(jù)科學(xué)家的網(wǎng)站Kaggle合作,他們瞄準(zhǔn)了專門研究機(jī)器學(xué)習(xí)的非天文學(xué)家,以開發(fā)程序來對LSST Camera的未來數(shù)據(jù)進(jìn)行分類。
參加比賽的赫洛澤克說:“如果只與認(rèn)識的人講話,就會失去更大社區(qū)的那種想法。”“我們希望人們實際上一起工作以匯總他們的模型并匯總他們的數(shù)據(jù)。”
他們特別希望該程序選擇天體物理學(xué)家以前可能從未見過的物體類型。他們給了該小組300萬個對象,將它們分為15類,第15種是“我以前從未見過”。
赫洛澤克說:“我們希望自己愿意接受這類工作。”“怪異表現(xiàn)出來的方式是什么?”
截止到2018年12月,共有1000個團(tuán)隊的1300多名競爭者參加了這項挑戰(zhàn)?,F(xiàn)在,LSST攝像機(jī)的研究人員正在對代碼進(jìn)行分類,以將其組合為最佳的程序集。
所有這些活動都是在LSST相機(jī)開啟之前發(fā)生的。一旦數(shù)據(jù)開始流入,機(jī)器學(xué)習(xí)程序肯定會揭示更多信息。盡管計算機(jī)無法凝視奇異的星星,但它們將為激發(fā)我們敬畏精神的天體提供更多的洞察力。