亞馬遜正在使用AI和機器學習來根據(jù)客戶的查詢預測上下文。在預定于本月舉行的ACM SIGIR人類信息交互與檢索會議上接受的預印本中,亞馬遜研究人員描述了一種系統(tǒng),該系統(tǒng)可根據(jù)“阿迪達斯男式褲子”等查詢來預測“跑步”等活動。它可以幫助提高Amazon.com上搜索結(jié)果的質(zhì)量,從而可以改善整體Amazon購物體驗。
正如特約作者兼Amazon Search客戶體驗應用科學家Adrian Boteanu在博客文章中解釋的那樣,大多數(shù)產(chǎn)品發(fā)現(xiàn)算法都在查詢和產(chǎn)品之間尋找關(guān)聯(lián)。相比之下,研究人員的AI根據(jù)使用情況確定最佳匹配項。
為了對系統(tǒng)進行培訓,團隊根據(jù)通用產(chǎn)品匯總了173種使用環(huán)境類別的列表,分為112種活動(例如閱讀,清潔和跑步)和61位受眾(例如孩子,女兒,男人和專業(yè)人員)查詢。他們使用標準參考文本為用于表示類別的術(shù)語創(chuàng)建別名,然后搜尋與數(shù)百萬種產(chǎn)品相關(guān)的語料庫,以查詢字符串以查看類別術(shù)語及其別名的評論。如果在給定產(chǎn)品的任何評論中出現(xiàn)了原始類別術(shù)語或別名,則該產(chǎn)品將標記有相應的類別術(shù)語。
上述語料庫根據(jù)親和力得分(從1到15)將字符串與產(chǎn)品相關(guān)聯(lián),其中低得分表示弱相關(guān)性。為了訓練使用上下文的預測器,研究人員生成了另一個數(shù)據(jù)集,其中每個條目都包含三個數(shù)據(jù)項:查詢;產(chǎn)品ID,使用上下文類別進行注釋;以及查詢產(chǎn)品親和力得分。該數(shù)據(jù)集被分為兩個較小的集合,一個根據(jù)活動進行注釋,另一個根據(jù)受眾進行注釋,用于訓練六個不同的機器學習模型。
每個模型都經(jīng)過培訓,可以根據(jù)查詢字符串預測使用環(huán)境,在測試中,效果最好的模型可以預測產(chǎn)品注釋,其中活動類別的準確性為97%,受眾類別的準確性為92%。當向人類審閱者顯示由活動模型生成的類別的按等級排序的列表時,審閱者同意平均81%的時間接受系統(tǒng)的逐項預測。
“這表明我們的系統(tǒng)確定的使用環(huán)境可以幫助產(chǎn)品發(fā)現(xiàn)算法提供更相關(guān)的結(jié)果,從而改善客戶體驗。此外,生成培訓數(shù)據(jù)所需的最低限度的人力監(jiān)督意味著我們的方法可以以相對較少的努力擴展到新的類別,”博客文章說。