社交媒體和網(wǎng)站上的新聞中到處都有AI。與大多數(shù)技術(shù)都處于炒作周期一樣,市場上有很多噪音,很難確切地了解什么是人工智能以及政府機構(gòu)如何使用它。
簡而言之,人工智能是一組統(tǒng)計和數(shù)學(xué)算法,它們使用大量的歷史數(shù)據(jù)來學(xué)習(xí)并做出對未來的預(yù)測。
十多年來,人工智能已經(jīng)融入我們使用的許多事物之中。一些流行的用例示例包括Gmail中極其精確的垃圾郵件過濾器,Microsoft Outlook將電子郵件分為混亂,集中的流和其他流,Google助手,Siri,Alexa,Netflix,亞馬遜和Tesla自動駕駛儀(最新版本使用機器學(xué)習(xí)來感知并同時打開雨刷器)。
但是,人工智能的增長取決于良好的數(shù)據(jù)。我們需要高質(zhì)量的數(shù)據(jù)來訓(xùn)練AI模型。IT系統(tǒng)對公司和代理機構(gòu)都是一個福音,將其從紙面和人力密集型任務(wù)的世界轉(zhuǎn)移到更自動化的系統(tǒng),自助服務(wù)以及總體上更高水平的客戶和公民服務(wù)。
但是,隨著IT系統(tǒng)的成長和發(fā)展,它們通常朝著獨立的方向發(fā)展。代理商甚至沒有簡單的數(shù)據(jù)分類標(biāo)準(zhǔn),例如一個人的姓名或地址。例如,衛(wèi)生和公共服務(wù)采購系統(tǒng)對合同“授予”有11個不同的條款。通過IRS合同,我們了解到,在一個系統(tǒng)中,一個名為“國家”的字段并未引用我們可能想到的內(nèi)容-該國的50個州,而是其他州。這并非政府機構(gòu)獨有,但在大型私營企業(yè)中也很常見。
為了克服爐灶式數(shù)據(jù)的泛濫,一種常見的解決方案是構(gòu)建大型“數(shù)據(jù)倉庫”,該倉庫將來自多個系統(tǒng)的信息整合到一個數(shù)據(jù)庫系統(tǒng)中。不幸的是,當(dāng)移動數(shù)據(jù)時,它可能會以不希望使數(shù)據(jù)變得毫無用處的方式被破壞,破壞,更改或無法撤消地轉(zhuǎn)換。
在交易系統(tǒng)和數(shù)據(jù)倉庫中,都存在許多數(shù)據(jù)質(zhì)量問題,包括數(shù)據(jù)重復(fù),數(shù)據(jù)不正確,數(shù)據(jù)損壞等。當(dāng)輸入數(shù)據(jù)有缺陷時,將導(dǎo)致GIGO問題或垃圾進,垃圾出。
代理商面臨的另一個嚴(yán)重問題是整個企業(yè)中的數(shù)據(jù)碎片以及生活在孤島中的數(shù)據(jù)通常是無法訪問的。大多數(shù)機構(gòu)系統(tǒng)是在獨立的方向上開發(fā)的,通常側(cè)重于運行組織一部分的任務(wù)功能。例如,納稅人可能由多個孤立的系統(tǒng)處理,這些系統(tǒng)處理工資和收入信息,審計,執(zhí)行或刑事調(diào)查。很難對所涉及的主要實體進行360度查看:存在于這些系統(tǒng)中的納稅人。系統(tǒng)所有者還熱衷于保護其系統(tǒng)中的數(shù)據(jù),因此獲取訪問權(quán)通常很乏味且充滿挑戰(zhàn)。
這些是嚴(yán)重的問題。為了獲得我們可以依靠的結(jié)果,我們至少需要一定數(shù)量的質(zhì)量合理的良好數(shù)據(jù)。這是否意味著在首先清理,標(biāo)準(zhǔn)化和合并我們擁有的所有數(shù)據(jù)之前就不可能有AI?