應(yīng)用測(cè)試公司Applause最近推出了新的人工智能(AI)解決方案,承諾幫助解決算法偏見(jiàn),同時(shí)提供AI訓(xùn)練所需的龐大數(shù)據(jù)。
Applause已經(jīng)為其應(yīng)用程序測(cè)試解決方案建立了龐大的全球測(cè)試社區(qū),該解決方案受到谷歌、Uber、PayPal等品牌的信任?,F(xiàn)在,該公司正在利用這個(gè)相對(duì)獨(dú)特的地位,來(lái)幫助克服AI發(fā)展面臨的某些最大障礙。
11月底,Applause公司產(chǎn)品副總裁克里斯汀·西莫尼尼(Kristin Simonini)在北美AI博覽會(huì)上發(fā)表主題演講之前曾接受采訪,談到了該公司最新解決方案及其對(duì)行業(yè)的重要意義。
西莫尼尼解釋稱:“我們的客戶始終需要我們?cè)跀?shù)據(jù)收集領(lǐng)域提供額外的支持,以支持他們的AI開(kāi)發(fā),培訓(xùn)他們的系統(tǒng),然后測(cè)試功能,而后半部分更符合他們傳統(tǒng)上對(duì)我們的期望。”
Applause主要與語(yǔ)音領(lǐng)域的公司合作,但他們也越來(lái)越多地?cái)U(kuò)展到收集和標(biāo)注圖像以及通過(guò)OCR(優(yōu)化字符識(shí)別)運(yùn)行文檔等領(lǐng)域。
在當(dāng)今AI最常用的領(lǐng)域中,這種現(xiàn)有的經(jīng)驗(yàn)廣度使Applause及其測(cè)試人員處于非常有利的位置,能夠就哪些方面可以做出改進(jìn)提供真正有用的反饋。
具體地說(shuō),Applause的新解決方案跨越五種獨(dú)特的AI活動(dòng)類型:
語(yǔ)音:源發(fā)聲以訓(xùn)練支持語(yǔ)音的設(shè)備,并對(duì)這些設(shè)備進(jìn)行測(cè)試,以確保它們能夠準(zhǔn)確地理解和響應(yīng);
OCR:提供文檔和對(duì)應(yīng)的文本來(lái)訓(xùn)練識(shí)別文本的算法,并比較打印文檔和識(shí)別文本的準(zhǔn)確性;
圖像識(shí)別:交付預(yù)定義對(duì)象和位置的照片,并確保正確識(shí)別圖片和識(shí)別對(duì)象;
生物識(shí)別:獲取生物特征輸入,如人臉和指紋,并測(cè)試這些輸入是否會(huì)產(chǎn)生易于使用且實(shí)際有效的體驗(yàn);
聊天機(jī)器人:給出樣本問(wèn)題和不同的意圖讓聊天機(jī)器人回答,并與聊天機(jī)器人互動(dòng),以確保它們能像人類那樣準(zhǔn)確地理解和響應(yīng)。
西莫尼尼說(shuō):“我們有準(zhǔn)備充分的全球社區(qū),能夠大規(guī)模地把某個(gè)組織可能在尋找的任何信息匯集起來(lái),并以這種廣度和深度相結(jié)合的方式進(jìn)行,這使得引入截然不同的數(shù)據(jù)來(lái)訓(xùn)練AI系統(tǒng)成為可能。”
西莫尼尼提供了部分例證,其中包括語(yǔ)音話語(yǔ)、特定文檔和符合設(shè)定標(biāo)準(zhǔn)的圖像(如“街角”或“貓”),這些數(shù)據(jù)類型是由Appleause的全球測(cè)試員提供的。缺乏這樣具有多樣性的數(shù)據(jù)集是當(dāng)今面臨的最大障礙之一,也是Applause希望幫助克服的一個(gè)障礙。
重大責(zé)任
參與開(kāi)發(fā)新興技術(shù)的每個(gè)人都負(fù)有重大責(zé)任。AI特別敏感,因?yàn)槊總€(gè)人都知道它將對(duì)世界上大多數(shù)社會(huì)都能產(chǎn)生巨大影響,但沒(méi)有人能真正預(yù)測(cè)如何產(chǎn)生影響。
AI將取代多少工作崗位?它會(huì)被用于殺人機(jī)器人嗎?它會(huì)不會(huì)決定是否發(fā)射導(dǎo)彈?面部識(shí)別將在多大程度上應(yīng)用于整個(gè)社會(huì)?這些都是重要的問(wèn)題,沒(méi)有人能給出完全肯定的答案,但圍繞著《一九八四》和《終結(jié)者》這樣的電影肯定影響公眾的想法。
關(guān)于AI的主要問(wèn)題之一是偏見(jiàn)。算法正義聯(lián)盟等機(jī)構(gòu)所做的工作,揭示了面部識(shí)別算法的有效性取決于每個(gè)人的種族和性別之間的巨大差異。例如,IBM的面部識(shí)別算法在用于淺色皮膚的男性時(shí),準(zhǔn)確率為99.7%,而對(duì)于深色皮膚的女性,準(zhǔn)確率僅為65.3%。
西莫尼尼強(qiáng)調(diào)了她最近讀到的另一項(xiàng)研究,其中算法識(shí)別白人男性的語(yǔ)音準(zhǔn)確率超過(guò)90%。然而,對(duì)于非裔美國(guó)女性來(lái)說(shuō),這一比例剛剛接近30%。
解決這種差異至關(guān)重要,不僅可以防止諸如無(wú)意中自動(dòng)化種族定性或給予社會(huì)的某些部分相對(duì)于其他部分的優(yōu)勢(shì)等事情,而且也是為了讓AI充分發(fā)揮其潛力。
雖然有很多顧慮,但只要是以負(fù)責(zé)人的態(tài)度進(jìn)行開(kāi)發(fā),AI就擁有巨大的力量。AI可以提高效率,減少對(duì)環(huán)境的影響,讓人騰出更多時(shí)間與親人在一起,并從根本上改善殘疾人的生活。
公司不能對(duì)自己的發(fā)展承擔(dān)責(zé)任將導(dǎo)致過(guò)度監(jiān)管,而過(guò)度監(jiān)管又會(huì)導(dǎo)致創(chuàng)新減少。在被問(wèn)及是否相信穩(wěn)健的測(cè)試將減少過(guò)度監(jiān)管的可能性時(shí),西莫尼尼稱:“在某些情況下,人們可能會(huì)試圖進(jìn)行監(jiān)管,但如果你真的能證明已經(jīng)做出了努力,以達(dá)到高水平的準(zhǔn)確性和深度,那么我認(rèn)為這種可能性就會(huì)降低。”
人類測(cè)試仍必不可少
Applause并不是唯一一家致力于減少算法中偏見(jiàn)的公司。例如,IBM有個(gè)名為Fairness 360的工具,它本質(zhì)上是一種AI系統(tǒng),用于掃描其他算法以尋找偏見(jiàn)存在的跡象。
在被問(wèn)及為何Applause認(rèn)為人類試驗(yàn)仍然必不可少時(shí),西莫尼尼評(píng)論說(shuō):“人類在他們將如何對(duì)某事做出反應(yīng)、他們將以何種方式去做、他們?nèi)绾芜x擇與這些設(shè)備和應(yīng)用程序進(jìn)行互動(dòng)方面是不可預(yù)測(cè)的。我們還沒(méi)有看到在沒(méi)有人為因素的情況下能夠有效地做到這一點(diǎn)的跡象。”
語(yǔ)音識(shí)別經(jīng)常遇到的一大挑戰(zhàn)是,所說(shuō)的各種語(yǔ)言及其地區(qū)方言。許多美國(guó)語(yǔ)音識(shí)別系統(tǒng)甚至在識(shí)別英格蘭西南部的口音方面存在問(wèn)題。
西莫尼尼補(bǔ)充了關(guān)于俚語(yǔ)的另一個(gè)考慮因素,以及語(yǔ)音服務(wù)需要與不斷變化的詞匯表保持同步。她解釋說(shuō):“現(xiàn)在的青少年喜歡某些熱門(mén)或炫酷東西的時(shí)候,喜歡用‘Fire’(火)這樣的詞匯。我們能夠?qū)⑦@些設(shè)備帶入家庭,并真正試圖理解其中一些細(xì)微差別。”
西莫尼尼隨后進(jìn)一步解釋了理解這些細(xì)微差別的背景所面臨的挑戰(zhàn)。在她的“Fire”例子中,顯然需要理解什么時(shí)候根據(jù)字面意思進(jìn)行解釋,什么時(shí)候有人是在稱贊某些東西很酷。西莫尼尼說(shuō):“你如何區(qū)分火災(zāi)等緊急情況?音調(diào)、語(yǔ)氣以及其他關(guān)于如何使用相同的語(yǔ)音命令的東西都會(huì)有所不同。”
AI應(yīng)用和服務(wù)增長(zhǎng)
Applause在傳統(tǒng)的應(yīng)用程序測(cè)試領(lǐng)域建立了自己的業(yè)務(wù)??紤]到AI應(yīng)用和服務(wù)的預(yù)期增長(zhǎng),西莫尼尼被問(wèn)及是否相信其AI測(cè)試解決方案將變得與其目前的應(yīng)用測(cè)試業(yè)務(wù)一樣龐大,甚至可能更大。
對(duì)此,她回應(yīng)稱:“我們確實(shí)談到了這一點(diǎn)。你知道,這會(huì)以多快的速度增長(zhǎng)?我不想一直談?wù)撜Z(yǔ)音,但如果你從統(tǒng)計(jì)數(shù)據(jù)上看,相對(duì)于移動(dòng)設(shè)備的增長(zhǎng)和采用,語(yǔ)音市場(chǎng)的增長(zhǎng)正在以快得多的速度發(fā)生。我認(rèn)為它將在我們的業(yè)務(wù)中占據(jù)越來(lái)越大的份額,但我不認(rèn)為它肯定會(huì)取代任何東西,因?yàn)檫@些渠道(如移動(dòng)和桌面應(yīng)用)仍將存在,并相互補(bǔ)充。”
西莫尼尼還表示:“我們選擇談?wù)摰慕嵌葘?shí)際上是人類和AI之間的交集,以及為何我們不相信它會(huì)成為替代品,而是它如何發(fā)揮作用并相互補(bǔ)充。基本上,從測(cè)試的角度來(lái)看,以人為中心的需求仍然非常高。”
來(lái)源 |網(wǎng)易智能