logo
提供專業網上推廣服務,包括 SEO 搜尋引擎優化、SEM 關鍵字廣告、PPC 點擊付費廣告、社交媒體推廣、電子商貿顧問服務、數碼分析及網站設計等。免費網絡推廣諮詢,立即聯絡我們。

SEO 搜尋引擎優化

SEM|PPC 搜尋|點擊付費廣告

社交媒體推廣

電子商貿服務

網站設計

立即聯絡我們
免費網上推廣諮詢,包括:SEO、SEM、PPC、社交媒體、電子商貿及網站設計等。

+852 6112 3129 / 5343 9810 / 5743 0073

香港九龍觀塘觀塘道398號 Eastcore 15樓1528室

香港銅鑼灣怡和街28號恆生銅鑼灣大廈12樓A-B室

星期一至六 09:00 - 18:00

+852 6112 3129 / 5343 9810 / 5743 0073

深度了解 Google SGE 搜尋生成式體驗 (2)

深度了解 Google SGE 搜尋生成式體驗 (2)

上期我們通過“什麼是SGE”和“SGE是如何運作的”這幾部分的介紹,對SGE有了一定的了解,今天我們繼續來深入探討研究生成式AI。

負責任地應用生成式AI

經過深思熟悉之後,我們將SGE作為一個實驗項目推出,並遵循我們的人工智能原則。我們在開發這一測試項目時採取了周密的步驟和審慎的方法,借鑒了我們多年在搜索領域積累的保護措施和經驗。以下是我們的一些重要考慮因素。隨著時間的推移,我們將不斷優化和改進我們的方法,並與行業專家、執政人員、民權和人權領袖、內容創作者等廣泛合作,作為實驗的一部分。

訓練模型

目前,SGE採用了多種語言模型,其中包括MUM和PaLM2的高級版本。通過在功能集中使用多個模型,我們能夠進一步優化和微調這些模型,以滿足用戶的獨特需求,並在他們的信息搜索過程中提供幫助。

很多人已經直接與語言模型進行了互動,包括通過Bard等實驗。雖然SGE也應用了語言模型,但我們有意訓練它來執行與搜索相關的特定任務,包括識別與輸出信息相一致的高質量網絡結果。這些模型與我們的核心排名系統配合使用,以提供有幫助且可靠的搜索結果。

通過將SGE限定在這些特定任務中,包括驗證和合作等方面,我們能夠顯著減輕語言模型已知的一些限制,如虛構或不准確。我們進一步通過利用現有的搜索質量系統以及識別和排名高質量可靠信息的能力來應對這些挑戰。下面將更詳細地介紹:

人為參與和評估

在負責任地開發產品時,人為參與和評估起著重要的作用。除了其他質量檢查外,我們在訓練SGE的輸出時還加入測試人員的參與,重點關注長度、格式和清晰度等屬性。

在搜索領域,長期以來我們一直採用了嚴格的人為參與和評估流程來訓練和改進我們的排名系統,並且我們將許多經過充分測試的原則和經驗應用到SGE的訓練和評估中,包括:

• 評估員: 我們與專門的搜索質量評估員合作,幫助我們衡量輸出和展示結果的質量。這些評級不直接影響SGE的輸出,但用於訓練語言模型並改善整體體驗。

• 重點分析: 遵循我們在搜索領域進行重大發布的流程,我們對多個廣泛而代表性的查詢集合進行結果分析,並進行更詳細的研究,以確認響應是否符合我們的質量標準。特別是,我們著重關注可能更容易受到已知質量風險影響的主題領域,或者更加複雜微妙的領域。這包括可能面臨安全或包容性問題風險更高的查詢類別,並旨在確保我們的保護和響應在這些領域中有效。

• “紅隊”安全測試: 我們對這些系統進行對抗性測試,以發現系統未按預期運行的領域。這有助於發現偏見問題、安全問題和其他需要改進的方面。

我們正在繼續研究探索新的技術來發展和改進這些方法。

搜索質量系統

我們知道,人們使用搜索來尋找可信賴的信息,包括驗證他們在其他地方聽到的內容,因此我們對於提供可靠、有幫助和高質量信息的標準要求非常高。這就是為什麼我們在搜索中引入了生成式人工智能,並將其與我們幾十年來不斷打磨完善出的核心搜索排名和質量系統相結合。多年來,我們一直在將人工智能技術應用於搜索,並開發了一套嚴謹、嚴格的評估流程,以確保任何更新都能保持我們為提供可靠搜索結果所設定的高標準。

與我們的排名系統旨在避免意外觸及或冒犯人們的潛在有害、仇恨或不當內容一樣,SGE也不會在其回復中展示此類內容。

當涉及到對信息質量有更高要求的查詢,我們對SGE也設定了更高的標準。在搜索中,我們將這類查詢稱為YMYL主題,例如金融、健康或公民信息都屬於YMYL主題。在這些領域,人們期待更加精準的搜索結果。

對於YMYL主題,SGE會更加強調生成經過可靠來源驗證的回复。我們還訓練模型在適當的情況下在輸出中包含免責聲明。例如,在與健康相關的查詢中,如果我們顯示了回复,免責聲明會強調人們不應該僅依賴該信息作為醫學建議,而應該與醫療專業人士合作獲得個性化的護理。

對於某些主題,例如在互聯網上可能缺乏高質量或可靠的信息來源時,SGE是不會生成回复的。這種情況,我們通常稱之為“數據空白”或“信息空白”。當我們的系統認為回复的可信度較低時,SGE將不會生成基於人工智能的快照。此外,SGE不會為色情或危險主題生成快照,也不會為包含導致人員受傷的搜索生成快照,例如,在與自殘相關的搜索中,我們的系統會自動在搜索結果的頂部顯示可信賴的求助熱線資源。

政策

我們的自動化系統致力於防止違反政策的內容出現在SGE中。 SGE採取的政策與我們精選摘要和自動生成部分的特殊政策相一致,包括對可能包含色情、仇恨、暴力或其他違背公共利益主題共識的內容進行仔細審查。

雖然我們的系統通常能夠在內容出現之前有效地捕捉到違反政策的內容,但SGE是一個測試功能,違反政策的內容依舊有可能出現。在這種情況下,我們會根據政策採取行動,防止這些違規內容再次出現。我們還會利用這些案例來指導未來對模型的改進。鑑於SGE是Search Labs中的一項測試功能,我們將繼續審查和適當調整我們的政策,讓其在時間的沉澱下,變得更成熟更有幫助。

事實性與流暢性

我們做的另一個有意的選擇涉及到SGE中反應的流暢性,無論是在人工智能驅動的快照還是對話模式中。

我們發現,給模型留有餘地來創造流暢的、聽起來像人類的反應,會導致其有更高的概率輸出不准確的內容(見下文的限制)。與此同時,當回复具有流暢和對話性質時,我們發現人工評估員更容易相信這些回复,也不太容易發現錯誤。

考慮到人們對搜索的信任,我們有意地對對話性做了一定的限制。也就是說,例如,比起將SGE中的對話模式看作一個自由流暢的創意頭腦風暴夥伴,人們會更傾向於它能提供更加事實性的回复並鏈接至相關資源。

在平衡體驗的流暢性和信息質量方面非常重要,隨著我們在這個平衡上的不斷迭代,SGE將會不斷改進。

缺乏人設

有時,LLMs有可能生成似乎包含了人類觀點或情感的回复,這是因為它們在訓練時使用了人們用來表達人類體驗的語言。我們特意訓練SGE避免反映特定的人設。例如,SGE不會以第一人稱回复,我們對模型進行了微調,以提供客觀、中立的回复,並通過網絡結果進行印證。

已知的局限

雖然我們在SGE中加入了多種保護機制,但LLMs和這一初期實驗形式的體驗都存在已知的限制。以下是我們在評估和對抗性測試中觀察到的一些損失模式,以及我們在SGE中預計的其他限制。在許多情況下,我們已經通過模型更新和額外的微調進行了改進,並且隨著SGE的發展,我們預計將取得進一步的進展。

• 在核實過程中的誤解: 我們注意到有些情況下,SGE雖然能夠恰當地辨別相關信息來支持其快照,但會對語言產生輕微誤解,改變了輸出的含義。

• 錯覺: 與所有基於LLM的體驗一樣,SGE有時可能會錯誤地陳述事實或錯誤地識別見解。

• 偏見:由於SGE的訓練目標是與高質量資源相印證的回复,這些資源通常擁有較高的排名,因此SGE快照可能比網絡上的內容涵蓋的範圍更窄,從而在結果中反映出偏見。這容易給人一種模型已經學習到這種偏見的印象。然而,真相可能只是SGE提供的輸出反映了在排名靠前的結果中存在的偏見。這也是當前搜索結果中經常出現的現象。例如,權威組織和媒體機構在討論男子體育時通常不會加上“男性”這個限定詞,因此關於該體育項目的常規搜索可能會偏向於男性選手或球隊,即使關於女性選手或球隊的信息可能是同樣甚至更準確的回复。

• 觀點暗示人設:雖然SGE被設計成在其生成的內容中反映中立、客觀的意見,但在某些情況下,其內容可能反映了網絡上存在的觀點,給人一種模型展示出特定人設的印象。

• 與現有搜索功能的重複或矛盾:由於SGE與其他搜索結果和頁面上的功能集成在一起,SGE的輸出可能會與結果中的其他信息產生矛盾。例如,人們可能會看到一個突出顯示單一來源觀點的精選摘要結果,而SGE則代表了在一系列結果中得到印證的綜合觀點。

共建探索未來

在負責任地推出SGE的過程中,我們設定了清晰的用戶期望,並且積極關注目前仍然存在的限制。即使在提升質量和安全性方面取得進展,我們依舊會保持謹慎。通過率先在Search Labs中提供SGE,我們給予用戶與這項新技術互動的機會,同時也坦誠地告知他們這仍處於實驗階段。

雖然SGE的發展仍處於初期階段,但我們正在積極改進用戶體驗,並致力於提升質量和功能。我們期待從實驗室用戶的反饋中汲取經驗,不斷改進和迭代,共同構建搜索的未來。

Share
No Comments

Post a Comment