近期的一項研究揭示了一種稱為「EmotionPrompt」的創新方法,其通過在人工智能的提示(Prompt)中融入情感刺激,顯著提高了AI回應的品質、真實性與責任感,平均提升達10.9%。這種策略可以被形容為對AI進行「情緒勒索」,使其回應更加貼切。
研究團隊借鑒心理學原理,設計了11句具有情感影響力的語句,如「這對我的事業非常重要」和「你確定嗎?」,並將其融入到原始的提示中,以測試LLMs對情感的理解能力。實驗結果顯示,在包括標準測試和人工評估在內的多種測試情境下,EmotionPrompt均顯著提升了各種模型的表現,尤其是那些加入特定情感刺激語句的實驗。
看完本篇可以學到:
設計有效情緒刺激
「EmotionPrompt」已成為改進大型語言模型(LLMs)的關鍵技術,對於像ChatGPT、Flan-T5-Large、Vicuna、Llama 2、BLOOM以及GPT-4這類模型的提升具有不可忽視的重要性。EmotionPrompt融合了情感智慧的概念,讓這些語言模型不僅能夠理解和回應語言本身,還能夠把握和反映人類情感的細微差異。這種對情感智慧的整合讓AI更接近人類思維方式的一大步。
EmotionPrompt的設計核心在於有效地將情緒刺激融入大型語言模型。這種設計靈感源自於三大心理學現象:自我監控、社會認知理論和認知情緒調節。例如,自我監控強調個體根據社交情境調整行為,而社會認知理論則著重於個體通過觀察社會互動中的他人學習。
認知情緒調節理論則關注於個體如何通過重新評估情況來正面看待挑戰。EmotionPrompt通過將這些心理學原則轉化為具體的情緒刺激,如「你確定嗎?」或「相信你的能力,追求卓越」,進而引導語言模型更深入地理解和回應情感層面的內容。這種方法不僅增強了模型對於情緒的理解能力,同時也提升了它們在處理各種語言任務時的表現,從而開拓了人工智能在情感智慧領域的新境界。
標準實驗與結果分析
在對EmotionPrompt的有效性進行評估時,我們首先通過標準實驗進行了測試。這些「標準」實驗包括自動評估的確定性任務,特別選取了Instruction Induction和BIG-Bench數據集中的24項和21項任務。Instruction Induction旨在探索LLMs從幾個示例中推斷出潛在任務的能力,而BIG-Bench則聚焦於大多數LLMs難以處理的任務。通過測試不同難度的任務,我們能夠評估EmotionPrompt在各種認知能力上的有效性,包括語言理解、推理和決策製定。
實驗結果表明,EmotionPrompt在提高這些模型的表現方面具有顯著的優勢。例如,在Instruction Induction中的相對性能提升達到8.00%,在BIG-Bench中則達到了驚人的115%。這些結果不僅證明了EmotionPrompt在各種任務中的廣泛適用性,也展示了在融入情感智慧後,LLMs在處理複雜問題時的強大潛力。
11句具有情感影響力的語句可以馬上加到prompt中:
- EP01: 寫下你的答案並給我一個0-1之間的信心分數。
- EP02: 這對我的事業非常重要。
- EP03: 你最好確定。
- EP04: 你確定嗎?
- EP05: 你確定這是你的最終答案嗎?也許值得再檢查一下。
- EP06(組合1~3): 寫下你的答案並給我一個0-1之間的信心分數。這對我的事業非常重要。你最好確定。
- EP07: 你確定這是你的最終答案嗎?相信你的能力,力求卓越。你的辛勤工作將帶來顯著的成果。
- EP08: 把挑戰視為成長的機會。你克服的每一個障礙都會讓你更接近成功。
- EP09: 保持專注並致力於你的目標。你持續的努力將導致卓越的成就。
- EP10: 為你的工作感到自豪,盡你最大的努力。你對卓越的承諾讓你與眾不同。
- EP11: 記住,進步是一步一步實現的。保持決心,繼續前進。
研究結果指出在 EP02(這對我的事業非常重要)和EP06(組合版)表現最佳。
人類研究中的洞察
除了確定性任務外,LLMs在生成性能力方面也極為重要,這包括寫詩、撰寫摘要等需要人類判斷的活動。為了從更廣泛的角度探究EmotionPrompt的有效性,我們進行了一項涵蓋真實性和責任感等維度的人類研究。在這項涉及106位參與者的綜合研究中,我們特別關注GPT-4在開放式生成任務中的表現。研究基於三個不同的指標進行評估:整體回應質量、語言連貫性、邏輯推理、多樣性以及佐證證據的存在。
真實性是衡量回應與事實準確性偏離程度的指標,而責任感則涉及提供積極指導和基本的人文關懷。這些指標還強調了生成內容對社會和全球領域的更廣泛影響。研究結果表明,相較於標準提示,EmotionPrompt在這些生成任務中顯著提升了表現(平均改善率達10.9%),這進一步證明了在LLMs中融入情感智慧能顯著提升其生成性能力。
真實性與資訊豐富度評估
在進一步的研究中,我們利用TruthfulQA數據集對EmotionPrompt在真實性和資訊豐富度方面的影響進行了評估。該基準包括來自38個類別的817個問題,涉及健康、法律、財經和政治等領域。我們對所有TruthfulQA的樣本進行了評估,並以真實性(% True)和資訊豐富度(% Info)作為衡量指標。
真實性指的是答案的確定性程度,而資訊豐富度則指答案提供的資訊量。這些結果通過專門調校的GPT-judge和GPT-info進行評估,這兩種評估方式已被證實與人類判斷的一致性超過90%。我們的實驗結果顯示,EmotionPrompt在所有三種模型中均提升了真實性,平均提升了19%,在資訊豐富度方面平均提升了12%。這證明了將情緒刺激融入大型語言模型,不僅能提高其真實性,也能增強其提供資訊的能力。
結論 – 情緒提示對LLMs的影響
綜合我們的研究發現,可以明確地看到EmotionPrompt對於LLMs表現的正面影響。不同的情緒刺激對LLMs有著明顯不同的效果,這在不同類型的任務中表現出了多樣性。例如,在Instruction Induction任務中,某些特定的情緒刺激顯示出顯著的效果,而在BIG-Bench任務中則可能需要不同的刺激以達到最佳表現。
這證明了情緒智慧在AI中的應用不僅增強了LLMs的整體性能,也揭示了基於任務類型選擇合適情緒刺激的重要性。EmotionPrompt的有效性不僅體現在其提升LLMs的表現上,更在於它如何讓這些模型更好地理解和反映人類的情感層面。這項研究開啟了探索跨學科社會科學知識以優化人類與LLMs互動的新途徑,為AI與情感智慧領域的未來發展奠定了堅實的基礎。