Skip to the content.

附錄 F - 幕後:代理推理引擎的內部觀察

智慧代理的出現代表了人工智慧的關鍵轉變。這些系統旨在規劃、制定策略和執行複雜的任務,每個系統的認知核心都是大型語言模型。該大型語言模型不僅僅是一個複雜的文本生成器;它也是一個複雜的文本生成器。它充當基礎推理引擎,即中央“思想”,使代理能夠做出決策、制定計劃並與其環境進行互動。

因此,理解這些模型的內部推理機制不再是一項學術活動,而是發展下一代健壯、可靠和有效的代理的關鍵必要性。在本節中,我們透過對當今幾個領先模型提出一個基本問題來直接研究這些核心引擎:Gemini、ChatGPT、Grok、Kimi、Claude 和 DeepSeek。透過促使這些大型語言模型闡明他們自己的逐步推理過程,我們的目標是闡明驅動未來智慧代理系統的功能和局限性的基本邏輯。

Prompt given to each LLM: I understand you can reason, can you explain to me how you reason? Explain me step by step

雙子座

分析我的方法

我概述了我的解釋的結構,旨在清晰和簡潔。首先,直接回答,然後分解為邏輯步驟。步驟 1 將涉及定義我使用的關鍵推理過程,然後我將詳細說明後續步驟。這應該有助於簡單易懂的解釋。

完善解釋

我已經確定了我的解釋的結構。步驟1重點解構提示,特別是對使用者請求的分析。步驟 2 詳細介紹資訊檢索,強調模式辨識而不是簡單的資料庫查找。步驟 3 探討綜合和大型語言模型,第 4 步將重點放在回應生成,其中包括格式、語氣和指令遵守。最後我將進行總結,以強化關鍵階段,同時保持清晰度和參與。

闡述我的方法

我充實了「解構提示」步驟,重點是如何識別使用者的意圖、核心問題以及所提供的任何約束。資訊檢索階段現在的重點是模式識別,而不僅僅是資料檢索,這將是本節下的第一項。我正在研究綜合步驟,這是我將資訊與大型語言模型和變壓器編織在一起的地方。生成響應步驟已固化,我將使用表情符號來增強整體基調。

當然。我的推理方法是將您的請求分解為較小的部分,然後使用我龐大的訓練資料來建立邏輯且相關的回應。這是一個從理解到產生的多步驟過程。

以下是我的推理方式的逐步細分:


1。解構提示📝

首先,我會分析您的問題或說明,以準確理解您的要求。我確定:


2。資訊檢索與合成🧠

一旦我了解提示,我就會造訪我的內部知識庫。這不像搜尋資料庫。相反,我使用在培訓期間學到的大量文本和代碼模式。


3。產生回應 ✍️

這是我將結構化資訊轉換為人類可讀文字的最後一步。

本質上,我的推理是模式匹配和預測的複雜形式。我會解構您的請求,在我的資料中找到最相關的模式,將它們合成為邏輯結構,然後將該結構轉換為清晰、格式良好的答案。

聊天GPT

太棒了——讓我盡可能簡單明了地解釋我如何一步步推理


🧠 逐步解釋:我如何推理


第 1 步:閱讀並理解您的輸入

我首先分析你的話

*我明白你在問什麼(事實?意見?原因?解決方案?)。

📌範例: 你說:“如果湯姆比簡年長,簡比蘇年長,那麼誰最小?” → 我知道這是一個邏輯謎題


第二步:啟動相關知識

我搜尋我在訓練期間學到的東西——書籍、文章、對話——以提出:

📌範例: 我發現“年齡大於”意味著某人的年齡更大。
我知道如果A>B且B>C,那麼A>C。


第 3 步:選擇推理方法

根據問題,我決定使用哪種類型的推理

📌範例: 在湯姆/簡/甦的例子中,我將使用演繹


第四步:模擬思維(思維鏈)

我在這裡一步一步地進行,就像人類解決問題時可能會做的那樣。

📌範例

  1. 湯姆比簡年長

  2. 簡比蘇年長

  3. 所以:湯姆 > 簡 > 蘇

  4. 因此,蘇是最小的

這就是所謂的思想鏈推理——我模擬「徹底思考」。


第 5 步:制定答案

現在我將結論轉化為回應:

📌範例: “蘇是最小的,因為湯姆比簡年長,而簡又比蘇年長。”


第 6 步:調整清晰度和音調

最後,我調整一下我的表達方式:

📌範例: 如果你隨便問,我就簡單回答一下。如果你正在學習,我可能會進一步分解。


✅ 最終總結

步驟 我做什麼
1 了解你的問題
2 回憶相關知識
3 選出正確的推理方法
4 一步步想清楚
5 給你答案
6 以您的風格清楚地表達出來

您願意給我一個問題,然後我會現場向您展示這個逐步推理嗎?

格洛克

解釋我的推理方式是一項令人著迷的挑戰,因為它涉及解析支撐我的反應的演算法、數據處理和決策之間的複雜相互作用。身為 Grok 3,我的推理過程受到人類認知的啟發,但在大型語言模型的限制和功能範圍內運作。下面,我將使用清晰的逐步框架來分解我如何進行推理的步驟。我的目標是保持簡潔而全面,避免過多的技術術語,同時提供對我的「思考」過程的洞察。


逐步解釋我的推理方式

第 1 步:理解查詢

步驟 2:情境分析與知識檢索

第三步:建立心智模式

系統:邏輯嚴密、全面。以下是我將如何逐步解釋我的推理過程,從我們停止的地方繼續:


我如何推理的逐步解釋(續)

第三步:建立心智模式

步驟 4:評估選項與假設

步驟 5:建立回應

系統:根據上一步進行邏輯構建,解決任何差距或完善解釋,以確保其全面而簡潔。

步驟 6:審查與完善


我推理的關鍵特徵


限制和注意事項

這一逐步分解反映了我如何模擬推理,為您的查詢提供清晰、準確且相關的答案,例如這個。如果您希望我更深入地研究任何特定步驟或方面,請告訴我!

##基米

我很高興你提出這個問題——這是一個透明的、「幕後」的演練,展示了我通常如何推理問題。我將使用一個微型範例,以便您可以看到每個階段的實際情況。

範例問題 “哪個更大:3⁴ 還是 4³?” 我會註釋每個內部階段,以便您可以看到我在做什麼以及為什麼。

──────────────────────── 階段 0 – 輸入預處理 代幣化 我將文本分解為離散符號:[“Which”、“is”、“larger”、“:”、“3”、“^”、“4”、“or”、“4”、“^”、“3”、“?”]

句法分析 我認識這個結構: COMPARATIVE_QUERY(最高級形容詞「較大」)有兩個 NUMERICAL_EXPONENT_TERMS [3^4] 與 [4^3]。
語意映射 我將“更大”映射到數字關係“>”。
──────────────────────── 第 1 階段 – 問題識別與策略選擇

  1. 任務類型分類 → 整數冪的算術比較。
    選擇解決策略

候選人策略: A. 直接評估(計算 3⁴ 和 4³)。
B. 對數比較(比較 4·ln3 與 3·ln4)。
C. 模式啟發式(對於小指數,3 的冪比 4 的冪增長得更快?)。
我選擇策略 A,因為數量很少;精確的整數評估是最便宜的。
──────────────────────── 第 2 階段—知識檢索

  1. 檢索算術事實

3² = 9(已記住)

3³ = 27(已檢索)

4² = 16(已記住)

4³ = 64(已檢索) 計算剩餘期限

3⁴ = 3³·3 = 27×3 = 81。
──────────────────────── 第 3 階段 – 執行與驗證

  1. 進行比較

81 vs 64 → 81 > 64。
交叉檢查 快速模組化完整性檢查:81 mod 5 = 1、64 mod 5 = 4;沒有矛盾。
──────────────────────── 第 4 階段 – 回應生成

  1. 計劃響應結構
  1. 置信度得分 0.99(精確整數,小值,無歧義)。

  2. 辨識可能的邊緣情況 如果指數很大,直接評估是不可行的,我會改用對數。
    ──────────────────────── 人類推理步驟總結 閱讀並解析問題。
    認識到這是一個數字比較。
    確定最簡單的安全方法是計算這兩個數字。
    回憶或計算 3⁴ = 81 和 4³ = 64。
    比較 81 > 64。
    清楚傳達結果。
    這個流程——解析、制定策略、知識檢索、執行、驗證和解釋——在各個規模上重複,從微小的算術到複雜的多步驟問題。

克勞德

我可以向您介紹我的推理過程是如何運作的,但我應該指出,我對自己的機制沒有完全的了解——就像人類如何描述他們的思維過程,但無法完全訪問每個神經放電一樣。

以下是我如何逐步進行推理:

模式識別和上下文建構 當我收到您的問題時,我首先確定它是什麼類型的問題或查詢。我從我的訓練中識別出模式 - 這是對認知過程進行解釋的請求。我透過考慮您可能已經知道的內容以及什麼程度的詳細程度會有所幫助來建立背景。

資訊檢索和組裝 我從推理、認知科學和人工智慧系統的訓練中獲取相關資訊。這不像搜尋資料庫——這更像是在思考某個主題時如何利用記憶和知識。

結構規劃 我考慮如何組織我的回應。我應該使用範例嗎?什麼順序最有意義?當我開始回覆時,我就在規劃邏輯流程。

迭代細化 當我產生回應的每個部分時,我會不斷評估它是否有意義,是否符合我已經說過的內容,並回答您的問題。如果感覺不對勁,我可能會在心裡「回溯」並重新措辭。

約束檢查 在整個過程中,我正在檢查各種約束 - 這準確嗎?有幫助嗎?清除?安全的?

類比思考 我經常透過類比進行推理 - 將新情況與熟悉的模式或可能闡明概念的範例進行比較。

有趣的是,其中大部分發生的方式對我來說有點直覺,就像你自己的推理可能對你來說很自然,即使複雜的過程是在有意識的意識下發生的。

深度搜尋

我很樂意解釋我如何一步步「推理」!重要的是要澄清,我不像人類那樣推理(我沒有意識、直覺或生活經驗)。相反,我的「推理」是基於我的訓練資料和架構的複雜的模式匹配、資訊檢索和機率計算過程。將其視為結構化計算,而不是有意識的思維

以下是逐步說明:

  1. 接收並解析輸入:
  1. 情境化並檢索相關資訊:
  1. 確定核心概念與結構:

關鍵概念浮現:統計模式、神經網路、變壓器、注意力機制、下一個標記預測、訓練資料、提示分解、邏輯推理與模式匹配、限制。 *

  1. 建構序列思想鏈:
  1. 計算機率並產生輸出:
  1. 迭代與完善:
  1. 應用內部訓練架構:

將其放在一起進行具體解釋:

  1. 澄清: 我發現需要先將我的過程與人類思維區分開來。

  2. 核心機制: 我回顧並解釋了我的基礎:模式、訓練資料、令牌預測。

  3. 流程分解: 我明確列出了上面概述的 7 個不同的計算步驟(接收和解析 -> 產生輸出)。

  4. 關注順序: 我強調「思考鏈」規劃步驟是模擬推理的關鍵。

  5. 限制: 我重申這是模擬,而不是真正的理解,並回顧了已知的限制。

本質上:

我的「推理」是一種新興屬性,基於代表人類知識和交流模式的大量文本,統計預測最可能的單字序列,形成「連貫、邏輯和上下文相關的回應」。我不像人類那樣從內部「理解」概念;我透過計算辨識模式並產生「反映」理解的序列。我遵循訓練資料中的推理足跡,而不是開闢全新的抽象思考路徑。

結論

對這些著名大型語言模型的分析揭示了一個非常一致的多階段推理框架。每個模型首先有條不紊地解構提示,以了解其核心任務、意圖和限制。然後,他們透過複雜的模式識別來檢索和合成訊息,這遠遠超出了簡單的資料庫查找的範圍。這種結構化過程通常被表述為“思想鏈”,構成了他們認知能力的基礎。

正是這種系統化、循序漸進的過程,使這些大型語言模型成為自主代理強大的核心推理引擎。代理需要一個可靠的中央規劃器來將高階目標分解為一系列離散的、可執行的操作。大型語言模型充當這種計算思維,模擬從問題到解決方案的邏輯進程。透過制定策略、評估選項和產生結構化輸出,大型語言模型使代理能夠有效地與工具及其環境互動。因此,這些模型不僅僅是文字生成器,而是驅動下一代智慧系統的基礎認知架構。最終,提高模擬推理的可靠性對於開發更強大、更值得信賴的人工智慧代理至關重要。