分類
新聞

克勞德 3 的特點是什麼?

克勞德 3 以其在推理、專家知識、數學和語言任務方面的先進能力而聞名,使其成為 Anthropi 開發的最智能的 AI 模型之一。

今天,我們宣布克勞德 3 模型系列,為廣泛的認知任務設定了新的行業基準。該系列包括三個功能逐漸增強的最先進模型:克勞德 3 俳句、克勞德 3 十四行詩和克勞德 3 大作。每個後續模型提供越來越強大的性能,讓用戶可以選擇適合其特定應用的智能、速度和成本的最佳平衡。

大作和十四行詩現在可在 claude.ai 和克勞德 API 中使用,後者現在在 159 個國家普遍可用。俳句將很快推出。

克勞德 3 模型系列

claude3

智能的新標準

大作,我們最智能的模型,在大多數常見的 AI 系統評估基準上表現優異,包括本科水平的專業知識(MMLU)、研究生水平的專業推理(GPQA)、基本數學(GSM8K)等。它在複雜任務上展現出接近人類水平的理解和流暢程度,引領著通用智能的前沿。

所有克勞德 3 模型在分析和預測、微妙的內容創作、代碼生成以及使用西班牙語、日語和法語等非英語語言進行對話方面都展示了增強的能力。

以下是克勞德 3 模型與我們同行在多個能力基準 [1] 上的比較:

近乎即時的結果

克勞德 3 模型可以支持實時客戶聊天、自動完成以及需要即時回應和實時性的數據提取任務。

俳句是市場上最快速、性價比最高的智能類別模型。它可以在不到三秒的時間內閱讀一篇充滿信息和數據的 arXiv 研究論文(約 10,000 個標記),其中包含圖表和圖形。在推出後,我們期望進一步提高性能。

對於絕大多數工作負載,十四行詩比克勞德 2 和克勞德 2.1 快 2 倍,智能水平更高。它擅長於需要快速回應的任務,如知識檢索或銷售自動化。大作在速度上與克勞德 2 和 2.1 相近,但智能水平更高。

強大的視覺能力

克勞德 3 模型具有與其他領先模型相當的複雜視覺能力。它們可以處理各種視覺格式,包括照片、圖表、圖形和技術圖解。我們對於為企業客戶提供這種新的模態感到特別興奮,其中一些客戶的知識庫中高達 50% 的內容以各種格式編碼,如 PDF、流程圖或簡報幻燈片。

拒絕次數減少

先前的克勞德模型經常做出不必要的拒絕,這表明缺乏上下文理解。在這一領域,我們取得了顯著進展:大作、十四行詩和俳句拒絕回答邊界問題的機率明顯降低,比以前世代的模型更少。正如下面所示,克勞德 3 模型對請求有更微妙的理解,認識到真正的危害,並拒絕回答無害的提示的頻率大大降低。

提高準確性

各種規模的企業依賴我們的模型來服務客戶,這使我們的模型輸出在規模上保持高準確性至關重要。為了評估這一點,我們使用一組大型的復雜事實問題,針對目前模型的已知弱點。我們將回應分為正確答案、不正確答案(或幻覺)和不確定性承認,其中模型表示不知道答案而不是提供不正確信息。與克勞德 2.1 相比,大作在這些具有挑戰性的開放性問題上展示出了兩倍的準確性改善(或正確答案),同時展現出降低的不正確答案水平。

除了產生更可信賴的回應外,我們將很快在克勞德 3 模型中啟用引用,以便能夠指向參考資料中精確的句子來驗證其答案。

長篇上下文和接近完美的回憶

克勞德 3 模型系列在推出時將提供一個 200K 上下文窗口。然而,所有三個模型都能夠接受超過 1 百萬標記的輸入,我們可能會將這提供給需要增強處理能力的某些客戶。

為了有效處理長篇上下文提示,模型需要強大的回憶能力。『草堆中的針』(NIAH)評估通過每個提示使用 30 個隨機的針/問題對之一,並在一個多樣化的群眾來源文檔語料庫上進行測試,來衡量模型準確回憶廣泛數據庫中信息的能力。克勞德 3 大作不僅實現了接近完美的回憶,超過了 99% 的準確率,而且在某些情況下,甚至識別出評估本身的限制,認識到『針』句似乎是人為將其插入原始文本中。

負責任的設計

我們開發了Claude 3系列模型,讓其既可靠又功能強大。我們有幾個專門的團隊追踪和減輕各種風險,從虛假信息和CSAM到生物濫用、選舉干擾和自主複製技能。我們持續發展諸如憲法人工智能等方法,來提高我們模型的安全性和透明度,並調整我們的模型以減輕可能由新型態引起的隱私問題。

處理日益複雜模型中的偏見是一項持續努力,我們在這個新版本中取得了進展。正如模型卡所示,根據問答偏見基準(BBQ),Claude 3的偏見比我們先前的模型少。我們致力於推進減少偏見並促進我們模型更中立的技術,確保它們不偏向任何特定的黨派立場。

雖然與以往模型相比,Claude 3模型系列在生物知識、網絡相關知識和自主性方面取得了進展,但根據我們的負責任擴展政策,它仍處於AI安全性等級2(ASL-2)。我們的紅隊評估(與我們的白宮承諾2023年美國行政命令)得出結論,目前這些模型具有可忽略的潛在災難風險。我們將繼續仔細監控未來的模型,以評估其接近ASL-3閾值的程度。有關更多安全細節,請參閱Claude 3模型卡

更容易使用

Claude 3模型更擅長遵循複雜的多步指令。它們特別擅長遵守品牌語氣和回應準則,並開發客戶面向的體驗,讓我們的用戶可以信賴。此外,Claude 3模型更擅長生成JSON等格式的熱門結構化輸出,使得指導Claude用於自然語言分類和情感分析等用途變得更加簡單。

模型細節

Claude 3 Opus是我們最智能的模型,在高度複雜任務上表現最佳。它可以以非常流暢且類人理解的方式處理開放式提示和看不見的情境。Opus向我們展示了生成式人工智能所能達到的極限。

成本

[輸入 $/百萬標記 | 輸出 $/百萬標記]

$15 | $75
上下文窗口 200K*
潛在用途 任務自動化:計劃並執行跨API和數據庫的複雜操作,互動編碼研究與審查,集思廣益和假設生成,藥物發現策略:對圖表、圖形、財務和市場趨勢進行高級分析,預測
區別因素 比其他所有模型都更智能。

*特定用例提供1百萬標記,請詢問。

Claude 3 Sonnet在智能和速度之間取得了理想的平衡—尤其適用於企業工作負載。與同行相比,它以更低的成本提供強勁性能,並經過設計以在大規模人工智能部署中具有高耐用性。

成本

[輸入 $/百萬標記 | 輸出 $/百萬標記]

$3 | $15
上下文窗口 200K
潛在用途 數據處理:RAG或對大量知識進行搜索和檢索銷售:產品推薦,預測,定向營銷節省時間的任務:代碼生成,質量控制,從圖像中解析文本
區別因素 比其他智能相近的模型更經濟實惠;更適合規模化。

Claude 3 Haiku是我們最快速、最緊湊的模型,能夠立即回應。它以無與倫比的速度回答簡單的查詢和請求。用戶將能夠建立無縫的人工智能體驗,模擬人類互動。

成本

[輸入 $/百萬標記 | 輸出 $/百萬標記]

$0.25 | $1.25
上下文窗口 200K
潛在用途 客戶互動:在實時互動中提供快速準確的支持,翻譯內容審核:捕捉風險行為或客戶要求節省成本的任務:優化物流,庫存管理,從非結構化數據中提取知識
區別因素 比其智能類別中的其他模型更聰明、更快、更經濟實惠。

模型可用性

Opus和Sonnet現已在我們的API中提供,該API現在已普遍可用,開發人員可以註冊並立即開始使用這些模型。Haiku將很快提供。Sonnet現在可通過Amazon Bedrock使用,並在Google Cloud的Vertex AI Model Garden中進行私人預覽—Opus和Haiku也將很快在這兩個平台上提供。

更聰明、更快、更安全

我們相信模型智能還遠未達到極限,並計劃在未來幾個月內對Claude 3模型系列進行頻繁更新。我們也很高興推出一系列功能,以提升我們模型的能力,特別是用於企業用例和大規模部署。這些新功能將包括工具使用(即函數調用)、互動編碼(即REPL)和更先進的主動能力。

隨著我們拓展人工智能能力的邊界,我們同樣致力於確保我們的安全防護與性能飛躍同步。我們的假設是,處於人工智能發展的前沿是引導其軌跡走向積極社會結果的最有效方式。

我們期待看到您如何運用Claude 3,並希望您提供反饋,使Claude成為更加實用的助手和創意伴侶。要開始使用Claude構建,請訪問anthropic.com/claude

  1. 此表格顯示了目前商業上可用的模型與已發布評估的模型的比較。我們的模型卡顯示了與已宣布但尚未發布的模型(如Gemini 1.5 Pro)的比較。此外,我們想指出工程師已努力優化提示和少樣本樣本進行評估,並為更新的GPT-4T模型報告了更高的分數。來源

本文內容翻譯自 原始文章

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *