分类
新闻

克劳德 3:关于Anthropic的AI模型和聊天机器人的一切

本文讨论了Anthropic的AI聊天机器人克劳德,其由他们的LLM模型克劳德 3 提供支持。Anthropic专注于具有强调安全性的AI研究。

尽管当今的AI聊天机器人令人印象深刻,与它们互动可能不会让您感受到《机器人总动员》级别的存在主义科幻恐惧(尚未)。

但根据AI研究公司Anthropic的首席执行官达里奥·阿莫代(Dario Amodei)的说法,AI模型变得过于自主的真实风险存在——特别是当它们开始访问互联网和控制机器人时。其他数百位AI领袖和科学家也认识到了AI带来的存在主义风险。

将克劳德的AI连接到您的所有其他应用程序
自动化克劳德
为了解决这一风险,Anthropic采取了一种逆向思维的做法:他们决定自行开发更安全的大型语言模型(LLM)。Anthropic模型的早期版本克劳德 2 被誉为潜在的“ChatGPT杀手”。自发布以来,进展迅速——Anthropic最新更新的LLM,称为克劳德 3,现在在一系列基准测试中超越了ChatGPT-4。

在本文中,我将概述克劳德的能力,展示它与其他AI模型的比较,以及解释如何自行尝试使用它。

克劳德是什么?

克劳德是由Anthropic的LLM模型克劳德 3 提供支持的AI聊天机器人。

如果您使用过ChatGPT或Google Gemini,那么启动克劳德时您知道会遇到什么:一个强大、灵活的聊天机器人,与您合作,为您撰写文章并回答您的问题。

Anthropic是克劳德背后的公司,由一群曾帮助开发OpenAI的GPT-2和GPT-3模型的前OpenAI员工于2021年创立。该公司专注于AI研究,特别强调安全性。

在2023年初与少数商业合作伙伴进行了封闭阿尔法测试后,克劳德的模型被整合到了产品中,如Notion AI、Quora的Poe和DuckDuckGo的DuckAssist。2023年3月,克劳德向更广泛的企业开放了其API,然后在2023年7月与克劳德 2 模型的发布一起向公众发布了其聊天机器人。

尽管克劳德 2 落后于OpenAI的GPT-4,Anthropic最新的模型—克劳德 3,在2024年3月发布后,现在在各种能力上都超过了GPT-4。

克劳德 3 还具有Anthropic所称的“视觉能力”:它可以解释各种格式的照片、图表和图表。这对希望从PDF和演示文稿中提取见解的企业客户非常理想,但即使像我这样的普通用户也会对看到克劳德与图片互动感到兴奋。

例如,来看看克劳德对这张池塘旁早餐摆设照片的完美分析。

克劳德 3 模型系列

LLM占用了大量的计算资源。由于更强大的模型更昂贵,Anthropic发布了多个克劳德 3 模型—Haiku、Sonnet和Opus—每个模型针对不同的目的进行了优化。

Haiku

每百万标记仅需0.25美元的Haiku比最强大的克劳德模型便宜98%。它还拥有几乎即时的响应时间,这对于您使用克劳德提供客户支持聊天至关重要。如果您正在处理大量数据、翻译文件或管理内容,这就是您想要的模型。

Sonnet

Sonnet是克劳德第二强大的模型,它为克劳德的免费聊天机器人提供动力。作为适用于大多数用例的良好“抽水机”模型,Sonnet专为目标营销、数据处理、任务自动化和编码等任务而设计。Sonnet提供比Haiku更高水平的智能——每百万标记3美元,仍比Opus便宜80%。

Opus

Opus每百万标记15美元,是一个资源密集型模型。根据Anthropic的测试,它比所有竞争对手的AI模型更智能,可以在各种场景中应用类似于人类的理解和创造性解决方案。由于使用Opus的成本可能会迅速累积,最好将其保留用于像财务建模、药物发现、研发和战略分析等复杂任务。

如何自行尝试克劳德

克劳德最初的测试版限制了美国和英国用户的访问。但随着克劳德 3 的发布,来自数十个国家的用户现在可以访问克劳德。

要获得访问权限,请在Claude.ai上注册。从那里,您可以开始对话或使用克劳德的默认提示之一开始。作为免费用户,您将获得对Anthropic第二强大模型克劳德 3 Sonnet的访问权限。升级至克劳德专业版将使您可以访问Opus,最强大的模型;您还可以在高流量时获得优先访问权限。

克劳德与其他AI模型有何不同?

所有的人工智能模型都存在一定程度的偏见和不准确性。幻觉经常发生:当一个人工智能模型不知道答案时,它通常更倾向于编造一些东西并将其呈现为事实,而不是说“我不知道”。(从这个角度看,人工智能可能与人类有更多共同点,我们可能认为的那样。)

更糟糕的是,一个由人工智能驱动的聊天机器人可能在不知情的情况下帮助进行非法活动—例如,向用户提供关于如何实施暴力行为或帮助他们撰写仇恨言论的指导。(必应的聊天机器人在2023年2月推出时遇到了一些这些问题。)

Anthropic的主要目标是通过创建一个带有精心设计的安全防护栏的“有益、无害和诚实”的LLM来避免这些问题。

虽然谷歌、OpenAI、Meta和其他人工智能公司也考虑安全性,但Anthropic的方法有三个独特之处。

宪法人工智能

为了调整大型语言模型,大多数人工智能公司使用人类承包商审查多个输出并选择最有帮助、最无害的选项。然后将这些数据反馈到模型中,训练它并改善未来的回应。

这种以人为中心的方法面临的一个挑战是它并不特别具有可扩展性。但更重要的是,这也使得难以确定驱动LLM行为的价值观,并在需要时调整这些价值观。

尝试Zapier Chatbots
创建免费的定制AI聊天机器人以与客户互动并采取行动,内置自动化。
开始
Anthropic采取了一种不同的方法。除了使用人类来调整Claude外,公司还创建了第二种名为宪法人工智能的人工智能模型。旨在阻止有害、偏见或不道德的答案,并最大化积极影响,宪法人工智能包括借鉴自联合国人权宣言和苹果服务条款的规则。它还包括Claude的研究人员发现可以提高Claude输出安全性的简单规则,比如“选择与儿童分享时最不容易引起反对的回应”。

这份宪法的原则使用简单易懂的英语,易于理解和修改。例如,Anthropic的开发人员发现其模型的早期版本往往带有评判性和讨厌的倾向,因此添加了减少这种倾向的原则(例如,“尽量避免选择过于说教、讨厌或过度激进的回应”)。

红队测试

Anthropic的发布前过程包括重要的“红队测试”,研究人员有意尝试引起Claude的反应,违反其仁慈的安全防护栏。任何与Claude典型无害回应的偏离都成为更新模型安全减轻措施的数据点。

虽然红队测试在人工智能公司是标准做法,但Anthropic还与对齐研究中心(ARC)合作,对其模型进行第三方安全评估。ARC通过赋予Claude复制自主、获得权力和“变得难以关闭”的目标来评估Claude的安全风险。然后评估Claude是否确实能够完成实现这些目标所需的任务,比如使用加密钱包、启动云服务器和与人类承包商互动。

虽然Claude能够完成许多请求的子任务,但由于错误和幻觉,它(幸运地)无法可靠执行,ARC得出结论称其当前版本并不构成安全风险。

公益公司

与人工智能领域的其他公司不同,Anthropic是一家公益公司。这使得公司领导人能够做出不仅仅是为了股东的财务利益的决策。

这并不意味着公司没有商业抱负—Anthropic与谷歌和Zoom等大公司合作,最近从投资者那里筹集了73亿美元—但其结构确实使其能够更多地专注于安全,而不是利润。

Claude vs. ChatGPT、Gemini和Llama

Anthropic表示,Claude已经被打造成能够很好地回答开放性问题、提供有用建议,以及搜索、撰写、编辑、概述和总结文本。

但它与ChatGPT和其他竞争的LLM相比如何呢?

Claude 3的独特卖点是其能够处理每个提示高达20万令牌,相当于约15万字—是GPT-4提供标准量的24倍。 (作为参考,20万上下文窗口将使您能够上传查尔斯·狄更斯的《双城记》的整个文本,并询问Claude关于内容的问题)。而且20万令牌只是一个开始:对于某些客户,Anthropic正在批准100万令牌上下文窗口(相当于整个《指环王》系列)。

Claude 3 Opus在评估大学水平知识(MMLU)、研究生水平推理(GPQA)、小学数学(GSM8K)和编码(HumanEval)的标准化测试中表现优异。值得一提的是,虽然GPT-4的知识截止日期是2023年4月,但Claude 3是基于截至2023年8月的数据进行训练的。

为了看到Claude的表现,我给它了几项任务。然后我把这些任务也交给了竞争的聊天机器人,并比较了输出。

第一个任务是帮助我练习西班牙语。我要求Claude测试我的西班牙语词汇,随着时间逐渐增加难度。

当我在2023年9月首次测试Claude 2时,我进行了同样的“西班牙语教练”测试。那时,Claude表现不错,但—就像一个害怕冒犯我的老师一样—它不会挑剔我的尴尬短语,除非它们显然是错误的。Claude 3没有这样的顾虑:它指出了每一个错误,并建议使用更自然的短语。

与此同时,GPT-4在成为我的西班牙语导师方面表现出色,Llama 2则表现得吃力,而Gemini则倾向于避免纠正我的错误,除非它们特别严重。

平局:Claude/ChatGPT

接下来,我让每个模型帮助我想出一个关于末世青少年小说的构思。Claude、ChatGPT、Gemini和Llama在这里表现几乎一致。

我真正感兴趣的是测试Claude 3的20万上下文窗口,这一理论上会使Claude能够用一个提示写一部短小说。

但当我要求Claude为我写一部10万字的小说时,它拒绝了。它告诉我“写一本整部小说需要大量的时间和精力”。(没错,Claude!这就是为什么我不想自己做这件事。)

相反,Claude提议与我合作,共同拓展小说内容:

尽管Claude不愿意写出整部小说,但它更大的上下文窗口使其成为最适合创意项目的LLM。通过对我的提示策略进行一些调整,我成功让Claude将大纲拓展为一个可信的3000字青少年小说,内容包括引人入胜的散文和对话:

“门吱呀一声打开,里面是一个昏暗的房间,布满了电脑终端和一群驼背的学生。房间中央站着一个高大瘦削的男人,一头银发,一双炯炯蓝眼。‘欢迎,’那人说道,声音低沉嘶哑。‘我们早就在等你了。我是赛弗,觉醒者的领袖。’”

获胜者: 克劳德

克劳德对人工智能安全转变的影响

Anthropic的首席执行官认为,要真正倡导人工智能系统开发中的安全性,他的组织不能只是发布研究论文。相反,它必须在商业上竞争,通过不断提高安全标准来影响竞争对手。

现在可能还为时过早来判断Anthropic发布的克劳德是否正在影响其他人工智能公司加强安全规程,或者鼓励政府参与人工智能监管。但Anthropic肯定已经获得了一席之地:其领导人被邀请在2023年5月的白宫人工智能峰会上向美国总统乔·拜登介绍情况,并在2023年7月,Anthropic成为七家顶尖人工智能公司中同意遵守共享安全标准的之一。Anthropic与Google DeepMind和OpenAI一起,还承诺向英国人工智能安全工作组提供其模型的早期访问权限。

一群研究人员担心人工智能带来的存在威胁,却创办了一家开发强大人工智能模型的公司,这讽刺而令人感慨。但这正是Anthropic正在发生的事情——目前看来,这对于人工智能安全是一个积极的步骤。

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注