• 首页
  • 26nd
  • 吉吉影音偷拍
  • 弟四色
  • 西西裸体艺术
  • 猫色成人网
  • 性爱 图
  • 猫色成人网你的位置:bdsm 调教 > 猫色成人网 > 163男女性爱 大模子的2024,这可能是最早的一篇年度总结文!

    163男女性爱 大模子的2024,这可能是最早的一篇年度总结文!

    发布日期:2025-01-02 09:53    点击次数:73

    163男女性爱 大模子的2024,这可能是最早的一篇年度总结文!

    从某种兴致上说,2024 年不仅是手艺突破的一年163男女性爱,更是行业走向熟悉的要紧改动点。

    这一年,GPT-4 级别的模子不再荒废,许多机构王人开发出了性能超越 GPT-4 的模子;这一年,运行效率显耀提高,本钱急剧下降;这一年,多模态 LLM,独特是赈济图像、音频和视频处理的模子,变得越来越普遍。

    手艺的越过也带来了应用场景的蕃昌。基于教唆词的应用才调生成成为行业标配,语音对话和及时录像头交互让科幻场景成为现实。当年末 OpenAI 推出 o1 系列推理型模子,创始通过优化推理阶段进步性能的新范式时,通盘行业又上前迈进了一大步。

    当地时辰 12 月 31 日,寂然 AI 连络员、Django 配置者、Simon Willison 撰文回首总结 2024 年大语言模子畛域的要紧事件,并排出了近 20 个要害主题、要紧时刻和行业细察。

    以下为重心内容:

    GPT-4 壁垒被全面冲破:阻挡 2024 年底,已有 18 家机构的 70 个模子在 ChatbotArena 名次榜上的得分杰出了 2023 年 3 月发布的原始 GPT-4。

    顶级大模子的试验本钱大幅缩短:DeepSeek v3 仅需 557 万好意思元试验本钱,便可达到与 Claude 3.5 Sonnet 等模子比肩的性能。

    LLM 价钱大幅下降:由于竞争加重和效率提高,LLM 的运行本钱大幅下降。举例,谷歌的 Gemini1.5Flash8B 比 2023 年的 GPT-3.5Turbo 低廉 27 倍。更低的本钱将进一步鼓动 LLM 的普及和应用。

    多模态视觉模子普及,音频和视频模子开动出现:2024 年,险些统共主要的模子供应商王人发布了多模态模子,大概处理图像、音频和视频输入。这使得 LLM 大概处理更丰富的信息类型,拓展了其应用畛域。

    语音和及时录像头模式将科幻演义变为现实:ChatGPT 和 GoogleGemini 当今王人赈济语音和及时录像头模式,用户不错通过语音和视频与模子进行交互。这将为用户提供更天然、更通俗的交互方式。

    部分 GPT-4 级模子可在条记本电脑上运行:收获于模子效率的进步,一些 GPT-4 级模子,举例 Qwen2.5-Coder-32B 和 Meta 的 Llama3.370B,当今不错在 64GB 内存的条记本电脑上运行。这标记着 LLM 的硬件条目正在缩短,为更粗造的应用场景掀开了大门。

    基于 Prompt 的应用才调生成已成为常态:LLM 当今不错笔据 Prompt 生成完好意思的交互式应用才调,包括 HTML、CSS 和 JavaScript 代码。Anthropic 的 ClaudeArtifacts、GitHubSpark 和 MistralChat 的 Canvas 等用具王人提供了这项功能。这一功能极地面简化了应用才调开发过程,为非专科才调员提供了构建应用才调的阶梯。

    对最好模子的普遍拜谒只络续了几个月:OpenAI 推出 ChatGPTPro 付费订阅职业,阻挡了对最好模子的免费拜谒。这反应了 LLM 生意模式的演变,明天可能会出现更多付费模式。

    " Agent "仍未果真已毕:" Agent "一词缺乏明确的界说,其着力也受到质疑,因为 LLM 容易轻信无理信息。若那边分 LLM 的果真度问题是已毕" Agent "的要害。

    评估至关要紧:为 LLM 系统编写精好意思的自动评估对于构建有用的应用才调至关要紧。有用的评估体系大概匡助开发者更好地交融和纠正 LLM。

    合成试验数据效率精好意思:越来越多的 AI 实验室使用合成数据来试验 LLM,这有助于提高模子的性能和效率。合成数据不错克服真实数据的局限性,为 LLM 试验提供更天真的聘请。

    LLM 的环境影响休戚各半:一方面,模子效率的进步缩短了单次推理的动力消耗。另一方面,大型科技公司为 LLM 构建基础设施的竞赛导致了大批的数据中心建筑,加重了对电力汇集和环境的压力。

    LLM 使用难度增多:跟着 LLM 功能的束缚彭胀,其使用难度也在增多。用户需要更深入地了解 LLM 的责任旨趣和局限性,才能更好地愚弄其上风。

    原文编译如下,祝各人元旦舒适,enjoy:

    GPT-4:从 " 无法企及 " 到 " 普遍超越 "

    在畴前的一年里,大语言模子 ( LLM ) 畛域阅历了气势磅礴的变化。回望 2023 年底,OpenAI 的 GPT-4 如故一座难以逾越的岑岭,其他 AI 实验室王人在念念考统一个问题:OpenAI 究竟掌捏了什么私有的手艺精巧?

    一年后的今天,地点已发生根人性转化:据 Chatbot Arena 名次榜炫耀 , 原始版块的 GPT-4 ( GPT-4-0314 ) 已跌至第 70 位独揽。目下,已有 18 家机构的 70 个模子在性能上超越了这个也曾的标杆。

    谷歌的 Gemini 1.5 Pro 在 2024 年 2 月率先突破,不仅达到 GPT-4 水平,还带来两项紧要鼎新:它将输入高下文长度进步至 100 万 token ( 自后更新至 200 万 ) ,并初度已毕了视频输入处理才调,为通盘行业创始了新的可能性。

    紧随其后,Anthropic 于 3 月推出 Claude 3 系列,其中 Claude 3 Opus 赶紧成为业界新标杆。6 月发布的 Claude 3.5 Sonnet 更是将性能推向新高度 , 即使在 10 月获取紧要升级后仍保持相易版块号 ( 业内非正经称为 Claude 3.6 ) 。

    2024 年最显耀的手艺越过是模子处理长文本才调的全面进步。只是一年前 , 大多数模子还局限于 4096 或 8192 个 token 的处理才调,只消 Claude 2.1 例外地赈济 20 万 token。而当今,险些统共主流提供商王人赈济 10 万以上 token 的处理才调。这一越过极大拓展了 LLM 的应用范围——用户不仅不错输入整本竹素进行内容分析,更要紧的是,在编程等专科畛域,通过输入大批示例代码,模子大概提供更准确的处分决策。

    目下,超越 GPT-4 的阵营仍是相称宽阔。若是你今天浏览 Chatbot Arena 名次榜,GPT-4-0314 仍是跌至第 70 位独揽。领有得分较高的模子的 18 个组织是:Google、OpenAI、阿里巴巴、Anthropic、Meta、Reka AI、01 AI、亚马逊、Cohere、DeepSeek、Nvidia、Mistral、NexusFlow、Zhipu AI、xAI、AI21 Labs、Princeton 和腾讯。

    这种变化深入地反应了 AI 畛域的快速发展。在 2023 年,超越 GPT-4 如故一个值得载入史书的紧要突破,而到了 2024 年,这似乎仍是成为揣度顶级 AI 模子的基本门槛。

    部分GPT-4 级模子已毕个东谈主电脑腹地运行

    2024 年,大语言模子畛域迎来另一要紧突破:GPT-4 级别的模子已可在闲居个东谈主电脑上运行。这冲破了 " 高性能 AI 模子必须依赖崇高数据中心 " 的传统领会。

    以 64GB 内存的 M2 MacBook Pro 为例,统一台 2023 年仅能强迫运行 GPT-3 级模子的开荒,当今已能运行多个 GPT-4 级模子,包括开源的 Qwen2.5-Coder-32B 和 Meta's Llama 3.3 70B。

    这一突破令东谈主诧异 , 因为此前运行 GPT-4 级模子被认为需要一台数据中心级职业器,配备一个或多个价值 40000 好意思元以上的 GPU。

    更引东谈主精致标是 Meta 的 Llama 3.2 系列。其 1B 和 3B 版块虽不足 GPT-4, 但性能远超模子畛域预期。用户以致可通过 MLC Chat iOS 应用在 iPhone 上运行 Llama 3.2 3B, 这个仅需 2GB 存储空间的模子就能以每秒 20 个 token 的速率生成内容。

    它们大概运行的事实解说了,许多模子在畴前一年中取得了令东谈主难以置信的试验和推感性能进步。

    由于竞争和效率提高,模子价钱暴跌

    畴前 12 个月里,大模子的价钱出现了急剧下降。

    2023 年 12 月,OpenAI 对 GPT-4 收取 30 好意思元 / 百万输入 tokens 的用度。如今,30 好意思元 /mTok 的价钱不错让你获取 OpenAI 最崇高的模子 o1。GPT-4o 的价钱为 2.50 好意思元(比 GPT-4 低廉 12 倍),GPT-4o mini 的价钱为 0.15 好意思元 /mTok ——比 GPT-3.5 低廉近 7 倍,而且功能强盛得多。

    其他模子供应商收费更低。Anthropic 的 Claude 3 Haiku(3 月份推出,但仍是其最低廉的型号)价钱为 0.25 好意思元 /mTok。谷歌的 Gemini 1.5 Flash 价钱为 0.075 好意思元 /mTok,而他们的 Gemini 1.5 Flash 8B 价钱为 0.0375 好意思元 /mTok — 比昨年的 GPT-3.5 Turbo 低廉 27 倍。

    这些价钱下降是由两个身分鼓动的:竞争加重和效率提高。

    多模态 LLM 兴起

    一年前,最引东谈主精致标例子是 GPT-4 Vision,它于 2023 年 11 月在 OpenAI 的 DevDay 上发布。谷歌的多多模态模子 Gemini 1.0 于 2023 年 12 月 7 日发布。

    2024 年,险些每个要紧的模子供应商王人发布了多模态模子。咱们在 3 月看到了 Anthropic 的 Claude 3 系列, 4 月看到了 Gemini 1.5 Pro (图像、音频和视频),然后 9 月带来了 Qwen2-VL 和 Mistral 的 Pixtral 12B 以及 Meta 的 Llama 3.2 11B 和 90B 视觉模子。咱们在 10 月获取了来自 OpenAI 的音频输入和输出,然后 11 月看到了 Hugging Face 的 SmolVLM ,12 月看到了来自 Amazon Nova 的图像和视频模子。

    多模态是 LLM 的巨大越过,大概针对图像(以及音频和视频)运行教唆是应用这些模子的一种别有洞天的新步调。

    语音和及时视频开释想象力

    开动出现的音频和及时视频模式值得独特说起。

    与 ChatGPT 对话的才调于 2023 年 9 月初度已毕,不外那时只是语音转文本模子和新的文本转语音模子的对接。

    5 月 13 日发布的 GPT-4o 进行了一个全新语音模式的演示,该模子不错接受音频输入并输出听起来畸形传神的语音,而无需单独的 TTS 或 STT 模子。

    当 ChatGPT 高档语音模式终于推出时(从 8 月到 9 月逐步推出),效率畸形惊东谈主。OpenAI 并不是唯独一家领有多模态音频模子的团队。谷歌的 Gemini 也接受音频输入,而且 Google Gemini 应用才调当今不错以与 ChatGPT 近似的方式谈话。亚马逊还预报了 Amazon Nova 的语音模式,但该模式将于 2025 年第一季度推出。

    Google 于 9 月发布的 NotebookLM 将音频输出进步到了一个新水平,它不错让两个"播客专揽东谈主"就您输入到其用具中的任何内容进行令东谈主胆战心摇的传神对话。

    12 月份,及时视频成为新的焦点。ChatGPT 当今已毕了与模子共享录像头,并及时守护所看到的内容。Google Gemini 也展示了具有相易功能的预览版块。

    即时驱动的应用才调生成仍是是一种商品

    2023 年的 GPT-4 就已已毕这少量,但其提供的价值在 2024 年才泄露出来。

    大模子在编写代码方面畸形出色,若是你正确地给出一个教唆,它们就不错使用 HTML、CSS 和 JavaScript 构建一个完好意思的交互式应用才调。

    当 Anthropic 发布 Claude Artifacts 时,他们鼎力鼓动了这一观点,这是一项突破性的新功能。通过 Artifacts,Claude 不错为您编写一个按需交互式应用才调,然后让您奏凯在 Claude 界面内使用它。

    从那时起,许多其他团队也建立了近似的系统。GitHub 于 10 月发布了他们的版块 GitHub Spark。Mistral Chat 于 11 月将其添加为名为 Canvas 的功能。

    这个教唆驱动的自界说界面功能畸形强盛且易于构建,瞻望它将在 2025 年看成一项功能出当今粗造的家具中。

    最好模子的免费使用仅络续了短短几个月

    本年短短几个月内,三款最好型号—— GPT-4o、Claude 3.5 Sonnet 和 Gemini 1.5 Pro ——均在全球大部分地区免费提供。

    OpenAI 于 5 月向统共用户免费提供 GPT-4o ,而 Claude 3.5 Sonnet 自 6 月发布以来也免费提供。这是一个紧要变化,因为在畴前的一年里,免用度户大多只可使用 GPT-3.5 级别的模子。

    跟着 OpenAI 推出 ChatGPT Pro,阿谁时期似乎仍是收尾,而且可能永远收尾了。这项每月 200 好意思元的订阅职业是拜谒其功能最强盛的模子 o1 Pro 的唯独阶梯。

    由于 o1 系列(以偏执他的明天模子)背后的技巧是消费更多的策画时辰来获取更好的拆伙,我认为免费使用最好可用模子的日子不太可能再记忆。

    " Agent " 还莫得果真出现

    " Agent "一词畸形令东谈主悔恨,因为它缺乏单一、明确且粗造交融的含义。若是你告诉我你正在构建" Agent ",那么你险些莫得向我传达任何信息。

    国产在线观看香蕉视频

    我看到的" Agent "的两个主要类别是:一种认为 AI 智能体是那些代表你行动的东西——近似旅行 Agent 的模子;另一种则认为 AI 智能体是大概拜谒用具并通过这些用具在处分问题过程中轮回运行的大语言模子(LLM)。此外,"自治"这个术语也频频被加入进来,但雷同莫得给出明确的界说。

    不论该术语的含义如何,Agent 仍然有那种永远"行将到来"的嗅觉。抛开术语不谈,我仍然对 Agent 的实用性持怀疑气魄。

    评估真的很要紧

    2024 年,有少量变得畸形彰着:为 LLM 驱动的系统编写精好意思的自动化评估是在这些模子之上构建有用应用才调最需要的妙技。

    若是您领有强盛的评估套件,您就不错更快地采纳新模子,更好地进行迭代,并构建比竞争敌手更可靠、更有用的家具功能。

    每个东谈主王人知谈评估很要紧,但仍然缺乏对于如何最好地实行它们的精好意思携带。

    Apple Intelligence 很恶运,Apple 的 MLX 库很棒

    看成 Mac 用户,昨年我合计枯竭一台配备 NVIDIA GPU 的 Linux/Windows 机器,这对尝试新模子来说是一个巨大的劣势。2024 年就好多了。

    在实际操作中,许多模子所以模子权重和库的式样发布的,这些库更偏向于赈济 NVIDIA 的 CUDA,而不是其他平台。

    在这方面,llama.cpp 生态系统提供了很大匡助,但果真的突破是苹果的 MLX 库,"一个为 Apple Silicon 联想的数组框架"。它畸形棒。

    苹果的 mlx-lm Python 赈济在我的 Mac 上运行多种 MLX 兼容模子,性能出色。Hugging Face 上的 mlx-community 提供了杰出 1,000 个仍是调度为所需款式的模子。

    天然 MLX 是一个游戏规章改变者,但苹果自家的" Apple Intelligence "功能大多令东谈主失望。Apple 的 LLM 功能只是对前沿 LLM 功能的顽劣师法。

    "推理"模子的兴起

    2024 年终末一个季度最兴致的发展是新的推理模子的出现。以 OpenAI 的 o1 模子为例——着手于 9 月 12 日看成 o1-preview 和 o1-mini 发布。

    推理模子最大的鼎新是它开辟了一种彭胀模子的新步调:模子不再只是通过在试验时增多策画来提高模子性能,而是不错通过在推理上干涉更多的策画来处分更难的问题。

    o1 的续集 o3 于 12 月 20 日发布,并在 ARC-AGI 基准测试中取得了令东谈主印象深入的拆伙,但是本钱也不低,瞻望总的策画时辰用度本钱杰出 100 万好意思元。o3 瞻望将于 2025 年 1 月正经盛开使用。

    OpenAI 并不是唯独一家参与该类别的公司。谷歌于 12 月 19 日发布了该类别的首款参赛者 gemini-2.0-flash-thinking-exp。阿里巴巴 Qwen 团队于 11 月 28 日发布了他们的 QwQ 模子;DeepSeek 于 11 月 20 日通过其聊天界面盛开了 DeepSeek-R1-Lite-Preview 模子供试用。Anthropic 和 Meta 尚未有任何进展,但是它们一定会跟进。

    中国最好的 LLM 试验本钱低于 600 万好意思元?

    2024 年年底的紧要新闻是 DeepSeek v3 的发布。DeepSeek v3 是一个巨大的 685B 参数模子,部分基准测试将其发达与 Claude 3.5 Sonnet 并排。

    Vibe 基准测试目下将其排在第 7 位,仅次于 Gemini 2.0 和 OpenAI 4o/o1 模子。这是迄今为止排名最高的开源许可模子。

    DeepSeek v3 果真令东谈主印象深入的是试验本钱。该模子在 2788000 个 H800 GPU 小时上进行试验,意象本钱为 5576000 好意思元。Llama 3.1 405B 试验了 30,840,000 个 GPU 小时——是 DeepSeek v3 所用时辰的 11 倍,但基准测试拆伙略差。

    环境影响有所改善

    模子(托管模子和在腹地运行的模子)效率的提高带来了一个可喜的拆伙是,在畴前几年中,运行教唆词的动力使用量和环境影响已大幅下降。

    但是在试验和运行模子的基础设施建筑仍然濒临着巨大的竞争压力。谷歌、Meta、微软和亚马逊等公司王人干涉了数十亿好意思元建筑新数据中心,这对电网和环境产生了畸形紧要的影响,以致有东谈主指摘建筑新核电站。

    这种基础设施是必要的吗?DeepSeek v3 的 600 万好意思元试验用度和大模子价钱的络续下降可能暴露它不是必要的。

    合成试验数据效率很好

    当今流行一种说法,跟着互联网充斥着东谈主工智能生成的垃圾,模子自身将会退化,以我方的输出为食,最终导致其不成幸免的耽溺。

    但这昭着不会发生。相背,咱们看到东谈主工智能实验室越来越多地使用合成内容进行试验——专诚创建东谈主工数据来匡助辅导他们的模子朝着正确的标的发展。合成数据看成预试验的要紧构成部分正变得越来越普遍。

    另一种常用技巧是使用较大的模子来匡助为较小、更低廉的替代决策创建试验数据——越来越多的实验室使用这种步调。DeepSeek v3 使用了 DeepSeek-R1 创建的"推理"数据。

    经心联想用于 LLM 的试验数据似乎是创建这些模子的一齐。从汇集上抓取完好意思数据并安定将其干涉试验运行的日子仍是抚景伤情了。

    大模子越来越难使用

    我一直在强调的一个不雅点是,LLM 是面向高档用户的用具。它们看起来很疏漏——向聊天机器东谈主输入音讯能有多难呢?——但实际上,要充分愚弄它们并幸免它们的各样罗网,你需要领有深厚的交融力和素养。

    若是说有什么问题变得更糟,那等于在 2024 年,这个问题变得愈加严重了。

    咱们仍是构建了不错用东谈主类语言进行对话的策画机系统,它们不错复兴你的问题,况且频频大概复兴正确!... 但这要看问题的类型,发问的方式,以及问题是否准确地体当今那些未公开的、精巧的试验数据链接。

    默许的 LLM 聊天界面就像是把完全莫得电脑素养的新用户丢进 Linux 结尾,让他们我方摸索着去弄分解。与此同期,结尾用户对这些用具的交融模子也越来越不准确,且充满诬蔑。

    许多信息更全面的东谈主仍是完全毁灭了 LLM,因为他们看不出任何东谈主能从如斯多劣势的用具中获益。想要从 LLM 中获取最大价值的要害妙技,等于学会如何使用那些既不成靠又极为强盛的手艺。掌捏这一妙技昭着并退却易。

    学问踱步极其不均

    当今大多数东谈主王人传奇过 ChatGPT,但是有若干东谈主传奇过 Claude 呢?那些积极关注这些手艺的东谈主与 99% 不关爱的东谈主之间的学问差距巨大。

    变化的速率也并莫得匡助缓解这个问题。仅在畴前一个月里,咱们就见证了直播接口的普及,你不错用手机录像头瞄准某个物体,用语音与它对话……。大多数自认为是极客的东谈主以致还没尝试过这个功能。

    推敲到这项手艺对社会的络续(以及潜在)影响,我认为这种差距的大小是不健康的。我但愿能有更多的勤苦干涉到改善这少量上。

    LLM 需要更好的品评

    许多东谈主对大模子手艺感到畸形反感。在一些公开论坛上,只是提议" LLM 是有用的"这个不雅点,就足以激发一场大争论。

    有许多旨趣让东谈主不可爱这项手艺——环境影响、试验数据的(缺乏)伦感性、可靠性不足、负面应用,以及对东谈主们责任可能产生的负面影响。

    LLM 统统值得品评。咱们需要守护这些问题,寻找缓解步调,并匡助东谈主们学习如何负包袱地使用这些用具,使其正面应用杰出负面影响。

    原文一语气:https://simonwillison.net/2024/Dec/31/llms-in-2024/163男女性爱



    Powered by bdsm 调教 @2013-2022 RSS地图 HTML地图

    Copyright Powered by365站群 © 2013-2024