盘点 2023 年最具影响力的AI大事件!

点击 机器学习算法与Python学习 ,选择加星标

精彩内容不迷路

转自AI科技大本营


这篇文章总结了 2023 年人工智能领域的主要进展,重点介绍了图像生成(如 Adobe Firefly, Midjourney V.6, DALL-E 3)、视频生成(如 Stability AI, Runway Gen-2)、文本生成(如 GPT-4, Bard and Gemini)等技术。同时,还讨论了 AI 法律环境的变化,如欧洲 AI 法案和美国版权局对 AI 生成内容的立场,以及诸多争议性的话题。 


2023 年,人工智能领域无疑成为了行业的焦点,带来了深刻的变革。本文概述了这一年中最有影响力的大事件,这些事件预示着这一创新领域未来的发展方向。

1. 人工智能的发展

不像去年的 ChatGPT 或图像生成器的推出那样革命性的创新,今年的人工智能发展虽然取得了显著的成就,但主要是专注于现有技术的完善。尽管没有带来令人震惊的效果,真正的通用人工智能(AGI)仍然还有很长的路要走,但今年是从过去的重大突破向更加强大的技术转变的过渡期。为了更好地展示这一转变,我们制作了一张基于时间线的路线图:

图像生成

  • Adobe Firefly:Adobe Firefly 和 Generative Fill 为多样化的视觉内容创作提供了强大的支持,这包括插画、艺术概念设计和照片编辑。Adobe Firefly 被集成进 Photoshop,从而普及了 AI 技术,使其得以广泛服务于更多用户。此外,文本效果功能的推出,也标志着技术的一大进步,使用户能够将特定风格或纹理应用于文字和短语。

  • Midjourney:Midjourney 的 V.5 模型在图像生成领域是一个重要的里程碑,它展示了在效率、连贯性和高分辨率方面的显著改进。最新的 alpha 版本,Midjourney V.6,引入了额外的增强功能,如更精准的提示跟随、扩展的模型知识库和一定程度的文本绘制能力。

  • DALL·E 3:基于 ChatGPT 的 DALL·E 3 简化了图像生成过程,减少了复杂提示工程的需求。此外,ChatGPT 还引入了一项帮助用户根据反馈优化提示,进而调整图像效果的功能。

  • Shutterstock.AI:Shutterstock,一家图库巨头,通过集成 AI 功能,让用户可以把文字提示转换成可授权使用的图像。Shutterstock 采取了保护艺术家权益和报酬的措施,这在AI内容创作领域是前无古人的,可以看作是 AI 道德发展的第一个重要举措。

2007 年与 2023 年文本到图像算法的演进

视频生成

  • Stability AI:Stability AI 推出了 Stable Video Diffusion,一个创新的开源视频生成模型,已在 GitHub 上开源。它有望在 AI 生成视频的各个领域发挥关键作用,这与 AI 图像生成趋势 是相辅相成的。

  • HeyGen:一家 AI 创业公司推出了一款集声音克隆、嘴唇动作调整和语言翻译于一体的视频工具

  • Runway Gen-2:Runway 发布了 Gen-2 模型,用户现可仅用文本提示、图像或视频轻松生成完整视频。

  • Pika 和 Pika 1.0: 首次发布便吸引了五十万用户,每周产生数百万视频。随后,Pika 1.0 的升级版 AI 模型让用户能够更多样化地创作和编辑视频,风格涵盖 3D 动画、动漫、卡通到电影等。

  • Meta 的 Codec Avatars:Meta 的 Pixel Codec Avatars(PiCA)模型使我们在视频通话中看到更逼真的 3D 人脸,使远程会议效果更接近真实。

文本生成

  • Bard 和 Gemini:Google 的 Bard  为聊天机器人领域引入了更贴近人类的情感和情绪。Google 在 Bard 聊天机器人中融入了基于多模态数据集训练的 Gemini,它被誉为目前“最强大”的 AI 模型,是 OpenAI 的 ChatGPT 最强的竞争对手之一。

  • Grok:Elon Musk 的创业公司 xAI 展示了其对 AI 开发的承诺,并可能与 OpenAI 展开竞争。他们发布了 “Grok”,这是一款具有幽默感、反叛精神,并通过 𝕏 平台获得实时知识的聊天机器人。xAI 承诺,Grok 被设计来 回答其他 AI 系统拒绝的挑衅性问题。

  • OverflowAI:Stack Overflow 的 OverflowAI 加强了知识整理能力,支持在 Visual Studio Code 和 Slack 中进行 AI 驱动的答案搜索。

  • Llama 2:Meta 发布了 Llama 2,这是其开源大型语言模型的最新版本,显示了效率方面的提升。Meta 的精调 LLM 在对话用例中经过优化,多数基准测试中超过其他开源模型。

  • GPT-4:OpenAI 的 GPT-4 现在可以处理图像输入,生成标题、分类,进行听说交流,并支持 实时网页浏览。OpenAI 扩展了插件支持,推动了开源生态系统的发展。GPT-4 代表了 OpenAI 在开发通用人工智能(AGI)路上的下一步。

  • Mistral 7B:Mistral AI 在今年 估值达到约 20 亿美元,发布了 Mistral 7B,一款挑战 GPT-4 和 Claude 2 的大型语言模型。Mistral AI 强调其技术开放性,免费提供模型的下载。

  • Mixtral 8x7B:Mistral AI 还推出了 Mixtral 8x7B,这是一个高质量的稀疏专家混合模型(SMoE),拥有开放权重和总计 46.7B 的参数,代表了在提高真实性和减少偏见方面模型开放性的新阶段。

  • Yi-34B llm:今年估值达到 10 亿美元,李开复的创业公司 01.AI 发布了 Yi-34B —— 一款开源神经网络模型,参数数量超过竞争对手,强调了它在成本和效率方面的优势。

其他进展

  • Segment Anything Model (SAM):Meta AI 展示了 SAM 是一个能够直接“剪切”图像中物体的分割模型,展示了显著的适应性。SAM 经过大量数据集训练,其在对象分割方面的性能表现卓越。

  • 直接偏好优化 (DPO):直接偏好优化 (DPO) 是一种稳定高效的方法,可用于微调大规模无监督语言模型和教授文本到图像模型。它通过利用人类反馈实现精确的控制,而无需依赖复杂的强化学习(RLHF)。

  • Zephyr 直接偏好优化蒸馏 (dDPO):Zephyr-7B 是 dDPO 方法的成果,为 7B 参数聊天模型设立了新基准,实现更好的意图对齐,且无需大量训练。

  • 自主 AI 代理:自主 AI 代理的出现是一个显著的趋势,标志着向更高级和自主的 AI 系统的转变。这些 AI 代理被看作是通用人工智能(AGI)的一个初步体现,因为它们能够根据用户的目标自动生成任务和指令,并独立工作直至目标实现。

  • EvoDiff:微软的 EvoDiff 是一个用于高速且节省成本的蛋白质设计的开源 AI 框架,承诺将在治疗学和工业应用方面取得进展。

  • Stable Audio:Stability AI 发布了 Stable Audio,这是一款能够根据简单的文本提示生成短时高质量的音频片段的工具。

  • GPT 商店、Copyright Shield(版权盾)、ChatGPT 机器人构造器:OpenAI 推出了 GPT 商店,用于销售定制的 GPT 机器人,版权盾用于处理版权侵权索赔的法律费用,以及一个无需编码就能定制 ChatGPT 版本的平台。

  • Stability AI 开源其大型语言模型 (LLM):Stability AI 开源了其模型,包括 StableLM-Alpha 和 Stable Vicuna,两者以生成文本和代码的出色性能著称。Stable Vicuna 是第一个使用人类反馈强化学习(RLHF)训练的开源聊天机器人。此外,Stability AI 还发布了 SDXL Turbo,一款实时的文本到图像生成模型。

2. 合作关系

在充满活力的 2023 年,行业领导者之间也存在一些重要的合作,这些合作关系对未来的发展轨迹产生了深远影响。以下是 2023 年在人工智能领域具有定义性的主要合并和合作伙伴关系:

Stability AI 收购 Init ML

Stability AI 通过收购 Init ML——一支流行编辑应用 ClipDrop 背后的开发团队,其目的非常明确:将 Stability AI 的尖端技术整合进 ClipDrop 的生态系统中。这次合作已经促成了 SDXL Turbo 的开发

Runway 与 Getty Images 的合作

Runway 与 Getty Images 达成了战略合作伙伴关系,建立战略合作,推出了新视频生成模型 RGM(Runway 和 Getty Images 模型)。该模型结合了 Runway 的 AI 技术和 Getty Images 的丰富的授权创意内容库。这次合作旨在根本性地改变内容创作流程,使企业能够生成高质量、定制化的视频,以匹配其品牌形象。

Snowflake 收购 Neeva

数据仓库平台领导者 Snowflake  收购了致力于用生成式 AI 改善搜索体验的初创公司 Neeva。Neeva 最近关闭了其无广告、基于订阅的搜索引擎。Neeva 的创始人承认,吸引用户尝试新搜索引擎颇具挑战。

Shutterstock 与 OpenAI 的合作

Shutterstock 与 OpenAI 承诺进行为期六年的合作扩展。OpenAI 获准访问 Shutterstock 的高质量数据,包括多样化的图片、视频和音乐库,用于丰富其训练数据集。Shutterstock 继续利用 OpenAI 的技术,推出了 Shutterstock AI 图像生成工具。


3. 法律领域

在不断变化的人工智能法律领域,2023 年发现自己处于一个充满不确定性和持续辩论的环境中。面对新的挑战,围绕版权、公司政策和更广泛的监管框架的讨论持续进行,这些讨论塑造了人工智能法律领域的轮廓。以下是 2023 年最关键的法律议题:

欧洲人工智能法案

欧盟推出的人工智能法案是全球首个旨在规范人工智能使用的全面法律。法案依据 AI 系统的风险级别分类,并据此制定规定。尽管原则上已获同意,该法案的实施被推迟,预计将于 2025 年开始执行。

美国版权局对 AI 生成内容的立场

美国版权局采取了明确的立场,拒绝为 AI 算法 Midjourney 创建的图像注册版权。这一决定成为明确指出单独由 AI 创作、无人类参与的艺术作品不符合版权保护的先例。此外,美国版权局还发布了指导意见,澄清人类使用 AI 工具创作的作品可能符合版权保护。该指导意见确认,需根据人类在创作过程中的决定性作用来评估使用 AI 工具的作品。

“现有法律体系尚未准备好接受 AI 创作作品的版权,因为 AI 是基于现有数据学习,这对确定归属权构成挑战。通过国家进行的调查,预计明年解决这个问题的做法将得到发展。在缺乏更广泛的公众参与的情况下,目前独立解决这个问题变得困难。”

Everypixel 公司律师 Daria Kuznetsova

麦肯锡发布了一份全面的图表,捕捉了 2023 年与人工智能治理相关的重要政策和监管动态,强调了 2023 年在塑造人工智能的法律框架方面的重大贡献。

来源:麦肯锡


4. 争议

2023 年见证了许多引人注目的争议,这些争议反应了人工智能领域不断演变的规范和不确定性。随着人工智能的发展,这些争论变得不可避免。以下是这一年的一些最具争议的话题:

企业限制 ChatGPT 的使用

出于安全和隐私的考虑,摩根大通、花旗集团、美国银行、德意志银行、高盛和富国银行等主要金融机构禁止了 ChatGPT 的使用。这体现了一个普遍的趋势,即企业对员工发布了关于在工作场合使用 AI 的法律指导。

OpenAI 使用廉价工人惹争议

《时代》杂志的一项调查揭露了 OpenAI 与 Sama 合作,雇佣肯尼亚的廉价工人为 ChatGPT 筛选敏感内容。这一发现引发了关于工人待遇和内容审核对心理健康影响的伦理问题的讨论。

OpenAI 的领导层动荡

Sam Altman 离职并迅速回归 OpenAI 成为上月的头条新闻。在与董事会的沟通不一致后,Altman 辞去了 OpenAI 的领导职务。临时 CEO Mira Murati 与大部分员工支持 Altman 的回归。这一前所未有的情况引起了广泛关注,留下了关于这一变动背后真正原因和其未来影响的疑问。

200 亿美元交易终止,Adobe 宣布终止收购 Figma

Adobe 计划以 200 亿美元收购 Figma 却遭遇监管障碍,欧洲委员会和英国竞争与市场管理局对潜在反垄断问题进行了调查。这项拟议的交易影响超出了设计考虑,因为 Adobe 在客户数据平台方面的主导地位引发了首席信息官们(Chief Information Officers, CIOs) 对其可能对云软件支出的影响的担忧。最终,由于在欧洲和英国获得反垄断批准面临困难,Adobe 最终放弃了这笔交易,并向 Figma 支付了 10 亿美元的分手费。

AI 生成图片获索尼世界摄影奖,摄影师拒绝领奖

摄影师 Boris Eldagsen 在索尼世界摄影大赛(Sony World Photography Awards)中提交了 AI 生成的艺术作品并获奖,引起了轰动。Eldagsen 拒绝接受奖项,激发了关于 AI 生成图像在传统摄影比赛中地位的辩论,对真实性和创造力的传统观念发起了挑战。

整理不易,三连