OpenAI引起“吉卜力之乱” 点燃版权归属激烈讨论

报道:曾浩年
OpenAI推出新图像生成功能引发狂热,网民争相人工智能(AI)模仿日本动画大师宫崎骏风格。
人工智能(AI)巨头OpenAI升级了GPT-4o模型的图像生成功能,意外引爆了全球性的日本动画大师宫崎骏“吉卜力风格”(Ghibli style)图像生成热潮。
从科技巨头马斯克到普通用户,纷纷在社交媒体上分享由AI生成、风格模仿“吉卜力风格”图片,其受欢迎程度超出了OpenAI的预期。
这一现象不仅突显了GPT-4o在图像生成和人类意图理解上的显著进步,也成为观察当前AI技术飞速发展,特别是人工智能体崛起以及迈向通用人工智能潜力的最新切入点。
然而,这股“吉卜力风格”热潮也迅速点燃了关于版权归属和艺术家未来的激烈讨论。
由于AI模型的训练数据来源往往不透明,人们质疑其是否在未经授权的情况下使用了包括吉卜力工作室在内的大量受版权保护的艺术作品进行训练。
引发对艺术家价值担忧
当AI能轻易模仿特定、具有高度辨识度的艺术风格时,这不仅可能构成对原创者智慧财产权的侵犯,更引发了对人类艺术家价值的担忧:如果独特的风格可以被轻易复制,那么艺术家长期磨练的技艺和建立的个人品牌是否会被贬低?这是否会冲击以特定风格见长的艺术家或工作室的生存空间,甚至影响整个创意产业的生态?这些问题成为AI技术伦理和法律框架极待厘清的焦点。
近期GPT-4o在图像生成及意图理解上的突破,不仅是模型能力的提升,更为人工智能体的发展提供了重要的启示和基础。
一个强大的人工智能体(AI Agent)需要能够理解复杂指令、调用合适工具并执行任务。
GPT-4o生成“吉卜力风格”图像的能力,正体现了AI对用户较为抽象或带有风格化需求的“意图理解”能力的增强。这种高质量的图像生成功能可以被视为人工智能体可调用的工具或“行动能力”之一。
当一个智能体需要完成包含视觉元素的复杂任务(例如:根据描述自动生成报告配图、为行销活动设计初步视觉概念、或在虚拟环境中创建对象),一个能准确理解意图并生成高质量图像的模块,将极大扩展智能体的自主执行范围和能力。
因此,GPT-4o的相关进展,可以看作是构建更全能、更接近“完整的人”的人工智能体道路上,关键能力的具体实践与验证。
GPT-4o图像生成能力的重大提升,背后其实是一个劳动密集的流程,很大程度上归功于大量“人类训练员”的脑力贡献。这些训练员负责标注训练数据,指出AI生成图像中拼写错误、异常手部或脸部等瑕疵。
这种被称为“人类回馈强化学习”(RLHF)的技术,使AI能更准确地遵循人类指示,从而生成更精确、实用的图像。
AI技术的惊人发展速度,正引发对行业生态和个人投入价值的深刻反思。
技术快速突破激化竞争
正如一段广为流传的评论所言:“一个讽刺的事实是,如果一个人在2023年开始投身AI图像生成领域,花大量时间和金钱投入ComfyUI和工作流程的研究,而另一个人这两年来都在游山玩水,GPT-4o发布更新之后他们仍然站在同一起跑线上。换句话说,你很难说服自己(和投资人)相信你不是一直在电梯里做伏地挺身。”
简单来说,“ComfyUI”是一个相对复杂的专业级AI绘图工具,用户需要像搭积木一样手动组合各种功能模块来生成图像。
而“工作流程”则是指利用这类工具精心设计出的一套具体的、包含许多步骤和参数的“独家配方”,用以生成特定风格或高质量的图像。掌握这些工具和设计好的工作流程需要投入大量时间和精力学习。
在AI浪潮之下,个体为更好地使用AI的精深努力,可能难以追赶平台整体的飞速抬升,从而引发对投入产出比的根本性质疑。
技术的快速突破也激化了市场竞争,有时甚至以一种近乎情绪化的方式呈现。
图像生成引发热潮
面对GPT-4o在图像生成领域引发的热潮,曾经的AI生图领军新创、竞争对手Midjourney的总执行长霍尔兹(David Holz)反应激烈,他一连串地指出4o图像生成“又慢又差”,指责OpenAI“只是试图筹集资金并以有毒的方式竞争”,并将其贬低为“只是一个迷因而非创意工具”,断言“一周后就没人会再谈论它”。
但他的指责引来网民耻笑为高压下的心理调适。
它折射出即使是行业领先者,在欠缺护城河与面对可能撼动其地位的颠覆性技术时,所感受到的巨大压力、焦虑和潜在的防御心态。
新闻来源:亚洲周刊

AI聊天机器人有记忆 背后恐有个资和隐私疑虑

OpenAI
(华盛顿16日讯)人工智能(AI)产业正面临一项古老却始终未解的挑战:如何保存并善用“记忆”。
近期,包括 OpenAI、谷歌、Meta和微软在内的多家科技巨头纷纷强化旗下聊天机器人和AI助理的“记忆功能”,让系统能够长期保存用户信息,从而提供更精准、更个性化的回应。这项进展被视为争夺AI市场主导权的重要武器,也有助企业从中创造更可观的营收。
不过,AI日益强大的“记忆力”也引发外界关注,部分专家警告这可能成为企业搜集用户数据、换取商业利益的手段,进而带来隐私与数据安全方面的隐忧。
据《金融时报》报道,OpenAI的ChatGPT、谷歌的Gemini等聊天机器人在技术上已有显著进展,除了扩大“上下文长度”——即一次对话中可记住的内容数量,也透过“检索增强生成”(Retrieval-Augmented Generation, RAG)技术,从外部数据库抓取相关信息,为回应内容增添深度。
同时,各家开发商也在加强模型的“长期记忆”能力,让系统能记录使用者的兴趣、习惯与个性特征。以 ChatGPT 为例,若它知道某位用户是素食者,未来在推荐餐厅或食谱时就会自动避开肉类选项。
Meta则在WhatsApp和Messenger中的 AI 助理也具备“回顾旧对话”的能力,不再局限于当前的聊天内容。这些系统还会主动提醒用户正在建立新记忆,并提供设置选项让用户随时查看、修改甚至删除储存的资料。
OpenAI 表示:“记忆功能将使ChatGPT随时间变得更加实用,更能理解和回应用户。”并强调,“用户始终掌握控制权——你可以随时查询ChatGPT记得你什么,也可以修改或删除记忆,甚至关闭记忆功能。”
新闻来源:联合新闻网