首页 > 资讯列表 >  本页面生成服务质量专题报道,服务质量滚动新闻,服务质量业界评论等相关报道!
  • GPT-4变笨引爆舆论!文本代码质量都下降,OpenAI刚刚回应了质疑

    GPT-4变笨引爆舆论!文本代码质量都下降,OpenAI刚刚回应了质疑

    梦晨 克雷西 发自 凹非寺量子位 | 公众号 QbitAI大模型天花板GPT-4,它是不是……变笨了?先是少数用户提出质疑,随后大量网友表示自己也注意到了,还贴出不少证据。有人反馈,把GPT-4的3小时25条对话额度一口气用完了,都没解决自己的代码问题。无奈切换到GPT-3.5,反倒解决了。总结下大家的反馈,最主要的几种表现有:以前GPT-4能写对的代码,现在满是Bug回答问题的深度和分析变少了响应速度比以前快了这就引起不少人怀疑,OpenAI是不是为了节省成本,开始偷工减料?两个月前GPT-4是世界上最伟大的写作助手,几周前它开始变得平庸。我怀疑他们削减了算力或者把它变得没那么智能。这就不免让人想起微软新必应“出道即巅峰”,后来惨遭“前额叶切除手术”能力变差的事情……网友们相互交流自己的遭遇后,“几周之前开始变差”,成了大家的共识。一场舆论风暴同时在Hacker News、Reddit和Twitter等技术社区形成。这下官方也坐不住了。OpenAI开发者推广大使Logan Kilpatrick,出面回复了一位网友的质疑:API 不会在没有我们通知您的情况下更改。那里的模型处于静止状态。不放心的网友继续追问确认“就是说GPT-4自从3月14日发布以来都是静态的对吧?”,也得到了Logan的肯定回答。“我注意到对于某些提示词表现不一致,只是由于大模型本身的不稳定性吗?”,也得到了“Yes”的回复。但是截至目前,针对网页版GPT-4是否被降级过的两条追问都没有得到回答,并且Logan在这段时间有发布别的内容。那么事情究竟如何,不如自己上手测试一波。对于网友普遍提到GPT-4写代码水平变差,我们做了个简单实验。实测GPT-4“炼丹”本领下降了吗?3月底,我们曾实验过让GPT-4“炼丹”,用Python写一个多层感知机来实现异或门。△ShareGPT截图,界面稍有不同让GPT-4改用numpy不用框架后,第一次给出的结果不对。在修改两次代码后,运行得到了正确结果。第一次修改隐藏神经元数量,第二次把激活函数从sigmoid修改成tanh。6月2日,我们再次尝试让GPT-4完成这个任务,但换成了中文提示词。这回GPT-4第一次就没有使用框架,但给的代码仍然不对。后续只修改一次就得到正确结果,而且换成了力大砖飞的思路,直接增加训练epoch数和学习率。回答的文字部分质量也未观察到明显下降,但响应速度感觉确实有变快。由于时间有限,我们只进行了这一个实验,且由于AI本身的随机性,也并不能否定网友的观察。最早4月19日就有人反馈我们在OpenAI官方Discord频道中搜索,发现从4月下旬开始,就不时有零星用户反馈GPT-4变差了。但这些反馈并未引发大范围讨论,也没有得到官方正式回应。5月31日,Hacker News和Twitter同天开始大量有网友讨论这个问题,成为整个事件的关键节点。HackerNews一位网友指出,在GPT-4的头像还是黑色的时候更强,现在紫色头像版在修改代码时会丢掉几行。在Twitter上较早提出这个问题的,是HyperWrite(一款基于GPT API开发的写作工具)的CEO,Matt Shumer。但这条推文却引发了许多网友的共鸣,OpenAI员工回复的推文也正是针对这条。不过这些回应并没让大家满意,反而讨论的范围越来越大。比如Reddit上一篇帖子提到,原来能回答代码问题的GPT-4,现在连哪些是代码哪些是问题都分不出来了。在其他网友的追问下,帖子作者对问题出现的过程进行了概述,还附上了和GPT的聊天记录。对于OpenAI声称模型从三月就没有改动过,公开层面确实没有相关记录。ChatGPT的更新日志中,分别在1月9日、1月30日、2月13日提到了对模型本身的更新,涉及改进事实准确性和数学能力等。但自从3月14日GPT-4发布之后就没提到模型更新了,只有网页APP功能调整和添加联网模式、插件模式、苹果APP等方面的变化。假设真如OpenAI所说,GPT-4模型本身的能力没有变化,那么这么多人都感觉它表现变差是怎么回事呢?很多人也给出了自己的猜想。第一种可能的原因是心理作用。Keras创始人François Chollet就表示,不是GPT的表现变差,而是大家度过了最初的惊喜期,对它的期待变高了。Hacker News上也有网友持相同观点,并补充到人们的关注点发生了改变,对GPT失误的敏感度更高了。抛开人们心理感受的差异,也有人怀疑API版本和网页版本不一定一致,但没什么实据。还有一种猜测是在启用插件的情况下,插件的额外提示词对要解决的问题来说可能算一种污染。△WebPilot插件中的额外提示词这位网友就表示,在他看来GPT表现变差正是从插件功能开始公测之后开始的。也有人向OpenAI员工询问是否模型本身没变,但推理参数是否有变化?量子位也曾偶然“拷问”出ChatGPT在iOS上的系统提示词与网页版并不一致。如果在手机端开启一个对话,它会知道自己在通过手机与你交互。会把回答控制在一到两句话,除非需要长的推理。不会使用表情包,除非你明确要求他使用。△不一定成功,大概率拒绝回答那么如果在网页版继续一个在iOS版开启的对话而没意识到,就可能观察到GPT-4回答变简单了。总之,GPT-4自发布以来到底有没有变笨,目前还是个未解之谜。但有一点可以确定:3月14日起大家上手玩到的GPT-4,从一开始就不如论文里的。与人类对齐让AI能力下降微软研究院发表的150多页刷屏论文《AGI的火花:GPT-4早期实验》中明确:他们早在GPT-4开发未完成时就得到了测试资格,并进行了长期测试。后来针对论文中很多惊艳例子,网友都不能成功用公开版GPT-4复现。目前学术界有个观点是,后来的RLHF训练虽然让GPT-4更与人类对齐——也就更听从人类指示和符合人类价值观——但也让它自身的推理等能力变差。论文作者之一、微软科学家张弋在中文播客节目《What’s Next|科技早知道》S7E11期中也提到:那个版本的模型,比现在外面大家都可以拿得到的GPT-4还要更强,强得非常非常多。举例来说,微软团队在论文中提到,他们每隔相同一段时间就让GPT-4使用LaTeX中的TikZ画一个独角兽来追踪GPT-4能力的变化。论文中展示的最后一个结果,画得已经相当完善。但论文一作Sebastien Bubeck后续在MIT发表演讲时透露了更多信息。后来当OpenAI开始关注安全问题的时候,后续版本在这个任务中变得越来越糟糕了。与人类对齐但并不降低AI自身能力上限的训练方法,也成了现在很多团队的研究方向,但还在起步阶段。除了专业研究团队之外,关心AI的网友们也在用自己的办法追踪着AI能力的变化。有人每天让GPT-4画一次独角兽,并在网站上公开记录。从4月12日开始,直到现在也还没看出来个独角兽的大致形态。当然网站作者表示,自己让GPT-4使用SVG格式画图,与论文中的TikZ格式不一样也有影响。并且4月画的与现在画的似乎只是一样差,也没看出来明显退步。最后来问问大家,你是GPT-4用户么?最近几周有感到GPT-4能力下降么?欢迎在评论区聊聊。Bubeck演讲:https://www...

    智能设备 2023-06-03 10:09:46
  • 日本拟要求苹果开放第三方应用商店、并禁止谷歌偏袒自家服务

    日本拟要求苹果开放第三方应用商店、并禁止谷歌偏袒自家服务

    IT之家 6 月 2 日消息,据日本读卖新闻报道,日本政府已经决定对大型 IT 公司的运营服务引入新的法规,并根据日本的立法审议条例,争取最早明年向国会提交议案。新规将要求苹果对 iOS 开放第三方应用商店,同时也禁止谷歌在搜索结果中偏袒自己的服务...

    智能设备 2023-06-02 11:23:43
  • 天猫618:升级物流体验,半日达、次日达服务扩容

    天猫618:升级物流体验,半日达、次日达服务扩容

    6月1日消息,5月31日晚8点起,今年的天猫618正式开卖。 据了解,今年618天猫协同全社会物流伙伴,共同升级平台的物流体验...

    互联网 2023-06-01 17:15:26
  • 报告:可编程央行数字货币将给中小企业金融服务带来深刻变革

    报告:可编程央行数字货币将给中小企业金融服务带来深刻变革

    新京报贝壳财经讯(记者姜樊)5月29日,渣打与普华永道中国在联合发布联合发布的《央行数字货币(CBDC)共创未来银行生态体系》白皮书中提出,央行数字货币适合从复杂度相对较低的零售场景起步。一旦成功,则有可能为参与者尤其是中小型企业带来极大的助益...

    区块链 2023-05-29 22:52:41
  • 网易CEO丁磊谈AI大模型竞赛:找到应用场景、服务用户需求才是“胜者”

    网易CEO丁磊谈AI大模型竞赛:找到应用场景、服务用户需求才是“胜者”

    5月25日,网易发布2023年第一季度财报。一季度,网易净收入250亿元,非公认会计准则下归属于公司股东的净利润76亿元,公司业绩稳健增长,超市场预期。网易Q1研发投入37亿元,研发投入强度达15%。财报发布后,网易CEO丁磊、CFO杨昭烜等高管出席财报电话会,解读一季度业绩以及关于游戏、音乐、AIGC及海外市场相关的布局情况。发展AI大模型首要任务:找出应用场景、满足用户体验投资人问及网易在AI大模型领域的研发投入和布局逻辑时,网易CEO丁磊表示,未来,随着AI大模型的发展,企业会逐渐找到优化路径,不断降低大模型研发所需的资金和算力。同时,丁磊认为,在AI大模型竞赛中,真正的胜者是能选择好应用场景的企业。所以,目前网易的首要任务是探索AI大模型在不同产品场景下的应用,并研发出更符合用户体验的优质产品。针对游戏市场竞争格局,网易CEO丁磊表示,今年以来市场上涌现出许多新游戏,但消费者只会选择高质量的作品。对于网易来说,最重要的事情之一是在产品中始终保持与众不同的创新,无论是创新玩法,还是应用新技术,来不断满足用户的需要。“我们有信心在未来的发展中始终保持独特的优势”。《蛋仔派对》每周新增百万UGC地图 将加快出海步伐今年一季度,基于网易自研引擎开发的《蛋仔派对》,开创了独特的UGC内容共创模式。超3000万日活玩家,可借助《蛋仔派对》UGC地图编辑工具创作游戏内容,并通过社交媒体进行二次破圈传播。目前《蛋仔派对》每周平均新增超百万UGC地图,玩家的创作热情助力《蛋仔派对》在一季度登顶中国iOS下载榜,也进一步巩固了《蛋仔派对》高粘性、强社交的内容生态壁垒。在国内取得成功后,《蛋仔派对》将瞄准国际市场,加快出海步伐。网易高管在财报电话会上表示,《蛋仔派对》已在东南亚等地试运营,收集了本地玩家的体验反馈。下一步,网易将继续强化《蛋仔派对》独特的UGC玩法体验,让更多海外玩家感受到国产自研游戏的魅力。针对海外市场布局的相关问询,网易高管在财报电话会上披露,目前网易在海外已布局超过10个工作室。网易可以和这些经验丰富的海外团队一起工作、分享成功的创作经验,实现双赢。同时,公司有信心在未来一段时间里,海外工作室可以推出备受瞩目的作品,同时服务好中国及海外市场。网易云音乐毛利率创新高、付费用户持续增长,独立音乐人超63万一季度,网易云音乐业绩健康发展,毛利率从去年同期12.2%,大幅提升至22...

    互联网 2023-05-25 22:12:52
  • 能链与极氪宣布联手:车主可通过极氪与快电App获取充电服务

    能链与极氪宣布联手:车主可通过极氪与快电App获取充电服务

    【网易科技5月25日报道】能链智电近日与战略合作伙伴快电携手,与极氪智能科技旗下补能业务品牌——极氪能源ZEEKR Power达成合作,为百万车主提供便捷充电服务。据介绍,这一合作实现了充电网络的整合互通,车主可以通过极氪和快电两个App轻松获取充电服务...

    智能设备 2023-05-25 16:41:43
  • 兴业银行落地数字人民币基金支付服务

    兴业银行落地数字人民币基金支付服务

    5月23日,据兴业银行官微消息,近日,天天基金上线兴业银行数字人民币基金支付功能,兴业银行成为首家与天天基金开展数字人民币合作的股份制商业银行。该功能上线后,兴业数字人民币钱包用户可以用数字人民币在天天基金APP上购买或赎回基金产品...

    区块链 2023-05-23 07:06:36
  • 苹果更新“Apple支持”:调整布局,方便用户寻找就近服务点

    苹果更新“Apple支持”:调整布局,方便用户寻找就近服务点

    IT之家 5 月 17 日消息,苹果近日更新了售后应用“Apple 支持”,帮助 iPhone、Mac、iPad、Apple Watch 和其他苹果产品用户更方便地获取售后支持。IT之家附“Apple 支持” 5.0 版本更新内容如下:你可以浏览自己所在区域的提供商,看看附近有哪些服务点。全新的布局能够让你以更加便捷的方式查看和管理通话、聊天、预约以及其他活动。适用地区已扩增至越南,并增加了越南语作为受支持的语言。Apple 支持 App 目前可使用 32 种语言在 174 个地区提供服务。性能改进和错误修复。在启用全新布局之后,底部导航栏修改为“支持”、“网点”和“活动”三个标签页。“活动”标签页列出了过去 90 天内的所有支持活动,“网点”则显示服务提供商列表和安排维修的选项。“支持”选项卡继续提供与以前相同的所有功能,包括管理订阅、检查 AppleCare 覆盖范围和搜索设备建议的选项。 ...

    手机互联 2023-05-17 08:47:11
  • 福佑卡车战略合作千挂科技,预计今年将提供百万公里级的干线智能货运服务

    福佑卡车战略合作千挂科技,预计今年将提供百万公里级的干线智能货运服务

    5月12日消息,福佑卡车与千挂科技联合宣布达成战略合作,将千挂科技的智能卡车接入福佑卡车自动驾驶货运网络,为平台客户提供干线智能驾驶运力服务,目前已正式投入商业化运营。据介绍,搭载千挂科技智能驾驶系统的牵引卡车,可实现干线场景下的高级别智能驾驶,帮助司机有效减少长途驾驶产生的肌肉及精神疲劳,确保行车安全,增加司机日均驾驶距离,有效解决单司机驾驶场景下的运力持续性难题,从而科学降低运营成本,提升干线整体运输效率...

    业界动态 2023-05-12 11:00:13
  • 苹果更新听歌识曲服务Shazam,现支持AppleMusicClassic

    苹果更新听歌识曲服务Shazam,现支持AppleMusicClassic

    IT之家5月11日消息,苹果近日升级了听歌识曲服务Shazam,在最新15.33版本中添加了对AppleMusicClassical的支持,允许两款应用协同工作,帮助用户寻找古典音乐。IT之家附Shazam应用程序版本15.33的发行说明:用户现在可以在AppleMusicClassical中启用Shazam服务,简单点击Shazam按钮或者搜索古典音乐即可...

    智能设备 2023-05-11 11:10:19
  • 加密货币热潮退去矿企转身为AI提供高性能计算服务

    加密货币热潮退去矿企转身为AI提供高性能计算服务

    5月11日消息,去年9月,当以太坊区块链不再使用工作量证明算法来验证交易时,加密货币市场对高性能专用处理器的需求几乎在一夜之间消失了。那些使用或托管图形图像处理单元(GPU)的加密货币矿企发现,加密货币领域日益困难,他们曾经蓬勃发展的业务关键组成部分一去不复返...

    业界动态 2023-05-11 10:52:31
  • OpenAI推出Shap・E:基于文本数秒内生成高质量3D模型

    OpenAI推出Shap・E:基于文本数秒内生成高质量3D模型

    IT之家5月9日消息,继文本生成图片模型DALL・E之后,OpenAI近日再次发布了Shap・E模型。用户可以输入文本,用于创建逼真且多样化的3D模型...

    智能设备 2023-05-09 12:36:14

站长搜索

http://www.adminso.com

Copyright @ 2007~2024 All Rights Reserved.

Powered By 站长搜索

打开手机扫描上面的二维码打开手机版


使用手机软件扫描微信二维码

关注我们可获取更多热点资讯

站长搜索目录系统技术支持