AI日报|谷歌发布Astra反击GPT-4o,字节发布9个自研大模型,腾讯混元开源文生图大模型...

文章推荐

GPT-4o重磅发布,第一时间用户测评,OpenAI也存在夸张宣传?

OpenAI直播倒计时,GPT-5被证缺席,GPT-3.5至5,一文看懂AI进化大不同!

本期热点

谷歌召开I/O 2024:发布Project Astra反击GPT-4o,Gemini系列模型大更新

联合创始人兼AI先驱Ilya Sutskever离开OpenAI

美国和中国将举行人工智能安全谈判,以防止“误判和意外冲突”

字节跳动正式发布自研豆包大模型系列,“比行业便宜99.3%”

升级对标Sora,腾讯混元开源文生图大模型

...

谷歌I/O 2024:发布Project Astra反击GPT-4o,Gemini系列模型大更新

在Google I/O 2024大会上,谷歌分享了如何利用AI构建更有用的产品和功能,大会包含以下分享内容:

  • Gemini系列模型更新:

Gemini 1.5 Pro升级:将上下文窗口扩展到200万个token,还通过数据和算法的进步增强了其代码生成、逻辑推理和规划、多轮对话以及音频和图像理解。Gemini 1.5 Pro升级,可以遵循日益复杂和细致的指令,包括指定涉及角色、格式和风格行为指令。

Gemini 1.5 Flash发布:1.5 Flash是Gemini模型系列的最新成员,也是API中速度最快的Gemini模型。它针对大规模大批量、高频的任务进行了优化,服务更具成本效益。

Gemini Advanced:引入Gemini 1.5 Pro后可以处理多个大型文档,制定复杂计划,并且将为Gemini Advanced订阅者推出Gemini Live,实现更好语言交互。

  • 发布有视觉记忆的AI助手Project Astra:

它可以实时处理文本、视频和音频,能够回答有关对方的问题并解释它们,或生成创意输出,并且可以识别和解释白板上的图表或程序代码。

  • 对标Sora,推出视频生成模型Veo:

Veo可以生成超过一分钟高质量1080p分辨率视频,具有多种电影和视觉风格。并且可以准确地捕捉提示的细微差别和基调,提供前所未有的创意控制水平—理解各种电影效果的提示,例如延时或风景的空中拍摄。

  • Google Search AI发布AI Overviews:

基于定制的Gemini模型的多步推理功能,AI Overviews将有助于解决日益复杂的问题。无需将问题分解为多个搜索,可以一次性提出最复杂的问题,以及您想到的所有细微差别和注意事项。

  • Gemma family加入新成员:

第一个视觉语言开放模型PaliGemma,针对图像字幕、视觉问答和其他图像标记任务进行了优化。

下一代开放模型Gemma2将于今年6月发布,性能优于一些尺寸超过其两倍的模型,并且可以在GPU或Vertex AI中的单个TPU主机上高效运行。

了解详情:

https://blog.google/inside-google/message-ceo/google-io-2024-keynote-sundar-pichai/

联合创始人兼AI先驱Ilya Sutskever离开OpenAI

OpenAI的联合创始人兼开创性AlexNet论文的合著者Ilya Sutskever在近 10年后离开公司,去追求一个对其“个人有重要意义”的新项目。Jakub Pachocki将接任研究主管一职,Jakub在OpenAI工作了7年多,被首席执行Sam Altman描述为他这一代最杰出的思想家之一。根据Sam的说法,他领导了公司的大部分重大项目。2022年11月,Ilya参与了首席执行官Sam Altman的临时罢免,后者因强制商业化和相关安全风险而受到批评。然而,调查发现解雇是没有根据的。Ilya道歉,帮助恢复了Altman的职位,然后离开了董事会。在Ilya辞职几小时后,AI安全研究员Jan Leike也宣布了离开。Leike与Ilya 共同领导了OpenAI在2023年夏天成立的Superalignment团队,目标是逐步迭代对齐超级智能,创造一位与人类能力相当的自动化对齐研究员。

了解详情:

https://the-decoder.com/co-founder-and-ai-pioneer-ilya-sutskever-leaves-openai/

字节跳动正式发布自研豆包大模型系列,“比行业便宜99.3%”

今日举办的2024春季火山引擎FORCE原动力大会上,字节跳动重磅推出了其自研的“豆包大模型”系列。这款大模型家族涵盖了豆包通用模型Pro、liti,以及豆包·角色扮演模型、豆包·语音合成模型、豆包·声音复刻模型、豆包·语音识别模型、豆包·文生图模型、豆包·Function Call模型等九大模型,全面展现了字节跳动在人工智能领域的深厚积累和创新能力。“大的使用量,才能打磨出好模型,也能大幅降低模型推理的单位成本。豆包主力模型在企业市场的定价只有0.0008元/千Tokens,0.8厘就能处理1500多个汉字,比行业便宜99.3%。”谭待表示,大模型从以分计价到以厘计价,将助力企业以更低成本加速业务创新。

了解详情:

https://mp.weixin.qq.com/s/WPs7Gt3Dt_SqkN1PJXsmmw

升级对标Sora,腾讯混元开源文生图大模型

腾讯宣布旗下的混元文生图大模型升级并对外开源,目前已经在Hugging Face及Github上发布,包含模型权重、推理代码、模型算法等完整模型,可供企业与个人开发者免费商用。升级后的混元文生图大模型采用了与Sora一致的DiT架构,腾讯表示,混元 DiT是首个中英双语DiT架构。混元DiT是一个基于 Diffusion transformer 的文本到图像生成模型,此模型具有中英文细粒度理解能力,混元DiT能够与用户进行多轮对话,根据上下文生成并完善图像。这也是业内首个中文原生的DiT架构文生图开源模型,支持中英文双语输入及理解,参数量15亿。

了解详情:

https://www.ithome.com/0/767/876.htm

如有侵权,请联系删除。

“可信 AI 进展 “ 公众号致力于最新可信人工智能技术的传播和开源技术的培育,覆盖大规模图学习,因果推理,知识图谱,大模型等技术领域,欢迎扫码关注,解锁更多 AI 资讯~

微软中国 AI 团队集体打包去美国,涉及数百人 一个不知名的开源项目可以带来多少收入 华为官宣余承东职务调整 华中科技大学开源镜像站正式开放外网访问 诈骗分子利用 TeamViewer 转走 398 万!远程桌面厂商该如何作为? 前端第一可视化库、百度知名开源项目 ECharts 创始人——“下海”养鱼 知名开源公司前员工爆料:技术 leader 被下属挑战后狂怒爆粗、辞退怀孕女员工 OpenAI 考虑允许 AI 生成色情内容 微软向 Rust 基金会捐赠 100 万美元 请教各位,此处的 time.sleep(6) 起到了什么作用?
{{o.name}}
{{m.name}}

猜你喜欢

转载自my.oschina.net/u/7032067/blog/11149645
今日推荐