-
一款免费AI聊天机器人,千亿多模态大模型跃问试用介绍
“跃问”是由阶跃星辰开发的一款基于Step-1和Step-1V千亿参数大模型的AI效率工具。早在一个月前,官方就已正式开放了。 Step-1在逻辑推理、中文知识、英文知识、数学、代码等方面的表现全面超越了GPT-3.5。 Step-1V则在中国权威的大型模型评估平台“司南”(OpenCompass)的多模态模型评测中位列第一(3月数据,目前位于第四),性能与GPT-4V相媲美。 它具备文本理解与生…- 1.9k
- 0
-
智谱开源新一代多模态大模型CogVLM2
智谱·AI最近宣布推出新一代多模态大模型CogVLM2,该模型在关键性能指标上相较于前一代CogVLM有了显著提升,同时支持8K文本长度和高达1344*1344分辨率的图像。CogVLM2在OCRbench基准上性能提升了32%,在TextVQA基准上性能提升了21.9%,显示出强大的文档图像理解能力。尽管CogVLM2的模型大小为19B,但其性能接近或超过了GPT-4V的水平。 CogVLM2的…- 965
- 0
-
vivo 自研蓝心大模型升级“自研 AI 多模态大模型”
在正在举行的 vivo 影像新蓝图暨 X 系列新品发布会上,vivo 宣布自研蓝心大模型升级「自研 AI 多模态大模型」,多模态技术让大模型从最原始的视觉、声音、空间等方面接触、感知、理解世界,让大模型更全面、更聪明、更强大。 此外,vivo 看见 | 多模态大模型技术应用 ——「vivo 看见蓝心升级版」,帮助视障用户更好地“看见”世界。 去年 11 月 1 日,在 2023 vivo 开发者大…- 129
- 0
-
阶跃星辰宣布推出 Step 系列通用大模型
阶跃星辰团队宣布推出了 Step 系列通用大模型,包括 Step-1千亿参数语言大模型、Step-1V 千亿参数多模态大模型,以及 Step-2万亿参数 MoE 语言大模型的预览版。 据悉,阶跃星辰成立于2023年4月,以 “智能阶跃,十倍每一个人的可能” 为使命。公司坚持自研超级模型,积极布局算力、数据等关键资源,发挥算法和人才优势。 目前已完成 Step-1千亿参数语言大模型和 …- 1.4k
- 0
-
苹果推出 300 亿参数 MM1 多模态 AI大模型,可识别图像推理自然语言
苹果公司旗下研究团队近日在 ArXiv 中公布了一篇名为《MM1:Methods, Analysis & Insights from Multimodal LLM Pre-training》的论文,其中介绍了一款 “MM1”多模态大模型,该模型提供 30 亿、70 亿、300 亿三种参数规模,拥有图像识别和自然语言推理能力。 苹果研究团队相关论文主要是利用 MM1 模型做实验,通过控制各种…- 524
- 0
-
香港大模型公司Weitu AI完成天使轮融资,估值一亿美金
近日,香港初创公司 Weitu AI 宣布成功完成天使轮融资,估值高达一亿美金。投资方包括全球数亿月活的互联网科技公司和著名天使投资人。 Weitu AI 公司刚刚成立,团队成员超过半数毕业于北美名校,拥有海外大厂工作经验。团队汇聚了长期活跃在人工智能多模态领域的研究专家,其中还包括去年初率队研发国内首批中文大语言模型的技术负责人。 公司表示,多模态大模型的研发需要同时具备基础大模型研发能力和长期…- 332
- 0
-
华科大发布多模态大模型新基准 覆盖五大任务
近期,华中科技大学等机构发布了一项关于多模态大模型(LMMs)的全面评估新基准,旨在解决多模态大模型性能评估的问题。这项研究涉及了14个主流多模态大模型,包括谷歌Gemini、OpenAI GPT-4V等,覆盖了五大任务、27个数据集。然而,由于多模态大模型的回答具有开放性,评估各个方面的性能成为一个亟待解决的问题。 在这项研究中,特别强调了多模态大模型在光学字符识别(OCR)方面的能力。研究团队…- 399
- 0
-
参数小,性能强!开源多模态模型—TinyGPT-V
安徽工程大学、南洋理工大学和理海大学的研究人员开源了多模态大模型——TinyGPT-V。 TinyGPT-V以微软开源的Phi-2作为基础大语言模型,同时使用了视觉模型EVA实现多模态能力。尽管TinyGPT-V只有28亿参数,但其性能可以媲美上百亿参数的模型。 此外,TinyGPT-V训练只需要24G GPU就能完成,不需要A100、H100那些高端显卡来训练。 所以,非常适用于中小型企业和个人…- 961
- 0
-
清华、浙大推GPT-4V开源平替!LLaVA、CogAgent等开源视觉模型大爆发
近期,GPT-4V的开源替代方案在中国的顶尖学府清华、浙大等的推动下,出现了一系列性能优异的开源视觉模型。其中,LLaVA、CogAgent和BakLLaVA是三种备受关注的开源视觉语言模型。 LLaVA是一个端到端训练的多模态大模型,它将视觉编码器和用于通用视觉和语言理解的Vicuna相结合,具备令人印象深刻的聊天能力。而CogAgent是在CogVLM基础上改进的开源视觉语言模型,拥有110亿…- 1.5k
- 0
-
华中科技大学开源多模态大模型Monkey
Monkey 是华中科技大学与金山软件联合推出的一种高性能多模态大模型,通过提高输入分辨率和引入多级描述生成方法,解决了现有模型在复杂场景和视觉细节处理方面的挑战。Monkey 可以基于现有视觉编辑器进行构建,无需从0预训练,大大提高了研发效率。 Monkey 的多级描述生成方法可以为模型提供丰富的上下文信息,指导模型学习场景和对象之间的关联。通过在16个不同的数据集上进行测试,Monkey 在图…- 1.2k
- 0
❯
搜索
扫码打开当前页
返回顶部
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
-
¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!