-
智谱首个免费多模态模型 GLM-4V-Flash 上线,支持图像描述生成、视觉问答等
继 8 月语言模型 GLM-4-Flash 免费后,智谱 AI 在今天上线第一款免费的多模态模型 —— GLM-4V-Flash。GLM-4V-Flash 不仅基于 4V 系列模型的各项优秀能力,更在图像处理上实现了精确度的提升。 据介绍,GLM-4V-Flash 模型拥有图像描述生成、图像分类、视觉推理、视觉问答(VQA)以及图像情感分析等高级图像处理功能,并且支持包括中文、英语、日语、韩语、德…- 875
-
阿里云魔搭社区上线AIGC专区:首批上架157款多模态模型
2024年9月21日,阿里巴巴在杭州云栖大会上宣布了多项技术创新和业务发展的新动态。其中,魔搭社区正式上线了AIGC专区,旨在为开发者提供一个全面的AI创作和开发平台。 该平台目前免费开放所有功能板块及GPU算力,首批上架了157款精选多模态模型,包括社区热门模型和设计师贡献的多种风格化LoRa模型。 在安全领域,阿里云宣布云原生安全能力全线升级,首次发布了云原生网络检测与响应产品NDR,同时承诺…- 3.9k
-
谷歌推超强多模态模型Gemini 1.5 Pro,排名领先GPT-4o、 Claude-3.5 Sonnet
谷歌今天推出了其最新的人工智能力作——Gemini1.5Pro,并通过 Google AI Studio 和 Gemini API 提供了实验性的“版本0801”用于早期测试和反馈。 新模型迅速在著名的 LMSYS Chatbot Arena 排行榜(由 Gradio 构建)上占据榜首,其令人瞩目的 ELO 分数高达1300。这一成就使 Gemini1.5Pro 领先于像 OpenAI 的 GPT…- 9.6k
-
Meta发布类GPT-4o多模态模型Chameleon
Meta最近发布了一个名为Chameleon的多模态模型,它在多模态模型发展中设立了新的标杆。Chameleon是一个早期融合的基于token的混合模态模型家族,能够理解并生成任意顺序的图像和文本。它通过一个统一的Transformer架构,使用文本、图像和代码混合模态完成训练,并且对图像进行分词化,生成交错的文本和图像序列。 Chameleon模型的创新之处在于其早期融合方法,所有处理流程从一开…- 3k
-
面壁智能开源MiniCPM 2.0系列模型 OCR等能力显著增强
面壁智能最新推出的新一代旗舰端侧模型 —— 面壁 MiniCPM2.0系列模型带来了一系列令人惊叹的性能和功能: 1. MiniCPM-V2.0是端侧最强的多模态模型,具有强大的 OCR 能力,甚至部分能力比肩 Gemini Pro。它通过自研的高清图像解码技术,可以准确识别各种复杂的图像内容,包括街景和长图等。 2. MiniCPM-1.2B 是更适配端侧场景的基座模型,性能超越了许多主流模型,…- 5.1k
-
马斯克XAI发布Grok-1.5 Vision 多模态模型 可处理文本和图片信息
在人工智能领域,多模态模型的发展一直是行业关注的焦点。近日,马斯克XAI公司发布了其最新的多模态模型——Grok-1.5Vision,这一模型不仅能够处理文本信息,还能够理解和分析各种视觉数据,如文档、图表、截图和照片,标志着公司在人工智能技术上迈出了重要一步。 Grok-1.5Vision模型在多项基准测试中展现了其卓越的性能,与业界领先的GPT4V模型相比,不仅不相上下,甚至在多个指标上实现了…- 2.6k
-
马斯克 xAI 展示首个多模态模型 Grok-1.5V:可将流程图转成 Python 代码
马斯克旗下人工智能公司 xAI 于 3 月下旬推出 Grok-1.5 大语言模型之后,近日再次推出首个多模态模型 Grok-1.5 Vision。 xAI 表示将于近期邀请早期测试者和现有的 Grok 用户测试 Grok-1.5 Vision(Grok-1.5V),不仅能理解文本,还能处理文档、图表、截图和照片中的内容。 xAI 表示:“Grok-1.5V 在多学科推理、文档理解、科学图表、表格处…- 2.4k
-
零一万物API开放 多模态中文图表体验超越GPT-4V
近日,零一万物API正式向开发者开放,其中包含三款强大的模型。首先是Yi-34B-Chat-0205,支持通用聊天、问答、对话、写作和翻译等功能;其次是Yi-34B-Chat-200K,能处理多文档阅读理解和构建超长知识库;最后是Yi-VL-Plus多模态模型,支持文本、视觉多模态输入,中文图表体验超越GPT-4V。这些模型的开放将促进更广泛的应用场景落地,形成更加繁荣的生态。 地址:https:…- 1.4k
-
生数科技「多模态大模型」正式通过备案
近日,生数科技「多模态大模型」正式通过国家《生成式人工智能服务管理暂行办法》备案。 成立于2023年3月,生数科技是一家全球领先的自主研发多模态通用大模型的人工智能企业 ,布局MaaS(模型即服务)与应用级产品,面向艺术设计、游戏制作、影视动画、社交娱乐等领域提供赋能。 2023年3月,团队采用原生技术路线,发布并开源全球首个基于U-ViT架构的多模态模型UniDiffuser,首次成功将扩散模型…- 6k
-
微软开源多模态模型LLaVA-1.5媲美GPT-4V效果
微软开源了多模态模型LLaVA-1.5,继承LLaVA架构并引入新特性。研究人员对其在视觉问答、自然语言处理、图像生成等进行了测试显示,LLaVA-1.5达到了开源模型中的最高水平,可媲美GPT-4V效果。 该模型由视觉模型、大语言模型和视觉语言连接器三大块组成。其中,视觉模型使用了预先训练好的CLIP ViT-L/336px,通过CLIP编码可得到固定长度的向量表示,提升图像语义信息表征。与前版…- 6k
❯
搜索
扫码打开当前页
返回顶部
幸运之星即将降临……
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠
-
¥優惠使用時效:无法使用使用時效:
之前
使用時效:预期有效优惠编号:×
没有优惠可用!