苹果大模型新进展:发布 ReALM,视觉元素解析能力优于 GPT-4

苹果发布ReALM,一种新AI系统,优于GPT-4在理解屏幕视觉元素引用上;  ReALM通过转化视觉布局为文本表示,增强对话助手的参考解析能力; 尽管取得进展,但ReALM在处理复杂视觉参考时存在局限,需结合多模态技术。(AI科技大本营)

搜索