苹果推出多模态大语言模型(MLLM)——Ferret-UI,能够更有效地理解和与屏幕信息进行交互,在所有基本UI任务上都超过了GPT-4V。Ferret-UI被称为是一种新的MLLM,专为理解移动UI屏幕而量身定制,具备指向、定位和推理等多种能力。它能够通过灵活的输入格式和基础任务在移动用户界面屏幕上执行引用任务。该技术可能会改变MLLM的游戏规则,具有很大的潜力。
论文地址:
https://arxiv.org/pdf/2404.05719.pdf
苹果推出多模态大语言模型(MLLM)——Ferret-UI,能够更有效地理解和与屏幕信息进行交互,在所有基本UI任务上都超过了GPT-4V。Ferret-UI被称为是一种新的MLLM,专为理解移动UI屏幕而量身定制,具备指向、定位和推理等多种能力。它能够通过灵活的输入格式和基础任务在移动用户界面屏幕上执行引用任务。该技术可能会改变MLLM的游戏规则,具有很大的潜力。
论文地址:
https://arxiv.org/pdf/2404.05719.pdf
扫码打开当前页
之前