一份新报告称,OpenAI的GPT-4在与眼科医生的对抗中表现非常出色。LLM(大语言模型)生成式AI(人工智能)生成的评估成功击败了非专业初级医生和实习生。微软资助的GenAI甚至可以与眼科专家相媲美。
GPT-4回答眼科评估MCQ
发表在PLOSDigitalHealth杂志上的一项研究证明了GenAI法学硕士如何在医疗领域提供帮助。在谈到结果时,该论文的主要作者ArunThirunavukarasu表示:
“这项工作表明,这些大型语言模型在眼睛健康方面的知识和推理能力现在几乎与专家没有什么区别。我们看到了回答相当复杂问题的能力。”
他指的是GPT-4回答有关眼科的MCQ(多项选择题)的能力。据报道,该研究总共询问了GPT-487个MCQ。五位专家眼科医生、三名见习眼科医生和两名非专业初级医生回答了同样的问题。
该研究根据教科书设计了一份调查问卷,用于测试受训者从光敏感性到病变的各个方面。有趣的是,教科书的内容无法在公共领域获得。因此,研究人员认为OpenAI可能在内部培训期间培训了其法学硕士。
研究过程中,研究人员对配备GPT-4或GPT-3.5的ChatGPT进行了三次尝试,给出了明确的答案。如果失败,研究人员会将响应标记为“无效”。
GPT-4击败了一些眼科医生,但仍无法与专家匹敌
据报道,在87个不同的患者场景中,GPT-4的表现优于初级人员,并取得了与大多数专家相似的结果。具体来说,GPT-4正确了87个问题中的60个问题。初级医生平均能答对37个。
眼科领域的学员平均答对59.7个,成绩非常接近。除一位专家正确回答了56个MCQ外,其余专家平均答对了66.4个。
相比之下,PaLM2成功获得了49个正确答案,GPT-3.5仅获得了42个正确答案,LLaMa仅以28个正确回答的MCQ落后于其他人。
值得注意的是,这项研究是在2023年中期进行的。换句话说,法学硕士可能在理解和回答复杂查询方面做得更好。
健康产业无疑将受益于ChatGPT、Gemini等GenAI平台。然而,一些医学专家警告不要依赖GenAI来诊断患者。他们表示,此类平台“缺乏细微差别”。因此,一些研究人员警告说,不准确的可能性可能相当高。