5月17日,北美放射学会(RSNA)在权威放射学期刊Radiology公布了一项研究,ChatGPT通过了放射学考试,展示了大语言模型在医学领域的巨大应用潜力。

本次考试,RSNA模仿了加拿大皇家学院和美国放射学委员会考试的风格和难度。一共150道选择题,ChatGPT回答对了104个,正确率69%达到及格。

GPT-4(ChatGPT plus)基于同样考试题目,回答对了121个,正确率81%高于及格线,这说明在高级推理方面GPT-4性能更好。

RSNA表示,ChatGPT在没有经过专业放射学数据训练的情况下,依然通过了难度较高的放射学考试,给人留下了深刻的印象。ChatGPT出色的信息总结能力、推理能力、分析能力,在医学领域有着巨大的应用潜力。例如,放射学教学、诊断分析、查询医学资料、疾病分类、简化复杂医学概念等。

但是,由于ChatGPT的很多原始预训练数据是 “黑盒数据”,很容易让其输出虚假、非法、歧视信息。例如,在本次考试中,ChatGPT在回答错误的考题中,依然自信满满地说“自己的回答是100%正确的”。

所以,医学领域如果想应用ChatGPT等大语言模型,需要专业的医学数据进行预训练和微调,才能获得更好的应用效果

主要发现

  • 在150 个没有图像的放射学选择题考试中,ChatGPT正确回答了其中的69%(104)。在需要低阶推理和理解的问题 (84%) 上,比在需要高阶思维 (60%) 的问题上表现更好。
  • ChatGP与临床管理 (89%) 相关的高阶问题上表现良好,在涉及影像学发现描述 (61%)、计算和分类 (25%) 以及概念应用 (30%) 的问题上表现不佳。
  • 在150 个没有图像的放射学选择题考试中,GPT-4正确回答了其中的81%(121)。在影像学发现描述(85%)、和概念的应用(90%)的表现有着巨大提升。
  • 即便是回答错误了,ChatGPT也会100%地说“自己回答正确了”。
  • 本次研究是在2023年2月25日—3月3进行,一共150道多选题,分为理解、应用、分析、物理、临床管理、计算和分类、疾病关联等,考题内容不涉及病人隐私数据。

    为了评估ChatGPT的推理、拟人化能力,考题风格和难度匹配了,美国放射学委员会核心认证考试和加拿大皇家学院放射学考试,整体接近真实考试难度。

    总体而言,ChatGPT在低阶推理和理解问题的表现非常出色,但是在高阶推理方面不如GPT-4。例如,一名64岁的男子因持续性肺炎在医院接受胸部CT扫描。偶然发现一个3厘米的肾上腺结节,随后需要进行肾上腺冲洗研究。

    在非对比度成像系列中,结节的感兴趣区域()测量值为27 HU。在随后的对比度增强系列中,该测量值上升至88 HU。15分钟后通过肾上腺的延迟图像显示读数为45 HU。该病变的绝对冲洗度是多少?

    在这道高级推理考题中,ChatGPT的回答是A,实际上正确答案是D。

    本次研究主要作者Rajesh Bhayana博士表示,像 ChatGPT这样的大型语言模型的应用正呈现出爆炸式增长趋势。我们的研究深度揭示了ChatGPT在放射学方面的表现,突出了大型语言模型的巨大医学应用潜力,以及当前面临的一些局限性。关于RSNA

    北美放射学会(RSNA),成立于1915年,是一个专注于放射学领域的非营利性专业组织。RSNA是放射学领域具有重要影响力的学术组织,通过期刊出版和年会活动等方式,为全球放射学专业人士提供了一个交流和学习的平台。

    RSNA出版了一些国际知名的放射学期刊,其中最著名的是Radiology和Radiology: Artificial Intelligence。这些期刊发表了关于放射学领域最新研究成果和技术进展的高质量研究论文,为世界各地的放射科医生和研究人员提供了知识更新和学术交流的机会。

发表回复

后才能评论