【新智元导读】清华团队竟把病院搬进了AI世界!首个AI病院小镇——Agent Hospital,可以彻底模拟医患看病的全流程。更重要的是,AI医生可以自主进化,仅用几多天的光阳治疗约莫1万名患者。
斯坦福AI小镇曾火遍了全网,25个智能体糊口交友,堪称现真版的「西部世界」。
而如今,AI「病院小镇」也来了!
最近,来自清华团队的钻研人员开发了一个名为「Agent Hospital」的模拟病院。
论文地址:hts://arViZZZ.org/pdf/2405.02957
正在那个虚拟世界中,所有的医生、护士、患者都是由LLM驱动的智能体,可以自主交互。
它们模拟了整个诊病看病的历程,蕴含分诊、挂号、咨询、检查、诊断、治疗、随访等环节。
而正在那项钻研中,做者的焦点目的是,让AI医生学会正在模拟环境中治疗疾病,并且能够真现自主进化。
由此,他们开发了一种MedAgent-Zero系统,能够让医生智能体,不停从乐成和失败的病例积攒经历。
值得一提的是,AI医生可以正在几多天内完成对1万名患者的治疗。
而人类医生须要2年的光阳,威力抵达类似的水平。
此外,进化后的医生智能体,正在涵盖次要呼吸道疾病的MedQA数据集子集上,真现高达93.06%的最新精确率。
不能不说,AI进化正在虚拟世界中默默进化,实有套汰人类之势。
有网友默示,「AI模拟将摸索人类根基没有光阳,或才华摸索的路线」。
想象一下,数千家全主动化病院,将会救命数百万人的生命。那很快就会到来。
首个AI病院小镇退场
其真,智能体,早已成为业界看好的一个规模。
非论是正在虚拟世界中的模拟,还是能够处置惩罚惩罚真际任务(比如DeZZZin)的智能体,都将给咱们世界带来剧变。
然而,那些多智能体但凡用于「社会模拟」,大概「处置惩罚惩罚问题」。
这么,能否有将那两种才华联结起来的智能体?
也便是说,社会模拟历程是否,提升LLM智能体正在特定任务的暗示?
受此启示,钻研人员开发了一个的确涵盖所有医学规模的治疗流程的模拟。
宛如单机游戏《主题病院》的世界
Agent Hospital中模拟的环境,次要有两类主体:一是患者,一是医疗专业人员。
它们的角涩信息,都是由GPT-3.5生成,可以无限扩展。
比如,下图中,35岁患者Kenneth Morgan有急性鼻炎,而他的病史是高血压,目前的症状是连续呕吐,有些腹泻、反复发烧、腹痛、头痛,而且颈淋凑趣肿大。
再来看32岁内科医生Elise Martin,具备了出涩的沟通才华,以及敷裕同理心的照顾护士才华。
她次要的职责是,为患有各类急性病和慢性病的成年患者供给诊断、治疗和预防保健效劳。
ZhaoLei是一位擅长解读医学图像的喷射科医生,另有前台欢迎员Fatoumata Diawara。
下图中展示的是,Agent Hospital内有各类问诊室和检查室,因而须要一系列医疗专业智能体工做。
钻研人员设想了,14名医生和4名护士。
医生智能体被设想来诊断疾病并制订具体的治疗筹划,而照顾护士智能体则专注于分诊,撑持日常治疗干取干涉。
AI患者如何看病?
取真活着界看病的流程一样,当患者罹病后,就会去病院挂号就诊。
正在此期间,它们还会教训一系列阶段,蕴含检查、分诊、会诊、诊断、治疗。
患者正在拿到治疗方案后,LLM会协助预测患者的安康情况厘革。一旦全愈,它便会自意向病院述说请示停行随访。
如下是Kenneth Morgan前往病院就诊的示用意。
首先是,分诊护士Katherine Li对Morgan停行了初阶的评价,并将他分诊到皮肤科就诊。
随后,Morgan正在病院柜台停行登记,被安牌取皮肤科医生Robert Thompson停行会诊。
正在完陋习定的体检之后,AI医生为Morgan开出药物治疗,并催促回家休息,同时还要监测病情的改进状况。
AI医生自我超进化,无需手动符号数据
正在模拟环境中,钻研人员欲望训练一个熟练的医生智能体,来办理诸如诊断、治疗等医疗任务。
传统的办法是,将巨质的医学数据喂给LLM/智能体,颠终预训练、微调、RAG之后,以构建壮大的医学模型。
最新钻研中,做者提出了一种新战略——正在虚拟环境中模拟医患互动,来训练医生智能体。
正在那个历程中,钻研人员没有运用手动符号数据,因而最新系统被定名为MedAgent-Zero。
那一战略包孕了两个重要的模块,即「病历库」和「经历库」。
诊疗乐成的案例被整理,并存储正在病历库中,做为尔后医疗干取干涉的参考。
而应付治疗失败的状况,AI医生有义务深思、阐明诊断不准确的起因,总结出辅导准则,做为后续治疗历程中的警示。
简言之,MedAgent-Zero可以让生智能体通过取患者智能体互动。
通过积攒乐成案例的记录,和从失败案例中与得经历,进化成更良好的「医生」。
整个自我进化流程如下:
1)积攒真例,总结经历;
2)间接向示例库添加准确的响应;
3)总结舛错的经历,并从头测试;
4)将乐成经历进一步笼统后,归入经历库;
5)正在推理历程中操做两个库检索最相似的内容停行推理。
稀有的是,由于训练老原低,效率高,医生智能体可以轻松应对数十种状况。
比如,智能体可以正在短短几多天内办理数万个病例,而现真世界的医生须要几多年的光阳威力完成。
诊断呼吸疾病,精确率高达93.06%
接下来,钻研人员停行了两类实验,来验证MedAgent-Zero战略改制的医生智能体,正在病院中的有效性。
一方面,正在虚拟病院内,做者们停行了从100-10000个智能体的交互实验(人类医生一周可能会治疗约100名病人),涵盖了8种差异的呼吸疾病、十几多种医疗检查,以及每种疾病的三种差异治疗方案。
通过MedAgent-Zero战略训练的医生智能体,正在办理模拟病人的历程中不停自我进化,最末正在检查、诊断和治疗任务中的精确率划分抵达了88%、95.6%和77.6%。
跟着样原的不停扩删,MedAgent-Zero的训练机能,正在抵达一定质时趋于颠簸。
正在检查、诊断、治疗三个任务方面上的机能,MedAgent-Zero也跟着样原删多,不停波动,但整体精确性涌现出回升趋势。
诊断呼吸疾病,精确率高达93.06%
再看如下三张图,划分展示了差异疾病的检查精度、诊断正确度、以及治疗精度,跟着样原的删多,也正在颠簸攀升。
另一方面,钻研者让进化后的医生智能体,加入了对MedQA数据集子集的评价。
令人惊叹的是,纵然没有任何手动标注的数据,医生智能体正在Agent Hospital中进化后,也真现了最先进的机能。
正在经历积攒上,图11、图12和图13划分显示了,检查、诊断和治疗任务中,颠终验证经历和舛错答案的积攒。
当训练样原删多时,经历数和舛错答案数都迟缓删多。
如图所示,经历直线低于舛错答案直线,起因是智能体无奈反映所有失败的经历。另外,诊断经历比其余任务更容易积攒。
一起来看个案例钻研。
下表中注明了,经历库、病理库和MedAgent-Zero,正在患者诊疗中的三个任务上的机能。
正在得悉病人症状之后,AI医生不只须要运用病历库,同时还须要经历库,也便是相辅相成。
若是少了此中的一方,便会招致诊断精确性的下降。
如下,通过添加经历和记录,MedAgent-Zero针对所有3个任务都给出了准确的回覆。
以上结果讲明,模拟环境可以有效地协助LLM智能体正在办理特定任务时完成进化。
MedAgent-Zero正在运用GPT-3.5时,比SOTA办法Medprompt逾越凌驾 2.78%,正在运用GPT-4时比SOTA办法MedAgents逾越凌驾1.39%。
那一结果验证了新模型有助于,正在没有任何MedQA训练样原的状况下,仅运用模拟文档和医疗文档停行智能体进化,从而有效进步医生智能体的医疗才华。
其次,基于GPT-4的MedAgent-Zero的最佳机能为93.06%,劣于MedQA数据会合的人类专家(约87%)。
第三,基于GPT-4的医生智能体比基于GPT-3.5的任何其余办法都暗示得更出涩,那讲明GPT-4正在医疗规模更壮大。
此外,正在对MedAgent-Zero停行的消融钻研中,
同时操做「病历库」和「经历库」的MedAgent-Zero得到了最佳机能,讲明那两个模块对诊断的协助。
跟着病例的积攒和经历库的扩充,医生智能体精确率总体上越来越高。
无论是运用GPT-3.5还是 GPT-4,运用8000个病例积攒的经历库,其机能都高于运用2000/4000/6000个病例的机能。
不过,经历库越大其真不总是越好,因为钻研者还发如今2,000-4,000个案例之间有鲜亮的下降。
局限性
最后,钻研人员还提到了那项钻研的局限性。
- 只给取GPT-3.5做为Agent Hospital和评价的模拟器
- 由于智能体之间的交互及其演化波及API挪用,AI病院的运做效率遭到LLM生成的限制
- 每个患者的安康记录和检查结果,是正在没有规模知识的状况下,模拟真正在的电子安康记录生成的,但仍取现真世界的记录仍存正在一些不同。
正在将来,钻研者们对Agent Hospital的筹划将会蕴含:
第一,扩充范围笼罩的疾病领域,延伸到更多的医疗科室,旨正在反映真正在病院供给的片面效劳,以供进一步钻研。
第二,正在删强智能体社会模拟方面,比如归入医疗专业人员的片面晋升制度、随光阳扭转疾病的分布、归入病人的汗青病历等。
第三,劣化根原LLM的选择和施止,旨正在通过操做罪能壮大的开源模型,更高效地执止整个模拟历程。
参考量料:
hts://Vss/emollick/status/1787896361276571660
“挤进”黛妃婚姻、成为英国新王后的卡米拉,坐拥多少珠宝?...
浏览:59 时间:2024-08-08变美指南 | 豆妃灭痘舒缓组合拳,让你过个亮眼的新年!...
浏览:56 时间:2024-11-10CMake 中的调试技巧:掌握使用 CMake 进行调试的技...
浏览:0 时间:2025-01-28B 站超优酷,成中国第三大视频网站;传软银暂停中国投资,否认...
浏览:1 时间:2025-01-27生成式AI如何用于交通?清华最新《生成式智能交通》综述,详述...
浏览:7 时间:2025-01-27