CCKS2023-PromptCBLUE中文醫療大模型評測比賽持續開放報名中!
簡介
以ChatGPT、GPT-4等為代表的大語言模型(Large Language Model, LLM)掀起了新一輪自然語言處理領域的研究浪潮,展現出了類通用人工智能(AGI)的能力,受到業界廣泛關注。在LLM大行其道的背景下,幾乎所有的NLP任務都轉化為了基于提示的語言生成任務。然而,在中文醫學NLP社區中,尚未有一個統一任務形式的評測基準。
為推動LLM在醫療領域的發展和落地,華東師范大學計算機學院王曉玲教授團隊聯合阿里巴巴天池平臺、復旦大學、復旦大學附屬華山醫院、東北大學、哈爾濱工業大學(深圳)、鵬城實驗室與同濟大學推出PromptCBLUE評測基準(https://github.com/michael-wzhu/PromptCBLUE),對CBLUE基準(https://tianchi.aliyun.com/dataset/95414)進行二次開發,將16種不同的醫療場景NLP任務全部轉化為基于提示的語言生成任務,形成首個中文醫療場景的LLM評測基準。PromptCBLUE將作為CCKS-2023的評測任務之一,已在阿里巴巴天池大賽平臺上線進行開放評測,歡迎各位師生報名參賽(刷榜)。
注意:本評測雖然立足于醫療垂直領域,但是其所考察的仍然是大模型面向落地的通用能力與關鍵技術。歡迎對大模型感興趣的所有研究人員參與本次評測。
參賽對象
大賽面向全社會開放,個人、高等院校、科研單位、企業、創客團隊等人員均可報名參賽。華東師范大學學生可以參賽和參與評獎;阿里集團員工可參賽但不參與獎金分配。
任務介紹
我們采用94個指令微調模板,對CBLUE基準中的各個任務進行改造。經過改造后,醫療文本NLP數據集都將轉化為如下格式:input字段是模型的輸入,target字段是模型的輸出,type是原任務類型(不作為模型輸入),answer_choices字段是選項,只有分類、術語標準化、推理類任務上該字段才會有意義。
為了將CBLUE中的各種不同任務適配為符合LLM的輸入輸出格式,我們對CBLUE各個數據集進行了相應的改造。詳見CBLUE任務改造。在本文中我們僅舉兩個例子:
1.CMeEE任務
本任務原本是標準的醫學文本NER任務,選手需要給出醫學實體mention在待抽取文本中的具體span位置。在PromptCBLUE中,本任務被改造為:根據指定的實體類型,生成實體mention。在評分時,我們只考慮實體mention及其類型標簽,不再考慮span位置信息。而且,特別注意的是,為了考察模型的指令理解與服從能力(instruction following),模型只能生成指令中指定的實體類型,而不能生成其他類型的實體。樣例如下:
上述樣例中的target即為模型輸出,而評測參與者需要根據自己的LLM輸出進行解析,得到抽取結果。LLM輸出的格式可以自己定義,也可以根據我們的樣例來進行。
2.CHIP-CDN任務
CHIP-CDN任務在CBLUE中的原型是:給定一診斷原詞,要求給出其對應的診斷標準詞,而診斷標準詞是從ICD-10這一個4w+的標準詞庫中選擇。由于我們不可能一次性將四萬個詞輸入到LLM中(即使是GPT-4服務,最多只能輸入32000個token),所以我們將CDN任務改造為:給定原詞,從候選的若干個ICD-10診斷標準詞中選擇出匹配的詞(可能有多個, 可能一個都沒有)。而在實際業務中,我們可以結合對本地知識庫的檢索+LLM判斷的方式,完整的預測診斷原詞對應的診斷標準詞。
賽程安排
報名方式及更多信息請點擊此處