博士号取得

当研究室から豊田工業大学シカゴ校(TTIC: Toyota Technological Institute at Chicago)の博士課程に進学した米田拓真君が現地時間の8月6日に公聴会を終えて博士号を取得できることが決まりました。当研究室に所属していた学生としては5人目の博士号取得者であり、TTICに当研究室から進学した学生としては2人目です。

TTICはシカゴ大学の計算機科学科と一体で運営されており、多くのシカゴ大学の学生がTTICの講義を受講しています。そのため学生のレベルが非常に高く、特に機械学習と計算複雑性に関連する分野では世界トップレベルです。

言語処理学会年次大会2024 若手奨励賞

当研究室の博士学生の牧野晃平君が、言語処理学会年次大会の若手奨励賞を受賞しました。以前、プログラム委員長を務めた関係で選考に関わった経験がありますが、数多くの秀逸な論文の中から、若手奨励賞に選ばれるのは至難の業です。2016年に当時M2の山根君が上位語・下位語とそのクラスタの同時学習で若手奨励賞に選ばれて以来の受賞になります。選考に関わった委員の皆様の苦労は良くわりますので、感謝の言葉しかありません。

P10-10訓練可能なk近傍Retrieverで関係抽出事例を導入したニューラルプロンプティング
牧野晃平 (豊田工大)
本研究は,近傍事例を用いたLLMによる関係抽出において,近傍事例選択Retrieverと関係抽出LLMの学習を同時に行うend-to-end学習を実現しました.既存研究のRetrieverは微分不可能な操作であったためRetrieverとLLMは個別に学習する必要がありましたが,本研究ではRetrieverの事例選択を埋め込み表現に変換し,更に,LLMの入力をソフトプロンプトで行うことで,end-to-end学習を可能としています.これにより関係抽出に適したRetrieverの学習が実現できると期待され,アイデアの新規性も認められるため,本研究は若手奨励賞に値すると判断しました.
https://www.anlp.jp/nlp2024/award.html

博士号取得

知能数理研究室の博士課程の辻村君が2月に公聴会を行い博士号を取得しました。博士課程在学中に3本のジャーナル論文を発表し、そのうち2本は Journal of Biomedical Informatics (IF=8) に筆頭著者として論文を通しています。n2c2のシェアードタスクでも2019年と2022年に世界一の性能を達成するなど堂々たる成果で博士課程を修了しました。

Computer Speech & Language

Computer Speech & Languageに論文がアクセプトされました。

Savong Bou, Makoto Miwa, Yutaka Sasaki, Two evaluations on Ontology-Style Relation annotations, Computer Speech & Language, Elsevier, 2023. (accepted) (IF=4.3) (doi:https://doi.org/10.1016/j.csl.2023.101569)

NB: Currently, a pre-proof version is available online. There will be some minor revisions applied to the pre-proof version.

2年前に投稿してやっと採録されました。査読でもめたという感じではなく、単純に1ラウンドの査読が1年という時間スパンで動いているためです。

Accepted for JBI

Another full paper has been accepted for publication in the Journal of Biomedical Informatics.

Tomoki Tsujimura, Makoto Miwa, Yutaka Sasaki, Large-scale neural biomedical entity linking with layer overwriting, Journal of Biomedical Informatics, Elsevier, 2023. (to appear) (IF=8)

This paper reports a pure neural entity linking model that can link each entity to one of millions of biomedical concept classes. As the number of concepts which are included in a training set is much smaller than the real size of biomedical databases, we augment the training data with terms and synonyms of database entries and conduct two step training. The first step is ordinary training with all the data (i.e. original training data+ augmented data) and then the second step conducts layer overwriting at the final output layer. This trick is not easy to explain in short but it is clearly effective to improve test scores.