Paper accepted for publication in Oxford Bioinformatics

Our paper on extracting drug-drug interaction (DDI) from the literature has been accepted for publication in Bioinformatics. This paper focuses on using heterogeneous drug-related domain information for DDI relation extraction. Especially, we have created a large-scale knowledge graph covering drug-related information and learned embeddings of the nodes and links in order to obtain embedding vectors of various pieces of domain information in a single vector space, which is very important. Then, we use the pretrained embedding representations as external knowledge for neural DDI extraction from the literature.

This is a typical example of symbolic-neural learning (or neuro-symbolic learning), which we have been promoting in a series of International Workshops on Symbolic-Neural Learning since 2017.

Masaki Asada , Makoto Miwa and Yutaka Sasaki, Integrating heterogeneous knowledge graphs into drug-drug interaction extraction from the literature, Bioinformatics, Oxford University Press, 2022. (accepted)

Advanced Engineering Informatics

Our paper on superconductivity information extraction has been published online. This one is an open access paper.

Kyosuke Yamaguchi, Ryoji Asahi, Yutaka Sasaki, Superconductivity information extraction from the literature: a new corpus and its evaluations, Advanced Engineering Informatics, Volume 54, ISSN 1474-0346, Elsevier, October 2022. (https://doi.org/10.1016/j.aei.2022.101768)

RAID

研究室のメインの共有ファイルサーバーのRAIDが2週間前ぐらいに壊れました。こまめにgithubにcommitしていた学生は助かりましたが、そうでない学生は自分の作ったプログラムの再現に苦労しているようです。ただ壊れたといっても、HPのRAIDはRAID5のディスクのうち2台がSMARTの警告を出すと、論理ドライブ全体が利用不可になる設計になっていて、RAIDをリビルドするまで停止しています。

今日やっとバックアップ用の60TBの外付けディスクとRAIDの差し替え用HDD 2台が納品されましたので、これから修復に入ります。

みなさんもくれぐれもバックアップをとるように心がけてください。(あとRAIDのディスクが警告を出したら(=HPのサーバーの場合はHDDのオレンジのランプがチカチカしたら)すぐに交換しましょう。少しさぼっていると2台目が警告を出してRAIDが使えなくなりますので注意!←RAID5の場合)

※正確には警告が出ているだけでディスクが壊れているのでなければ、Intelligent ProvisioningからRAIDの論理ドライブを再利用するように設定を変更できます。ただ、もし運悪く2台のHDDが同時に壊れるとRAID全体のファイルが読めなくなるので、RAID全体のバックアップをとるまでは怖くて利用再開というわけにはいきません。過去の卒業生のプログラムやデータもそこに保管されていますので。

n2c2 Workshop 2022

2022年の n2c2 shared taskに参加した結果が良かったようで、n2c2 Workshop 2022 の発表に加えてもらえました。博士課程の辻村君が発表に行きます(予稿集はなし)。順位はワークショップ当日でなければわかりません。オーガナイザーからのメールには “Congratulations on your great performance in the n2c2 2022 track 1” と書かれているので結構良かったのかもしれません。ただの枕詞の可能性もあります。

Koshi Yamada, Ryuki Ida, Tomoki Tsujimura, Kohei Makino, Makoto Miwa, and Yutaka Sasaki,  Span-based and Question Answering-based Medication Event Extraction, 2022 n2c2 Shared Task and Workshop. (to present)

(11/7: 続報)

11/4にワシントンDCで開催されたワークショップでオーガナイザから順位の発表があり。運よく当研究室のシステムが僅差ながらTrack 1 の総合成績で1位だったという報告が届きました。このワークショップはAMIA(米国医療情報学会)併設のワークショップであり、研究成果はジャーナル論文で公表するという建付けですので、予稿集等の公開はありません(現時点で既発表研究にしないため)。

Track 1 は Contextualized Medication Event Extraction (CMED) を対象としたタスクで、今年2月に訓練データが配布され、5月のGWに3回に分けてテストデータが配布されました。つまり、だいたい3ヶ月でシステムを組んで、参加者が公平な条件下で一斉にスコアを競うというものです。プログラミングコンテスト的な側面もありますが、与えられた問題に効果的だと思われる最新技術を参加者が様々な方向から一斉に試して、その結果を比較するという比較研究的なメリットが大きい大会です。

Track 1は、英語の電子カルテ中に書かれている、投薬状況の変化を自動抽出する問題を対象にしています。電子カルテは匿名化されていますがリアルデータです。医療用語(主に薬物名)を見つけ、次にその薬に関する投薬に変化があったかどうかを分類し、そして変化あった場合はどのような変化であったかを抽出するという3段階のタスクになっています。n2c2 2022全体では、19ヵ国から32チームが参加しています。Task 1には28チームが参加していて、オックスフォード大やミシガン大、ロレーヌ大、ソルボンヌ大などの名前が見受けられました。当研究室は、2019年にもn2c2 shared taskに参加しておりまして、そのときもTrack 2で33チーム中1位でしたのでタスクとの相性がいいのかもしません。

Accepted for publication on Advance Engineering Informatics

The following our paper has been accepted for publication on Advance Engineering Informatics.

Kyosuke Yamaguchi, Ryoji Asahi, Yutaka Sasaki, Superconductivity information extraction from the literature: a new corpus and its evaluations, Advanced Engineering Informatics, Elsevier, 2022. (accepted)

This paper describes our up-to-date materials informatics studies on information extraction from superconductivity-related abstracts. We believe that this study opens the door to accelerate new material search by making the most of thousands of published materials science reports.

Actually, this paper passed the editor and went to the first round review of Nature Scientific Data. However, the paper did not fit the data availability condition for the journal. SciData requires our developed dataset must be completely free for anyone but our dataset is licensed under CC-NC due to the restriction of the copyrights of superconductivity-related abstracts. At the end of the day, we are happy as the Clarivate IF of the AEI journal is 7.86.

機械学習講習会開催

9月13日(火)14(水)に大学のイベントとして企業向けの機械学習講習会を開催しました。対象企業は、日ごろから豊田工大にご支援いただいてる会社様になります。

13日は初級編でPython, NumPy, scikit-learnの使い方を午後半日かけてひと通り解説しました。Jupyter Notebookを使ったインタラクティブな講習になっています。14日は中級編で、Pytorchによる深層学習プログラムの書き方の基本を午後半日で説明しました。時間が限られていますので、MNISTの手書き文字認識を対象に、単純な3層NNやCNNで学習し評価するサンプルプログラムを元に解説しました。自動微分についても説明しています。

自動微分を理解していなくてもPytorchのプログラムは書けて、実際動いてしまいますが、地に足がついていない状態になります。よく深層学習の開発者が「微分(値)を貯める」とか「勾配を貯める」という表現を使いますが、自動微分が分かってないと、こう言われてもピンとこないでしょう。ですのでloss.backward()と書いたときに何が起こっているかは知っておいた方が良いと考えました。評価データに対する順方向の予測計算時に、model.eval()やwith torch.no_grad()で勾配の計算を止める意味も分かると思いますので。

上級編ではTransformer/BERT、Encoder-Decoderモデルによる翻訳や対話生成、敵対的学習、Autoencoderなどを説明する予定。

TTIC近況

豊田工大シカゴ校に2日ほど滞在しました。構内がコロナ禍の期間にリノベーションされていましたので紹介します。

TTIC (Toyota Technological Institute at Chicago)は日本語では豊田工業大学シカゴ校という名称で、シカゴ大学のキャンパス内に存在する。シカゴ大学は、シカゴのダウンタウンから南に車で30分ぐらい走ったところにあり、その一角を豊田工業大学シカゴ校が使っている。TTICは独立したアメリカの大学院大学で日本人もほとんどいない。機械学習理論や計算量の研究で世界的な研究センターなので専門家の中ではよく知られている。たとえば、TTICの Turk 学長は顔認識手法のEigenface(固有顔)の発明者として有名だ。

TTICの窓から遠くにシカゴのダウンタウンが見える(縦横の線は網戸)。手前はシカゴ大学のキャンパスで、街(Hyde Park)の一般住宅と一体化している。

講義室

講義室の入り口付近
講義室の中

コロナ禍中のリノベーション後、オープンかつ余裕のあるスペースになっている。

以前、縦長の会議室兼講義室があった場所は、オープンなミーティングエリアになっている。

昼食を食べることができるエリア。ここもオープンエリアになっている。奥にはキッチンがあり、只でコーヒーやお茶が飲める(教職員だけでなく学生も)。この日はランチ時間にインド料理を食べる会が開催された。

2日ほど使わせてもらった教員室。ここはビジター用だが、他の教員室も同じぐらいの広さ。

会議室。この会議室には、先日逝去された古井前TTIC学長のお名前が付けられている。

今、アメリカは街中ではほとんどノーマスクで屋内でもマスクはしていない。大学での室内の会議もマスクなしが普通。稀に感染が気になる人(アジア系が多い)は外でもマスクをしている。それでもさすがにTTICは大学なので消毒のアルコールは学内の各所に押されている。

コロナ禍を経て3年ぶりのTTIC訪問だった。57th通りのNoodlesが営業していたことでほっとした。一方、Boothの学食はメニューが縮小されていて残念。よく食べていたピザがなくなっていた。新学期が始まると少しはメニューが増えるのかもしれない。注文も機械で注文と支払いをしてから、品物を受け取るような形になっていた。以前は、そこにあるピザなどを受け取って、レジで払うような日本でもよくあるカフェテリア形式だったのだが。

余談になるが、8月は新学期に向けた学生の移動や夏の旅行でシカゴオヘア空港での入国審査に1時間ぐらい並ばないといけない。かなり密な状態で並ぶのでこの時点で感染してしまわないかかなり心配になる。コロナ前はオヘアでの入国審査は機械で出来たのに、審査官による審査に変わっていて、しかもかなり慎重に入国審査をしているのが長い待ち時間の要因のような気がする。

現在帰国には日本行の飛行機の72時間以内のPCR検査結果が必要で、シカゴ大学やTTICの学生はシカゴ大学の検査センターで検査証明を取れるが、ビジターは一般の検査センターに行く必要がある。私は、18th通りあたりにあるLoop Medical Center – South Loop で検査を受けた。オンラインでの予約が必要。今はそんなに混んでいないそうで、午前中に検査をすると午後の4時ぐらいには結果がオンラインで通知される。一点だけ、検査結果を見るためのサイトのセキュリティが堅固で、Text(SMS)か直接電話を受け取れるアメリカ国内の電話番号をアカウント作成時に登録しておくことが必要。PCR検査結果に問題なかったので予定通り帰国できた。羽田空港での検疫もほとんど時間をとられなかった。MySOSアプリを事前にインストールして、帰国の1日前ぐらいには青色の表示に変えておくことがスムーズな検疫通過の条件だ。また、航空会社が日本出国時にはワクチンの接種証明、日本への帰国時にはPCR検査結果の航空会社のサイトへの事前アップロードを要求するのもコロナで変わった点。このような面倒な状況でも機内は満席になっていた。航空券代も通常の倍ぐらいの価格なのに。

SNL2022

7/8, 9に第6回の国際ワークショップSNL2022を豊田工大で開催します。参加登録はまだ間に合います。

SNL(Symbolic-Neural Learning)は記号的な構造情報とニューラルネットワークの融合を対象に2017年からスタートした国際ワークショップです。前回2021年はオンラインでの開催になりましたが、今年は対面のみでの開催です(一部の少数の講演者は事情によりオンライン)。コロナ禍の影響で懇親会ができないなどまだ完全にコロナ前に戻っているわけではありませんが、久々の対面で活発な議論が行われると思います。

今回の基調講演者も、Microsoftの池内先生、ペンシルバニア大学のDan Roth先生、CMU/メルボルン大学のEd Hovy先生、Facebook AI Research/UCLのRiedel先生と豪華なメンバーです。その他の口頭発表の講演者11名も目下活躍中の方々ばかりです。

参加登録は下記から。

lhttp://www.tti-coin.jp/SNL2022/registration.html

Regular (Early 6/19まで): JPY 9,000

Regular (Late 7/2まで): JPY 10,000

Regular (On site): JPY 12,000

Student (Early 6/19まで): JPY 4,000

Student (Late 7/2まで); JPY 5,000

Student (On site): JPY 6,000

と国際会議としては画期的な安さです(この講演者であれば10倍の値段でもおかしくありません)。この分野の若手の育成のために参加しやすい参加費にしていますので、学生さんの参加は大歓迎です。