ChatGPT/GeminiでSMILES/InChIを生成させるとどうなるか
ではやってみます。
ChatGPT + SMILES
ChatGPTに「インドメタシンのSMILESを生成して」と入力します。
応答は、、、
念のため、ChemSketchで確認します。
- ChatGPTの表記をコピーします。
- ChemSketchの「Tools」>「Generate」>「Structure from SMILES」を選びます。
- 画面に張り付けます。
- 化学構造式が出ました。結果はこれ。
- 違うな~。一応、PubChemにも飛んでみました。
ChatGPT + InChI
ChatGPTに「インドメタシンのInChI( International Chemical Identifier)を生成して」と入力します。
応答は、、、
残念ながら、インドメタシンの具体的なInChI(International Chemical Identifier)を生成することはできません。InChIは、特定の分子構造を表現するための標準的な識別子であり、生成するには分子の具体的な構造情報が必要です。 インドメタシンの分子構造に基づいてInChIを生成するには、専門の化学情報ツールやデータベースを使用する必要があります。分子構造の描画や識別子生成には、ケモインフォマティクスツールやオンラインの分子構造データベースが利用されます。 化学情報システムや分子構造データベースのウェブサイトを利用して、インドメタシンのInChIを生成するか、既存のデータベースから取得することができます。 |
だめか。。。
Geminiではどうか。
Gemini + SMILES
Geminiに「インドメタシンのSMILESを生成して」と入力します。
応答は、、、
インドメタシンのSMILESは以下の通りです。 C1=CC(=O)C(=C1)C(=O)O SMILESは、化学物質の構造を表すための簡潔な表記法です。化学物質の原子と結合を、文字と数字の組み合わせで表します。 SMILESは、以下の用途に使用することができます。 · 化学物質の構造の表示 · 化学物質の検索 · 化学物質の性質の予測 · 化学物質の反応性の予測 参考資料 · SMILES: https://en.wikipedia.org/wiki/SMILES |
さて取り込んでみます。
やはり違う。
Gemini + InChI
Geminiに「インドメタシンのInChI( International Chemical Identifier)を生成して」と入力します。
応答は、、、
インドメタシンのInChIは、以下の2種類があります。 標準InChI: InChI=1S/C19H16ClNO2/c1-18(21)14-10-8-9-11-13(16(20)22)12-15-19-7-5-6-2-3-4/h5-6,8-9,11,13-15H,7H2,1-4H3/b14-10- InChIKey: InChIKey=QKZVKVKVKXDGJJ-UHFFFAOYSA-N 生成方法 これらのInChIは、以下の方法で生成しました。 1. PubChemのウェブサイト (https://pubchem.ncbi.nlm.nih.gov/) にアクセスし、インドメタシンの検索を行います。 2. 検索結果から、インドメタシンの化合物ページを開きます。 3. 化合物ページの "Identifiers" セクションにある "InChI" または "InChIKey" のリンクをクリックします。 InChIの利用 InChIは、化学物質を識別するためのユニークなコードです。化学物質の構造、性質、反応性などを理解するために使用することができます。 InChIは、以下の用途に使用することができます。 · 化学物質の検索 · 化学物質の構造の比較 · 化学物質の性質の予測 · 化学物質の反応性の予測 参考資料 · PubChem: https://pubchem.ncbi.nlm.nih.gov/ · InChI: https://en.wikipedia.org/wiki/InChI |
標準InChIのほうを使って、ChemSketchで構造式を書かせてみます。
「Tools」>「Generate」>「Structure from InChiI」を選択します。
貼り付けてもうまくいかない。
ちゃんとNIHのサイトにアクセスして取ってきてますが。
「そもそも生成AIに投入した日本語がうまく伝わっていないのでは?」と思い、英語にしてみました。
Generate SMILES for Indomethacin |
おお、答えが違う。
Indomethacin actually has two types of SMILES: · Canonical SMILES: COc1ccc2c(c1)c(CC(=O)O)c(n2C(=O)c1ccc(cc1)Cl)C · Isomeric SMILES: (same as Canonical SMILES for Indomethacin) COc1ccc2c(c1)c(CC(=O)O)c(n2C(=O)c1ccc(cc1)Cl)C These can be found in resources like the IUPHAR/BPS Guide to Pharmacology (https://www.guidetopharmacology.org/). |
Canonical SMILESでChemSketchに取り込んで、構造式を書かせると。
この構造をPubChemで検索しても正しいことが分かった。
【補足】
同じ英文をChatGPTに食わせると次の応答。
これをChemSketchで取り込むと。。。
残念。今回のテストはGeminiの勝ちかな。
生成AIの日本語の解釈は化学系の言葉ではうまくないことがわかります。
多分、絶対的な学習量が足りないんだろうな。