技術屋にゃん兵衛のてくてくらぼ by データウィズ [DataWith]

気の向くままソフトについて書いてます。バリバリエンジニアではないのであくまでも初心者目線で。

ChatGPT/GeminiでSMILES/InChIを生成させるとどうなるか

ChatGPT/GeminiでSMILES/InChIを生成させるとどうなるか

 

ではやってみます。

ChatGPT + SMILES

ChatGPTに「インドメタシンのSMILESを生成して」と入力します。

応答は、、、

念のため、ChemSketchで確認します。

  1. ChatGPTの表記をコピーします。
  2. ChemSketchの「Tools」>「Generate」>「Structure from SMILES」を選びます。

  3. 画面に張り付けます。

  4. 化学構造式が出ました。結果はこれ。

  5. 違うな~。一応、PubChemにも飛んでみました。

ChatGPT + InChI

ChatGPTに「インドメタシンのInChI( International Chemical Identifier)を生成して」と入力します。

応答は、、、

残念ながら、インドメタシンの具体的なInChI(International Chemical Identifier)を生成することはできません。InChIは、特定の分子構造を表現するための標準的な識別子であり、生成するには分子の具体的な構造情報が必要です。

インドメタシンの分子構造に基づいてInChIを生成するには、専門の化学情報ツールやデータベースを使用する必要があります。分子構造の描画や識別子生成には、ケモインフォマティクスツールやオンラインの分子構造データベースが利用されます。

化学情報システムや分子構造データベースのウェブサイトを利用して、インドメタシンのInChIを生成するか、既存のデータベースから取得することができます。

だめか。。。

 

Geminiではどうか。

Gemini + SMILES

Geminiに「インドメタシンのSMILESを生成して」と入力します。

応答は、、、

インドメタシンのSMILESは以下の通りです。

C1=CC(=O)C(=C1)C(=O)O

SMILESは、化学物質の構造を表すための簡潔な表記法です。化学物質の原子と結合を、文字と数字の組み合わせで表します。

SMILESは、以下の用途に使用することができます。

·        化学物質の構造の表示

·        化学物質の検索

·        化学物質の性質の予測

·        化学物質の反応性の予測

参考資料

·        SMILES: https://en.wikipedia.org/wiki/SMILES

 

さて取り込んでみます。

やはり違う。

 

Gemini + InChI

Geminiに「インドメタシンのInChI( International Chemical Identifier)を生成して」と入力します。

応答は、、、

インドメタシンのInChIは、以下の2種類があります。

標準InChI: InChI=1S/C19H16ClNO2/c1-18(21)14-10-8-9-11-13(16(20)22)12-15-19-7-5-6-2-3-4/h5-6,8-9,11,13-15H,7H2,1-4H3/b14-10-

InChIKey: InChIKey=QKZVKVKVKXDGJJ-UHFFFAOYSA-N

生成方法

これらのInChIは、以下の方法で生成しました。

1.      PubChemのウェブサイト (https://pubchem.ncbi.nlm.nih.gov/) にアクセスし、インドメタシンの検索を行います。

2.      検索結果から、インドメタシンの化合物ページを開きます。

3.      化合物ページの "Identifiers" セクションにある "InChI" または "InChIKey" のリンクをクリックします。

InChIの利用

InChIは、化学物質を識別するためのユニークなコードです。化学物質の構造、性質、反応性などを理解するために使用することができます。

InChIは、以下の用途に使用することができます。

·        化学物質の検索

·        化学物質の構造の比較

·        化学物質の性質の予測

·        化学物質の反応性の予測

参考資料

·        PubChem: https://pubchem.ncbi.nlm.nih.gov/

·        InChI: https://en.wikipedia.org/wiki/InChI

 

標準InChIのほうを使って、ChemSketchで構造式を書かせてみます。

「Tools」>「Generate」>「Structure from InChiI」を選択します。

貼り付けてもうまくいかない。

ちゃんとNIHのサイトにアクセスして取ってきてますが。

 

「そもそも生成AIに投入した日本語がうまく伝わっていないのでは?」と思い、英語にしてみました。

Generate SMILES for Indomethacin

 

おお、答えが違う。

Indomethacin actually has two types of SMILES:

·        Canonical SMILES: COc1ccc2c(c1)c(CC(=O)O)c(n2C(=O)c1ccc(cc1)Cl)C

·        Isomeric SMILES: (same as Canonical SMILES for Indomethacin) COc1ccc2c(c1)c(CC(=O)O)c(n2C(=O)c1ccc(cc1)Cl)C

These can be found in resources like the IUPHAR/BPS Guide to Pharmacology (https://www.guidetopharmacology.org/).

 

Canonical SMILESでChemSketchに取り込んで、構造式を書かせると。

この構造をPubChemで検索しても正しいことが分かった。

 

【補足】

同じ英文をChatGPTに食わせると次の応答。

これをChemSketchで取り込むと。。。

 

残念。今回のテストはGeminiの勝ちかな。

 

生成AIの日本語の解釈は化学系の言葉ではうまくないことがわかります。

多分、絶対的な学習量が足りないんだろうな。