IUPAC-Name zu SMILES: So funktioniert die Umwandlung
Einen systematischen IUPAC-Namen in einen SMILES-String umzuwandeln, ist ein Parsing-Problem mit genau einer richtigen Antwort. Hier erfahren Sie, wie OPSIN das macht und wie Sie das Ergebnis überprüfen.
Was ist eine IUPAC-Name-zu-SMILES-Umwandlung?
Eine IUPAC-Name-zu-SMILES-Umwandlung übersetzt einen systematischen chemischen Namen (zum Beispiel 2-Acetoxybenzoesäure) in einen SMILES-String (CC(=O)Oc1ccccc1C(=O)O), eine kompakte Textcodierung der Atome und Bindungen des Moleküls. Da beide Formate genau eine Struktur beschreiben, hat die Umwandlung eine einzige richtige Antwort – es ist ein Parsing-Problem, kein Vorhersageproblem.
Was SMILES codiert
SMILES (Simplified Molecular Input Line Entry System) schreibt ein Molekül als Textzeile: Atome als Elementsymbole, Bindungen als Zeichen, Ringe als zusammengehörige Ziffern und Verzweigungen in Klammern. c1ccccc1 ist Benzol; Kleinbuchstaben kennzeichnen aromatische Atome. Diese Kompaktheit ist der Grund, warum Datenbanken, Machine-Learning-Modelle und Chemie-APIs alle SMILES sprechen.
Wie OPSIN einen Namen parst
- Tokenisieren: Den Namen in erkannte Morpheme zerlegen – Präfixe, Stammhydrid, Suffixe und Lokanten.
- Die Grammatik parsen: Die IUPAC-Nomenklaturregeln als formale Grammatik anwenden, um einen Parsebaum aus Substituenten und der Hauptkette aufzubauen.
- Die Struktur aufbauen: Den Parsebaum in einen Atom-und-Bindungs-Graphen umwandeln und die Substituenten an ihren nummerierten Positionen platzieren.
- SMILES ausgeben: Den Graphen in einen kanonischen SMILES- (oder InChI-)String serialisieren.
OPSIN (Open Parser for Systematic IUPAC Nomenclature) führt dies deterministisch aus – derselbe Name ergibt immer dieselbe Struktur.
So überprüfen Sie die Korrektheit der Umwandlung
Die zuverlässige Prüfung ist ein Round-Trip: Nehmen Sie die SMILES-Ausgabe, erzeugen Sie daraus einen Namen oder einen kanonischen Identifikator und bestätigen Sie, dass er mit der Eingabe übereinstimmt. Genau das macht das Critic Gate von Cheemly – es parst den SMILES mit RDKit und führt einen OPSIN-Round-Trip von Name zu Struktur durch, sodass ein falsch übersetzter Name erkannt wird, bevor die Antwort Sie erreicht. Generische LLMs überspringen diesen Schritt – deshalb liefern sie selbstbewusst SMILES, die nicht zur genannten Verbindung passen.
Häufige Fallstricke
- Mehrdeutige oder nicht standardisierte Namen: Triviale oder veraltete Namen lassen sich möglicherweise nicht parsen; verwenden Sie den aktuellen IUPAC-Namen.
- Stereochemie:
E/Z- undR/S-Deskriptoren müssen die Umwandlung überstehen – überprüfen Sie, dass die Chiralität in der Ausgabe erhalten bleibt. - Salze und Gemische: Mehrkomponentige Namen werden auf punktgetrennte SMILES (
[Na+].[Cl-]) abgebildet; stellen Sie sicher, dass jede Komponente vorhanden ist.
Häufig gestellte Fragen
- Ist die Umwandlung eines IUPAC-Namens in SMILES deterministisch?
- Ja. Ein korrekter systematischer IUPAC-Name beschreibt genau eine Struktur, daher liefert ein ordentlicher Parser wie OPSIN immer denselben SMILES. Es ist eine Parsing-Aufgabe mit einer einzigen richtigen Antwort – anders als die probabilistische Vermutung eines LLM.
- Welches Werkzeug wandelt IUPAC-Namen in SMILES um?
- OPSIN, ein quelloffener Parser, ist das Standardwerkzeug zur Umwandlung systematischer IUPAC-Namen in SMILES oder InChI. Cheemly kapselt OPSIN und überprüft die Ausgabe mit RDKit, bevor sie zurückgegeben wird.
- Warum geben KI-Chatbots SMILES falsch aus?
- Universell einsetzbare LLMs erzeugen SMILES probabilistisch und überspringen die Verifikation, sodass sie einen plausibel aussehenden String zurückgeben können, der das falsche Molekül codiert. Deterministisches Parsing plus eine Round-Trip-Prüfung beseitigt diese Fehlerklasse.