SMILES (
ang.
Simplified Molecular Input Line Entry Specification) – sposób jednoznacznego zapisu struktury
cząsteczek
związków chemicznych
z wykorzystaniem ciągu znaków
ASCII
.
SMILES jest na tyle jednoznaczny, że można na jego bazie tworzyć oprogramowanie automatycznie przekształcające go w pełne, płaskie wzory strukturalne związków chemicznych i jednocześnie na tyle prosty, że mogą się nim posługiwać bezpośrednio ludzie. SMILES służy do prostej wymiany i zapisu informacji o strukturze związków chemicznych w wielu różnych sytuacjach – od programów rysujących pełne
wzory strukturalne
po tworzenie baz danych. SMILES nie ma jednak możliwości zapisu pełnej, trówymiarowej struktury związków oraz nie można w nim zapisywać struktur z nietypowymi
wiązaniami chemicznymi
spotykanymi w chemii związków
koordynacyjnych
.
Oryginalna specyfikacja SMILES została stworzona przez Arthura Weiningera i Davida Weiningera pod koniec lat 80.
XX wieku
. Została ona później zmodyfikowania i rozszerzona głównie przez firmę Daylight Chemical Information Systems Inc., która objęła ją swoimi prawami autorskimi.
Inne, konkurencyjne liniowe techniki zapisu struktury związków chemicznych to Wiswesser Line Notation (WLN), ROSDAL i SLN (Tripos Inc). Na początku
XXI wieku
IUPAC
wprowadziła swój własny standard liniowego zapisu struktur chemicznych o nazwie InChI, który jest bardziej uniwersalny od SMILES, ale trudniejszy do stosowania bezpośrednio przez ludzi i mniej intuicyjny. Istnieje także, zgodny ze standardem
XML
język znaczników do zapisu struktury związków chemicznych i przebiegu reakcji o nazwie
Chemical Markup Language
(CML), który w odróżnieniu od SMILES jest dostępny na
wolnej licencji
.
SMILES jest aktualnie (2006) najbardziej popularną specyfikacją liniowego zapisu struktury związków chemicznych, który jest zaadaptowany do większości liczących się na rynku programów komputerowych i baz danych[].
Kanoniczny SMILES i Izomeryczny SMILES
Termin kanoniczny SMILES odnosi się do wersji SMILES, którego reguły gwarantują, że każdemu związkowi chemicznemu można przypisać jednoznaczny i unikalny zapis. Kanoniczny SMILES jest stosowany do indeksowania związków chemicznych w bazach danych.
Termin Izomeryczny SMILES odnosi się do wersji SMILES, która umożliwia zapis
izotopów
oraz
izomerów optycznych
. Izomeryczny SMILES pozwala zatem na rozróżnienie w zapisie dwóch
enancjomerów
oraz związków znakowanych izotopowo.
Obie wersje SMILES są funkcjonalnie zbliżone do zwykłych
wzorów strukturalnych
– nie można w nim jednak zapisywać
konformacji
cząsteczek, czy ich rzeczywistej struktury przestrzennej uwzględniającej długości i kąty wiązań. Nie jest też do końca rozwiązany problem zapisu
wiązań wodorowych
i
wiązań koordynacyjnych
.
SMILES został zaprojektowany głównie do przedstawiania
związków organicznych
, ale umożliwia też przedstawianie większości
związków nieorganicznych
. Nie można jednak za jego pomocą przedstawić wielu
związków metaloorganicznych
,
kompleksowych
i struktur
supramolekularnych
.
SMARTS
SMARTS to SMILES poszerzony o definicję
wieloznaczników
kodujących określone grupy atomów i wiązań chemicznych. SMARTS jest użytecznym narzędziem do wyszukiwania związków chemicznych po ich uogólnionych strukturach w bazach danych. Większość programów używających SMARTS nie stosuje prostego porównywania samych zapisów SMILES ze wzorcem wyszukiwania, lecz stosuje złożone przekształcenia zapisów w matematyczne zapisy grafów i następnie wyszukuje struktury pasujące do wzorca z wykorzystaniem narzędzi porównujących bezpośrednio grafy.
Struktura zapisu
Teoria
Z matematycznego punktu widzenia każdy wzór strukturalny związku chemicznego można uznać za
graf nieskierowany
, którego wierzchołki reprezentują
atomy
, a połączenia między nimi reprezentują
wiązania chemiczne
. Specyfikacja SMILES jest funkcją jednoznacznie przekształcającą graf struktury chemicznej w ciąg znaków ASCII.
Pierwszy etap tego przekształcenia polega na usunięciu z grafu wierzchołków odpowiadających atomom
wodoru
, gdyż prawie zawsze można je domyślnie uzupełnić. W drugim etapie układy cykliczne występujące w strukturze są przekształcane w
graf acykliczny
poprzez ścisłe reguły ich symbolicznego "rozrywania" i przypisywanie atomom, które były połączone przed rozerwaniem wspólnych oznaczeń liczbowych. W trzecim etapie rozpoznawane są węzły
wiązań wielokrotnych
i rozgałęzień struktury, które są zapisywane później poprzez stosowanie nawiasów i znaków symbolizujących wielokrotność wiązań.
Przykłady SMILES
Atomy w zapisie SMILES są reprezentowane przez standardowe symbole
pierwiastków
stosowane w
układzie okresowym
i wzorach sumarycznych. Symbole te są zapisywane w nawiasach kwadratowych. Np. [Au] to atom
złota
. Dla uproszczenia zapisu tzw.
pierwiastki organiczne
(B, C, N, O, P, S, F, Cl, Br, I) mogą być zapisywane bez kwadratowych nawiasów. Oprócz tego specyfikacja SMILES umożliwia uproszczony zapis najbardziej popularnych
jonów
i
grup funkcyjnych
. Np.
anion
hydroksylowy
można zapisać jako [OH-]. Dla pierwiastków, które wolno zapisywać bez nawiasów kwadratowych pomija się atomy wodoru przyjmując, że należy je uzupełnić tak aby pierwiastek miał typową dla siebie w związkach organicznych
wartościowość
(jeżeli użyje się nawias, atomy wodoru nie są dodawane). Gdy między symbolami pierwiastków nie ma żadnych dodatkowych znaków oznacza to, że są one połączone pojedynczymi
wiązaniami chemicznymi
.
Np.:
- C – oznacza domyślnie
metan
(CH4)
- O – oznacza domyślnie
wodę
(H2O)
- CCO – oznacza domyślnie
etanol
(CH3CH2OH)
- CO – oznacza domyślnie
metanol
(CH3OH)
Wiązania podwójne
oznacza się przy pomocy znaku "=", zaś potrójne przy pomocy znaku "#". SMILES nie pozwala na zapisywanie wiązań czterokrotnych, które jednak są rzadko spotykane.
Np.:
- O=C=O – oznacza
dwutlenek węgla
(CO2)
- C#C – oznacza
acetylen
(HC≡CH)
- C=O – oznacza
aldehyd mrówkowy
(H2CO)
- [C]=O – oznacza
tlenek węgla
(CO)
Rozgałęzienia struktury oznacza się przy pomocy nawiasów.
Np.:
- CC(=O)O – oznacza
kwas octowy
(CH3COOH)
- CC(C)C – oznacza 2-metylopropan (CH3CH(CH3)CH3)
Układy cykliczne przedstawia się za pomocą symbolicznego "rozerwania" jednego, wybranego wiązania tworzącego cykl i przypisania połączonym tym wiązaniem atomom tej samej liczby, przy czym liczbę numerującą atomy połączone tym samym wiązaniem, które zostało myślowo "rozerwane" pisze się zawsze po, a nie przed jego symbolem.
Np.:
- C1CC1 – oznacza
cyklopropan
Pierścienie
aromatyczne
w związkach organicznych dla uproszczenia, aby unikać symboli wiązań wielokrotnych pisze się małymi literami. Jest to dozwolone dla
węgla
(C),
tlenu
(O),
siarki
(S) i
azotu
(N).
Np.:
- c1ccccc1 – symbolizuje
benzen
Przykłady izomerycznego SMILES
Konfiguracja
izomerów E-Z
(cis-trans) jest zapisywana z użyciem znaków "/" i "\". Zapis "A/X=X/B" oznacza izomer trans, a "A/X=X\B" izomer cis.
Np.:
- C/C=C/C – oznacza (E)-but-2-en (trans-but-2-en)
- C/C=C\C – oznacza (Z)-but-2-en (cis-but-2-en)
Konfiguracja absolutna
dla
izomerów optycznych
jest zapisywana za pomocą znaku "@" i "@@". "@" – znaczy skierowanie występującego za tym znakiem atomu lub podstawnika w stronę do tyłu płaszczyzny głównej wzoru, zaś "@@" – oznacza skierowanie występującego za tym znakiem atomu lub podstawnika przed płaszczyznę główną wzoru, przy czym oznaczenie to powinno odnosić się do podstawnika lub atomu o najmniejszej wadze zgodnie z regułami ważności
Cahna-Ingolda-Preloga
, a zatem bardzo często odnosi się to do atomu wodoru, który jest w tej sytuacji wyjątkowo jednak nie pomijany.
Np.:
- N[C@]([H])(C)C(=O)O – oznacza L-
alaninę
- N[C@@]([H])(C)C(=O)O – oznacza D-alaninę
Bibliografia
- Anderson, E., G.D. Veith, and D. Weininger. 1987. SMILES: A line notation and computerized interpreter for chemical structures. Report No. EPA/600/M-87/021. U.S. EPA, Environmental Research Laboratory-Duluth, Duluth, MN 55804
- Weininger, D. (1988), 'SMILES, a chemical language and information system. 1. Introduction to methodology and encoding rules', J. Chem. Inf. Comput. Sci. 28, 31 – 36.
- Helson, HE (1999). Structure Diagram Generation In Rev. Comput. Chem. edited by Lipkowitz, K. B. and Boyd, D. B. Wiley-VCH, New York, pages 313-398.
Linki zewnętrzne