SMILES

Het onderwerp van SMILES is er een dat in de loop van de tijd grote belangstelling heeft gewekt. Met verschillende kanten en benaderingen heeft SMILES de aandacht getrokken van zowel experts als fans. In dit artikel zullen we verschillende aspecten onderzoeken die verband houden met SMILES, van de oorsprong ervan tot de implicaties ervan in de huidige samenleving. Door middel van een gedetailleerde en uitgebreide analyse zullen we proberen SMILES en de relevantie ervan in de huidige context beter te begrijpen. Vanaf het begin tot aan de impact ervan vandaag de dag is SMILES het onderwerp geweest van debat en reflectie, en via dit artikel zullen we proberen licht te werpen op de belangrijkste punten ervan.

SMILES of voluit simplified molecular-input line-entry specification is een specificatie om de structuur van chemische moleculen op eenduidige wijze te beschrijven als een tekenreeks. SMILES kunnen door de meeste chemische tekenprogramma's ingelezen worden en worden omgezet in een tweedimensionale tekening of een driedimensionaal model van het molecuul.

De specificatie was al ontwikkeld door David Weininger eind jaren 80 van de 20e eeuw, maar is door anderen aangepast en uitgebreid. Er bestaan nog andere lineaire notaties voor moleculen zoals Wiswesser Line Notation (WLN), ROSDAL en SLN (Tripos Inc).

Definitie

Genereren van een SMILES-notatie: voorbeeld met vertakkingen en cyclische structuren; A: structuur, B: opzoeken cyclische eenheden, C: opzoeken langste koolstofketen met vertakkingen en D: SMILES-notatie

Het molecuul wordt weergegeven in een boomstructuur en de SMILES voor dat molecuul wordt verkregen door de labels van de knopen in de boom op te sommen zoals bij depth-first search.

Een label in de boom is de standaard representatie van het chemische element in rechte haken. Het label van goud is dus ''. De rechte haken mogen worden weggelaten voor de elementen B, C, N, O, F, P, S, Cl, Br, en I. Alle andere elementen moeten tussen rechte haken genoteerd worden. Als rechte haken worden weggelaten wordt het juiste aantal impliciete waterstofatomen verondersteld. Zo kan water (H2O) in SMILES eenvoudigweg als 'O' worden geschreven. Evenzo kan methaan (CH4) aangeduid worden met '()()()' en het kortere 'C'.

Vertakkingen in de boom worden aangegeven met haakjes: '(' en ')'. Een geladen atoom wordt weergegeven door een aantal keren '-' of '+' achter het label te plaatsen of door een keer '-' of '+' en dan een numerieke waarde, het geheel tussen rechte haken. Zo kan het hydroxide-anion gerepresenteerd worden door '' en door ''.

Een molecuul kan een of meer ringstructuren bevatten. Om deze in een boom te kunnen opslaan, worden de ringen verbroken. Op de plaatsen waar de ringen verbroken worden, worden de labels in de boom uitgebreid met een getal. Gelijke getallen willen zeggen dat er in het molecuul daar een verbinding is. Cyclohexaan wordt gerepresenteerd door 'C1CCCCC1'.

Tussen twee atomen zijn verschillende typen chemische bindingen mogelijk. Het type van de binding wordt opgeslagen in de verbindingen in de boom. Een enkelvoudige binding wordt niet in de SMILES opgenomen, een dubbele binding wordt aangeduid met een '=' en een drievoudige binding met een '#'. Koolstofdioxide wordt gerepresenteerd door 'O=C=O' en waterstofcyanide door 'C#N'. Aromatische bindingen worden impliciet verondersteld tussen aromatische atomen, maar kunnen expliciet worden weergegeven door een dubbele punt, ':'. Een enkele binding tussen twee aromatische atomen kan ook expliciet worden aangegeven (zoals in bifenyl: c1ccccc1-c2ccccc2, hoewel dit niet de meest gebruikelijke notatie is voor bifenyl).

Uitbreidingen

SMARTS is een aanpassing van SMILES die naast de SMILES elementen het gebruik van jokeratomen en -bindingen toe staat. Dit wordt gebruikt om chemische zoekstructuren te specificeren voor het zoeken in chemische databases.

Een belangrijke verbetering aan SMILES is de uitbreiding om stereochemische informatie te kunnen weergeven.