단순화된 분자입력 라인입력 시스템
파일 확장자 | .smi |
---|---|
인터넷 미디어 타입 |
chemical/x-daylight-smiles |
포맷 종류 | 화학 파일 포맷 |
단순화된 분자입력 라인입력 시스템(單純化된分子入力Line入力System, 영어: simplified molecular-input line-entry system, SMILES)는 짧은 ASCII 문자열을 사용하여 화학 종의 구조를 설명하기 위한 선 표기법(line notation)의 형태이다. SMILES는 분자 편집기에서 2차원 도면이나 3차원 모델로 다시 변환하기 위해 가져올 수 있다.
SMILES는 1980년대 후반에 개발되었고 지금까지 발전하여 사용되고 있다.
표기법
[편집]SMILES 표기법을 구성하는 분자구조의 요소는 크게 원자(atom), 결합(bond), 고리(ring), 방향족(aromaticity), 가지(branch), 입체화학(stereochemistry)로 나눌 수 있다.[1]
원자
[편집]원자는 금의 [Au]는 각괄호를 사용하여 원소를 나타낸다.
괄호는 다음과 같은 경우에 생략될 수 있다:
- B, C, N, O, P, S, F, Cl, Br, I의 "유기적인 부분집합"에 속한 경우
- 형식전하가 없는 경우
- 어떠한 원자에 수소가 결합된 수가 원자가 전자의 수와 같을 경우(일반적으로 하나의 원자가 전자를 갖지만, 질소,인,황 등은 원가가 전자가 두 가지로 나타난다.)
- 일반적인 동위 원소인 경우
- 키랄(카이랄) 중심이 아닌 경우
다른 요소는 모두 괄호로 묶어야 하며 전하와 수소를 나타내야 한다.
예를 들어, 물에 대한 SMILES은 O
또는 [OH2]
로 쓸 수 있다. 이때 수소는 원자로 각괄호를 쓸 수 있기 때문에, [H]O[H]
로도 쓸 수 있다.
괄호를 사용할 때는 괄호 안의 원자가 하나 이상의 수소와 결합하면 H
를 적는데, 1보다 크면 수소 원자의 수를 적고, 양전하의 경우에는 +
를, 음전하의 경우에는 -
를 사용하여 표시한다. 예를 들어 암모늄(NH+
4)의 경우 [NH4+]
로 나타낼 수 있다.
전하가 있는 경우에는 일반적으로 숫자로 쓰이지만, 예외적으로 이온의 전하량에서는 부호를 반복하는 것도 가능하다.
따라서, 티타늄(IV) Ti4+에 대해서는 [Ti+4] 또는 [Ti+++]로 쓸 수 있고, 수산화 이온(OH-)은 [OH-]
, 하이드로늄 이온(H3O+)으로 표시되며 코발트(III) 양이온(Co3+)은 [Co+3]
또는 [Co+++]
이다.
결합
[편집]결합은 기호 . - = # $ : / \
중 하나를 사용하여 표현한다.
지방족 원소 사이의 결합은 일반적으로 단일로 가정되며, SMILES 문자열의 인접한 원소들 사이에서 이를 암시할 수 있다.
단일 결합은 -
로 표기할 수 있지만, 일반적으로 생략한다. 예를 들어, 에탄올에 대한 SMILES 문자열은 C-C-O
, CC-O
또는 C-CO
로 기록될 수 있지만, 일반적으로 CCO
로 표기된다.
이중 결합, 삼중 결합, 4중 결합은 각각 기호 =
, #
, $
로 표시되며, 이는 SMILES로 O=C=O
(이산화탄소 CO2), C#N
(시안화수소 HCN), [Ga+]$[As-]
(갈륨 비화갈륨)로 나타낼 수 있다.
결합을 하지 않았을 경우, 두 부분이 서로 결합되지 않았음을 나타내기 위해 .
로 표시한다. 예를 들어, 염화나트륨 수용액은 [Na+].[Cl-]
로 표기할 수 있다.
§ 방향족 "1과 1/2" 결합은 :
을 사용하여 나타낼 수 있다.
이중 결합에 인접한 단일 결합은 § 입체화학적 구성은 /
또는 \
를 사용하여 나타낼 수 있다.
고리
[편집]고리 구조는 임의의 지점에서 각각의 고리를 풀어서(어떤 지점은 다른 지점보다 SMILES를 쉽게 해석할 수 있다.) 비인접 원자 간의 연결을 보여주기 위해 각 비인접 원자에 같은 숫자를 작성한다.
예를 들어, 사이클로헥세인과 1,4-다이옥세인은 각각 C1CCCCC1
과 O1CCOCC1
로 기록될 수 있다.
고리가 2개일 경우, 두 번째 고리의 비인접 원자에도 숫자를 붙인다. 데칼린(데카하이드로나프탈렌, decalin)은 C1CCCC2C1CCC2
로 기록될 수 있다.
SMILES는 고리의 비인접 원자에 대한 번호를 특정 순서로 사용할 필요가 없으며 숫자 0
도 가능하며, 서로 다른 두 고리에 같은 번호를 사용하여 나타내는 것도 가능하다. 하지만 이는 문자열을 읽기 어렵게 만들 수 있다.
예를 들어, 바이사이클로헥실은 일반적으로 C1CCCC1C2CCCC2
로 작성되지만, C0CCCCCC0CCC0
로도 작성될 수 있다.
하나의 원자 뒤에 여러 숫자가 표기된 경우는 여러 개의 고리 결합을 나타낸다.
데칼린의 다른 SMILES 표기법은 C1CCCC2CCCCC12
이다. 두 자리 수의 숫자를 나타낼 때에는 숫자 앞에 %
가 붙기 때문에, 예시는 두 개의 결합을 나타냄을 알 수 있다.
고리를 나타낼 때 다중 결합을 이룬 원자 또한 선택할 수 있다.
사이클로프로페인은 일반적으로 C1=CC1
로 쓰이지만, 이중 결합을 고리 결합으로 선택한다면, 이것은 C=1CC1
, C1CC=1
또는 C=1CC=1
로 쓸 수 있다.(대체로 첫 번째 문자열이 선호된다.) C=1CC-1
는 고리와 결합이 충돌하는 유형이기 때문에 모순이다.
고리 결합은 다중 결합을 나타내기 위해 사용될 수 없다.
C1C1
는 에틸렌에 대한 C=C
로 표기가 불가능는 하다. 하지만 결합이 없을 때에는 사용될 수 있다.C1.C2.C12
은 프로페인(propane)의 CCC
를 나타내지만 주로 후자가 일반적이다.
두가지의 고리가 인접한 경우, 두 고리를 포함한 원자를 선택하여 고리결합을 나타낸다면, 가지 표현을 줄일 수 있기 때문에 더 단순한 작성이 가능하다.
사이클로헥세인-1,2-다이올은 가장 간단하게 OC1CCCC1O
로 쓸 수 있다. 이때 고리를 끊기 위해 다른 원자를 선택하면 괄호를 써야 하는 더 복잡한 구조가 생성된다.
방향족
[편집]벤젠과 같은 방향족성 고리는 세 가지 형태 중 하나로 쓸 수 있다:
C1=CC=CC=C1
과 같이 단일 결합과 이중 결합을 교대로 갖는 케쿨레 형태C1:C:C:C:C:C1
로 방향족 결합 기호를 사용하는 형태- 구성 B, C, N, O, P, S 원자를 각각
b
,c
,n
,o
,p
,s
로 적는 형태
세 번째의 경우, 두 원자 사이의 결합은 방향족 결합으로 가정된다. 따라서, 벤젠, 피리딘, 퓨란은 각각 c1ccccc1
, n1ccccc1
, o1cccc1
로 표시될 수 있다.
피롤에서 발견되는 방향족 질소는 [nH]
로 표시되며, 따라서 이미다졸은 n1c[nH]cc1
로 표기된다.
방향족 원자들이 바이페닐과 같이 단일 결합하는 경우, c1ccccc1-c2ccccc2
처럼 단일 결합을 표기해야 한다. 이는 기호 -
가 필요한 몇 안 되는 경우이다. (대부분의 SMILES 프로그램은 두 고리 사이의 방향족 결합이 있는지 구별하지 못하기 때문에 c1ccccc1c2ccccc2
을 이해하지 못한다.)
가지
[편집]가지는 프로피온산의 CCC(=O)O
, 플루오로포름의 FC(F)F
에서와 같이 괄호로 설명된다. 괄호 안의 첫 번째 원자와 괄호 뒤의 첫 번째 원자는 모두 같은 원자에 결합되어 있음을 나타낸다. 결합은 괄호 안쪽에 표시되어야 하며 바깥쪽(예: CCC=(O)O
)은 잘못된 표기이다.
3,4-시아노이솔 이성질체에서 치환 고리는 COc(c1)cccc1C#N
(그림 참고) 또는 COc(cc1)ccc1C#N
(그림 참고)로 표기할 수 있다. 이렇게 대체된 고리를 SMILES로 표기하는 것이 더 읽기 쉽다.
가지는 임의의 순서로 작성할 수 있다. 브로모클로로디플루오로메탄은 FC(Br)(Cl)F
, BrC(F)(F)Cl
, C(F)(Cl)(F)Br
등으로 표기할 수 있다. 일반적으로 SMILES 문자열은 단순한 가지를 먼저, 주사슬이 가장 복잡할 때 가장 읽기 쉽다.
이러한 표기에서 링 번호를 다시 쓰는 경우, 링 번호는 SMILES 문자열의 표시 순서에 따라 쌍으로 연결된다. 이때 올바른 표기를 위해 일부 조정이 필요한 경우가 발생할 수 있다. (예: § 입체화학이 지정된 경우)
괄호를 필요로 하지 않는 한 가지 형태는 고리 결합이다. 고리 결합을 적절히 표기하면 필요한 괄호 수를 줄일 수 있다.
예를 들어, 톨루엔은 일반적으로 Cc1ccccc1
or c1ccccc1C
C로 표기되며, c1cc(C)ccc1
또는 c1cc(ccc1)C
로 표기되는 경우와 달리 괄호를 쓰지 않을 수 있다.
입체화학
[편집]SMILES는 입체 이성질체의 형태를 표기하는 법이 있지만 필요하지 않다.
이중 결합에 대한 구성은 문자 /
및 \
를 사용하여 이중 결합에 인접한 방향성 단일 결합을 표시한다. 예를 들어, F/C=C/F
(그림 참고)는 플루오린이 이중 결합의 반대편에 있는 트랜스-1,2-디플루오로에틸렌인 반면에, F/C=C\F
(그림 참고)는 불소가 이중 결합의 동일한 면에 있는 시스-1,2-디플루오로에틸렌이다.
결합 방향 기호는 항상 최소 2개의 그룹으로 나뉘며, 그 중 첫 번째 그룹은 임의로 정한다. 즉, F\C=C\F
는 F/C=C/F
와 같다. 단일, 이중 결합이 교대로 존재할 때 그룹은 두 개보다 많아지고, 가운데에 존재하는 기호는 두 개의 이중 결합에 인접한다. 예를 들어, 2,4-헥사디엔의 일반적인 형태는 C/C=C/C=C/C
이다.
보다 복잡한 예로, 베타카로틴은 단일 결합과 이중 결합의 매우 긴 골격을 가지며, 이는 CC1CCC/C(C)=C1/C=C/C(C)=C/C=C/C(C)=C/C=C/C=C(C)/C=C/C=C(C)/C=C/C2=C(C)/CCCC2(C)C
로 쓸 수 있다.
카이랄 분자의 구성은 @
또는 @@
로 지정된다. 문자열의 왼쪽에서 오른쪽으로 나타나는 순서대로 네 개의 결합을 표기한다. 첫 번째 결합의 관점에서 중심 탄소 쪽을 보면, 나머지 세 개는 시계 방향 또는 반시계 방향이다. 이때 각각 @@
와 @
로 표시된다.(@ 기호 자체가 시계 반대 방향의 모양이기 때문이다).
아미노산 알라닌을 보면 일반적으로 N[C@H](C)C(=O)O
로 표기되지만 NC(C)C(=O)O
도 가능하다. 보다 일반적인 이성질체인 L-알라닌은 주로 N[C@@H](C)C(=O)O
(그림 참고)로 표기된다. 여기서 질소-탄소 결합을 보면 수소(H), 메틸(CH3), 카르복실산기(C(=O)O)가 시계 방향으로 나타난다. 따라서 D-알라닌은 N[C@H](C)C(=O)O
(그림 참고)로 쓸 수 있다.
일반적으로 SMILES에서 가지의 배열 순서는 중요하지 않지만, 이성질체의 경우는 다르다.
두 그룹의 위치를 바꾸면 카이랄 표시를 반대로 사용해야 하기 때문이다. 만약 알라닌이 위와 다르게 NC(=O)C
로 쓰여지면, 방향 또한 달라지게 된다. L-알라닌은 N[C@H](C(=O)O)C
(그림 참고)로 바뀐다.(이를 쓰는 다른 방법에는 C[C@H](N)C(=O)O
, OC(=O)[C@@H](N)C
, OC(=O)[C@H](C)N
이 있다.)
일반적으로 4개의 결합 중 첫 번째 결합은 카이랄 중심 원자의 왼쪽을 나타나지만, 만약 SMILES가 C(C)(N)C(=O)O
와 같이 카이랄 중심인 탄소로 시작된다면, 4개의 결합은 모두 오른쪽에 있지만 그중 첫 번째가 기준이 될 수 있다.
SMILES 문자열은 삼각쌍뿔 분자와 같은 더 복잡한 입체화학을 나타내기 위해 @
기호가 활용 될 수도 있다.
동위 원소
[편집]동위 원소는 원자 기호 앞에 표기된 숫자로 구분할 수 있다. 벤젠의 원소 중 하나가 탄소-14이라면 벤젠은 [14c]1ccccc1
로 표기되고 듀테로화 클로로포름은 [2H]C(Cl)(Cl)Cl
으로 표기된다.
예시
[편집]분자 이름 | 구조 | SMILES 표기 |
---|---|---|
이질소(Dinitrogen) | N≡N | N#N
|
아이소사이안화 메틸(Methylisocyanate) (MIC) | CH3−N=C=O | CN=C=O
|
황산 구리(Copper(II) sulfate) | Cu2+SO2− 4 |
[Cu+2].[O-]S(=O)(=O)[O-]
|
바닐린(Vanillin) | O=Cc1ccc(O)c(OC)c1 COc1cc(C=O)ccc1O
| |
멜라토닌(Melatonin) (C13H16N2O2) | CC(=O)NCCC1=CNc2c1cc(OC)cc2 CC(=O)NCCc1c[nH]c2ccc(OC)cc12
| |
플라보페레이린(Flavopereirin) (C17H15N2) | CCc(c1)ccc2[n+]1ccc3c2[nH]c4c3cccc4 CCc1c[n+]2ccc3c4ccccc4[nH]c3c2cc1
| |
니코틴(Nicotine) (C10H14N2) | CN1CCC[C@H]1c2cccnc2
| |
Oenanthotoxin (C17H22O2) | CCC[C@@H](O)CC\C=C\C=C\C#CC#C\C=C\CO CCC[C@@H](O)CC/C=C/C=C/C#CC#C/C=C/CO
| |
피레트린(Pyrethrin) II (C22H28O5) | CC1=C(C(=O)C[C@@H]1OC(=O)[C@@H]2[C@H](C2(C)C)/C=C(\C)/C(=O)OC)C/C=C\C=C
| |
아플라톡신(Aflatoxin) B1 (C17H12O6) | O1C=C[C@H]([C@H]1O2)c3c2cc(OC)c4c3OC(=O)C5=C4CCC(=O)5
| |
글루코스(Glucose) (β-D-glucopyranose) (C6H12O6) | OC[C@@H](O1)[C@@H](O)[C@H](O)[C@@H](O)[C@H](O)1
| |
베르게닌(Bergenin, cuscutin) (수지(resin)) (C14H16O9) | OC[C@@H](O1)[C@@H](O)[C@H](O)[C@@H]2[C@@H]1c3c(O)c(OC)c(O)cc3C(=O)O2
| |
캘리포니아 깍지 벌레의 페로몬 | CC(=O)OCCC(/C)=C\C[C@H](C(C)=C)CCC=C
| |
(2S,5R)-칼코그란(Chalcogran): 딱정벌레(bark beetle), 별나무좀(Pityogenes chalcographus)[2]의 페로몬 | CC[C@H](O1)CC[C@@]12CCCO2
| |
알파-투존(알파-투욘, α-Thujone) (C10H16O) | CC(C)[C@@]12C[C@@H]1[C@@H](C)C(=O)C2
| |
티민(티아민, Thiamine) (vitamin B1, C12H17N4OS+) | OCCc1c(C)[n+](cs1)Cc2cnc(C)nc2N
|
9개 이상의 고리 결합을 가진 분자를 설명하기 위해, 13개의 스테로이드성 고리로 이루어진 피라진(pyrazine)인 세팔로스타틴(cephalostatin)-1,[3](실험식 C54H74N2O10) :
그림의 왼쪽부터 표기한 문자열:
CC(C)(O1)C[C@@H](O)[C@@]1(O2)[C@@H](C)[C@@H]3CC=C4[C@]3(C2)C(=O)C[C@H]5[C@H]4CC[C@@H](C6)[C@]5(C)Cc(n7)c6nc(C[C@@]89(C))c7C[C@@H]8CC[C@@H]%10[C@@H]9C[C@@H](O)[C@@]%11(C)C%10=C[C@H](O%12)[C@]%11(O)[C@H](C)[C@]%12(O%13)[C@H](O)C[C@@]%13(C)CO
%
은 9번째 고리 앞에 표기된다. § 고리란을 참고
SMILES의 또 다른 예시
[편집]SMILES 표기법은 Daylight Chemical Information Systems[4]에서 제공하는 SMILES 이론 메뉴얼에 자세하게 설명되어 있으며 많은 예시들이 존재한다.
변환
[편집]SMILES는 구조도 생성(SDG) 알고리즘을 사용하여 2차원 표현으로 다시 변환할 수 있다. 이 변환이 항상 정확하지는 않다.[5] 3차원 표현으로의 변환은 에너지 준위가 바닥상태인 분자로 나타나게 된다. 변환을 위한 다양한 사이트와 앱이 있기 때문에 이를 사용하면 쉽게 변환이 가능하다.
각주
[편집]- ↑ e브릭몰. “SMILES(SMILES string)란? - SMILES의 표기법”. 2022년 7월 14일에 원본 문서에서 보존된 문서. 2022년 7월 14일에 확인함.
- ↑ Byers JA, Birgersson G, Löfqvist J, Appelgren M, Bergström G (March 1990). “Isolation of pheromone synergists of bark beetle,Pityogenes chalcographus, from complex insect-plant odors by fractionation and subtractive-combination bioassay”. 《Journal of Chemical Ecology》 16 (3): 861–876. doi:10.1007/BF01016496. PMID 24263601. S2CID 226090.
- ↑ “CID 183413”. 《PubChem》 (영어). 2012년 5월 12일에 확인함.
- ↑ “Daylight”. 2022년 7월 14일에 확인함.
- ↑ Helson HE (1999). 〈Structure Diagram Generation〉. Lipkowitz KB, Boyd DB. 《Reviews in Computational Chemistry》 13. New York: Wiley-VCH. 313–398쪽. doi:10.1002/9780470125908.ch6. ISBN 978-0-470-12590-8.