gbyuvd
/

miniChembed-prototype

@@ -5,7 +5,7 @@ tags:
 - chemistry
 - molecular-similarity
 - cheminformatics
-- unsupervised-learning
 - smiles
 - feature-extraction
 pipeline_tag: sentence-similarity
@@ -63,7 +63,6 @@ SentenceTransformer(
 ```
 > Note: The model was not initialized from a language model, it is trained from scratch on SMILES using only the Barlow Twins objective.
 ---
 ## Usage
@@ -73,7 +72,7 @@ SentenceTransformer(
 pip install -U sentence-transformers rdkit-pypi
 ```
-### Encoding Molecules
 ```python
 from sentence_transformers import SentenceTransformer
@@ -101,9 +100,20 @@ print(similarities)
 High cosine similarity suggests structural or topological relatedness learned purely from SMILES variation and not from explicit chemical knowledge/labeling.
 > Tip: For large-scale similarity search, integrate embeddings with Meta's FAISS.
----
 ## Comparison to Traditional Fingerprints
 ### Overview
@@ -120,11 +130,12 @@ Preliminary clustering evaluation vs. ECFP4 on 64 molecules with 4 classes:
 ![image](https://cdn-uploads.huggingface.co/production/uploads/667da868d653c0b02d6a2399/SNH7u0tegdzmYGFbJ9F-0.png)
 ARI (Embeddings)                       : 0.084
 ARI (ECFP4)                            : 0.024
 Silhouette (Embeddings)                : 0.398
 Silhouette (ECFP4)                     : 0.025
-Top-5 retrieval accuracy of embeddings : 0.341
 ---

 - chemistry
 - molecular-similarity
 - cheminformatics
+- ssl
 - smiles
 - feature-extraction
 pipeline_tag: sentence-similarity
 ```
 > Note: The model was not initialized from a language model, it is trained from scratch on SMILES using only the Barlow Twins objective.
 ---
 ## Usage
 pip install -U sentence-transformers rdkit-pypi
 ```
+### Direct Usage (Sentence Transformers)
 ```python
 from sentence_transformers import SentenceTransformer
 High cosine similarity suggests structural or topological relatedness learned purely from SMILES variation and not from explicit chemical knowledge/labeling.
+### Testing Similarity Search
 > Tip: For large-scale similarity search, integrate embeddings with Meta's FAISS.
+Cytisine as query, on 24K embedded index:
+![image](https://cdn-uploads.huggingface.co/production/uploads/667da868d653c0b02d6a2399/kZciikiDjFOCXJrCzb1Lh.png)
+```
+Rank 1: SMILES = O=C1OC2C(O)CC1C1C2N(Cc2ccc(F)cc2)C(=S)N1CC1CCCCC1, Cosine Similarity = 0.9944
+Rank 2: SMILES = CN1C(CCC(=O)N2CCC(O)CC2)CNC(=O)C2C1CCN2Cc1ncc[nH]1, Cosine Similarity = 0.9940
+Rank 3: SMILES = CC1C(=O)OC2C1CCC1(C)Cc3sc(NC(=O)Nc4cccc(F)c4)nc3C(C)C21, Cosine Similarity = 0.9938
+Rank 4: SMILES = Cc1ccc(NC(=O)Nc2nc3c(s2)CC2(C)CCC4C(C)C(=O)OC4C2C3C)cc1, Cosine Similarity = 0.9938
+Rank 5: SMILES = O=C(CC1CC2OC(CNC3Cc4ccccc4C3)C(O)C2O1)N1CCC(F)(F)C1, Cosine Similarity = 0.9929
+```
 ## Comparison to Traditional Fingerprints
 ### Overview
 ![image](https://cdn-uploads.huggingface.co/production/uploads/667da868d653c0b02d6a2399/SNH7u0tegdzmYGFbJ9F-0.png)
+```
 ARI (Embeddings)                       : 0.084
 ARI (ECFP4)                            : 0.024
 Silhouette (Embeddings)                : 0.398
 Silhouette (ECFP4)                     : 0.025
+```
 ---