Instructions to use moka-ai/m3e-base with libraries, inference providers, notebooks, and local apps. Follow these links to get started.
- Libraries
- sentence-transformers
How to use moka-ai/m3e-base with sentence-transformers:
from sentence_transformers import SentenceTransformer model = SentenceTransformer("moka-ai/m3e-base") sentences = [ "The weather is lovely today.", "It's so sunny outside!", "He drove to the stadium." ] embeddings = model.encode(sentences) similarities = model.similarity(embeddings, embeddings) print(similarities.shape) # [3, 3] - Notebooks
- Google Colab
- Kaggle
最长支持多少token的embedding?
#8
by cluo - opened
请问下 最长支持多少token的embedding?
是否受限于Bert的512 token限制?
是的,受限于基础模型,最大长度支持 512 个 token
谢谢回答,看介绍说这个模型比较适合答案召回的模式?
就是问题/答案这种模式,问题较短,回答较长
m3e 在召回(检索)的场景下有很大的优势,当然在相似问题检测等场景也有优势,但是没有那么大。
不过 m3e 在 ReRanking 上面表现不好... 我现在在研究如何提高这个场景的表现
请问,中文里面,每个token是对应一个字还是一个词?
一般是一个字
请问下,部署模型对硬件有什么要求
对硬件没有什么要求,看您使用的具体场景。CPU,GPU,TPU 均可。