Narsil
/

small_summarization_test

Model card Files Files and versions

Narsil commited on Jan 8, 2021

Commit

559b155

·

1 Parent(s): 66af19f

Update README.md

Files changed (1) hide show

README.md +17 -17

README.md CHANGED Viewed

@@ -1,18 +1,18 @@
 ```python
-def DummyTok(model_max_length=4):
-    import tempfile
-    from tokenizers import Tokenizer, models
-    from transformers.tokenization_utils_fast import PreTrainedTokenizerFast
-    vocab = [(chr(i), i) for i in range(256)]
-    tokenizer = Tokenizer(models.Unigram(vocab))
-    with tempfile.NamedTemporaryFile() as f:
-        tokenizer.save(f.name)
-        real_tokenizer = PreTrainedTokenizerFast(
-            tokenizer_file=f.name, model_max_length=model_max_length
-        )
-    real_tokenizer.save("dummy_tokenizer.json")
-    return real_tokenizer
-```

 ```python
+import tempfile
+from tokenizers import Tokenizer, models
+from transformers import PreTrainedTokenizerFast
+model_max_length = 4
+vocab = [(chr(i), i) for i in range(256)]
+tokenizer = Tokenizer(models.Unigram(vocab))
+with tempfile.NamedTemporaryFile() as f:
+    tokenizer.save(f.name)
+    real_tokenizer = PreTrainedTokenizerFast(tokenizer_file=f.name, model_max_length=model_max_length)
+real_tokenizer._tokenizer.save("dummy/tokenizer.json")
+```
+config uses Albert which works with a minimal `config.json`