유용한 기억

hugging face tokenizer에서 special case 추가하기

JihyunLee 2022. 1. 3. 10:55

아래 코드대로 하면 tokenize 해도 [C1] 은 tokenize되지 않고 유지된다.

special_tokens_dict = {'additional_special_tokens': ['[C1]','[C2]','[C3]','[C4]']}
num_added_toks = tokenizer.add_special_tokens(special_tokens_dict)
model.resize_token_embeddings(len(tokenizer))

출처 : https://github.com/huggingface/tokenizers/issues/247