유용한 기억
hugging face tokenizer에서 special case 추가하기
JihyunLee
2022. 1. 3. 10:55
아래 코드대로 하면 tokenize 해도 [C1] 은 tokenize되지 않고 유지된다.
special_tokens_dict = {'additional_special_tokens': ['[C1]','[C2]','[C3]','[C4]']}
num_added_toks = tokenizer.add_special_tokens(special_tokens_dict)
model.resize_token_embeddings(len(tokenizer))