Notice
Recent Posts
Recent Comments
Link
관리 메뉴

one by one ◼◻◼◻

hugging face tokenizer에서 special case 추가하기 본문

유용한 기억

hugging face tokenizer에서 special case 추가하기

JihyunLee 2022. 1. 3. 10:55

아래 코드대로 하면 tokenize 해도 [C1] 은 tokenize되지 않고 유지된다.

special_tokens_dict = {'additional_special_tokens': ['[C1]','[C2]','[C3]','[C4]']}
num_added_toks = tokenizer.add_special_tokens(special_tokens_dict)
model.resize_token_embeddings(len(tokenizer))

출처 : https://github.com/huggingface/tokenizers/issues/247

'유용한 기억' 카테고리의 다른 글

python logger사용하기  (2) 2021.11.12
Comments