hugging face tokenizer에서 special case 추가하기

Notice

Recent Posts

Recent Comments

Link

일정

« 2025/06 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Tags more

Archives

Today

Total

관리 메뉴

글쓰기
방명록
RSS
관리

one by one ◼◻◼◻

hugging face tokenizer에서 special case 추가하기 본문

유용한 기억

hugging face tokenizer에서 special case 추가하기

JihyunLee 2022. 1. 3. 10:55

아래 코드대로 하면 tokenize 해도 [C1] 은 tokenize되지 않고 유지된다.

special_tokens_dict = {'additional_special_tokens': ['[C1]','[C2]','[C3]','[C4]']}
num_added_toks = tokenizer.add_special_tokens(special_tokens_dict)
model.resize_token_embeddings(len(tokenizer))

출처 : https://github.com/huggingface/tokenizers/issues/247

'유용한 기억' 카테고리의 다른 글

python logger사용하기 (2)	2021.11.12

'유용한 기억' Related Articles

python logger사용하기 2021.11.12

Comments

one by one ◼◻◼◻

hugging face tokenizer에서 special case 추가하기 본문

hugging face tokenizer에서 special case 추가하기

'유용한 기억' 카테고리의 다른 글

티스토리툴바