hugging face tokenizer에서 special case 추가하기

Notice

Recent Posts

Recent Comments

Link

일정

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

Tags more

Archives

Today

Total

관리 메뉴

글쓰기
방명록
RSS
관리

one by one ◼◻◼◻

hugging face tokenizer에서 special case 추가하기 본문

유용한 기억

hugging face tokenizer에서 special case 추가하기

JihyunLee 2022. 1. 3. 10:55

아래 코드대로 하면 tokenize 해도 [C1] 은 tokenize되지 않고 유지된다.

special_tokens_dict = {'additional_special_tokens': ['[C1]','[C2]','[C3]','[C4]']}
num_added_toks = tokenizer.add_special_tokens(special_tokens_dict)
model.resize_token_embeddings(len(tokenizer))

출처 : https://github.com/huggingface/tokenizers/issues/247

'유용한 기억' 카테고리의 다른 글

python logger사용하기 (2)	2021.11.12

'유용한 기억' Related Articles

python logger사용하기 2021.11.12

Comments

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

one by one ◼◻◼◻

one by one ◼◻◼◻

hugging face tokenizer에서 special case 추가하기 본문

hugging face tokenizer에서 special case 추가하기

'유용한 기억' 카테고리의 다른 글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역