您当前的位置:首页 > IT编程 > Transformers
| C语言 | Java | VB | VC | python | Android | TensorFlow | C++ | oracle | 学术与代码 | cnn卷积神经网络 | gnn | 图像修复 | Keras | 数据集 | Neo4j | 自然语言处理 | 深度学习 | 医学CAD | 医学影像 | 超参数 | pointnet | pytorch | 异常检测 | Transformers | 情感分类 |

自学教程:BERT中的Tokenizer

51自学网 2023-11-01 12:16:27
  Transformers
这篇教程BERT中的Tokenizer写得很实用,希望能帮到您。

BERT中的Tokenizer

 

经常在使用Transformer中遇到各种转id形式,整理一下几种

from transformers import BertTokenizer
tokenizer = BertTokenizer.from_pretrained('bert-base-chinese')

text = '[CLS] 武1松1打11老虎 [SEP] 你在哪 [SEP]'
tokenized_text = tokenizer.tokenize(text)#切词 方式1
token_samples_a = tokenizer.convert_tokens_to_ids(tokenized_text)#只返回token_ids,手动添加CLS与SEP

token_samples_b=tokenizer(text)#返回一个字典,包含id,type,mask,无须手动添加CLS与SEP 方式2

token_samples_c=tokenizer.encode(text=text)#只返回token_ids,无须手动添加CLS与SEP 方式3

token_samples_d=tokenizer.encode_plus(text=text,max_length=30,return_tensors='pt')#方式4 返回一个字典,包含id,type,mask,无须手动添加CLS与SEP,可以指定返回类型与长度

返回列表
导入错误:无法从"tensorflow. python. keras. engine"导入名称"keras_tensor"
51自学网自学EXCEL、自学PS、自学CAD、自学C语言、自学css3实例,是一个通过网络自主学习工作技能的自学平台,网友喜欢的软件自学网站。
京ICP备13026421号-1