tokenize

语法

tokenize(text, parser, [full=false], [lowercase=true], [stem=false])

参数

text STRING 类型标量,表示待分词的文本。

parser STRING 类型标量,指定分词器。没有默认值,必须显式指定。可选值为 'none', 'english', 'chinese', 'mixed':

  • none:不分词。

  • english:英文分词器,按照空格和标点进行分词。

  • chinese:中文分词器,按照中文词库、空格和标点进行分词。

  • mixed:混合分词器。英文按单词分词,中文按 Bigram 分词。

full 设置中文分词时的分词模式,仅在 parser='chinese' 时有效:

  • false:默认模式。词语之间不会重叠和包含。

  • true:全分词模式。该模式会尽可能多的分析句子中包含的词语。

lowercase 布尔类型标量,表示是否将英文单词转换为小写(不会对原数据造成影响)。该属性在 parser 为 english, chinese, mixed 时有效。默认值为 true。

stem 是否将英文单词作为词干匹配。该属性仅在 parser='english',且 lowercase=true 时生效。默认值为 false。

详情

此函数可用于检查分词操作的实际效果。

根据指定的设置对输入文本进行分词操作,并返回一个 STRING 类型的向量,包含分词的结果。

例子

text1 = "The sun was shining brightly as I walked down the street, enjoying the warmth of the summer day."
tokenize(text=text1, parser='english', lowercase=false, stem=true)
// output:["The","sun","shine","bright","I","walk","down","street","enjoy","warmth","summer","day"]

text2 = "武汉市长江大桥"
tokenize(text=text2, parser='chinese', full=true)
// output:["武汉","武汉市","市长","长江","长江大桥","大桥"]