当前位置：首页 > 热点 > >正文

机器学习特征处理详解与 tensorflow feature_column 接口实战

来源：哔哩哔哩时间：2023-02-26 12:13:06

机器学习特征处理详解与 tensorflow feature_column 接口实战

书接上文，在 模型手把手系列的前两篇文章中，我们已经详细介绍了 python、spark 和 java 生成TFrecord 和六种方法构建读入batch样本，按照常规 机器学习模型pipline 的流程来说，我们应该在使用 dataset 构建好的 batch 数据上开始分别对读入的各个特征进行处理例如 特征数值化、取embeding等操作，然后输入模型的过程了，那么本文就从这里开始吧～

(资料图片)

因为本系列 开发的模型主要使用的是 tensorflow，而 tensorflow 官方有着自己实现的特征处理接口 feature_column，非常好用且业界使用的非常广泛，这里强烈安利下～。本文这里不欲对 feature_column 接口的参数做解释，而是 更侧重于在每一步得到的数据形式做一些说明，方便我们灵活对数据输入 进行定制和 debug.

feature_column 接口本来是 Google为了适配 tensorflow estimator这个模型训练的 高阶接口使用的，但它既然能 方便处理特征，并且 特征处理殊途同归，当然我们也可以将 feature_column 接口配合 tensorflow keras开发模型使用, 亲测也非常好用哦。这里要 重点推荐一下 estimator接口，使用 estimator 开发的 单机版模型可以直接适配分布式模型训练，代码无需怎么改动，非常强大！！！在本系列后期我们也会写几篇关于使用 estimator 搭建模型的文章，感兴趣得同学可以关注下后续的文章哦～

闲言少叙，下面就让我们开始本文的 机器学习特征处理方法介绍吧～

(1) 特征处理基础说明

在深入浅出理解word2vec模型 (理论与源码分析) 文章中，我们说过自从 2013年 embeding 诞生以来就被业界的 深度学习模型进行了深入而广泛的应用，特别是在 高维稀疏的sparse ID 类特征应用特别广泛。从常规意义上来说，对于 推荐系统或广告算法系统，百分之80的特征均是以高维稀疏的 ID类特征的形式出现的。所以我们开发 DNN 模型的时候，对于高维稀疏的 ID类特征甚至是 用户历史行为序列特征，我们总是会先以某种方式去取得该 ID 的 embeding , 然后进行 加减乘或则拼接、求attention等花样的骚操作。

在企业级机器学习 Pipline - 特征feature处理 - part 1 文章中，我们列出了 搜广推算法中经常用到的一些特征的设计方法包括： 交叉特征、序列特征、实时特征等，错过以前文章的同学，可以戳进去看看哦。从上文中我们知道了有哪些特征可以用，但是在模型设计中真正的把 数据以合适的格式读进去适配模型设计的需要，则是有着 道与术的鸿沟。而其实在模型开发中，我们大多数时间均是花在了模型的数据处理上。

一般意义上来说，对于 浮点数特征，我们可以用一些方式 (例如 log / xgboost ) 进行 分桶离散化然后求 embeding 扔进模型里，或则直接读入浮点数将它和其它特征的 embeding 拼接后传入网络等。但是目前的实验来看，统计类的浮点数特征直接扔进模型效果提升总是不太明显。

而在实际操作中，对于一些类别类型的 category特征，我们通常会构建特有的 embeding matrix，当然我们也可以多个特征共用一个 embeding matrix, 就像后文要介绍的 tf.feature_column.shared_embeddings。我们可以将用户刚下载的 Appid 和用户最近3天打开过的 appid 用一个 embeding 去训练也是一种不错的选择，其可以 有效缓解因数据稀疏导致的训练不充分的问题。

更细致的说，要想得到某 ID 的 embeding, 我们通常需要 根据索引 (ids)去 embeding matrix 中查找(look_up)，这里我们就需要先有这个 id，一般这个id是数值 int型的，而我们常规使用的高维稀疏特征大多是 字符串类型的sparse ID，所以 常规情况下我们需要去对每一列特征对应的去维护 一个索引id，id 和该特征的取值unique 个数一一对应，一般这个过程又称为 特征取值ID化。我们取出该特征对应的ID 对应的 embeding , 将 高维sparse特征转化为低维的embedding，则可以进行模型数据的 语义计算了。

如上文所说，在 特征取值ID化这一步，如果我们的模型中 特征的取值个数和 特征种类个数非常多的话，我们就需要每天去对每列特征的旧的ID集合上加上新增的特征取值并 重新构建索引输入模型中训练，多个特征均需要如此，对于搜广推模型上 动则上亿的稀疏特征来说，可以想象这是一个非常复杂且难以持久维护的工程，而早期的很多大厂的 dnn 模型均是如此处理的，可怕～

好在 tensorflow 中提供了 feature_column接口，它可以支持将每个 特征hash后快速得到一定数值的 索引id, 该特征空间大小可以自行定制。既然是 hash ，肯定 避免不了冲突，这里我们不在展开，自己根据业务调整 hash空间大小即可。类似的特征ID化工具，我知道百度的 paddelpaddle 深度学习框架中也有类似的 hash函数的设计。

既然是说 feture_column，我们就不得不祭出这张图了。

从上图中我们可以知道，feature column 处理特征可以分为 Categorical Column和 Dense Column两大类，这其实和我们前面介绍的特征总共分成 dense和 sparse两类特征是一个意思。当然，图中的一些接口在某些场景里需要 组合使用，也和我们上文介绍的特征处理流程差不太多。而一列特征要想接入DNN模型，则需要 先转化为 DenseColumn才可以。至于如何组合，在下文我们会进行一些说明，但是从 数据取值类型和我们自己的 先验知识，推断出来某个位置取值应该是什么类型和形状也是不难的～

当然除了图中的一些接口之外，feature_column 还有一些以 sequences开头的 处理序列特征的接口，我们的文章中，一直强调了序列特征的重要性，因为序列特征的出现让我们不再是孤立的看待用户的行为，而是在 时间序列上连续的建模用户的 特性和偏好，用 历史的、发展的，普遍联系的眼光来分析用户，在工业实践中具有举足轻重的意义。后面我们也会写一些介绍序列建模的文章，感兴趣的同学可以持续关注下哦。

这里 需要注意的一点是：feature_column 接口在tensorflow 1.x系列和 2.x系列均有支持，但是也有一些细微的差别。对于普通特征，在 tensorflow 1.x 中，我们可以通过 tf.feature_column.input_layer处理 features 得到 dense feature，而序列特征可以使用 tf.feature_column.sequence_input_layer。但是在 2.x 中，该接口 均不在支持。在2.x 中改为了通过 tf.keras.layers.DenseFeatures处理 features 得到 dense feature，序列特征可以通过 tf.keras.experimental.SequenceFeatures来得到。而我们下文的代码均是基于 tensorflow 2.x 开发的。

其实要想对 tensorflow 的使用与设计思想进行更深入的了解，我们可以直接去看源码，源码的说明非常详细，并且对参数进行了 保姆级的说明，还列举出了使用的demo。具体路径见下面这2个链接：

源码地址 tensorflow源码

接口介绍 feature_column接口介绍

好吧，文字部分就这些吧，代码才是硬通货，接下来就让我们一起开始接口的更进一步的代码介绍吧～

(2) 代码时光之 feature_column使用说明

我们这里只挑一些常用的接口说明，主要涵盖 数值特征处理接口、类别特征hash化接口、序列特征和dataset结合使用方法、特征交叉、embedding共享等，而其他的类似接口则可以常规类比推算过去哈。

毕竟 万变不离其宗，掌握 数据的流程以及各阶段数据的形式比会用多少接口更加重要。我们会在介绍接口的时候说明该接口的适用场景，注意看旁白哦～

(2.1)numeric_column

@ 欢迎关注作者公众号算法全栈之路import tensorflow as tfnumber = tf.feature_column.numeric_column("price")price_feature_dict = {"price": [[2.0],[3.0],[4.0]]}# 用这种数据解析方法来解析dict数据# 这里感觉更像是定义了一种数据解析方法 output = tf.keras.layers.DenseFeatures(number)(price_feature_dict)print(output)

从名字我们就可以 numeric_column可以读入数值类型的特征，我们输入 统计类的浮点数特征或则其他不需要分桶、且也不需要 embeding 的特征可以使用。

这里我们可以重点看一下：output 返回的就是一个 浮点数tensor, 维度没有改变。

我们使用 tf.feature_column.numeric_column接口定义了处理 price 列字段的方法，这个方法返回的值，我们可以通过 tf.keras.layers.DenseFeatures接口( tensorflow 2.x 支持 ) 来查看。而 tf.keras.layers.DenseFeatures(number)到这里整体( 包括((number)) )其实就定义了对该列特征的处理方法，后面括号里的 (price_feature_dict)是这个方法的输入参数。

这里我们刻意把分行的写法合并在了一起，方便理解：注意两个括号的连接，第一个括号是给方法用的，是处理方法的一部分。第二个括号才是根据输入得到具体的值，并用前面定义的方法来处理该输入值。整体来看就是： 对输入特征的某个字段定义了一种什么处理方法。

因为 tensorflow 2.x 支持 eager模式，所以输出变量取值就和 python一样，直接打印变量就 OK。

这里 插入一个深坑, 可能引起 bug 的地方就是：我们使用简单自定义数据测试接口和使用 dataset 数据测试的时候，略有不同。注意看：代码里的 price_feature_dict就是我们输入的特征，这里要注意每一个元素都是被[]包裹着的([2.0]), 是一个数组，而我们上一篇文章 tensorflow 六种方法构建读入batch样本(含序列特征处理),踩坑经验值得收藏介绍的 batch 数据里，每一列特征都是仅仅只有数值，不被 []包裹，在 tensor 的世界里也就是 维度上少了一维。

解决方法就是：在上一篇文章里介绍的 train_raw_dataset 后面可以接入这段代码就可以在 dateset 上测试代码运行通过：

@ 欢迎关注作者公众号算法全栈之路final_dataset = train_raw_dataset.apply(tf.data.experimental.ignore_errors()) .shuffle(2)..batch(BATCH_SIZE, drop_remainder=True).repeat(NUM_EPOCHS).prefetch(tf.data.experimental.AUTOTUNE)

上面是一个插曲，仅仅是为了说明批量跑模型的时候，数据格式略有不同而已。如果你不用 dataset 读入数据来测试这个接口则不用关注。

上面打印的 output 输出的最后返回数据长这样：

(2.2) bucketized_column

@ 欢迎关注作者公众号算法全栈之路import tensorflow as tfage_feature_dict = {"age": [[2.0],[3.0],[4.0]]}age_bucket = tf.feature_column.bucketized_column(tf.feature_column.numeric_column(key='age', shape=(1,),default_value=0,dtype=tf.dtypes.float32),boundaries=[20, 40, 50, 60])feature_layer = tf.keras.layers.DenseFeatures(age_bucket)output = feature_layer(age_feature_dict)print(output)# 返回的是onehot值，维度改变

这里的 bucketized_column接口很好理解，就是根据接口限定的边界(boundaries) 进行分桶。对于浮点数类型的特征，我们需要分桶的，这里 给定分桶边界就可以了。

注意分桶是基于 数组比较的，所以这个接口需要先将输入数据确定为数值才能进行比较分桶，所以只能和 2.1 介绍的 numeric_column一起组合使用。接口一起组合使用在 feature_column处理接口中是非常常见的。

这里我们要更详细的赘述一下： bucketized_column 返回的是和 boundaries 维度大小相同的 onehot 数组。数值落在哪个区间，则那个维度的取值为 1，其他维度为0 。

拿到了 onehot 之后，当然我们后边也可以在接入 embeding_column 得到 embeding之后，通过 DenseFeatures将具体的 embeding 展示出来。这里没有接入 embeding_column 而直接接了 DenseFeatures ，所以返回的是onehot。

(2.3) categorical_column_with_identity

@ 欢迎关注作者公众号算法全栈之路import tensorflow as tffeatures = {'video_id': tf.sparse.from_dense([[2, 85, 0, 0, 0],[33,78, 2, 73, 1]])}video_id = tf.feature_column.categorical_column_with_identity( key='video_id', num_buckets=100,default_value=0)# 说明 sparse tensor 可以直接传入categorical_column_with_identity # 后面直接接入 embedinig columns = [tf.feature_column.embedding_column(video_id, 9)]input_layer = tf.keras.layers.DenseFeatures(columns)dense_tensor = input_layer(features)print(dense_tensor)

categorical_column_with_identity可以返回 onehot 数据，我们使用 dd=tf.feature_column.indicator_column(video_id)将 dd 塞入 DenseFeatures中查看。这里是序列数据，所以返回的是 multI hot 形式的数据。这个接口使用的非常广泛， identity 属于直接类型，无需映射，直接输入类别。

这里我们可以看到 tf.sparse.from_dense是将输入的 dense 数据转成了 sparse tensor 的格式。我们知道：sparse 和 dense 其实描述的是同一份数据,只是用的是不同的形式。

从上面的代码我们也可以看出：sparse tensor 可以直接传入categorical_column_with_identity。这就非常强大了，因为我们在很多时候用 tf.string_split()返回的就是 sparse tensor 的格式，这样我们就可以处理 变长字符串了。用 tf.string_split()切割字符串，然后扔进categorical_column_with_identity ，后面再接入 embeding_column 拿到 embedinig ，这数据不是处理的 一气呵成，非常丝滑吗～

同时 sparse tensor 数据也可以直接接入 tf.keras.embeding哦，非常好用哦！！！

(2.4) categorical_column_with_hash_bucket

@ 欢迎关注作者公众号算法全栈之路hash_word = tf.feature_column.embedding_column( tf.feature_column.categorical_column_with_hash_bucket(key='adid', hash_bucket_size=100, dtype=tf.dtypes.string),4)feature_dict = {"adid": ["20", "127", "51", "3"]}feature_layer = tf.keras.layers.DenseFeatures(hash_word)output = feature_layer(feature_dict)print(output)# 在这里将 embedding_column 换成 indicator_column 列将能看到返回的是 onthot

这个接口应该是 算法工程师们使用的最多的接口了，顾名思义，将类别id类的 特征hash数值化。在这里 tf.feature_column.categorical_column_with_hash_bucket返回的是 onehot或则 sparse tensor。onehot 或则 sparse tensor 在这里并没有严格的区分，均可以打印出来查看格式。本事例中，output 最后输出embeding 长这样：

这些接口中，不带 sequences开头的接口，一般都是使用单列特征定长的使用，并且大多数时候 一列特征都是一个取值。categorical_column_with_hash_bucket这个接口比较强大的一个功能就是他也可以处理 多个取值的 multi hot的类别特征，或则称为 序列特征。我们可以使用下面的代码来进行验证：

@ 欢迎关注作者公众号算法全栈之路hash_word = tf.feature_column.indicator_column( tf.feature_column.categorical_column_with_hash_bucket(key='id', hash_bucket_size=10, dtype=tf.dtypes.string))feature_dict = {"id": [["20","21"],["127","128"] ,["51",'52'], ["3","4"]]}feature_layer = tf.keras.layers.DenseFeatures(hash_word)output = feature_layer(feature_dict)print(output)# 在这里将 indicator_column 换成embedding_column 列将能看到返回的是和 onehot 一样格式embeding .

这里，我们直接使用 indicator_column返回了 categorical_column_with_hash_bucket处理多取值 list 返回的 multi hot ，长这样：

在这里将 indicator_column换成 embedding_column列将能看到返回的是和上面事例代码的单列一个特征的数据一样格式embeding 。

这里明明 id 里输入了多个取值，也返回了 multihot , 为啥最后返回得 embeding 确是和 onehot 维度一样呢？原来是因为： embedding_column 默认对多个取值返回的 embeding 进行了combine，默认的 combine 方式是 mean.

(2.5) categorical_column_with_vocabulary_file

@ 欢迎关注作者公众号算法全栈之路import tensorflow as tffeatures = {'sex': tf.sparse.from_dense([["male"],["female"]])}sex_col = tf.feature_column.categorical_column_with_vocabulary_file( key='sex', vocabulary_file='./voc.txt', vocabulary_size=2, num_oov_buckets=5)sex_emb=tf.feature_column.embedding_column(sex_col, 4)columns = [sex_emb]input_layer = tf.keras.layers.DenseFeatures(columns)dense_tensor = input_layer(features)print(dense_tensor)

这里除了使用 hash 的方式进行 特征取值id化之外，我们也可以使用 categorical_column_with_vocabulary_file手动的维护一个 字典文件，达到和上文最初介绍的手动维护 id索引的 古老做法类似的功能。在 voc.txt字典文件中，我们只要 每一行放入一个特征的原始取值即可，这个接口会自动将原始特征的取值映射成 索引ID，非常强大哦，在某些场景下，我们还是使用的非常多的。

当然，这里的文件路径不仅可以是单机版本的 pc路径，也可以是保存在 大数据集群上的 hdfs路径哦。

对于 feature_column众多接口中，以 *_with_vocabulary_file结尾的接口，均可以使用这里说明的类似的做法进行操作，其他的接口我就不在赘述了。

（2.5） sequence_categorical_column_with_hash_bucket

@ 欢迎关注作者公众号算法全栈之路import tensorflow as tf# 定义特征列click_history_feature_col = tf.feature_column.sequence_categorical_column_with_hash_bucket('click_list', hash_bucket_size=100, dtype=tf.int64)click_history_embedding_col = tf.feature_column.embedding_column(click_history_feature_col, dimension=16)columns = [click_history_embedding_col]# 定义特征层 list_layer = tf.keras.experimental.SequenceFeatures(columns)max_len=5# 对于每个特征需要构建一个dictlist_dict = dict()list_dict["click_list"]=tf.keras.Input(shape=(max_len,), dtype=tf.int64,name="click_list")# dict里只有一个元素，然后可以 sequence_input, sequence_length=list_layer(list_dict)sequence_length_mask = tf.sequence_mask(sequence_length)print("sequence_input:",sequence_input.shape)print("sequence_length_mask:",sequence_length_mask)# reduce_mean 的时候，要注意考虑 batch_size 的维度为0，后面第一层括号的维度为1 embeding_mean = tf.reduce_mean(sequence_input,1)print("embeding_mean:",embeding_mean)#接一层全链接层 den = tf.keras.layers.Dense(10, activation="relu", name="dense1")(embeding_mean)model_outputs = tf.keras.layers.Dense(1, activation="sigmoid", name="final_sigmoid")(den)model = tf.keras.Model(inputs=[list_dict["click_list"]],outputs=model_outputs)# model.summary()model.compile(optimizer='adam',loss="binary_crossentropy",metrics=['accuracy'])model.fit(final_dataset, epochs=2)

顾名思义，这个接口是以 sequence_categorical_column_*开头的,就是 feature_column 提供的众多 处理序列特征的接口中的一个。序列特征表示特征的取值是一个 list或则数组。

上面的代码是一个 feature_column 和 tensorflow keras 结合使用进行特征处理和模型开发的完美样例代码。对于这个事例，我将 keras 的数据读入也接进来了。

中间一个隐藏的深坑是：使用 tf.keras.Input和 input_layer结合将特征数据进行固定形式的处理的时候，要求 input_layer后面跟着的 keras_input 数据必须是一个 字典类型。按照上面我提供的 demo 的同样做法，字典里仅仅放入了一个字段，然后作为参数传递给特征处理输入层 input_layer, 他大爷的，深坑啊！！！当初花了老大时间解决这个问题，写到这里希望确实可以帮到还在困惑中的老哥，觉得有用就帮忙 关注转发一下吧～

demo 里我们直接接入了上面所说的 final_dataset 的 dataset ，是一个 相对完整的工程实例。我们通过 batch 数据来训练模型，在dataset 的 click_list 列，我输入的是一个python 数组。

这里要注意到是： click_list 我是padding 之后的，填充得最大长度是 5 , 是 定长的list.所以这里也是5 , 代码里是 tf.keras.Input(shape=(max_len,)。

中间部分，我们使用了 tf.keras.experimental.SequenceFeatures来将 embeding_col 接入网络，取代了以前 tensorflow 1.x 系列的 tf.feature_column.sequence_input_layer，和前面开篇的时候说的是一个意思。

（2.6） shared_embeddings

在某些场景下，我们也许有多列的 field 的特征需要 **共用一个 shared_embeding&& , feature_column接口下的 shared_embeddings可以帮助我们实现。

@ 欢迎关注作者公众号算法全栈之路# tf.enable_eager_execution() # 在tensorflow 2.x 中需要关闭eagerimport tensorflow as tftf.compat.v1.disable_eager_execution()tf.compat.v1.reset_default_graph()# 特征数据features = { 'department': ['sport', 'good', 'drawing', 'gardening', 'travelling'], 'display': ['sport', 'yellow', 'light', 'sex', 'bad'],}# 特征列department_hash = tf.feature_column.categorical_column_with_hash_bucket('department', 10, dtype=tf.string)display_hash=tf.feature_column.categorical_column_with_hash_bucket('display', 10, dtype=tf.string)# print(department_hash)columns = [department_hash,display_hash]share_columns = tf.feature_column.shared_embeddings(columns, dimension=4,shared_embedding_collection_name="share_embeding")# 这里2个 ids 共同构建了一个 share embeding column, 查找的时候，使用公共的variable 查找值。share_input_layer = tf.keras.layers.DenseFeatures(share_columns)dense_tensor = share_input_layer(features)print(dense_tensor)

这里需要注意的 tensorflow 2.x 使用 shared_embeddings得话，需要 关闭 eager模式，源码里有说明，应该是底层有冲突吧。我们可以使用 tf.compat.v1.disable_eager_execution()方法关闭eager 模式。

并且需要注意的一点是：最后返回的 dense_tensor 得维度，在我们的例子中是：Tensor("dense_features/concat:0", shape=(5, 8), dtype=float32)。

对组合成共享embeding 集合的每一个元素，均返回一个embeding , 因为 department_hash 和 display_hash 在batch size 一致，这里均是5，而 8 则是因为 shared_embeddings 得每一条 embeding 是拼接了 2类得2个 dim =4 的embeding . 用源码里的解释是：

返回 embeding 顺序和输入的 categorical_column 时候 顺序致。

（2.7） crossed_column

@ 欢迎关注作者公众号算法全栈之路# 这里要求我们输入特征名称，而不能是categorical_column_with_hash_bucket，官方解释说是会增加冲突。cross_column = tf.feature_column.crossed_column(["department","display"], 100)cross_emb=tf.feature_column.embedding_column(cross_column, 4)# sparsetensor 直接接入 denseFeatures cross_input_layer = tf.keras.layers.DenseFeatures(cross_emb)dense_tensor = cross_input_layer(features)print(dense_tensor)

我们知道单列特征仅仅从一个维度刻画用户，而 交叉特征则是可以从交叉的多列特征中综合刻画用户行为，例如刻画情人节这个日期和情趣内衣裤的购买记录之间的关系，是不是更能描述和反映某位美女帅哥对某件衣服的购买意愿呢。

在 搜广推算法的实际使用场景中，我们会遇到 大量的交叉特征。对于 交叉特征列，我们可以输入原始单列特征得到 embeding 之后，使用 embeding 相乘或则对位乘或则别的什么做法达到综合两个特征建模的目的，我们也可以在离线使用 spark 进行简单的 字符串拼接来达到 高维离散特征特征交叉的目的。本文这里介绍了 tensorflow 提供的一种新的解决方案。

feature_column 里提供的特征交叉接口 crossed_column，看官方介绍是将特征取值之间做了笛卡尔积之后在对组合好的字符串进行hash操作，将交叉的操作放在了tensorlfow 自己的特征处理过程中，在大数据之后，模型之前。

注意，这个接口返回的是一个交叉特征列类 (_CrossedColumn)，后面依然需要接 indicator 或则 embeding 层输入后面的模型。这个接口最后底层调用的是 sparse_cross_hashed这个方法做的交叉操作，感兴趣的可以去前面提供的源码地址去一层一层点开看看哦。

本文到这里，本文共介绍了 7种 tensorflow feature_column 提供的常用接口，中间也穿插介绍了很多特征处理技巧和踩坑经验，具有很高的参考价值哦。如果你还有问题，欢迎关注作者的公众号留言一起讨论哦～

到这里，机器学习特征处理详解与 tensorflow feature_column 接口实战的全文就写完了。本文代码每个模块均可以独立跑成功，中间序列特征处理模块是一个完整的 feature_column结合keras 开发模型的优秀式例，希望可以对你有参考作用～

码字不易，觉得有收获就动动小手转载一下吧，你的支持是我写下去的最大动力～

更多更全更新内容，欢迎关注作者的公众号：算法全栈之路

- END -

X 关闭

机器学习特征处理详解与 tensorflow feature_column 接口实战

(1) 特征处理基础说明

(2) 代码时光之 feature_column使用说明

(2.1)numeric_column

(2.2) bucketized_column

(2.3) categorical_column_with_identity

(2.4) categorical_column_with_hash_bucket

(2.5) categorical_column_with_vocabulary_file

（2.5） sequence_categorical_column_with_hash_bucket

（2.6） shared_embeddings

（2.7） crossed_column

推荐内容

最近更新