行业新闻

万象城娱乐深度练习反思治服了人工智能行业的

日期:2020-03-29 点击数:

  莱斯大学的计算机科学家已经克服了新兴人工智能产业的一个主要障碍,表明如果没有专门的加速硬件,如图形处理单元(GPU),就有可能加快深度学习技术。

  来自赖斯的计算机科学家,在英特尔的合作者的支持下,今天将在奥斯汀会议中心展示他们的结果,作为机器学习系统会议MLSys的一部分。

  许多公司正在大量投资于GPU和其他专门硬件,以实现深度学习,这是一种强大的人工智能形式,背后的数字助理,如Alexa和Siri,面部识别,产品推荐系统和其他技术。 例如,该行业金标TeslaV100TensorCore GPU的制造商Nvidia最近报告说,其第四季度收入比上一年增加了41%。

  赖斯的研究人员创造了一个节省成本的替代GPU,一种称为“次线性深度学习引擎”(SLIDE)的算法,它使用通用的中央处理单元(CPU),没有专门的加速硬件。

  赖斯布朗工程学院的助理教授Anshumali Shrivastava说:“我们的测试表明,SLIDE是在CPU上进行深度学习的第一个智能算法实现,在具有大型全连接架构的行业规模推荐数据集上,它可以优于GPU硬件加速。

  幻灯片不需要GPU,因为它需要一种根本不同的深度学习方法。 深度神经网络的标准“反向传播”训练技术需要矩阵乘法,这是GPU的理想工作负载。 使用SLIDE,Shrivastava,Chen和Medini将神经网络训练变成了一个搜索问题,可以用哈希表来解决。

  与反向传播训练相比,这从根本上减少了SLIDE的计算开销.. 例如,一个顶级的GPU平台,如亚马逊、谷歌和其他为基于云的深度学习服务提供的平台,有八个特斯拉V100s,成本约$10万美元,Shrivastava说。

  我们在实验室里有一个,在我们的测试用例中,我们使用了一个非常适合V100的工作负载,一个在适合GPU内存的大型、完全连接的网络中具有超过1亿个参数的工作负载。 “我们用谷歌的TensorFlow这个最好的软件包来训练它,花了3个半小时来训练。

  Shrivastava说:“我们的新算法可以在一小时内完成训练,而不是在GPU上,而是在44核Xeon级CPU上。”

  深度学习网络受到生物学的启发,它们的中心特征,人工神经元,是可以学习执行特定任务的小型计算机代码。 一个深度学习网络可以包含数百万甚至数十亿的人工神经元,它们可以一起工作,仅仅通过研究大量数据就可以学会做出人类层面的专家决策。 例如,如果一个深度神经网络被训练来识别照片中的物体,它将使用不同的神经元来识别猫的照片,而不是识别校车。

  “你不需要在每个病例上训练所有的神经元,”梅迪尼说。 “我们想,‘如果我们只想选择相关的神经元,那就是一个搜索问题。’ 因此,在算法上,我们的想法是使用局部敏感散列来摆脱矩阵乘法。

  哈希是20世纪90年代为互联网搜索而发明的一种数据索引方法。 它使用数字方法来编码大量的信息,比如整个网页或一本书的章节,作为一串数字,称为散列。 哈希表是可以很快搜索的哈希表。

  陈说:“在TensorFlow或Py Torch上实现我们的算法是没有意义的,因为他们想做的第一件事就是把你正在做的任何事情转换成矩阵乘法问题。” “这正是我们想要摆脱的。 所以我们从头开始编写自己的C代码。“

  Shrivastava说,与反向传播相比,SLIDE最大的优势在于它是数据并行的。

  他说:“数据并行,我的意思是,如果我有两个数据实例,我想训练,假设一个是猫的图像,另一个是公共汽车的图像,它们可能会激活不同的神经元,而幻灯片可以独立更新或训练这两个。” “这是对CPU并行性的更好利用。

  与GPU相比,另一方面是我们需要很大的记忆力。 “主存储器中有一个缓存层次结构,如果您不小心,您可能会遇到一个名为缓存重击的问题,在这个问题中,您会得到很多缓存丢失。”

  Shrivastava说,他的小组第一次使用SLIDE的实验产生了显著的缓存冲击,但他们的训练时间仍然与GPU训练时间相当或比GPU训练时间更快。 因此,他、陈和梅迪尼在2019年3月在ar Xiv上发布了初步结果,并将他们的代码上传到GitHub。 几周后,他们被英特尔联系。

  他说:“我们的英特尔合作者认识到缓存问题。 “他们告诉我们,他们可以和我们合作,使火车更快,他们是对的。 在他们的帮助下,我们的成绩提高了大约50%。”

  他说:“我们刚刚擦破了表面。 “我们还有很多事情要做。 例如,我们没有在CPU中使用矢量化或内置加速器,比如英特尔深度学习Boost。 我们还可以用很多其他的技巧来使这种速度更快。”

  Shrivastava说,SLIDE很重要,因为它显示了实现深度学习的其他方法。

  陈说:“整个信息是,‘让我们不要被乘法矩阵和GPU内存所阻碍’。 “我们可能是第一个击败GPU的算法,但我希望这不是最后一个。 这个领域需要新的想法,这是MLSys的一大部分。”