400-123-4657
当与区块链数据集一起用于时,机器学习模型往往不会过数值。什么是过度数值以及如何解决问题?乍一看,用于机器学习来分析区块链数据集的点子听得一起十分更有人,但这是充满著挑战的道路。在这些挑战中,当将机器学习方法应用于区块链数据集时,缺乏标记数据集依然是要解决的仅次于难题。
这些局限性造成许多机器学习模型用于十分小的数据样本展开操作者,以训练和过度优化那些引发过数值现象的模型。今天,我想要深入探讨区块链分析中的过度数值挑战,并明确提出一些解决方案。
过度数值被指出是现代深度自学应用程序中的仅次于挑战之一。从概念上谈,当模型分解的假设过分合适特定数据集的假设而无法适应环境新的数据集时,就不会再次发生过度数值。
解读过度数值的一个简单转换是将其视作模型中的幻觉。本质上,模型从数据集中于推断出错误的假设时会产生幻觉/过度数值。自从机器学习的早期以来,早已有很多关于过数值的文章,所以我不指出有任何聪慧的方法来说明它。
对于区块链数据集,过度数值是缺乏标记数据的必要结果。区块链是大型的半电子邮件数据结构,其中的所有事物都用于一组标准化的结构回应,例如交易,地址和区块。从这个角度来看,有最多的信息可以证明区块链记录。
这是账户还是缴付交易?这是个人投资者钱包或交易所冻钱包的地址?这些限定符对于机器学习模型至关重要。想象一下,我们正在创立一个模型来检测一组区块链中的互相交换地址。这个过程必须我们用于现有的区块链地址数据集训练模型,我们都告诉这不是很少见。
如果我们用于来自EtherScan或其他来源的小型数据集,则该模型可能会过度白鱼拆分作出错误的分类。使过数值显得如此具备挑战性的方面之一是很难在有所不同的深度自学技术中展开总结。卷积神经网络偏向于构成过数值模式,该模式与仔细观察到的与分解模型有所不同的迭代神经网络有所不同,网卓新闻网,该模式可以外推到任何类型的深度自学模型。
具备嘲讽意味的是,过度数值的偏向随着深度自学模型的计算能力线性减少。由于深度自学主体完全可以免费产生简单的假设,因此过数值的可能性减少了。在机器学习模型中,过度数值是一个持续的挑战,但是在用于区块链数据集时,这完全是必定的。
解决问题过度数值的显著答案是用于更大的训练数据集,但这并不总是一种自由选择。在IntoTheBlock,我们常常遇上过度数值的挑战,我们依赖一系列基本方法来解决问题。
对付区块链数据集过数值的三种非常简单策略对付过度数值的第一个规则是认识到这一点。虽然没避免过度数值的灵丹妙药,但实践经验指出,一些非常简单的,完全是常识的规则可以协助避免在深度自学应用于中经常出现这种现象。为了避免过度数值,早已公布了数十种最佳实践中,其中包括三个基本概念。
数据/假设比率当模型产生过于多假设而没适当的数据来检验它们时,一般来说不会再次发生过度数值。因此,深度自学应用程序不应尝试在测试数据集和不应评估的假设之间维持必要的比率。但是,这并不总是一种自由选择。
有许多深度自学算法(例如概括自学)依赖大大分解新的,有时是更加简单的假设。在这些情况下,有一些统计资料技术可以协助估算准确的假设数量,以优化寻找相似准确的假设的机会。尽管此方法无法获取清楚的答案,但可以协助在假设数量和数据集构成之间维持统计平衡的比率。哈佛大学教授莱斯利·瓦利安特(Leslie Valiant)在他的《大约是准确的》一书中出众地说明了这一概念。
展开区块链分析时,数据/假设比率非常明显。假设我们正在基于一年的区块链交易建构预测算法。因为我们不确认要测试哪种机器学习模型,所以我们用于了一种神经架构搜寻(NAS)方法,该方法针对区块链数据集测试了数百种模型。
假设数据集仅有包括一年的交易,则NAS方法可能会产生一个几乎合适训练数据集的模型。反对非常简单假设避免深度自学模型过度数值的概念上荒谬但技术上艰难的点子是大大分解更加非常简单的假设。当然!非常简单总是更佳,不是吗?但是在深度自学算法的背景下,一个更加非常简单的假设是什么?如果我们必须将其增加到一个定量因素,我会说道深度自学假设中的属性数量与它的复杂度成正比。
非常简单的假设往往比其他具备大量计算出来和理解属性的假设更加更容易评估。因此,与简单模型比起,较非常简单的模型一般来说容易过数值。现在,下一个显著的难题是弄清楚如何在深度自学模型中分解更加非常简单的假设。一种不过于显著的技术是基于估算的复杂度将某种形式的惩罚可选到算法上。
该机制偏向于偏向于更加非常简单,近似于精确的假设,而不是在经常出现新的数据集时可能会瓦解的更加简单(有时甚至更加精确)的假设。
本文来源:南宫NG·28-www.uhui0431.com