首页
智能设备
数据安全
绿色科技
栏目分类

数据安全

你的位置:未来探索网 > 数据安全 > 什么是好算法

什么是好算法

发布日期:2025-03-23 15:53    点击次数:62

什么是好算法

在诈欺科学界限,算法的选拔和诈欺是一个复杂的问题,它波及到数学、工程和业务政策等多个方面。这篇著作,咱们来望望算法的增益、部署问题、线性与非线性模子的选拔,以及树模子和神经收集算法的适用场景。

其实,在诈欺科学界限,这是最微不及说念的。

AI,即是数学的游戏,这不可算贬义,因为数学简直是金冠。

算法带来的逾额后果很小。除了逻辑回想复杂度较低除外,xgb、lgb,神经网弱等学习智商齐很强,算法的增益实在不错忽略不计。

选拔算法,最费事的是推敲部署问题。要是你们工程上只会逻辑回想的线性计较,那你就只可选逻辑回想。选拔别的算法,要先处治工程问题。但其实齐好处治,也不好处治,主要看系统智商,其次看个东说念主智商。

从线性和非线性的角度说吧,逻辑回想虽然是线性的,神经收集和树模子长短线性的。这个问题带来的限度是,线性的需要分客群,非线性的可能不错不相配需要分客群。

为什么?

ln(odds)=a1x1+a2x2+…,你看抒发式就知说念了,不同客群的通盘矩阵A确定是不一样的,本质上连构成X矩阵的woe值齐不一样。不一样的抒发式,遴选线性的样子强行合成一个,确定是有损的。

那树模子呢?分客群不错看作第一层分裂进行了手动分群,其实还不如不分,留给算法我方分。要是你保证总的复杂度不变的话,我敬佩算法我方分后果会更好。

也即是说,假如分了n个客群,建了n个模子,对比的那一个不分客群的模子,在相通的参数下,评估器的数目应该乘以n。

咱们这里说的是作念模子分不分客群。建模不分客群不代表政策不分客群,作念政策的技术自行去分辨就好了。

有东说念主说,神经收集算法更适宜同质类数据,即数据的每一维变量是有相似含义的,比如图像中的像素、笔墨中的字符、音频中的波形,有谋划树算法更适宜异质类数据,比如风控场景中的年齿、收入、作事等。

有点理由理由,这是结构化数据和非结构化数据的另一种说法。

有东说念主说,在风险建模的技术,若遴选树算法,最常遴选的参数为低深度、高数目(树深时常成立为2-3,树的棵数成立为几十到一百),一朝树深成立过高,则极易产生过拟合,这与咱们对金融数据艰苦高阶信息的评判相符。一朝波及到高阶交叉特征,则此时带来的噪声极可能跨越信号,以致影响到低阶特征的学习后果。关于同质信息,比如数据源齐为多头信息,树深不错成立的高一些,因为此时更深的树也不代表高阶交叉,实质上仅仅归并个信息源的不同分裂节点汉典。

有点理由理由,树深的问题斡旋成高阶不高阶,各执己见智者见智,毕竟树深越深模子越复杂后果即是越好,你不可说它有什么大问题。成立低树深更费事的是和政策,和东说念主的斡旋保抓一致,三个变量交叉也曾够你斡旋的了。至于同质信息,更深的树不代表高阶交叉,这么说也对,毕竟多个多头变量组合你不错斡旋成一个更复杂的多头变量加工。然则不消各异化,仍然保抓低树深即可。

本文由东说念主东说念主齐是家具司理作家【雷帅】,微信公众号:【雷帅快与慢】,原创/授权 发布于东说念主东说念主齐是家具司理,未经许可,退却转载。

题图来自Unsplash,基于 CC0 契约。