互联网金融

论坛 期权论坛 期权     
期权匿名问答   2022-10-26 19:22   5538   0
互联网金融:传统金融结合互联网技术和互联网思维,以大数据为核心,在服务模式和风险管控上进行深层变革所产生的全新的金融业态。
一、金融

(一)授信、用信
1. 授信:对企业资质的评价判断,授予银行的信用给你,简称贷款审批
2. 用信:企业已有我行对你的信用,使用我行的信用叫用信,简称额度使用
(二)进件、出件
1. 进件:进件是指把资料准备好后提交给贷款公司或银行的系统里面
2. 出件:指把资料提交到银行或贷款公司后不想办理贷款了,把资料在拿回来的过程
(三) 风控
1.风控应用场景
        - 征信评估
        - 反欺诈服务
        - 监控预警
2. 风控技术
        - 生物特征识别技术
        - 机器学习技术
                - 反欺诈应用
                - 信用预测
        - 爬虫技术:爬虫技术主要用于个人征信评估、关系图谱及风险分析
        - ID-Mapping技术:跨屏、跨设备跟踪,将一个用户的手机、PC、平板等设备的上的行为信息串联到一起,充分聚合个人身份及行为信息
3.NLP技术:自然语言处理技术
4.风控决策引擎:风控决策引擎是对复杂的业务逻辑抽象化剥离出来的业务规则进行不同的分支组合、关联,然后层层规则递进运算,最终输出决策结果的产品。风控决策引擎常用功能模块主要是规则、评分卡、模型、表达式、决策流。
        (1)变量:如果说数据是原料,策略是产品的话,那么变量就是当中的零部件了。一个完整的风控策略依赖的关键变量可能有几百上千个,底层的变量池子就远远大于这个数。变量中心在风控平台中是最重要但是同时也最容易被人忽视的一部分,一方面不像审批系统、决策引擎那样是完整的产品平台,也不像底层数据平台那么有完整的技术方案。变量在不同公司体系里面,形态有很多,可以是一个接口,也可以是一段SQL。
       (2)规则/策略:根据业务经验,有一些风险情况很少发生,然而一旦发生,导致风险的可能性就会非常大,而这些情况通过综合的评分难以体现,很容易被其他指标的表现所“平均”掉,但通过规则却能够比较明显的表现出来,是一种很直观的专家经验。规则模块常用的产品实现方式:规则集、规则表、规则树。
        (3)评分卡:评分卡是对目标的信息进行分析打分的表达方式,表示此人或此机构由于信用活动的拒付行为所造成损失风险的可能性,评分通常用于对个人或机构的风险管理与评估。评分卡实际也是规则的变形,通过有变量、表达式、条件值、得分四部分组成,当然评分卡还会有得分的计算方式,例如求和、加权求和等。
        (4) 模型:模型是根据客户的各个特征维度量化而成的指标,通过数理统计的方法,选择区分度相对较高的几个,并赋予不同的分值,来评估客户的信用风险等级。开发模型需要具备一定的样本量,通过样本反映出的普遍规律,或辅助以专家经验,来研究和分析客户的风险情况,最终结果多以综合评分的形式展示。模型在决策引擎中,对于决策引擎平台实际是一个已经封装好了的产品,决策引擎只会负责入参变量的配置、出参变量的配置以及模型的调用,所以这个模块的核心主要是考虑模型的类型(py、model)、调用逻辑、入参以及出参变量的配置。
        (5) 策略:策略一般是由“模型”+“规则”两部分构成,通过将模型评分和规则结果的组合应用,实现差异化、专业化和精细化的风险管理。在整个策略体系中,模型是核心,规则起到补充作用,在不同的业务阶段,模型和规则的侧重不同,比如新业务上线初期,样本量不足,则主要以专家经验制定的业务规则为主,而后期会根据样本量的情况增加模型。纯模型决策的模式是未来的方向,但当前大部分企业实践中,还是以“模型”+“规则”的方式并行,尤其是银行,对规则的侧重可能会更高一些。
        模型与规则的作用区别:
第一,通常模型反映的是整体的、主要的、一般的规律,是各种风险指标的综合表现,分数的高低可能是多个因素导致,而规则反映的是局部的、次要的、特殊的规律,单一维度,简单明了,代表极端情况。
第二,模型可以将复杂的业务问题简化,但仅使用评分并不能完全保证风险的有效控制,而且部分指标也难以直接作为变量放入模型中,那么就需要通过规则捕捉难以在评分中表现出来的特殊的风险特征,对模型进行补充。
第三,规则的灵活性比较高,根据风险变化,可随时增加会删减,但模型的调整则需要较长的时间监控、一定的数据积累才能完成。
第四,模型中使用的指标,在规则中也可以重复使用,这是因为虽然指标相同,但是使用的方法和目的不同
5. 风控模型
        (1) 风险模型:申请评分卡模型、行为评分卡模型、提额模型、息费敏感模型、催收评分卡模型、多头风险模型
        (2)非风险模型-量化增长:用户现金贷需求预测、营销响应模型、借款可能性预测模型、客户流失模型、模型分的有效性预测模型
        (3)非风险模型-其他:收入模型、负债模型、破产模型、职业模型、有孩模型、有房模型
        (4)贯彻营销场景、信贷场景、支付场景等几乎所有场景的模型:反欺诈模型

(四) 互联网金融分类
1.消费金融
        (1)授信申请
        授信申请是用户提交资料申请贷款额度的过程,重点包括4个环节:签署协议、实名认证、个人资料和增信资料的采集。其中应用到电子签章、人脸识别、活体检测、OCR识别的技术。此外银行卡绑卡环节涉及与银联对接,通过银联对数据准确性进行核验。
        (2)信贷审批
                1) 自动审批
                        A.准入规则/反欺诈规则
        一般都是通过公司建模完成的,如果没有数据基础,可以和第三方公司合作。根据设定准入指标将用户信息和自由数据库或第三方的数据库进行比对,常见对比的维度有:手机号黑名单、高风险欺诈区域、学历信息、职业等。
                        B.评分规则
        评分是面向通过准入规则的用户,将用户指标量化进行评分。通过设置权重、指标值及对应分值,将用户输入的信息进行评分汇总,年龄、学历、性别等都可作为评分项。对于满足准入规则的用户,通过指标量化进行评分。难点是合理的建立评分指标和评分规则(选取指标,指标值及分值,指标权重,等级划分)。目前评分卡有一些服务商可以提供:蚂蚁金服的芝麻信用分、同盾贷前分、联通信用分等(引入外部指标值)。评分结束后用户自然被分层:A级、B级、C级、D级等,通过对用户的分层,对于A级信用良好的用户可以直接授予较高额度,其他级别则授予较低额度若用户需要额度较高需要通过人工审核进行提升。用户分层的另一个好处就是能够很好的识别出高质量用户、普通用户,这些用户的需求是不一样的,通过对比研究每种用户的行为数据,方便做针对性的运营活动。
                        C. 用户分层/优质用户标签
        评分卡之外的加分项,命中优质标签越多,可按加分分值确定额度提额等级。
                2)人工审批
         人工审核一般在提升额度时进行,审核的方式也是多种多样,有线上人工审核也有线下面签形式的人工审核。流程中一般会采用「电核」+「初审」+「复审」,每一步骤中都会有「通过」、「不通过」、「存疑」。
        (3)用信支付
                - 直接支付
                - 延后付款:延长账期,30天免利息的账期
                - 分期付款:等本等费还款方式,每期金额=本金+本金x服务费率
        (4) 资金结算
                1) 贷款核算
                        ① 分期试算:根据还款方式,在用户支付前将还款期数,每期还款金额,利息,手续费提前展示给用户进行选择
                                - 贷款核算常用的五种还款方式:一次性还本付息、分期付息一次还本、等额本金、等额本息、等本等费
                        ②生成还款计划:额度支付成功后,依据还款方式,生成还款计划表,供用户还款参考。同时,也是作为金融机构对用户进行还款跟踪,财务记账,贷款调整,债务催收,债后核销环节的基础数据
                        ③ 记账:财务上的记账,将贷款核算的数据,用复试记账记录的会计分录中。三个环节环环相扣,三个环节数据要保持一致,包括业务数据和财务数据一致。
                2) 贷后管理
                        ①贷后营销
                                - 客户画像、客户需求识别和创造、精准营销。是对客户的整个生命周期进行管理。
                        ②贷后风险管控
                                - 包括风险监测、风险预警、贷后催收、不良资产处置4个核心环节,并对其中涉及的业务流程、规则引擎与模型进行了详细介绍。
        (5) 用户还款、商户结算
                ① 主动还款
                        - 消费金融公司和小贷公司是没有办法是不能作为金融通道收付款的,必须选择和银行合作或者支付公司合作。
                ②代扣还款
                ③商户结算
                        - 商户结算是金融机构把用户购买商品或者服务的货款,定期的结算给到合作商户,并且进行财务记账的一个过程。其可借助第三方支付公司的资金通道也可通过企业网银进行转账支付
        (6) 现金贷
                ① 分期付款贷款
                        - 约定借款人在将来的一段时间内,以固定而有规律的付款方式偿还贷款
                ②单笔付款贷款
                        - 单笔支付贷款是一种短期的贷款,贷款期限通常短于1年,并规定在期限终了时,借款人应将全部贷款一次付清
                ③一般用途信用卡
2.大数据金融
        定义:大数据金融是利用大数据技术突破、革新并发展传统金融理论、金融技术和金融模式的一种全球性趋势。广度上,大数据金融重塑了银行业、保险业、证券投资业等金融行业的核心领域。深度上,大数据金融不仅推动了金融实务的持续创新,更催生了金融模式的深刻变革。
3. 第三方支付
        定义:所谓第三方支付,就是一些和产品所在国家以及国内外各大银行签约、并具备一定实力和信誉保障的第三方独立机构提供的交易支持平台。在通过第三方支付平台的交易中,买方选购商品后,使用第三方平台提供的账户进行货款支付,由第三方通知卖家货款到达、进行发货;买方检验物品后,就可以通知付款给卖家,第三方再将款项转至卖家账户。例如:支付宝。
4.众筹
        定义:大众筹资,是指用团购+预购的形式,向网友募集项目资金的模式。众筹利用互联网和SNS传播的特性,相对于传统的融资方式,众筹更为开放,能否获得资金也不再是由项目的商业价值作为唯一标准,为更多小本经营或创作的人提供了无限的可能。
5.P2P网贷
        定义:网贷,又称P2P网络借款。P2P是英文peer to peer的缩写,意即"个人对个人"。典型的模式为:网络信贷公司提供平台,由借贷双方自由竞价,撮合成交。资金借出人获取利息收益,并承担风险;资金借入人到期偿还本金,网络信贷公司收取中介服务费。P2P网贷最大的优越性,是使传统银行难以覆盖的借款人在虚拟世界里能充分享受贷款的高效与便捷。
6.数字货币
        定义:数字货币是指数字化人民币,是一种法定加密数字货币,其本身是货币而不仅仅是支付工具。它与支付宝、微信支付具有本质不同。支付宝、微信支付和手机银行等其实都是电子货币,并非是数字货币。平常所说的Q币、比特币,这些都属于虚拟货币,与数字货币相比最根本的区别在于发行者的不同。

7. 投资理财
         互联网理财产品:阿里的余额宝,腾讯的腾讯财富通,百度旗下的百度理财,甚至还有工商银行手机客户端品牌全新升级"融e行"
二、大数据

(一)基础技术
hive大数据计算,基于reducemap
hbase大数据存储,写入和读取
hbase是数据库、hive是数据仓库,而这有很大的区别、也有很多类似的地方比如都属于hadoop生态圈、存储都基于hdfs等。一般来说用hive作为海量结构化全量数据的存储、运算、挖掘、分析;hbase用来作为海量半结构化数据的存储、检索;这二者可以很好协同工作,hive上计算完的结果放在hbase中供检索,也可以将hbase里面的结构化数据和hive相结合,实现对hbase的sql操作.
Hive和Hbase是两种基于Hadoop的不同技术–Hive是一种类SQL的引擎,并且运行MapReduce任务,Hbase是一种在Hadoop之上的NoSQL 的Key/vale数据库。当然,这两种工具是可以同时使用的。就像用Google来搜索,用FaceBook进行社交一样,Hive可以用来进行统计查询,HBase可以用来进行实时查询,数据也可以从Hive写到Hbase,设置再从Hbase写回Hive。
1.Hadoop、Hive、Spark 之间关系:底层HDFS,上面跑MapReduce/Tez/Spark,在上面跑Hive,Pig
        (1)HDFS(Hadoop Distributed FileSystem):大数据,首先你要能存的下大数据;传统的文件系统是单机的,不能横跨不同的机器;HDFS的设计本质上是为了大量的数据能横跨成百上千台机器,但是你看到的是一个文件系统而不是很多文件系统;HDFS为你管理这些数据;
        (2)MapReduce / Tez / Spark:存的下数据之后,你就开始考虑怎么处理数据。虽然HDFS可以为你整体管理不同机器上的数据,但是这些数据太大了,单机处理是不可忍受的,要用很多台机器处理,就面临了如何分配工作,如果一台机器挂了如何重新启动相应的任务,机器之间如何互相通信交换数据以完成复杂的计算等;这就是MapReduce / Tez / Spark的功能。MapReduce是第一代计算引擎,Tez和Spark是第二代。
                - Hive on Tez / Spark和SparkSQL:MapReduce慢,但是如果我用新一代通用计算引擎Tez或者Spark来跑SQL,那我就能跑的更快。而且用户不需要维护两套系统
        (3)Hive:把脚本和SQL语言翻译成MapReduce程序,丢给计算引擎去计算,从繁琐的MapReduce程序中解脱出来,用更简单更直观的语言去写程序了;数据分析人员可以直接运用,程序员不用写一次性程序;Hive成了大数据仓库的核心组件;
                - Impala,Presto,Drill:Hive在MapReduce上跑太慢,太通用,太强壮,太保守,我们SQL需要更轻量,更激进地获取资源,更专门地对SQL做优化,而且不需要那么多容错性保。这些系统让用户更快速地处理SQL任务,牺牲了通用性稳定性等特性;HDFS上直接跑Impala,Drill,Presto;
        (4)Storm:更高速的处理,Streaming(流)计算;Storm是最流行的流计算平台;流计算的思路是,如果要达到更实时的更新,直接在数据流进来的时候就处理了;流计算基本无延迟,短处不灵活,统计的东西必须预先知道,毕竟数据流过就没了,你没算的东西就无法补算了。因此它是个很好的东西,但是无法替代上面数据仓库和批处理系统。
2.KV Store/HBase(Hadoop databse):独立的模块,一堆键值,能很快速获取与这个Key绑定的数据;这个动作用MapReduce也能完成,但是很可能要扫描整个数据集。而KV Store专用来处理这个操作,所有存和取都专门为此优化了。KV Store的理念是,基本无法处理复杂的计算,大多没法JOIN,也许没法聚合,没有强一致性保证(不同数据分布在不同机器上,你每次读取也许会读到不同的结果,也无法处理类似银行转账那样的强一致性要求的操作)。但是就是极快。
        (1).Column不用创建表时定义即可以动态新增;
        (2).HTable按Row key自动排序,每个Row包含任意数量个Columns,Columns之间按Column key自动排序,每个Column包含任意数量个Values
       (3).HBase通过row和column确定一份数据,这份数据的值可能有多个版本,不同版本的值按照时间倒序排序,即最新的数据排在最前面,查询时默认返回最新版本
hbase是NOSQL数据库的一种,基于分布式列式存储,适合海量半结构化带时间序列的数据的存储和检索,性能较优秀,hbase底层存储依赖于hdfs,与rdbms的区别与其他nosql类似,比如不支持SQL、事务性相对较差等等
mysql和hbase应用场景对比_卜大伟的博客-CSDN博客
(二) 元数据、数据治理
1.元数据:描述数据的数据,对数据及信息资源的描述性信息。元数据(Metadata),又称中介数据、中继数据,为描述数据的数据(data about data),主要是描述数据属性(property)的信息,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。
2. 数据治理:专注于将数据作为企事业单位数据资产进行应用和管理的一套管理机制,能够消除数据的不一致性,建立规范的数据应用标准,提高数据质量,实现数据内外部共享,并能够将数据作为组织的宝贵资产应用于业务、管理、战略决策中,发挥数据资产价值
(三) 数据处理分类:OLTP、OLAP
1. 联机事务处理OLTP:OLTP是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易;数据量少,DML频繁,并行事务处理多,但是一般都很短;
        - 例如:MySQL,Oracle,SqlServer,DB2
2. 联机分析处理OLAP:OLAP是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果;数据量大,DML少;
        - 例如:AWS Redshift,Greenplum,Hive
(四)  es与clickhouse
1.es
        缺点: ES某些聚合统计会存在损失精准度的问题;损失精准度的原因是分片处理中间结果,汇总引起的误差,是ES实时性和精准度的权衡;可以通过调大shard_size等方法增加精准度;
2.clickhouse
        应用场景:
(1).绝大多数请求都是用于读访问的
(2).数据需要以大批次(大于1000行)进行更新,而不是单行更新;或者根本没有更新操作
(3).数据只是添加到数据库,没有必要修改
(4).查询频率相对较低(通常每台服务器每秒查询数百次或更少)
5.数据一致性要求较低

(五) 数据中心整体架构
1. ODS(Operational Data Store):操作性数据/贴源层
ODS存储的是当前的数据情况,给使用者提供当前的状态,提供即时性的、操作性的、集成的全体信息的需求。ODS作为数据库到数据仓库的一种过渡形式,能提供高性能的响应时间,ODS设计采用混合设计方式。ODS中的数据是"实时值",而数据仓库的数据却是"历史值",一般ODS中储存的数据不超过一个月,而数据仓库为10年或更多。
        (1) 作用
                1)在业务系统和数据仓库之间形成一个隔离层。
                        一般的数据仓库应用系统都具有非常复杂的数据来源,这些数据存放在不同的地理位置、不同的数据库、不同的应用之中,从这些业务系统对数据进行抽取并不是一件 容易的事。因此,ODS用于存放从业务系统直接抽取出来的数据,这些数据从数据结构、数据之间的逻辑关系上都与业务系统基本保持一致,因此在抽取过程中极大降低了数据转化的复杂性,而主要关注数据抽取的接口、数据量大小、抽取方式等方面的问题。
                2)完成数据仓库中不能完成的一些功能。
                        一般来说,带有ODS的数据仓库体系结构中,DW层所存储的数据都是进行汇总过的数据和运营指标,并不存储每笔交易产生的细节数据,但是在某些特殊的应用中,可能需要对交易细节数据进行查询,这时就需要把细节数据查询的功能转移到ODS来完成,而且ODS的数据模型按照面向主题的方式进行存储,可以方便地支持多维分析等查询功能。即数据仓库从宏观角度满足企业的决策支持要求,而ODS层则从微观角度反映细节交易数据或者低粒度的数据查询要求。 在一个没有ODS层的数据仓库应用系统体系结构中,数据仓库中存储的数据粒度是根据需要而确定的,但一般来说,最为细节的业务数据也是需要保留的,实际上也就相当于ODS,但与ODS所不同的是,这时的细节数据不是“当前、不断变化的“数据,而是“历史的,不再变化的”数据。这样的数据仓库的存储压力和性能压力都是比较大的,因此对数据仓库的物理设计和逻辑设计提出了更高的要求。
                3) 转移一部分业务系统细节查询的功能。
                        在数据仓库建立之前,大量的报表、分析是由业务系统直接支持的,在一些比较复杂的报表生成过程中,对业务系统的运行产生相当大的压力。ODS的数据从粒度、组织方式等各个方面都保持了与业务系统的一致,那么原来由业务系统产生的报表、细节数据的查询自然能够从ODS中进行,从而降低业务系统的查询压力。
        (2) 使用角色
                主要面向营业、渠道等一线生产人员和一线管理人员,为了实现准实时、跨系统的运营细节数据的查询,以获得细粒度的运营数据展现,例如渠道人员查询客户的全视图信息由ODS提供数据支撑
        (3) 数据来源
                ODS需要的大部分运营数据直接来源生产系统。 ODS中的部分分析结果数据来源于EDW,例如客户 洞察信息等。
        (4)数据获取性能和及时性
               ODS支持OLTP类型的数据更新,数据更新时间短,数据可实现准实时更新,性能与及时性都高于EDW

2.DW (Data Warehouse):数据仓库
DW是一个很大的数据存储集合,出于企业的分析性报告和决策支持目的而创建,对多样的业务数据进行筛选与整合。它为企业提供一定的BI(商业智能)能力,指导业务流程改进、监视时间、成本、质量以及控制。数据仓库是面向主题的、集成的、稳定的、随时间变化的,反应历史变化的数据集合,主要用于决策支持的数据库系统。重点:DW是反映历史变化,ODS是反映当前变
        (1) 特性
                1)面向主题(Subject Oriented)操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织的。
                2)集成的(Integrated)数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。
                3)相对稳定的(Non-Volatile) 数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。
                4)反映历史变化(Time Variant) 数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。
        (2)功能结构划分
                - 数据获取(Data Acquisition)
                - 数据存储(Data Storage)
                - 数据访问(Data Access)
        (3) 使用角色
                - 面向专业分析人员、辅助决策支持人员等,为了实现基于历史数据的统计分析和数据挖掘,以获得客户深层次的特征和市场发展的规律,例如专业分析人员的经营状况趋势分析由EDW提 供支撑。
        (4) 数据来源
                - EDW需要的运营数据,如果在ODS中已存在,EDW则直接从ODS获取这部分数据。EDW需要的运营数据,如果在ODS中没有,EDW则直接从生产系统获取这部分数据。
        (5) 数据获取性能和及时性
                - EDW中的数据一般通过批量加载进入,数据更新速度慢,无法实现准实时更新,数据更新时间不足以支持实时的报表和事件监控需求
3.DM(Data Mart):数据集市
为了特定的应用目的或应用范围,而从数据仓库中独立出来的一部分数据,也可称为部门数据或主题数据。面向应用。
        (1) 特征
                1)DM结构清晰,针对性强,扩展性好,因为DM仅仅是单对一个领域而建立,容易维护修改
                2)DM建设任务繁重,公司有众多业务,每个业务单独建立表
                3)DM的建立更多的消耗存储空间,单独一个DM可能数据量不大,但是企业所有领域都建立DM这个数据量就会增加多倍
- 相关概念
        - ETL:数据抽取(Extract)、清洗(Cleaning)、转换(Transform)、装载(Load)的过程
     (2) 宽表、窄表:
- 宽表:从字面意义上讲就是字段比较多的数据库表。通常是指业务主题相关的指标、维度、属性关联在一起的一张数据库表。由于把不同的内容都放在同一张表存储,宽表已经不符合三范式的模型设计规范,随之带来的主要坏处就是数据的大量冗余,与之相对应的好处就是查询性能的提高与便捷。这种宽表的设计广泛应用于数据挖掘模型训练前的数据准备,通过把相关字段放在同一张表中,可以大大提高数据挖掘模型训练过程中迭代计算时的效率问题。(一句话,空间换时间,便于训练迭代、减少表关联数量,修改少量数据时不需要该多张表)
- 窄表:严格按照数据库设计三范式。尽量减少数据冗余,但是缺点是修改一个数据可能需要修改多张表
   (3) 数据分析
- 埋点、如何埋点
        - 埋点:埋点就是为了采集数据,在产品的某些地方提前埋伏好,来获取数据
        - 如何埋点:公司开发人员在产品的某些地方加上(“埋伏”)代码来统计用户行为数据,然后有一个后台可以查看这些采集到的数据,方便日后分析
        - 如何规划埋点:通过三步进行:业务流程是什么?->分析目标是什么?->采集哪些数据?
三、互联网

(一) IDC
- 互联网数据中心(Internet Data Center,简称IDC)是指一种拥有完善的设备(包括高速互联网接入带宽、高性能局域网络、安全可靠的机房环境等)、专业化的管理、完善的应用的服务平台。在这个平台基础上,IDC服务商为客户提供互联网基础平台服务(服务器托管、虚拟主机、邮件缓存、虚拟邮件等)以及各种增值服务(场地的租用服务、域名系统服务、负载均衡系统、数据库系统、数据备份服务等)
(二) Daas、Iaas、Paas、Saas
- IaaS:基础设施服务,Infrastructure-as-a-service。IaaS 是云服务的最底层,主要提供一些基础资源。它与 PaaS 的区别是,用户需要自己控制底层,实现基础设施的使用逻辑。
- PaaS:平台服务,Platform-as-a-service。PaaS 提供软件部署平台(runtime),抽象掉了硬件和操作系统细节,可以无缝地扩展(scaling)。开发者只需要关注自己的业务逻辑,不需要关注底层。
- SaaS:软件服务,Software-as-a-service。SaaS 是软件的开发、管理、部署都交给第三方,不需要关心技术问题,可以拿来即用。普通用户接触到的互联网服务,几乎都是 SaaS。

四、机器学习

(一) 三要素(参考流程图)
- 策略:1.指如何构造模型 2.使用一种什么样的评价度量模型训练过程中的学习好坏的方法,同时根据这个方法去实施的调整模型的参数,以期望训练的模型将来对未知的数据具有最好的预测准确度
- 算法:1.模型的实现  2.是指模型的具体计算方法。它基于训练数据集,根据学习策略,从假设空间中选择最优模型,最后考虑用什么样的计算方法去求解这个最优模型 3.能够解决特定问题的无歧义、机械、有效的运算流程和规则 4.机器学习中的“算法”是在数据上运行以创建机器学习“模型”的过程
        - 有了模型和策略之后的优化算法:梯度下降法、牛顿法
- 模型:1.是机器学习的目的 2.机器学习训练的过程中所要得出的条件概率分布或者决策函数 3.一类问题的解题步骤,即一类问题的算法 4.机器学习中的“模型”是运行在数据上的机器学习算法的输出
        - 模型分类:回归模型、分类模型
(二)机器学习分类
1.有监督学习模型: 答案(标签)+数据=规则,如文本分类
2.无监督学习模型: 无答案+数据=规则,如聚类
3. 半监督学习: 有监督学习+无监督学习
     利用有监督学习训练出的模型对无监督学习训练出的数据答案进行测试,如果两个方法得到的数据答案都是一致的,则将此数据打上标签纳入有监督学习的数据集
4. 强化学习: 基于反馈的学习

*XMind - Trial Version*
分享到 :
0 人收藏
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

积分:391757
帖子:78352
精华:0
期权论坛 期权论坛
发布
内容

下载期权论坛手机APP