新起点,新量化|白波:专利数据的介绍及其在投资领域中的应用

论坛 期权论坛 期权     
XYQUANT   2019-6-21 09:42   2910   0
会议要点


会议主题:
专利数据的介绍及其在投资领域中的应用
主讲人:
深圳德高行知识产品数据技术有限公司 CEO 董事长 白波
会议时间:
2019 年 6 月 11 日  13:30-17:00
创新是驱动国家经济增长的重要因素之一,也是企业实现高速成长、保持长期竞争优势的源泉。随着国人创新意识的增强,专利数据的重要性逐渐深入人心。
兴业金工团队有幸请到德高行的白波先生为我们带来主题演讲—“专利数据介绍及其在投资领域中的应用”。白波先生从:1)专利数据的来源及其特点;2)专利指标特征及定义;3)专利指标在二级市场中的应用三方面深层次介绍了专利数据及其应用。下面是演讲具体内容。
一、公司简介
首先请允许我花一分钟时间介绍一下德高行!深圳德高行知识产权数据技术有限公司是一家知识产权解决方案服务商。从公司成立开始我们就非常重视对于专利数据的研究工作,而不仅仅限于成为一家传统的知识产权服务商。因此,我们从一开始就建构了全中国以及全世界主要国家的专利数据库。我们所有的业务都是基于我们的专利数据,在此数据的基础上延伸来给客户提供服务的。我们是以专利数据作为基础,凭借专利技术分析和IT技术等复合型技能团队,给政府、企业、研究机构和大学等提供数据服务、知识产权的信息化平台服务与专利信息的分析服务。
在介绍数据之前,我想先让大家看两张图。图1代表了从2010年开始一直到2018年中国大陆近十年专利的申请量。可以看到2010年国内的专利申请量首次突破了100万件。这是一个什么样概念呢?也就是说自2010年开始中国已经是全球范围内专利申请量最多的单一申请国家。这个记录一直保持至去年。专利申请量也从100万件飙升至去年的432万件,年复合增长率大概在17%左右,同时底下浅黄色这条线代表的是发明专利,发明专利的增长率还略高于全部的专利的增长速度。

接下来看一下国内上市公司的整个专利情况,图2展示的是申万一级行业分类下每个行业有效的专利存量数据。可以看到不同行业下专利存量数据的分布情况,比如说家电、电子、汽车、电子设备这些行业相对来说是排在前面。当然这里的专利数是指全部的专利数,假如将发明专利单独拿出来,它的排序是会有一些变化。

二、专利数据来源及其特点
前面提到德高行是以构建自己的数据库为核心去开展业务的。那么相信大家最关心的一个问题,尤其是做量化的人最关心的一个问题,就是数据的来源以及数据的稳定性与完整性问题。
在这里,可以非常负责任的说,德高行的数据全部来自于国家知识产权局的官方机构。中国的专利数据是从1985年建立了专利制度之后才慢慢发展起来的,然后一直持续到今天。在德高行成立之初(2016年),2016年以前的数据是需要从官方机构购买数据再进行加工的。2016年之后的数据是通过申请,国家知识产权局给德高行开通了数据接口。换言之,从2016年之后,德高行不再需要花钱去购买数据。同时这个数据一直到今天都维持了较为稳定的动态更新,更新频率为周频。
需要解决的一个关键性问题是在拿到原始数据之后,如何对它进行加工以得到有价值的信息呢?一些人误以为专利数据是可以从国家知识产权局的官方网站或者其他一些网站下载得到的。但其实这样得到的数据往往是一些比较简单的数量型数据。我今天重点要介绍的是怎样通过原始数据,尤其是其中的文本数据去进行进一步的挖掘工作,去挖掘出更多对于量化研究工作有帮助的一些信息。
我们拿到的专利的原始数据可以分为两大类。一类是图片数据。实际上每一件专利都有若干个图片,这种图片无论是发明专利,新型专利,还是外观专利都是有的。但是今天我的重点不是介绍图片数据而是第二类文本数据。图3展示的就是文本数据,实际上这些文本数据包含了很多大家意想不到的可待发掘的金矿,也就是说对于我们证券投资界,尤其是做量化的同仁们,会有些特别有帮助的一些信息。所以我们必须要做到在拥有这样的一些数据的基础上根据业务逻辑的需求做一些分析、挖掘以及演算,并将数据加工形成真正有价值的信息。

接下来看一下整个数据的特点,主要特点有两个:
首先,文本数据还是偏向于结构化的数据。文本数据实际上是根据专利申请这个过程的行为转化而来。最初的专利数据是人工录入和文件形式记录的,而在专利制度发展过了近十年之后,才逐渐形成了信息化的建设,形成了目前给到我们的数据格式。因为涉及到专利的法律权利问题,我认为专利数据的准确性与稳定性是无可挑剔的。
其次,我们可以在原始数据的基础上,根据不同的需求再去做进一步的加工。例如可以将上市公司所有的子公司合并计算,也可以计算不同时点以及时点之前任何一个时间周期专利的具体状况。同时专利的文本数据里面,除了能够解析出显性的,比较简单易于理解的一些专利著录项,比如说发明人、申请人以及申请地址、IPC分类号,公开公告日、公开公告号等信息,还有一些是隐性的或在大家看不到的地方(比如图片信息等),而且这些信息某种程度上是代表了专利的价值,专利的质量,专利的强度等更有价值的信息。
三、专利指标特征与定义
根据这些年的工作的经验以及社会各界提供给我们的不同建议,我们总结出一套方法将专利数据分成四种类别:1)以专利类型区分;2)以核心、非核心区分;3)以专利质量区分;4)以时间段区分。下面我对我们总结出来的专利指标特征和定义进行一个简单的介绍。

3.1
以专利类型区分
第一个,以专利类型区分可以分为发明公开、发明授权、实用新型、外观设计等。其中发明公开代表这件专利的创新程度和技术价值相对较高。而发明授权代表了专利的权利较稳定同时与它核心技术的关联度比较高。
这里对发明公开和发明授权这两个概念做一个简单的解释。发明公开是什么意思呢?按照我国的专利审查制度,发明专利的申请是需要通过实质审查的。换言之,当你递交发明专利申请之后,经过初审,18个月后专利局会公开发明专利申请的内容,同时申请人可以缴费申请进入实质审查阶段。如果自申请日超过30个月内没有缴费和申请实审的话,本次申请是无效的。当然一些用户也可以申请提前审查提前公开。因为这个制度,发明专利申请的时间周期相对来说是比较长的。而发明授权就比较容易理解,是指那些已经授权的发明专利。
同时还有一个类型是实用新型专利,它代表了这件专利是产品的一个局部改良。在实际应用中容易通过实用新型专利布局快速的形成竞争壁垒。同时外观设计是针对产品的外形和花纹。而不同类别的专利,彼此之间的关系,体现了产品与创新的一种特性趋向:例如在不同的行业和领域里面,专利所表现出来的类别特征是不一样的,数量特征也是不一样的。比如在信息技术或者说医药领域,发明专利的比例比较高;而在机械设备、高端制造这样的领域里面实用新型的比例相对来说比较高。

3.2
以核心、非核心专利区分
接下来第二种便是按照核心和非核心专利来区分,我们将核心专利称为有效专利,非核心专利称为无效专利。有效专利一般有下面几种情况:
第一种情况,专利授权之后如果想要保留权利是需要持续缴纳费用的,有持续缴纳费用的专利便是有效专利;
第二种情况,前面我们谈到发明专利是有一个实质审查过程的,在审查中的发明专利真正授权之前也称之为有效专利;
有效专利对企业营收有直接的关系,表现为专利已经在使用、未来将使用或授权他人使用可以通过许可授权获利。
无效专利一般也有几种情况:
第一种就是发明专利未通过实质审查被驳回,也就是说在审查员眼里这件专利是不太具备新颖性和创造性的,即专利性不足;
第二种就是已经授权的专利没有持续的缴纳维持费用也会自动失效;

3.3
以专利质量区分
第三个分类是以专利质量区分,这个也是重点。我们在文本信息当中更多的是挖掘这样的一些信号和信息,而这些隐性的信息是非常具有价值的。比如我们可以利用专利要求的权利项数和要求的独权项来判断权利范围的宽与窄、完整与局限。同时专利申请的时候需要提交一个完整的专利说明书,其中说明书的字数、摘要字数、附图数都是一些隐性指标,可以代表专利具体实施以后内容的丰富与匮乏。
专利的IPC分类号是一个国际通用的代表技术分类的代码。每一个专利都有若干项不同的IPC分类号。IPC分类号与我们证券行业常用的一些分类,比如行业分类、国民经济分类是不一样的。IPC分类纯粹是从技术的角度去做分类,所以我们在具体工作当中遇到了一个挺大的问题:就是专利的IPC分类和我们的国民经济分类,或者是证券行业的分类,应该说是一种多对多的关系。简单的说就是一件专利的IPC分类号如果比较多,它就意味着技术的应用领域比较多。例如两家处于不同行业的公司,其中一家公司拥有一件专利,这个专利的技术除了可以应用到这家公司自己的行业和自己的产品系列当中以外,还能够应用在另外一家公司的技术或它所处行业的某一项技术领域里。
另外发明专利的审查期的长度这个指标也有一定的代表性。在发明专利申请过程当中,审查员经常会给申请人提出一些审查意见并要求申请人给与答复,而是否能够面对和答复通过审查员的数次审查意见,一定程度上反映了申请人的执着与重视。这样的专利我们认为相对来说是有价值的。接下来就是是引用数。证券行业当中很多同仁其实对这个指标有一定的了解。对于文献或是专利来说,引用数越多就代表它的重要性越强。被引用的次数越多一定程度上代表了它作为前案基础性技术的延伸可能性越大。比如说目前我们经常说到的5G,中国5G的核心技术标准必要专利已经占到了全球5G的将近30%,所以说它是绕不过去的。新的技术可能都是在基础技术专利的基础上进行一些延伸,也就是说基础专利被引用的这种可能性很大。
最后两个指标是同族专利和PCT申请公开数。同族专利是指一件专利在国内申请的同时也在海外申请,而PCT专利是在国际知识产权组织申请专利。这两个指标都一定程度的代表专利的技术重要性比较高。

3.4
以时间段区分
第四类是按照时间段来区分。大家应该都知道,不同年份产出的专利作用是不同的。专利的时间效用特征相对来说非常明显。当我们做量化研究的时候会发现不同年份的专利表现出来的分析效果和强度是不一样的。所以我们会按照不同的年份或者是按照不同的时点去加工数据。
不同年份或不同时间段产生的专利,就其本质上首先说明了专利数量累积的能量作用,其次是新旧专利对产品经营影响力的强弱,和技术迭代与更新对企业经营中长期的影响。

以上就是我们所总结出来的四大类专利指标体系。通过以上这种专利指标设计,我们其实已经完成了一个相对比较标准化的,能够以任何时点去做计算的专利指标数据列表,以便我们后续做进一步的演算。
图9为我们底层部分专利指标的样本。TP代码代表了不同的专利指标,例如说TP103代表截止到某一天,有效发明公开的权利要求总项数;TP107代表的IPC分类号数,或是TP201代表有效发明授权专利数。数量不是不重要,但是它不是唯一重要的信息,像TP204代表着有效发明授权的独权总项数,TP206代表摘要总字数,也包括权利要求的寿命、专利的审查期的总和,附图数、引用数等指标。经过不断验证筛选实证研究后,我们现在留下来有40多个专利指标。

四、专利指标在二级市场中的应用
最后我想谈一下这些专利指标在二级市场的应用。其实这些专利的指标在我们具体的工作当中已经起到了一定作用。例如二级市场中,很多投资者用专利数据做选股层面的有效性研究。
我们自己也做了一些尝试。在15年,我们就与深交所的国证指数公司,也就是深交所信息公司共同合作发布了专利领先指数、中小板专利指数和创业板专利指数,目前为止形成了一个专利指数系列。我们最初想要这么做的原因是想将专利数据应用到证券投资领域当中去。深交所信息公司对这一块表现出挺大的兴趣,给予了很多支持。实际上关于专利和投资的关系在学术界是有不少研究与分析的,但我们在全世界的证券交易所还没有发现以专利来命名的股票指数。当时深交所信息公司提出我们应该有一个这样的指数,同时他们表示这个理念很不错。专利策略的投资逻辑是比较容易理解的。专利信息可以看成是:
1)专利是一个企业创新成果的具体表现;
2)注重专利、注重研发的一些企业尤其是长期主动研发的企业其实是在培养自身的核心竞争力;
3)持续进行研发的公司长期来看业绩一般不会太差,最终可能会反映到股价上来。
同时深交所信息公司建议在做专利指数的时候最好用纯粹的专利因子来构建模型,筛选出排名靠前的一些成分股,这样做的主要目的是选出创新能力比较强的上市公司,同时观察它们的股价在市场当中的整体表现到底是怎么样的,也不用去刻意追求一定能够超越大盘或者是基准指数。从他们提供回测结果来看,选股效果还是不错的。这是深交所信息公司自己完成的,也给了我们很大信心。
基于这些理念已经被带入到证券市场当中,我们希望能够透过更加深入的分析和研究把它转化成为产品。当然我们也很清楚,第一步虽然走出去了,但是从方法上讲还是有点简单和粗暴。我觉得术业还是要有专攻的,我们将数据加工成目前这样的一种状态或者这样的一种水平,充其量是作为一个数据原料的供应方,或者叫标准化的半成品。然后接下来的事情我是希望能够通过把数据给到你们这些专家,将来能够做更多的一些跨界融合,最终能够真正把它转化成为可投资的工具和产品,这是我的愿望。所以我们德高行一向是以这种非常开放态度来面对各种量化团队的研究合作。
总而言之,我认为专利本身还是有一定门槛的垂直服务领域。而不是像大家想象的仅仅了解到它的数量就够了。尤其是对于专利的分析和专利的技术评估等这样的一些具体工作,是必须要由专业的人、专业机构来做的。
今天就给大家介绍到这里,接下来如果对我们的数据,或者是对刚才我讲到的专利技术的分析,技术的评估等有兴趣的同仁可以随时交流。谢谢各位!
【风险提示】以上观点仅供参考,不构成投资建议或承诺。如需购买相关基金产品,请您关注投资者适当性管理相关规定,提前做好风险测评,并根据您自身的风险承受能力购买与之相匹配的风险等级的基金产品。基金有风险,投资需谨慎。
分享到 :
0 人收藏
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

积分:9211
帖子:1841
精华:0
期权论坛 期权论坛
发布
内容

下载期权论坛手机APP