skip to Main Content

浅谈生信技术专利申请

王云涛

生物信息即生信,是指生物所具有的信息;对生信的研究为生物信息学这一学科的研究范围,也可称为生信分析。生信分析将计算机科学和生物学相结合,利用计算机技术和数据分析方法来解决生物学问题。

随着生物学研究的不断深入,生物信息学在基因组学、蛋白质组学、转录组学等领域发挥着重要作用。在生信分析的过程中,对生物信息的研究主要包括以下方面:

(1)针对于生物体的研究

由于生物领域的研究对象包括动物及人类本身,因此有可能会涉及伦理、遗传资源等生物信息的研究,或者是对于生物体的诊断治疗方法类的研究。

(2)生信分析过程中使用工具的研究

生信分析采用计算机技术对生物信息进行分析,因此生信分析过程中会涉及关于计算机技术类的生信分析工具的应用和设计。

(3)生信分析过程中生信算法的研究

生物信息的分析,通常采用各类的生信算法进行分析挖掘,从而在数据研究基础上对生物医学问题进行研究、开发。

为了保护生物信息学领域的创新成果,专利申请成为保护生信类知识产权的重要途径。

上述几个方面在专利申请过程中,主要涉及以下一些问题的考虑:

针对于生物体的研究主要涉及的专利保护客体问题

首先,在第一方面生物体的研究这一内容里面,涉及伦理、遗传资源等敏感信息,这些敏感信息不属于专利保护客体,不能够通过专利申请进行保护。

例如,《专利法》第五条规定[[1]]:“对违反法律、社会公德或者妨害公共利益的发明创造,不授予专利权。对违反法律、行政法规的规定获取或者利用遗传资源,并依赖该遗传资源完成的发明创造,不授予专利权。”。

其中,一般情况应注意,在《专利法》第五条所提到的内容中,主要是《专利法》第五条第一款所提到的“违反社会公德”这类的技术方案不能被授予专利权,例如:改变生殖系遗传同一性的方法、克隆人的方法、人胚胎的工业或商业目的的应用、处于各形成和发育阶段的人体(生殖细胞、受精卵、胚胎及个体)等。

此外,关于《专利法》第五条第二款中所称的“遗传资源”,在《专利法实施细则》[[2]]指出:“专利法所称遗传资源,是指取自人体、动物、植物或者微生物等含有遗传功能单位并具有实际或者潜在价值的材料;专利法所称依赖遗传资源完成的发明创造,是指利用了遗传资源的遗传功能完成的发明创造。”。

因此,生物体的研究中涉及以上所提到的内容,需要调整专利保护的方向,以对生物信息方面的内容进行合理合法保护。

其次,第一方面生物体的研究中,还可能涉及对于已存在的生物学的发现、外科手术方法等内容,这些内容也不属于专利保护客体。

例如,《专利法》第二十五条[[3]]:“对下列各项,不授予专利权:(一)科学发现;(二)智力活动的规则和方法;(三)疾病的诊断和治疗方法;(四)动物和植物品种……对前款第(四)项所列产品的生产方法,可以依照本法规定授予专利权。主要是第(三)和(四)项所列举的技术方案是不能被授予专利权的。需要注意的是,第(四)项所述的品种也包括转基因、杂交等方式获得品种。植物品种可根据《植物新品种保护条例》向农业农村部或林业部提起植物品种权申请。”。《审查指南2010》[[4]]中列举的主要的两类情况:“一是人体或动物体的非治疗目的的外科手术方法,例如美容外科手术、从活牛身上摘取牛黄的外科手术方法、为辅助诊断而采用外科手术方法(例如冠状造影前的外科手术方法)等;二是测量人体或动物体在极限情况下的生理参数的方法,例如通过逐渐降低人或动物的体温,以测量人或动物对寒冷耐受程度的测量方法。”。

针对于生信分析过程中主要涉及的技术方案新创性问题

生信分析过程中包括生信分析使用的工具和使用的生信算法。生信分析的工具和生信算法,在通过专利申请进行保护时,主要考虑技术方案的新创性问题。

在专利申请文件或专利申请受理审查的过程中,会对其要求保护的技术方案的实用性、新颖性和创造性进行审查。如《专利法》第二十二条[[5]]:“授予专利权的发明和实用新型,应当具备新颖性、创造性和实用性。……实用性,是指该发明或者实用新型能够制造或者使用,并且能够产生积极效果。”。虽然实用性在法条中是最后一条,但在狭义专利审查过程中是最先判断的。

对生信算法的改进进行申请专利时,为了体现技术方案的创造性,还可以通过提供足够的实验结果体现。生物科学作为高度依赖实验的学科,就需要提供实验数据来佐证技术方案的效果。因此,不仅要具有实验效果实验,还可以增加合理的对比实验。

同时,需要注意的是,对于生信分析过程中使用的工具,如果涉及保护结构的实用新型专利申请时,根据2024年开始实施的《专利法实施细则》,其中规定:“第五十条第一款 专利法第三十四条和第四十条所称初步审查,是指审查专利申请是否具备专利法第二十六条或者第二十七条规定的文件和其他必要的文件,这些文件是否符合规定的格式,并审查下列各项:……;(二)实用新型专利申请……是否明显不符合专利法……第二十二条第二款、第四款、……;”对该结构进行创造性”。也就是说,新规定将《专利法》第二十二条的要求纳入实用新型专利的初步审查,包括新颖性、创造性和实用性。因此,在涉及申请实用新型的专利申请时,同样要考虑技术方案的新创性。

针对于生信分析过程中主要涉及的核苷酸序列问题

生信算法类的专利保护,其针对的为生信算法在生信分析上的应用,即改进体现在生信分析的应用过程中。因此,应用过程中涉及的技术方案本身应清楚、完整。例如:基因序列分析类生信算法的专利,基因序列的内容、分析对象的概念和背景,所使用的生信算法基础,改进的生信算法的理论支撑。

此外,针对生物类专利的特殊情况,还应注意:“当申请人提出的发明创造是依赖遗传资源完成的,应当提交《遗传资源来源披露登记表》,并按照表格附带的注意事项填写各栏目内容,清楚、完整地披露相关信息。遗传资源的直接来源,是指申请人获得该遗传资源的直接渠道,申请人应当提供获取该遗传资源的时间、地点、方式、提供者等信息。遗传资源的原始来源,是指遗传资源所属的生物体在原生环境中的采集地,申请人应当提供采集该遗传资源所属的生物体的时间、地点、采集者等信息。当申请人无法提供遗传资源的原始来源时,应当陈述理由,例如指明“该种子库未记载该遗传资源的原始来源”、“该种子库不能提供该遗传资源的原始来源”,必要时提供该种子库出具的相关书面证明”[[6]],同时,根据《专利法实施细则》[[7]]的规定:“如果申请专利的发明涉及新的生物材料,且该生物材料公众不能得到,并且对该生物材料的说明不足以使所属领域的技术人员实施其发明的,应当向国家知识产权局认可的保藏单位提交该生物材料的保藏。”。

因此,对于生信方向的知识产权保护可以从生信算法、挖掘工具、以及微生物、核苷酸序列的重组等方向着手。

本文从生信分析算法方面对生信方向的专利申请进行介绍。

前文提到生信分析采用各类的生信算法进行分析挖掘,从而在数据研究基础上对生物医学问题进行研究、开发,因此生信研究主要是借助于生信工具对生信数据的处理。

例如,对癌症基因组进行分析,癌症基因组分析主要是将肿瘤中的体细胞变异和遗传变异进行区别分析,检测出体细胞变异。在肿瘤分析中,从遗传变异和体细胞变异的VAF(变异频率)来看,遗传变异的VAF基本集中在0、0.5、1附近,同时随着CNV(拷贝数变异)变异的发生,那些杂合遗传变异的VAF会发生偏移,体细胞变异的VAF相对来说比较分散,且大部分在0.5以下;从遗传变异和体细胞变异的mutational signatures(变异标签)来看,不同的肿瘤类型具有不同的信号特征;从突变对蛋白结构的影响,体细胞变异相对于遗传变异更可能导致蛋白功能发生变化等,因此对于体细胞变异的准确检测非常重要。

癌症基因组分析的生信数据为样本肿瘤基因组的基因序列。主要针对的是体细胞编译和遗传变异的区分。目前已有的方法也就是生信算法包括:第一类,基于VAF分布的,就是先对肿瘤基因组进行分段,然后计算变异的肿瘤纯度和倍型,并计算每个片段中germline(遗传变异)和somatic(体细胞变异)的VAF期望 ,对于待检测变异分别计算germline和somatic的概率,最终选择概率大者;第二类,综合VAF,mutational signatures和致病性等特征,使用机器学习分类模型进行预测。

而在机器学习模型区分体细胞编变异和遗传变异的方法中,由于模型算法的局限性,使得体细胞变异检测不准确。因此,针对于提升体细胞编译检测的算法改进可以作为体细胞变异检测这一过程中的改进方法,进行专利保护。

一件中国发明专利申请中,以体细胞变异检测的改进算法的应用方面进行保护。

在该专利申请中,提供了一种变异检测方法,包括获取待检测变异的待检测位点,确定所述待检测变异的变异频率;利用基准检测位点数据,确定距离所述待检测位点预定范围内的各个基准检测位点,和各个所述基准检测位点的矫正变异频率,其中,所述矫正变异频率为经过降噪处理的各个所述基准检测位点的变异频率;根据各个所述基准检测位点的所述矫正变异频率获取基准变异频率;根据所述变异频率和所述基准变异频率获取变异频率间距;确定所述变异频率间距与间距阈值的关系,确定所述待检测变异的变异类型。

在该专利申请中,利用变异频率间距和间距阈值的比较确定待检测变异的变异类型,且在确定变异频率间距时,通过与基于经过降噪处理的矫正变异频率得到的基准变异频率的比较获取,可以降低变异频率噪声对基准变异频率的影响,提高基准变异频率的准确性,从而可以提高变异频率间距以及所确定待检测变异的变异类型的准确性;并且在进行待检测变异的变异类型确定的过程中,不需要考虑待检测变异的癌种来源,即不需要考虑癌种自身的特异性,具有普适性,此外,矫正变异频率可以仅根据各个待检测变异的变异频率的大小以及分布完成降噪处理即可以保证矫正变异频率的稳定性和准确性,不需要依赖于变异的肿瘤纯度和倍型,也就不需要计算变异的肿瘤纯度和倍型,从而可以通过矫正变异频率获得准确的基准变异频率,提高变异检测的准确性。

其中,在确定基准检测位点数据的过程中,通过回顾历史临床样本,SNP位点(单核苷酸多态性位点)在VAF这个特征上基本都会发生一定程度的偏移(偏差),同时也存在随机波动(误差),参见图1。该专利申请中就对于偏差以及误差进行矫正。

图1

图1中所示横坐标为历史位点区域,即SNP位点区域,纵坐标为变异频率。

结合图1中所示,可以看到历史位点区域中各个待矫正历史位点的各个变异的变异频率都会距离变异频率0.5上下浮动,存在一定程度的偏移。

利用序列特征影响探针对于野生型和突变型的捕获能力,进行偏差和误差的矫正,矫正后的结果如图2和图3所示:

图2

图3

可以看到,经过矫正降噪之后,原始的分散不规则的变异频率矫正调整为稳定标准的变异频率,为后续进行变异类型分析时提供稳定可靠准确的基准基础。

改进算法最后所得到的生信分析结果,即体细胞变异检测的结果可以餐卡图4所示。

图4

图4中所示横坐标为变异类型,包括遗传变异和体细胞变异,纵坐标为变异频率间距,间距阈值为0.1。将大于间距阈值的判定为遗传变异,小于间距阈值的为体细胞变异。

进一步的,以数据形式对体细胞变异检测的结果进行展示。如图5所示。

图5

可见,可以从生信算法的改进以及应用上对生信算法进行专利保护。

结语

生信算法类的专利保护,其针对的为生信算法在生信分析上的应用,即改进体现在生信分析的应用过程中。因此应用过程涉及的技术方案本可以从技术方案所使用的实际工具、技术方案所使用的分析数据、分析数据时使用的生信算法以及保存生物数据的文件格式所作的创新,进行专利保护。

 

[[1]]《中华人民共和国专利法(2020年修正)》[M].北京:知识产权出版社,2021.

[[2]] 《中华人民共和国专利法实施细则(2010修订)》[M].北京:知识产权出版社,2017.

[[3]] 《中华人民共和国专利法(2020年修正)》[M].北京:知识产权出版社,2021.

[[4]] 《专利审查指南(2010修订)》[M].北京:知识产权出版社,2017.

[[5]] 《中华人民共和国专利法(2020年修正)》[M].北京:知识产权出版社,2021.

[[6]] 国家知识产权局,国家知识产权局对新增四张请求类表格的说明[EB/OL].国家知识产权局,2023.

[[7]] 《中华人民共和国专利法实施细则(2010修订)》[M].北京:知识产权出版社,2017.

Back To Top