miRNA是不编码蛋白质的小分子RNA, 它对标靶mRNA的表达进行调控, 进而实现对基因的调控.研究表明, miRNA几乎涉及动物的所有发育和病理过程, 人类疾病特别是癌症的发生与miRNA失调密切相关[1].采用计算方法对可能与疾病相关的miRNA进行筛选, 然后在实验室中验证, 可以节省大量实验成本.
目前, 多种方法已应用到疾病-miRNA关联预测[2-3], 如机器学习方法, 包括支持向量机[4-5]、最小二乘法[6]、玻尔兹曼机[7]等, 以及基于相似性的方法[8-9].随机游走法在基因预测中优势明显[10], 在miRNA预测中得到普遍应用[11-13].以上方法各有优缺点, 机器学习方法易于集成多种生物数据, 不足是假设的阴性样本中可能存在阳性样本, 引起训练及预测误差.基于相似性的方法较好地体现了功能相似的miRNA与表型相似的疾病关联, 但是相似性度量及多种数据相似性集成需要更深入地研究.随机游走法易于理解, 预测精度较高, 但只能对已关联miRNA的疾病进行预测.
本文对随机游走方法进行了改进, 提出的PMBP(prioritizing disease miRNA based on PRINCE)算法, 既提高传统随机游走方法的预测性能, 也能够对尚未发现关联miRNA的疾病进行预测.实验表明, 与经典的随机游走法RWRMDA[12]及Chen的相似性方法[8]相比, PMBP性能更好.
1 实验材料和实验方法 1.1 实验数据本研究基于疾病-miRNA关联网络、疾病表型相似网络及miRNA功能相似网络进行疾病-miRNA关联预测.
文献[8]报道了242个实验证实的疾病-miRNA关联数据, 涉及51种疾病和99个miRNA.其中, 35种疾病与至少2个miRNA关联.疾病表型相似网络采用mimMiner[14]和resnikHPO[15], 并将后者转化为对称网络, 利用Tanimoto方法实现数据归一化[16].miRNA功能相似网络采用由271个miRNA构成的网络MISIM[17].
在疾病致病基因预测中, 表型相似数据经过逻辑回归处理[16, 18], 提高了预测精度, 本文也采用相同的处理方法.逻辑回归方法如下:
(1) |
其中:d=lg (9 999);对于resnikHPO, c=-17,对于mimMiner, c=-15.
1.2 基于功能网络传播的预测算法Vanunu等提出PRINCE算法, 成功应用于疾病的基因预测[18].借鉴该算法中的网络信息传播, 本文提出PMBP算法用于疾病-miRNA关联预测.
设miRNA功能网络为G=(V, E, w), 其中V是miRNA集合, E是miRNA之间相互关联的边集合, w是边的权值, 表示关联的程度.已知与疾病di关联的所有miRNA定义为种子集合s, PMBP通过网络信息传播, 获得V中各miRNA与di关联的或然值, 移除种子集s后, 将V中剩余的miRNA按或然值大小依次排列, 从而得到对di的预测.
上述过程可用迭代公式(2)描述:
(2) |
其中:Y是先验信息, 即已知的疾病-miRNA关联; α是调整先验信息和上次迭代结果的权重值, 范围在(0, 1)之间; WNP是按照文献[18]提供的方法变换后的miRNA功能网络.终止条件定义为|Ft-Ft-1|≤10-9或迭代次数N≤100.
本研究采用留一交叉验证, 即如果疾病di与至少2个miRNA关联, 则将其中1个关联移除, 通过剩余的种子集合, 预测被移除的关联.如果疾病di仅与1个miRNA关联, 则将此关联移除后, 因没有种子作为先验信息, 传统的随机游走算法失效, 本文提出利用疾病表型相似性作为先验信息完成预测.
1.3 实验过程本研究中, miRNA预测分为三步.
步骤1 提取待预测疾病di与miRNA关联的先验信息Y.如果疾病已与若干miRNA关联, Y中相应分量为1, 而无关miRNA的相应位置为0.如果di尚未发现关联的miRNA, 则根据疾病表型相似网络, 获得该疾病与其他各疾病的相似向量S, 并根据其他疾病与miRNA的关联推测di的先验信息Y.当多个疾病与同1个miRNA关联时, 取其中的最大值.
步骤2 计算疾病di与各miRNA关联的向量F.
在miRNA功能网络中通过式(2)实现信息传播, 不断迭代直至满足终止条件, 此时向量F中保存了各个miRNA与di相关联的预测值.
步骤3 获得疾病di的预测结果.
将miRNA根据F中的值从大到小排列.如果疾病di有k个种子, 它们将排在前k位, 移除这些种子后, 最终得到按可能性大小依次排列的miRNA.
1.4 评估标准在留一交叉验证中, 采用三种指标评估算法, 即平均排位率、ROC曲线下的面积AUC、Top N中的真阳率.
平均排位率定义为被预测的miRNA在所有候选中的平均排位.它衡量了算法的总体性能, 其值越低表明算法预测性能越高.
AUC越大, 预测性能越好.在排序后的miRNA中, 设定一个阈值τ, 如果疾病的miRNA排位在τ之上(包含τ), 标记其为正确预测的阳性样本, 即真阳性TP; 如果被排在τ之下, 标记为错误预测的阴性样本, 即假阴性FN.变化τ值, 可以得到相应的TPR和FPR, 从而绘制ROC曲线以及计算AUC.
Top N中的真阳率是前N个中被正确验证的与疾病关联的miRNA所占的比例.它反映了在不同范围内算法的预测精度, 其中N分别为1, 5, 10, 20, 30, 50, 100.当N=1时, 真阳率也称为置顶率, 它反映了算法的精确预测能力.
2 结果与讨论 2.1 以种子miRNA作为先验信息的预测35种疾病至少关联2个miRNA, 疾病-miRNA关联总数是226, 利用PMBP和RWRMDA分别进行留一交叉验证.随机游走算法RWRMDA的定义为
(3) |
其中WRW是对功能矩阵的列向量进行归一化的结果.因式(2)和式(3)形式类似, 为了讨论方便, 将β=1-α代入式(2), 并将替换后的β与式(3)中的γ统称为平衡因子.平衡因子对预测结果具有一定影响, 一般大于0.5时结果较好.实验中, 当平衡因子为0.9时, PMBP和RWRMDA达到最好结果, 两种算法预测的ROC曲线如图 1所示, 对应的AUC分别是0.866和0.848, 平均排位率分别是13.8%和15.2%.Top N中的真阳率如图 2所示.明显地, PMBP预测结果较RWRMDA更好, 而在Top 10和Top 50之间, 性能优势更加显著.
RWRMDA不能对只与1个miRNA关联的疾病进行留一交叉验证.PMBP可利用mimMiner或resnikHPO提供的疾病相似性预测miRNA.
当采用mimMiner时, 从中提取51种疾病构成相似网络, 对所有16个具有单一miRNA的疾病进行验证, 当平衡因子为0.6时, 得到最低平均排序率23.3%以及最大AUC值0.769.Top N中的真阳率如表 1所示.
当采用resnikHPO时, 只能对15个具有单一miRNA的疾病进行验证, 平衡因子取0.6, 平均排序率为28.4%, AUC值是0.718.尽管上述指标不及mimMiner, 但是resnikHPO在Top 20和Top 30中预测的真阳率分别是26.7%和33.3%, 优于表 1中相应的结果.换言之, 与mimMiner相比, resnikHPO将更多的正确预测排在前30位.
2.3 PMBP与基于相似性的算法比较Chen等[8]基于全局网络相似性和疾病表型相似性报道了三种预测算法PBSI, MBSI和NetCBI, 应用这三种预测算法对本文中所有51种疾病进行验证.表 2列出了PMBP与三种算法的比较, 其中在与多个miRNA关联的疾病验证中平衡因子取0.9, 在与1个miRNA关联的疾病验证中平衡因子取0.6.明显地, PMBP优于三个算法中最好的NetCBI.
为了展示PMBP预测的有效性, 对乳腺癌进行预测分析.在本数据集中, 已发现27种miRNA与乳腺癌相关联.以这些miRNA作为种子, 利用PMBP预测, 在预测结果中选择前50个miRNA进行分析.首先, 在三个权威数据库miR2Disease,PhenomiR和HMDD中进行检索验证.如果未能检索出, 则在Pubmed文献数据库中进行验证.表 3列出所有50个miRNA, 证实它们都与乳腺癌相关, 其中证据部分列出了支持的数据库以及相关文献的Pubmed编号.
1) 基于功能网络传播的方法应用于疾病miRNA预测是可行的, 本文提出的PMBP算法性能优于文献报道的RWRMDA和NetCBI.
2) 对尚未发现关联miRNA的疾病, 本文首次提出从疾病表型网络mimMiner和resnikHPO提取先验信息进行预测, 前者的AUC优于后者, 而后者倾向于将更多的正确预测排在前30位.
3) PMBP算法的改进方向.首先, 由于数据集规模较小, 未能系统比较两种疾病表型网络在预测中的异同, 将来可通过提取可靠的、更大规模的数据集进行分析.其次, 如果进一步融合与miRNA相关的生物数据, 如疾病-基因关联、miRNA-基因关联, 将有助于提高预测精度.
[1] |
Minju H, Narry K.
Regulation of microRNA biogenesis[J]. Nature Reviews Molecular Cell Biology, 2014, 15(8): 509–524.
DOI:10.1038/nrm3838 |
[2] |
Zeng X X, Zhang X, Zou Q.
Integrative approaches for predicting microRNA function and prioritizing disease-related microRNA using biological interaction networks[J]. Briefings in Bioinformatics, 2016, 17(2): 193–203.
DOI:10.1093/bib/bbv033 |
[3] |
张帆, 崔庆华.
MicroRNA与人类疾病关系研究中的生物信息学方法和资源[J]. 生理科学进展, 2016, 47(3): 203–209.
( Zhang Fan, Cui Qing-hua. Bioinformatics methods and resources for the research on the relationship between MicroRNAs and human diseases[J]. Progress in Physiological Sciences, 2016, 47(3): 203–209. ) |
[4] |
Jiang Q, Wang G, Jin S, et al.
Predicting human microRNA-disease associations based on support vector machine[J]. International Journal of Data Mining and Bioinformatics, 2013, 8(3): 282–293.
DOI:10.1504/IJDMB.2013.056078 |
[5] |
Zou Q, Li J J, Hong Q Q, et al.
Prediction of MicroRNA-disease associations based on social network analysis methods[J]. BioMed Research International, 2015, 2015: 810514.
DOI:10.1155/2015/810514 |
[6] |
Chen X, Yan G Y.
Semi-supervised learning for potential human microRNA-disease associations inference[J]. Scientific Report, 2014, 4: 5501.
DOI:10.1038/srep05501 |
[7] |
Chen X, Yan C G, Zhang X T, et al.
RBMMMDA:predicting multiple types of disease-microRNA associations[J]. Scientific Report, 2015, 5: 13877.
DOI:10.1038/srep13877 |
[8] |
Chen H L, Zhang Z P.
Similarity-based methods for potential human microRNA-disease association prediction[J]. BMC Medical Genomics, 2013, 6(12): 1–9.
|
[9] |
Sun D D, Li A, Feng H Q, et al.
NTSMDA:prediction of miRNA-disease associations by integrating network topological similarity[J]. Molecular BioSystems, 2016, 12(7): 2224–2232.
DOI:10.1039/C6MB00049E |
[10] |
Navlakha S, Kingsford C.
The power of protein interaction networks for associating genes with diseases[J]. Bioinformatics, 2010, 26(8): 1057–1063.
DOI:10.1093/bioinformatics/btq076 |
[11] |
孟宪伟. MicroRNA与人类疾病关联的预测方法研究与实现[D]. 哈尔滨: 哈尔滨工业大学, 2012.
( Meng Xian-wei. Research and implementation of predicting human disease-related microRNAs[D]. Harbin: Harbin Institute of Technology, 2012. ) |
[12] |
Chen X, Liu M X, Yan G Y.
RWRMDA:predicting novel human microRNA-disease associations[J]. Molecular BioSystmes, 2012, 8(10): 2792–2798.
DOI:10.1039/c2mb25180a |
[13] |
Xuan P, Han K, Guo Y D, et al.
Prediction of potential disease-associated microRNAs based on random walk[J]. Bioinformatics, 2015, 31(11): 1805–1815.
DOI:10.1093/bioinformatics/btv039 |
[14] |
van Driel M A, Bruggeman J, Vriend G, et al.
A text-mining analysis of the human phenome[J]. European Journal of Human Genetics, 2006, 14(5): 535–542.
DOI:10.1038/sj.ejhg.5201585 |
[15] |
Köhler S, Schulz H, Krawitz P, et al.
Clinical diagnostics in human genetics with semantic similarity searches in ontologies[J]. The American Journal of Human Genetics, 2009, 85(4): 457–464.
DOI:10.1016/j.ajhg.2009.09.003 |
[16] |
Li J H, Lin X Y, Teng Y Y, et al.
A comprehensive evaluation of disease phenotype networks for gene prioritization[J]. PLOS One, 2016, 11(7): e0159457.
DOI:10.1371/journal.pone.0159457 |
[17] |
Wang D, Wang J, Lu M, et al.
Inferring the human microRNA functional similarity and functional network based on microRNA-associated diseases[J]. Bioinformatics, 2010, 26(13): 1644–1650.
DOI:10.1093/bioinformatics/btq241 |
[18] |
Vanunu O, Magger O, Ruppin E, et al.
Associating genes and protein complexes with disease via network propagation[J]. PLOS Computational Biology, 2010, 6(1): e1000641.
DOI:10.1371/journal.pcbi.1000641 |