BioNumerics軟件
BioNumerics 介紹
BioNumerics是全球唯一集電泳數據、色譜數據、光譜數據、表型特征數據、基因芯片、基因組序列、氨基酸序列等多種生物信息數據格式存儲和處理分析的軟件平臺,包括數據存儲、數據分析和數據分享三大功能。優化整合不同基因組與表型來源的數據,方便用戶進行數據分析管理并進行回歸分析。引進業界領先的數據庫引擎Oracle® 和 Microsoft® SQL Server™,為大數據管理分析提供了前提。
一、BioNumerics各功能模塊介紹
(一)指紋模塊(Fingerprint type module)
支持任意格式的光密度數據如凝膠電泳、毛細管電泳、氣象色譜、液相色譜、光密度曲線、MALDI、SELDI的分析處理。同時BN提供了一系列基于電泳功能的分析插件,方便用戶對可變數目串聯重復序列(VNTR)、 多位點串聯重復序列分析(MLVA)、 基于CECE的異源雙鏈分析(HAD)、金黃色葡萄球菌A蛋白分型(spa-typing)、AFLP標記輔助育種(AFLP-based breeding)等實驗進行數據存儲與分析。
(二)特征數據模塊(Character Data module)
用戶可以自定義各種類型(二進制或連續型)的特征數據,包括生化以及形態學特征數據、酶動力學測試數據、抗生素抗性分析、脂肪酸甲酯以及基因芯片中的各個基因表達量數據等。根據實驗情況用戶可以從一到成千上萬個特征數據的自定義且特征數據容量的大小不受限制。同時特征數據模塊也被用來存儲其它實驗分析過程中的數據結果,例如在MLVA分析中存儲可變數目串聯重復序列的個數;MLST中的等位基因數目;抗生素抗性以及HIV抗藥性分析中的抗性數據等。
(三)序列數據模塊(Sequence Data module)
用戶可以導入核酸和氨基酸序列,分析經典的Sanger測序數據和第二代測序數據(NGS),另外該功能模塊可以識別.embl, .gb, .fasta等格式的數據,可自動識別并儲存序列文件中的物種來源等信息??蔀橛脩籼峁┒嘈蛄斜葘?、進化樹分析、染色體序列比對分析、序列信息注釋、SNP分析、PCR引物設計、限制性內切酶酶切位點分析、開放閱讀框自動查找等功能。另外用戶能夠根據自己的需求設定特定的分析參數,以達到不同的實驗目的。
(四)趨勢類型數據模塊(Trend Data module)
包括酶動力學研究、Real time-PCR、生長曲線分析數據等都屬于趨勢類型數據,BioNumerics內置了大量的數據曲線擬合模型,用戶可根據實際需求選取相關模型,并設置相關參數,軟件讀取實驗結果,對數據進行聚類、鑒定和統計分析。
(五)全基因組圖譜分析數據模塊(Whole genome map data module)
全基因組圖譜分析可以產生200-500個限制性酶切片段,且此技術不依賴于PCR以及序列信息,因此相較于PFGE產生的20個左右的條帶可以提供細菌基因組結構上變化的信息,所以其可以識別同一爆發中相近親緣關系非常近的菌株。
BioNumerics中的全基因組圖譜分析模塊提供了大量可配置的可視化選項可使用戶快速定位插入缺失以及重復片段,且可以進行自定義標簽設置。
同時BioNumerics內置的聚類分析算法可快速分辨出親緣關系相近的分離株;通過內置的比對算法可以著重顯示反轉、缺失等突變信息,配合BioNumerics內置的分析工具用戶可以進行PCA、矩陣數據挖掘等分析。另外,BioNumerics內置的多態性分析工具可快速的找出一組分離株內的特異性片段。
(六)樹狀分析和網絡推理模塊(Tree and Network Inference module)
聚類分析不同于鑒定識別,是一種非監督式學習分析,同時也是生物信息學分析中不可替代的一種分析工具。BioNumerics通過把關系數據庫中的各種記錄之間,各種實驗之間,用多種有效的聚類算法實現多種聚類分析。
(七)分類鑒定模塊(Classifiers and Identification module)
鑒定識別又叫監督式學習或分類是生物信息學中最重要的一種信息分析手段。BioNumerics在基于大量實驗信息數據的基礎上分析鑒定未知物種,提高了數據結果的可靠性與一致性,加入貝葉斯分類(Naive Bayesian Classifiers, NBC),支持向量機(Support Vector Machines, SVM)等算法。同時在聚類分析中,BN為用戶提供了相同范圍的相似性系數和距離系數。
(八)數據挖掘模塊(Dimensioning and Matrix Mining module)
此模塊為用戶提供高維分析交互視圖,用戶可以直接在視圖上選擇,添加或刪除條目,將其它數據庫字段信息顯示為顏色或標簽,差異特征關聯等。其它還包括方差分析、多維尺度分析(Multi-Dimensional Scaling, MDS)、主成分分析(Principal Components Analysis, PCA)等。
(九)基因組分析工具模塊(Genome Analysis Tools module)
基因組分析工具模塊提供基因組和染色體比對分析、基因注釋、wgMLST、wgSNP分析等功能。
多位點序列分型(Multilocus sequence typing,MLST)是一種基于序列的微生物分子分型手段,其技術原理是通過測定7個管家基因的序列,并根據每個位點序列的不同為其分配等位基因號,七個管家基因的等位基因號共同組成了細菌的序列型(Sequence Type,ST)。傳統的基于7個管家基因序列的多位點序列分型在過去的15年中已經證明其在細菌分型領域中不可或缺的作用,但是由于其分析的等位基因個數少而導致的分辨率不高的問題也一直存在。
隨著二代測序技術的發展及其測序成本的降低,傳統的MLST技術正在逐步向wgMLST轉變。由于wgMLST包含更多的基因位點(1500-2000),因此相較于傳統的基于7個基因位點的MLST分型手段有著更高的精度及分辨率。
隨著等位基因位點的增多勢必會導致數據分析量的增大。為了解決以上的問題,BioNumerics向廣大用戶提供了經過全新設計開發的可以自動分配等位基因號、自動命名序列型等功能的wgMLST分析管理插件。同時BioNumerics為用戶提供強大的計算引擎,用戶可根據實際需求進行基于序列拼接和基于原始測序數據讀長的等位基因檢索。此外基于wgMLST的分析框架,用戶也可以自定義二級分析框架(如cMLST、rMLST等),同時用戶還可以從wgMLST分析中獲取基于7個管家基因的傳統的MLST分析結果。全自動化的分析流程以及可自定義的分析框架可大大提高實驗數據分析的準確度以及實驗人員的工作效率。
由于wgMLST分析流程是基于全基因組數據,配合BioNumerics的表型分析插件,用戶還同時可以獲取分離菌的血清型、病毒性和耐藥性等數據。
目前BioNumerics向用戶提供以下菌種的全功能的wgMLST分析框架:
Brucella spp.
Campylobacter coli - C. jejuni
Clostridium difficile
Cronobacter spp.
Enterococcus raffinosus
Escherichia coli / Shigella
Klebsiella oxytoca
Klebsiella pneumoniae
Legionella pneumophila
Listeria monocytogenes
Mycobacterium tuberculosis
Neisseria gonorrhoeae
Salmonella enterica
Staphylococcus aureus
全基因組單核苷酸多態性(wgSNP)由于相較于wgMLST具有更多的位點,所以其在微生物分子分型上具有更高的分辨率。
- 公司簡介
北京金云臺信息技術有限公司(簡稱金云臺)/北京中科助騰有限責任公司(簡稱中科助騰)是一家面向醫院、疾控、高校等科研單位提供信息化解決方案與服務的公司,致力于為用戶提供業界領先的IT系統構架、實驗室信息管理系統、生物數據分析等領域的全面解決方案以及應用服務。
我公司作為比利時Applied-Maths公司及全球BioMerieux公司的合作戰略伙伴,2019年獲得官方授權的BioNumerics V7.X 軟件中文版中國區總代理以及BioNumerics V8.X的經銷商。金云臺作為國內最早從事食品衛生、疾病預防等領域的公司之一,擁有一支具有豐富行業經驗的技術團隊,在海量數據的網絡采集、傳輸、處理、上報和分析統計、垂直搜索引擎核心技術、數據挖掘與分析利用、數據遠程比對、數據倉庫建設、檢驗機構大型精密儀器數據自動采集等領域擁有國內領先的核心技術,并能夠提供技術支持和數據分析為一體的完善服務體系。已經形成涵蓋公共衛生、疫病預防、數據分析、食品安全等領域整體解決方案。
金云臺本著“客戶至上,追求卓越,誠信合作,共同發展”的價值觀,以工匠精神不斷打造優良的產品和優質的服務,贏得了醫院、疾控、高校等科研單位的一致認可和高度評價。
三、中國區官方授權