中科院成都山地所誠聘海內外優秀人才中國科學院、水利部成都山地災害與環境研究所(簡稱中科院成都山地所)成立于1966年,是從事山地綜合研究的國立研究機構。中科院成都山地所一直立足長江上遊和青藏高原,以山地表層系統為核心,在山地災害、山地環境和山區發展三大領域開展基礎性、戰略性和前瞻性的研究。多年來,中科院成都山地所承擔並完成了千餘項國家和地方重大科研項目,解決了國家在山區建設和社會發展中的一系列重大科學問題,是解決山地災害重大科技問題的骨幹力量,2015年成為首批進入中國科學院“率先行動”計劃特色研究所改革的試點單位並于2018年通過驗收。中科院成都山地所設有中國科學院山地災害與地表過程重點實驗室、中國科學院山地表生過程與生態調控重點實驗室、山區發展研究中心和數字山地與遙感應用中心四大研究單元,建有包括東川泥石流觀測研究站、貢嘎山高山生態系統觀測試驗站和鹽亭紫色土農業生態試驗站三個國家站在內的9個野外台站,還擁有2000平米的綜合測試中心和1個大型模擬實驗平台。山地所現有在職職工278人。其中正高級47人、副高級78人,有中國科學院院士1人。設有5個博士培養點、7個學術型碩士培養點和2個專業型碩士培養點和1個地理學博士後科研流動站。還掛靠有中國地理學會山地分會、四川省地理學會、中國水土保持學會泥石流滑坡專業委員會、中國自然資源學會山地資源研究專業委員會等,出版中國自然科學核心期刊《山地學報》和SCI期刊《Journal of Mountain Science》。詳細情況請瀏覽山地所網站,
單細胞RNAseq預處理工具比較分析(bioRxiv)2020年2月2日,蘇黎世大學Mark Robinson團隊在預印本bioRxiv上發表題為pipeComp錛 a general framework for the evaluation of computational pipelines錛 reveals performant single-cell RNA-seq preprocessing tools的研究內容,並建立了一個評估框架pipeComp,
評估包括過濾、doublet檢測、標準化、特征選擇、降噪、降維和聚類等方面。寫在前面(結論)由于該篇文章較長,所以先把結論放在這裡,如果想去看下面作者的具體分析,可以繼續往下看哦!作者在不同方面均提出較為具體的建議:(1)Filtering:建議使用Doublet檢測和刪除,並且可以使用諸如scDblFinder或scds之類的軟件進行檢測;基于細胞分布的過濾是無法捕獲doublets的,應使用相對寬鬆的截止值(例如5個MAD或至少2個分布中的3個MAD)來排除質量較差的細胞;基于特征基因類型進行的過濾似乎沒有益處。(2)Normalization and scaling:測試的大多數標準化方法均具有良好的性能,尤其是與歸一化結合使用時,往往會對聚類產生積極影響;就亞群的可分離性而言,sctransform提供了最佳的整體性能,並且消除了文庫大小和檢測效率的影響;回歸細胞協變量的常見做法,
可用工具的數量也隨之增加。由于數據處理是任何scRNAseq分析的關鍵步驟,影響下遊分析和解釋,因此對可用工具的評估至關重要。因此,這種benchmark study可以幫助我們更好的進行工具選擇。作者收集了已知細胞組成的真實數據集(表1),並使用各種評估指標以多層次的方式調查圍繞核心scRNAseq pipeline的各種參數和變化的影響。除了以前使用的具有真實細胞標簽的benchmark數據集,還使用muscat模擬了兩個數據集,這兩個數據集具有基于真實的10x人和小鼠數據的分層次亞群結構(更多細節見表1和圖1)。圖1:Overview of the benchmark datasets used.表1作者使用Seurat pipeline作為起點來進行以下方面的綜合研究:1)doublet識別;2)細胞過濾;3)標準化;4)特征選擇;5)降維;6)聚類。作者比較了不同方法並探究了較為合適的參數設置。評估框架pipeComp及其應用原理pipeComp包將pipeline定義為至少一個的、在前一個pipeline的輸出上連續執行的函數列表(圖2A)。此外,可以為每個步驟設置可選的基準函數,以提供標準化的、多層的評估指標。給定這樣一個PipelineDefinition對象、一組可選參數(其中可能包括不同的子例程)和基準數據集,runPipeline函數將遍歷所有參數組合,
苗栗住宿
避免重復計算相同的步驟並動態編譯計算(包括運行時)。可以使用pipeline中從該點向下的所有指標來評估給定參數的變化。這一點特別重要,因為end-point指標,例如用于聚類的adjusted Rand index(ARI),並不完美。例如,雖然ARI評分的意義與真正的亞群的數量無關,但是到目前為止,所調用的聚類的數量是評分的最重要的決定因素:它離實際的亞群的數量越遠,ARI越差。圖2: Overview of the pipeComp framework and its application to a scRNAseq clustering pipeline.結果(1)Doublet detectionDoublets被定義為在相同細胞barcode下測序的兩個細胞(例如被捕獲在同一液滴中),在scRNAseq數據集中相當常見,估計範圍為1%至10%,具體取決于所使用的測序平台和細胞濃度(單細胞預測Doublets軟件包匯總-過渡態細胞是真的嗎?)。盡管相同細胞類型的doublets由于保留了基因之間的相對表達而在大多數下遊分析中是無害的,但由不同細胞類型或狀態形成的doublets可能會被錯誤分類,並可能扭曲下遊分析。 在某些情況下,可以通過其異常高的reads和基因數來識別doublets,但這並非總是如此,于是出現了大量的用于識別doublets的工具。作者首先使用10X數據集評估了這些方法檢測doublets的能力,值得注意的是,基于SNP的分析通常將由相同細胞類型(但來自不同個體)的細胞創建的doublets描述為同型(與新型或異型doublets相反,即來自不同細胞類型的doublets)。這些同型雙聯體可能無法從單純的基因計數中識別出來,通常被認為是無害的。盡管大多數方法可以準確地識別3個細胞系數據集(mixology10x3cl)中的doublets,但其他兩個數據集卻被證明更加困難(圖3A)。scDblFinder是最快的方法(圖3B),並且準確度也很高。在整個數據集中,被稱為doublet的細胞更容易被分到其他的亞群中而不是單獨聚為一類(圖3C)。作者還發現,即使在設計數據不包含異型doublet的情況下,scDblFinder仍可以提高所有數據集聚類的準確性(圖4)。圖3: Identification of doublet cells.(2)Excluding more cells is not necessarily better除了doublets以外,數據集可能還包括質量較低的細胞,消除這些細胞可以降低噪聲。例如,對于含有高含量線粒體reads的液滴而言,這已被證明,通常是由于細胞降解和細胞質mRNA損失所致。通常的做法是基于某些屬性,