第03期 ⭐⭐ 进阶 约8分钟

单细胞分析一键搞定

从2-3周缩短到30分钟,Scanpy分析全流程自动化

⚠️
免责声明: 本内容仅供医学学习参考,不作为临床诊断依据。 实际临床决策请结合患者具体情况和多学科意见。
🎯

技能简介

单细胞RNA测序分析是生物信息学中最复杂的流程之一。传统方式需要学习Scanpy库1周, 调试参数3天,运行代码2天,从数据到出图至少需要2-3周。 而使用Claude Scientific Skills的三个单细胞分析技能, 只需描述你的需求,AI就能自动生成代码、执行分析、生成图表。效率提升50倍

📊 效率对比

传统方式
2-3周
学习 + 调试 + 运行
AI辅助
30分钟
描述需求 + 自动执行

🧬 三大神器

🔬
Scanpy
单细胞分析主力
🧠
scvi-tools
深度学习降维
📊
UMAP-learn
非线性可视化

💡 使用场景

🧬

10X数据快速分析

从10X Genomics原始数据到聚类结果的完整流程

🔍

细胞类型自动注释

根据marker基因自动识别细胞类型

📈

差异表达分析

找出细胞群间的差异基因,生成火山图和热图

🎨

发表级图表生成

自动生成UMAP图、t-SNE图、质控小提琴图

🔬

轨迹分析

分析细胞发育轨迹和 pseudotime 排序

🧪
批次效应校正

合并多个样本,去除批次效应

🛠️ 标准分析流程

1

数据加载与质控

读取10X数据,过滤低质量细胞,去除双细胞

"使用Scanpy加载这个10X Genomics数据,
进行质量控制:过滤低质量细胞(基因数<200或>5000),
去除线粒体基因比例>20%的细胞,去除双细胞"
2

降维与聚类

标准化、PCA降维、UMAP可视化、Leiden聚类

"对过滤后的数据进行标准化,
PCA降维取前50个主成分,
用UMAP可视化,Leiden聚类分辨率0.5"
3

细胞类型注释

根据marker基因自动识别细胞类型

"根据marker基因注释细胞类型:
CD3D/CD3E - T细胞
CD79A/MS4A1 - B细胞
LYZ/CD14 - 单核细胞
PPBP - 血小板"
4

差异表达分析

找出细胞群间的差异基因,生成可视化图表

"对T细胞和B细胞进行差异表达分析,
找出top 20差异基因,画火山图和热图"

🛠️ 核心技能详解

🔬

Scanpy

单细胞RNA-seq分析主力工具

# 调用示例
"使用Scanpy分析单细胞数据"

# AI会自动调用:scientific-skills:scanpy
# 支持功能:质控、标准化、降维、聚类、差异表达
# 输出:AnnData对象、可视化图表

主要功能:质量控制(QC)、标准化、高变基因识别、PCA/t-SNE/UMAP降维、聚类(Louvain/Leiden)、差异表达分析、可视化

🧠

scvi-tools

深度学习单细胞分析

# 调用示例
"使用scvi-tools进行批次效应校正"

# AI会自动调用:scientific-skills:scvi-tools
# 支持功能:变分自编码器、批次校正、细胞类型预测
# 输出:潜在空间表示、校正后数据

主要功能:基于变分自编码器(VAE)的深度学习方法,特别适合批次效应校正和大规模数据整合

📊

UMAP-learn

非线性降维可视化

# 调用示例
"使用UMAP对单细胞数据进行可视化"

# AI会自动调用:scientific-skills:umap-learn
# 支持功能:高维数据降维、保持局部结构
# 输出:2D/3D可视化坐标

主要优势:相比t-SNE,UMAP更快、能更好地保持全局结构,适合大规模单细胞数据可视化

📖 实战示例

示例1:PBMC数据完整分析

目标:分析外周血单核细胞(PBMC)数据,完成从质控到注释的完整流程

# 完整工作流提示词
"使用Scanpy分析这个PBMC单细胞数据:

1. 数据加载:读取10X格式的数据
2. 质量控制:
   - 过滤基因数<200或>5000的细胞
   - 去除线粒体基因比例>20%的细胞
3. 标准化:使用log1p标准化
4. 降维:PCA取前50个主成分,UMAP可视化
5. 聚类:Leiden聚类,分辨率0.5
6. 注释:根据免疫细胞marker基因注释细胞类型
7. 可视化:生成UMAP图、质控小提琴图、marker基因热图"

预期输出:完整的分析结果,包括细胞类型注释的UMAP图、质控报告、marker基因热图

示例2:差异表达分析

目标:比较两个细胞群,找出差异表达基因

"对T细胞(CD3D+)和B细胞(CD79A+)进行差异表达分析:
- 使用Wilcoxon秩和检验
- 找出log2FC > 1 且 adjusted p-value < 0.05的基因
- 生成火山图和热图
- 显示top 20差异基因"

预期输出:差异基因表格、火山图、热图

示例3:批次效应校正

目标:合并两个批次的样本,去除批次效应

"使用scvi-tools合并两个批次的单细胞数据:
1. 使用SCANVI模型进行批次校正
2. 保留生物学差异的同时去除批次效应
3. 生成校正前后的UMAP对比图
4. 评估批次混合程度"

预期输出:批次校正后的数据、UMAP对比图

示例4:轨迹分析

目标:分析细胞发育轨迹

"使用Scanpy进行发育轨迹分析:
1. 使用diffmap或paga算法
2. 推断细胞分化路径
3. 计算pseudotime
4. 生成轨迹图和分化树"

预期输出:发育轨迹图、pseudotime排序结果

⚠️ 注意事项

💡 质控参数调整

  • • 基因数过滤阈值:根据组织类型调整(血液200-5000,组织500-10000)
  • • 线粒体比例阈值:一般<20%,但某些组织(如心肌)可适当放宽
  • • 双细胞检测:使用scrublet或DoubletFinder

⚠️ 聚类分辨率选择

  • • 低分辨率(0.1-0.5):少量大cluster,适合粗分
  • • 高分辨率(0.8-2.0):更多小cluster,适合细分
  • • 建议尝试多个值,选择生物学意义最合理的

📌 细胞类型注释

  • • Marker基因需来自权威数据库(CellMarker、PanglaoDB)
  • • 建议结合自动注释工具(SingleR、CellTypist)
  • • 需要一定的领域知识进行验证

🔗 相关技能链接

📦

下载完整代码包

包含:示例代码、数据文件、结果图表 · 9个文件 · 438.0KB

立即下载

💡 代码包内含 README.md 文档,包含环境配置和运行说明。解压后即可使用。