技能简介
单细胞RNA测序分析是生物信息学中最复杂的流程之一。传统方式需要学习Scanpy库1周, 调试参数3天,运行代码2天,从数据到出图至少需要2-3周。 而使用Claude Scientific Skills的三个单细胞分析技能, 只需描述你的需求,AI就能自动生成代码、执行分析、生成图表。效率提升50倍!
📊 效率对比
🧬 三大神器
💡 使用场景
10X数据快速分析
从10X Genomics原始数据到聚类结果的完整流程
细胞类型自动注释
根据marker基因自动识别细胞类型
差异表达分析
找出细胞群间的差异基因,生成火山图和热图
发表级图表生成
自动生成UMAP图、t-SNE图、质控小提琴图
轨迹分析
分析细胞发育轨迹和 pseudotime 排序
合并多个样本,去除批次效应
🛠️ 标准分析流程
数据加载与质控
读取10X数据,过滤低质量细胞,去除双细胞
"使用Scanpy加载这个10X Genomics数据,
进行质量控制:过滤低质量细胞(基因数<200或>5000),
去除线粒体基因比例>20%的细胞,去除双细胞"
降维与聚类
标准化、PCA降维、UMAP可视化、Leiden聚类
"对过滤后的数据进行标准化,
PCA降维取前50个主成分,
用UMAP可视化,Leiden聚类分辨率0.5"
细胞类型注释
根据marker基因自动识别细胞类型
"根据marker基因注释细胞类型:
CD3D/CD3E - T细胞
CD79A/MS4A1 - B细胞
LYZ/CD14 - 单核细胞
PPBP - 血小板"
差异表达分析
找出细胞群间的差异基因,生成可视化图表
"对T细胞和B细胞进行差异表达分析,
找出top 20差异基因,画火山图和热图"
🛠️ 核心技能详解
Scanpy
单细胞RNA-seq分析主力工具
# 调用示例 "使用Scanpy分析单细胞数据" # AI会自动调用:scientific-skills:scanpy # 支持功能:质控、标准化、降维、聚类、差异表达 # 输出:AnnData对象、可视化图表
主要功能:质量控制(QC)、标准化、高变基因识别、PCA/t-SNE/UMAP降维、聚类(Louvain/Leiden)、差异表达分析、可视化
scvi-tools
深度学习单细胞分析
# 调用示例 "使用scvi-tools进行批次效应校正" # AI会自动调用:scientific-skills:scvi-tools # 支持功能:变分自编码器、批次校正、细胞类型预测 # 输出:潜在空间表示、校正后数据
主要功能:基于变分自编码器(VAE)的深度学习方法,特别适合批次效应校正和大规模数据整合
UMAP-learn
非线性降维可视化
# 调用示例 "使用UMAP对单细胞数据进行可视化" # AI会自动调用:scientific-skills:umap-learn # 支持功能:高维数据降维、保持局部结构 # 输出:2D/3D可视化坐标
主要优势:相比t-SNE,UMAP更快、能更好地保持全局结构,适合大规模单细胞数据可视化
📖 实战示例
示例1:PBMC数据完整分析
目标:分析外周血单核细胞(PBMC)数据,完成从质控到注释的完整流程
# 完整工作流提示词 "使用Scanpy分析这个PBMC单细胞数据: 1. 数据加载:读取10X格式的数据 2. 质量控制: - 过滤基因数<200或>5000的细胞 - 去除线粒体基因比例>20%的细胞 3. 标准化:使用log1p标准化 4. 降维:PCA取前50个主成分,UMAP可视化 5. 聚类:Leiden聚类,分辨率0.5 6. 注释:根据免疫细胞marker基因注释细胞类型 7. 可视化:生成UMAP图、质控小提琴图、marker基因热图"
预期输出:完整的分析结果,包括细胞类型注释的UMAP图、质控报告、marker基因热图
示例2:差异表达分析
目标:比较两个细胞群,找出差异表达基因
"对T细胞(CD3D+)和B细胞(CD79A+)进行差异表达分析:
- 使用Wilcoxon秩和检验
- 找出log2FC > 1 且 adjusted p-value < 0.05的基因
- 生成火山图和热图
- 显示top 20差异基因"
预期输出:差异基因表格、火山图、热图
示例3:批次效应校正
目标:合并两个批次的样本,去除批次效应
"使用scvi-tools合并两个批次的单细胞数据:
1. 使用SCANVI模型进行批次校正
2. 保留生物学差异的同时去除批次效应
3. 生成校正前后的UMAP对比图
4. 评估批次混合程度"
预期输出:批次校正后的数据、UMAP对比图
示例4:轨迹分析
目标:分析细胞发育轨迹
"使用Scanpy进行发育轨迹分析:
1. 使用diffmap或paga算法
2. 推断细胞分化路径
3. 计算pseudotime
4. 生成轨迹图和分化树"
预期输出:发育轨迹图、pseudotime排序结果
⚠️ 注意事项
💡 质控参数调整
- • 基因数过滤阈值:根据组织类型调整(血液200-5000,组织500-10000)
- • 线粒体比例阈值:一般<20%,但某些组织(如心肌)可适当放宽
- • 双细胞检测:使用scrublet或DoubletFinder
⚠️ 聚类分辨率选择
- • 低分辨率(0.1-0.5):少量大cluster,适合粗分
- • 高分辨率(0.8-2.0):更多小cluster,适合细分
- • 建议尝试多个值,选择生物学意义最合理的
📌 细胞类型注释
- • Marker基因需来自权威数据库(CellMarker、PanglaoDB)
- • 建议结合自动注释工具(SingleR、CellTypist)
- • 需要一定的领域知识进行验证
🔗 相关技能链接
💡 代码包内含 README.md 文档,包含环境配置和运行说明。解压后即可使用。