中药成分与疾病关键基因识别阶段(系统药理模块)

 

一、中药成分与疾病关键基因识别阶段(系统药理模块)

1. 中药成分数据库构建与靶点预测

数据来源:

  1. TCMSP、ETCM数据库;

处理流程:

  1. 提取目标中药(复方/单味)活性成分;

  2. 应用ADME筛选标准:OB≥30%、DL≥0.18;

  3. SwissTargetPrediction标准化靶点(http://www.swisstargetprediction.ch/);

  4. String-db数据库 (https://string-db.org/)

  5. 构建中药成分-靶点网络(Cytoscape可视化)。

2. 疾病表达组数据挖掘

数据来源:

  1. GEO公共数据库(如GSEXXXXX);

分析步骤:

  1. 使用R语言limma包进行差异表达分析(DEG);

  2. 阈值设定:|log2FC| > 1,adj.p-value < 0.05;

  3. 绘制火山图、热图;

3. 共表达网络构建与功能通路富集

方法与工具:

  1. WGCNA构建模块基因;

  2. GO / KEGG / DO 富集(clusterProfiler);

蛋白互作网络构建:

  1. STRING数据库构建PPI;

  2. CytoHubba提取Hub基因(MCC/Degree算法);

  3. PPI网络图构建与功能模块识别。

4. 多组学整合与候选基因筛选

交集分析:

  1. 取中药预测靶点 ∩ DEGs ∩ PPI Hub基因;

筛选结果:

  1. 获得具有疾病相关性与药物靶点价值的候选关键基因集;

  2. 可视化:Venn图、Upset图;

二、AI算法筛选核心靶点基因(智能药理模块)

1. 特征构建与样本准备

输入特征:

  1. 表达量、调控方向、拓扑中心性、通路归属等;

标签设计:

  1. 是否为PPI hub / 是否富集于核心通路;

  2. 高效活性靶点(可基于已有文献标签);

2. 多模型交叉训练

机器学习模型:

  1. Random Forest(特征重要性排序);

  2. SVM(支持向量分类);

  3. LASSO(线性正则化降维);

深度学习模型:

  1. ANN(多层感知机);

  2. 1D-CNN(卷积神经网络);

结果输出:

  1. 综合多个模型交叉验证结果,筛选稳健核心靶点;

  2. 可视化:ROC曲线、AUC值、Top N基因条形图、特征热图;

3. 核心基因生物学验证

GSEA分析:

  1. 基于表达高低分组,判断通路偏好;

相关性分析:

  1. 核心基因两两相关(Pearson/Spearman);

多维验证:

  1. 诊断价值ROC;

  2. 是否参与核心通路(MAPK、PI3K-AKT等);

  3. 多癌种或多组织数据库验证(如GEPIA、TCGA)。

三、候选小分子筛选与优化(智能配体筛选模块)

1. 化合物数据库构建

来源:

  1. ZINC15、ChEMBL、PubChem等;

预筛选条件:

  1. 具有IC50/Ki等生物活性标注;

  2. 小分子量≤500、结构完整、可SMILES转化。

2. 分子过滤与ADMET评估

预处理:

  1. 使用RDKit标准化分子;

  2. 去除不良结构(PAINS、Brenk等);

药代动力学与毒性预测:

  1. 使用admetSAR、SwissADME、pkCSM等工具;

  2. 指标包括HIA、BBB渗透、CYP450抑制、致突变性等;

3. 基于配体的AI筛选

结构相似性建模:

  1. 使用ECFP4或MACCS分子指纹;

  2. 计算Tanimoto相似度,构建相似性网络;

AI活性预测模型:

  1. 训练集:活性/非活性标签样本;

  2. 算法:RF、XGBoost、GCN、DNN;

  3. 筛选Top 5%活性得分化合物作为先导结构候选;

四、蛋白质结合与AI虚拟筛选(分子对接与结合预测模块)

1. 靶点蛋白结构采集与处理

来源:

  1. PDB数据库或AlphaFold结构预测;

预处理流程:

  1. 去除配体/水分子;

  2. 加氢、优化离子状态(AutoDockTools、Chimera);

  3. 活性口袋识别(基于共晶配体或AutoSite/DoGSite);

2. AI辅助结合亲和力预测

方法:

  1. 使用DeepDTA、MONN、GraphDTA等深度学习模型;

  2. 蛋白序列 + 分子结构作为输入,预测Binding Affinity;

结果筛选:

  1. 筛选亲和力Top值化合物进入对接流程;

3. 分子对接验证与结合模式分析

工具:

  1. AutoDock Vina、LeDock、Schrödinger Glide;

对接流程:

  1. 网格框设置、分子柔性化处理;

  2. 计算结合能(kcal/mol)、对接位姿评分;

结合模式解析:

  1. PyMOL可视化蛋白-配体复合物;

  2. LigPlot+绘制氢键、疏水作用图谱;

五、实验级验证(体外-体内验证链条)

1. 分子动力学模拟(Molecular Dynamics)

工具: GROMACS、AMBER;

目标:

  1. 验证配体-蛋白复合物的稳定性;

  2. 分析RMSD、RMSF、H-bond持久性、结合自由能(MM-PBSA);

2. 合成可行性分析

工具:

  1. retrosynthesis工具(如AiZynthFinder、ASKCOS);

目标:

  1. 验证先导化合物可行合成路径;

  2. 优选合成难度小、成本低的候选结构。

3. 实验化合物合成与检测

实验步骤:

  1. 合成路线设计 → 核磁/质谱验证 → 纯度检测;

评价内容:

  1. IC50测定(细胞水平);

  2. 靶点蛋白结合实验(如SPR/BLI);

4. 细胞实验验证

实验设计:

  1. 使用靶点表达细胞株;

  2. 评估:细胞活性、凋亡、信号通路磷酸化等;

分子机制验证:

  1. Western blot、qPCR、荧光染色、流式分析;

5. 动物实验初步验证

动物模型:

  1. 疾病模型(如小鼠皮下注射建模);

指标检测:

  1. 肿瘤体积、组织病理、血清标志物;

  2. 免疫组化/免疫荧光观察靶点表达变化;

评论