一、中药成分与疾病关键基因识别阶段(系统药理模块)

 

一、中药成分与疾病关键基因识别阶段(系统药理模块)

1. 中药成分数据库构建与靶点预测

  • 数据来源:

    • TCMSP、ETCM数据库;

  • 处理流程:

2. 疾病表达组数据挖掘

  • 数据来源:

    • GEO公共数据库(如GSEXXXXX);

  • 分析步骤:

    • 使用R语言limma包进行差异表达分析(DEG);

    • 阈值设定:|log2FC| > 1,adj.p-value < 0.05;

    • 绘制火山图、热图;

3. 共表达网络构建与功能通路富集

  • 方法与工具:

    • WGCNA构建模块基因;

    • GO / KEGG / DO 富集(clusterProfiler);

  • 蛋白互作网络构建:

    • STRING数据库构建PPI;

    • CytoHubba提取Hub基因(MCC/Degree算法);

    • PPI网络图构建与功能模块识别。

4. 多组学整合与候选基因筛选

  • 交集分析:

    • 取中药预测靶点 ∩ DEGs ∩ PPI Hub基因;

  • 筛选结果:

    • 获得具有疾病相关性与药物靶点价值的候选关键基因集

    • 可视化:Venn图、Upset图;

二、AI算法筛选核心靶点基因(智能药理模块)

1. 特征构建与样本准备

  • 输入特征:

    • 表达量、调控方向、拓扑中心性、通路归属等;

  • 标签设计:

    • 是否为PPI hub / 是否富集于核心通路;

    • 高效活性靶点(可基于已有文献标签);

2. 多模型交叉训练

  • 机器学习模型:

    • Random Forest(特征重要性排序);

    • SVM(支持向量分类);

    • LASSO(线性正则化降维);

  • 深度学习模型:

    • ANN(多层感知机);

    • 1D-CNN(卷积神经网络);

  • 结果输出:

    • 综合多个模型交叉验证结果,筛选稳健核心靶点;

    • 可视化:ROC曲线、AUC值、Top N基因条形图、特征热图;

3. 核心基因生物学验证

  • GSEA分析:

    • 基于表达高低分组,判断通路偏好;

  • 相关性分析:

    • 核心基因两两相关(Pearson/Spearman);

  • 多维验证:

    • 诊断价值ROC;

    • 是否参与核心通路(MAPK、PI3K-AKT等);

    • 多癌种或多组织数据库验证(如GEPIA、TCGA)。

三、候选小分子筛选与优化(智能配体筛选模块)

1. 化合物数据库构建

  • 来源:

    • ZINC15、ChEMBL、PubChem等;

  • 预筛选条件:

    • 具有IC50/Ki等生物活性标注;

    • 小分子量≤500、结构完整、可SMILES转化。

2. 分子过滤与ADMET评估

  • 预处理:

    • 使用RDKit标准化分子;

    • 去除不良结构(PAINS、Brenk等);

  • 药代动力学与毒性预测:

    • 使用admetSAR、SwissADME、pkCSM等工具;

    • 指标包括HIA、BBB渗透、CYP450抑制、致突变性等;

3. 基于配体的AI筛选

  • 结构相似性建模:

    • 使用ECFP4或MACCS分子指纹;

    • 计算Tanimoto相似度,构建相似性网络;

  • AI活性预测模型:

    • 训练集:活性/非活性标签样本;

    • 算法:RF、XGBoost、GCN、DNN;

    • 筛选Top 5%活性得分化合物作为先导结构候选

四、蛋白质结合与AI虚拟筛选(分子对接与结合预测模块)

1. 靶点蛋白结构采集与处理

  • 来源:

    • PDB数据库或AlphaFold结构预测;

  • 预处理流程:

    • 去除配体/水分子;

    • 加氢、优化离子状态(AutoDockTools、Chimera);

    • 活性口袋识别(基于共晶配体或AutoSite/DoGSite);

2. AI辅助结合亲和力预测

  • 方法:

    • 使用DeepDTA、MONN、GraphDTA等深度学习模型;

    • 蛋白序列 + 分子结构作为输入,预测Binding Affinity;

  • 结果筛选:

    • 筛选亲和力Top值化合物进入对接流程;

3. 分子对接验证与结合模式分析

  • 工具:

    • AutoDock Vina、LeDock、Schrödinger Glide;

  • 对接流程:

    • 网格框设置、分子柔性化处理;

    • 计算结合能(kcal/mol)、对接位姿评分;

  • 结合模式解析:

    • PyMOL可视化蛋白-配体复合物;

    • LigPlot+绘制氢键、疏水作用图谱;

五、实验级验证(体外-体内验证链条)

1. 分子动力学模拟(Molecular Dynamics)

  • 工具: GROMACS、AMBER;

  • 目标:

    • 验证配体-蛋白复合物的稳定性;

    • 分析RMSD、RMSF、H-bond持久性、结合自由能(MM-PBSA);

2. 合成可行性分析

  • 工具:

    • retrosynthesis工具(如AiZynthFinder、ASKCOS);

  • 目标:

    • 验证先导化合物可行合成路径;

    • 优选合成难度小、成本低的候选结构。

3. 实验化合物合成与检测

  • 实验步骤:

    • 合成路线设计 → 核磁/质谱验证 → 纯度检测;

  • 评价内容:

    • IC50测定(细胞水平);

    • 靶点蛋白结合实验(如SPR/BLI);

4. 细胞实验验证

  • 实验设计:

    • 使用靶点表达细胞株;

    • 评估:细胞活性、凋亡、信号通路磷酸化等;

  • 分子机制验证:

    • Western blot、qPCR、荧光染色、流式分析;

5. 动物实验初步验证

  • 动物模型:

    • 疾病模型(如小鼠皮下注射建模);

  • 指标检测:

    • 肿瘤体积、组织病理、血清标志物;

    • 免疫组化/免疫荧光观察靶点表达变化;

评论