理解偏差与方差:从欠拟合到过拟合的诊断思路
训练误差和验证误差的关系是诊断模型状态的核心工具。本文记录如何通过误差拆解判断模型是否欠拟合、过拟合,以及对应的调整方向。
一个记录机器学习、深度学习、大模型应用与 AI 工程化实践的个人站点。从理论到代码,从实验到复盘,在这里沉淀对人工智能的理解与思考。
一个技术实践者的 AI 学习记录与思考沉淀
本站是个人技术博客,聚焦人工智能领域的学习笔记、实验记录和工程实践。内容涉及机器学习理论基础、深度学习模型实现、大模型应用开发以及 AI 系统的工程化落地。所有文章基于个人实践与公开资料整理,力求写清楚背景、步骤和思考过程,不做夸大宣传。
有一定编程基础、正在学习或从事 AI 相关工作的开发者、研究人员和爱好者。无论你是刚接触机器学习的新手,还是希望深入某个技术方向的从业者,希望这里的记录能为你提供一条可参考的学习路径。
覆盖机器学习(回归、分类、聚类、树模型)、深度学习(CNN、RNN、Transformer、GAN)、大语言模型(Prompt Engineering、RAG、微调)、AI 工程化(数据处理、模型部署、监控)、NLP 与 CV 实践案例等方向。
每篇文章附带实验环境、数据来源和关键参数说明;重要结论附有参考来源;错误或过时内容会标注修正记录。保持小步迭代,每次更新聚焦一个明确主题,确保内容可追溯、可复现。
在学习 AI 的过程中,逐渐形成的一些观点和认知
在实际项目中,数据清洗、标注一致性和样本分布对结果的影响往往大于模型结构的选择。花时间理解数据,比盲目尝试新模型更有效。
记录每次实验的数据版本、参数配置、随机种子和环境依赖。没有可复现性的实验结论,在后续迭代中很难判断改进来源。
准确率、召回率、F1 分数各有侧重。线上效果和离线指标之间存在差距,需要结合业务场景、错误样本分析和人工审核综合判断。
不要一上来就用复杂模型。先用逻辑回归、随机森林或预训练特征提取器建立基线,确认数据流程无误后,再逐步引入更复杂的架构。
每次只调整一到两个变量,记录变化前后的差异。一次改动太多参数,会让实验结论变得模糊,也难以定位问题源头。
同一个模型在不同场景下的部署方式、延迟要求、错误容忍度差异巨大。技术方案的选择应该从业务需求出发,而不是从模型先进性出发。
从基础到实践的分阶段学习路线,适合自我对照和规划
掌握线性代数、概率论和微积分的基础概念;理解监督学习、无监督学习和强化学习的区别;熟悉数据集、特征、标签、损失函数、评估指标等核心术语。
使用 Python 和常用库(NumPy、Pandas、Matplotlib、Scikit-learn)完成数据加载、清洗、可视化和基础建模;理解交叉验证和超参数搜索的基本流程。
学习神经网络的基本原理(前向传播、反向传播、梯度下降);用 PyTorch 或 TensorFlow 搭建简单的全连接网络和卷积网络;理解过拟合、正则化和 Batch Normalization。
根据兴趣选择 NLP(Transformer、BERT、GPT 系列)、CV(ResNet、YOLO、ViT)、生成模型(GAN、Diffusion)或推荐系统等方向深入学习;关注模型部署和推理优化。
掌握 MLOps 基础流程:数据版本管理(DVC)、实验追踪(MLflow)、模型 Serving(TensorFlow Serving、Triton)、监控与告警;了解大模型微调(LoRA、QLoRA)和 RAG 架构。
关注的主要 AI 细分方向及其应用场景
线性回归、决策树、随机森林、XGBoost、LightGBM、SVM 等经典算法的原理、实现与调参实践。
CNN、RNN、LSTM、Transformer、Attention 机制的理论推导和代码实现,涵盖图像、文本和时间序列任务。
Prompt Engineering、RAG 检索增强生成、LangChain 框架、模型微调(LoRA/QLoRA)和评估方法。
图像分类、目标检测(YOLO、DETR)、图像分割、OCR 以及 Stable Diffusion 等生成模型的应用与优化。
文本分类、命名实体识别、关系抽取、文本摘要、机器翻译和对话系统的实现思路与评估方案。
模型训练流水线、实验管理、模型版本控制、容器化部署(Docker/K8s)、性能监控和 A/B 测试。
数据采集、清洗、特征工程(编码、归一化、降维)、数据增强和不均衡样本处理方法。
Q-Learning、DQN、策略梯度、PPO 等算法的基本原理和简单环境下的实验记录。
学习 AI 的过程不是线性的。不要期望从理论到实践一步到位。更有效的方式是:带着一个具体问题出发,在实践中补充理论,再用理论指导下一轮实践。每次循环不一定都能提升指标,但一定能加深对问题的理解。
从代码到数据,从算法到智能 — AI 世界的视觉印象
代码辅助、自动补全和智能调试正在改变开发者的工作方式
数据处理、特征分析和可视化是机器学习项目的基础工作
计算机视觉与强化学习的结合推动机器人技术快速发展
实践过程中的记录与总结,按主题分类
训练误差和验证误差的关系是诊断模型状态的核心工具。本文记录如何通过误差拆解判断模型是否欠拟合、过拟合,以及对应的调整方向。
梳理 Self-Attention 的数学原理、多头注意力的设计动机和 Transformer 的编码器-解码器结构,并用 PyTorch 实现一个简化版本进行验证。
记录使用 Embedding 模型 + 向量数据库 + 大语言模型搭建 RAG 应用的全流程,包括文档切分策略、检索参数调优和生成结果评估。
从数据标注、格式转换、配置文件编写到模型训练和评估的完整流程记录,附带常见报错的解决方法和训练日志解读。
介绍 MLflow Tracking、Projects、Models 和 Registry 四个组件的基本用法,记录在多轮实验中如何对比指标、回溯参数和管理模型版本。
在同一个数据集上对比 TF-IDF+逻辑回归、Word2Vec+LSTM 和 BERT 微调三种方案的效果,记录每个环节的耗时、准确率和适用场景。
总结在多个项目中积累的数据清洗经验,包括缺失值填充方法的选择依据、异常值检测的常用算法和重复样本的去重规则。
记录在多个任务场景下设计和测试提示词的过程,包括角色设定、任务说明、输出格式约束和少样本示例的效果对比。
在简单的网格世界环境中实现 Q-Learning 算法,记录 Q 表更新过程、探索率衰减策略和训练收敛情况,附带可视化展示。
一套可复用的 AI 项目执行框架,适合在开始新实验前对照检查
| 阶段 | 主要工作 | 交付物 / 检查点 |
|---|---|---|
| 需求定义 | 明确任务类型(分类/回归/生成/检索)、输入输出格式、评估方式和业务约束 | 需求文档、评估指标定义、基线预期 |
| 数据准备 | 数据采集、清洗(缺失/异常/重复)、标注质量检查、样本分布分析 | 数据说明文档、清洗规则记录、划分后的数据集 |
| 基线建立 | 使用简单模型或预训练特征跑通全流程,获得可比较的基线指标 | 基线实验结果、数据处理脚本、训练日志 |
| 模型迭代 | 逐步引入复杂模型、特征优化、超参数调优,每次改动控制在 1-2 个变量 | 实验记录表(参数/指标/改动说明)、模型权重 |
| 评估验证 | 离线指标计算、错误样本分析、A/B 测试方案设计、人工审核抽样 | 评估报告、错误分析文档、上线建议 |
| 部署上线 | 模型格式转换、Serving 配置、接口封装、监控告警设置、回滚方案准备 | 部署文档、监控 Dashboard、回滚脚本 |
| 持续迭代 | 线上数据回流、模型定期重训、指标监控和异常告警处理 | 迭代计划、模型版本管理记录 |
日常使用的工具、框架和学习资源推荐
学习和实践中经常遇到的问题,以及个人总结的应对思路
📝 内容说明: 本站所有文章均为个人学习笔记和实践记录,内容会尽量写清楚来源、使用场景和个人理解。涉及技术判断时,以实际测试、公开资料和可复现步骤为参考。如有错误或过时内容,欢迎指出,将持续修正完善。