AWS MLA-C01
前言
官网: https://aws.amazon.com/certification/certified-ai-practitioner/
知识点
1. Intro to AWS
Cloud Computing
- Cloud computing 是按需提供计算能力、数据库存储、应用程序和其他 IT 资源,通过云服务平台以 pay-as-you-go 定价模式,你可以获取所需的精确类型和大小的计算资源。

Deployment Models
- Private Cloud: 单个组织使用的云服务,不对外公开
- Public Cloud: 由第三方云服务商拥有和运营,通过互联网提供
- Hybrid Cloud: 部分服务器保留在本地,部分能力扩展到云端

Types of Cloud Computing
- IaaS (Infrastructure as a Service): 提供基础设施
- PaaS (Platform as a Service): 提供平台
- SaaS (Software as a Service): 提供软件

AWS Regions
- AWS 在全球都有 Region,大多数 AWS 服务都是 region-scoped。

Availability Zones
- 每个 Region 有多个 Availability Zone(通常 3 个,最少 3 个,最多 6 个)。每个 AZ 是一个或多个独立的数据中心,有冗余的电源、网络和连接。

Points of Presence
- Amazon 在 40+ 个国家、90+ 个城市有 400+ 个 Points of Presence(400+ Edge Locations 和 10+ Regional Caches),用于以更低延迟向用户交付内容。

2. AWS GEN AI
Intro to GEN AI
- Generative AI (Gen-AI) 是 Deep Learning 的一个子集,用于生成与训练数据相似的新数据。

Foundation Model
- Foundation Model 是在大量多样化输入数据上训练的模型。

Large Language Models (LLM)
- LLM 是一种 AI,用于生成连贯的、类人的文本。

Generative Language Models
- 我们通常通过给 LLM 一个 prompt 来交互,模型会利用它学到的所有内容来生成新内容。
- 值得注意的是,LLM 是 non-deterministic 的: 即使使用相同的 prompt,每次生成的文本也可能不同。

AWS Bedrock
AWS Bedrock 是一个用于构建 Generative AI 应用的服务
- Fully-managed service,无需管理服务器
- Pay-per-use 定价模式
- 可以控制用于训练模型的数据


Bedrock - Fundamental Model
How to choose
- Model types, performance requirements, capabilities, constraints, compliance
- Level of customization, model size, inference options, licensing agreements, context windows, latency
- Multimodal models(支持多种类型的输入和输出)
Amazon Titan
- AWS 提供的高性能 Foundation Model
- 通过全托管 API 提供 image、text、multimodal 等模型选择
- Smaller models 更 cost-effective

Bedrock - Fine Tuning a Model
- 用你自己的数据对 foundation model 的副本进行调整
- Fine-tuning 会改变 base foundation model 的 weights
- 必须使用 “Provisioned Throughput” 才能使用 fine-tuned model

Instruction-based Fine Tuning
- 提升 pre-trained FM 在特定领域任务上的表现
- 使用 labeled examples(prompt-response pairs)

Continued Pre-training
- 提供 unlabeled data 继续训练 FM

Single-Turn Messaging
- Instruction-based fine-tuning 的一部分

Multi-Turn Messaging
- 为对话场景提供 instruction-based fine tuning(相对于 Single-Turn Messaging)

Transfer Learning
- 重用 pre-trained model 并将其适配到新的相关任务的更广泛概念

Bedrock - FM Evaluation
Automatic Evaluation
- 用于模型的质量控制
- 一些 benchmark datasets 可以快速检测 bias 和潜在的歧视问题

Human Evaluation
- 选择一个 work team 进行评估

Automated Metrics to Evaluate an FM
- ROUGE: Recall-Oriented Understudy for Gisting Evaluation
- BLEU: Bilingual Evaluation Understudy
- BERTScore: 生成文本之间的语义相似度
- Perplexity: 模型预测下一个 token 的能力(越低越好)

Bedrock - RAG & Knowledge Base
RAG (Retrieval-Augmented Generation)
- 让 Foundation Model 可以引用训练数据之外的数据源

RAG Vector Databases by AWS
- Amazon OpenSearch Service (Serverless & Managed Cluster): search & analytics database,支持 real time similarity queries,存储数百万 vector embeddings,scalable index management,fast nearest-neighbor (kNN) search
- Amazon Aurora PostgreSQL: AWS 上的关系型数据库
- Amazon Neptune Analytics: graph database,支持高性能 graph analytics 和 graph-based RAG (GraphRAG)
- Amazon S3 Vectors: cost-effective 和 durable storage,sub-second query performance

RAG Data Sources
- Amazon S3, Confluence, Microsoft SharePoint 等等
RAG Use Cases
- Customer Service Chatbot: 产品、功能、规格、故障排除指南、FAQ
- Legal Research and Analysis: 法律、法规、案例、法律意见、专家分析
- Healthcare Question-Answering: 疾病、治疗、临床指南、研究论文、患者信息

GenAI Concepts
Tokenization
- 将 raw text 转换成 token 序列

Context Window
- LLM 在生成文本时能考虑的 token 数量
- 选择模型时首先要看的因素

Embeddings
- 将 text、images 或 audio 转换成 vectors(数值数组)
- Embedding models 可以支持搜索应用

Bedrock - Guardrails
- 控制用户与 Foundation Models (FMs) 之间的交互
- 过滤不良和有害内容
- 移除 Personally Identifiable Information (PII)
- 可以创建多个 Guardrails,监控和分析违反 Guardrails 的用户输入

AWS Bedrock - Agents
- 管理和执行与基础设施配置、应用部署和运维相关的多步骤任务
- Agents 被配置为执行特定的预定义 action groups


Bedrock - CloudWatch Integration
- Model Invocation Logging: 将所有调用日志发送到 Amazon CloudWatch 和 S3
- CloudWatch Metrics: 将 Bedrock 的 metrics 发布到 CloudWatch

Bedrock - Pricing
On-Demand
- Pay-as-you-go,无需承诺
- Text Models: 按处理的 input/output token 收费
- Embedding Models: 按处理的 input token 收费
- Image Models: 按生成的图片收费
- 只支持 Base Models
Batch
- 一次多个 predictions,输出为 S3 中的单个文件
- 最高可享 50% 折扣
Provisioned Throughput
- 购买一定时间的 Model units(1 个月、6 个月…)
- Throughput: 每分钟处理的最大 input/output tokens
- 支持 Base、Fine-tuned 和 Custom Models

Model Improvement Techniques Cost Order
从便宜到贵
- Prompt Engineering ($) - 无需 model training,无额外计算或 fine-tuning
- RAG ($$) - 使用外部知识,FM 不需要”知道一切”,无需修改 FM
- Instruction-based Fine-tuning ($$$) - 用特定指令 fine-tune FM,需要额外计算
- Domain Adaptation Fine-tuning ($$$$) - 在特定领域数据集上训练,需要大量计算

Bedrock - Cost Savings
- On-Demand: 适合不可预测的 workloads,无长期承诺
- Batch: 最高 50% 折扣
- Provisioned Throughput: 通常不是省钱的方式,适合 “reserve” capacity
- Temperature, Top K, Top P: 对定价无影响
- Model size: 通常 smaller model 更便宜(因 provider 而异)
- Number of Input and Output Tokens: 成本的主要驱动因素

3. Prompt Engineering
What is Prompt Engineering
Prompt Engineering 是开发、设计和优化 prompts,以增强 FMs 输出以满足你的需求。
Improved Prompting 包含:
- Instructions: 给模型的任务(描述、模型应该如何执行)
- Context: 引导模型的外部信息
- Input data: 你需要响应的输入
- Output Indicator: 输出类型或格式


Negative Prompting
明确告诉模型在响应中不要包含或做什么的技术。
- Avoid Unwanted Content: 明确说明不要包含什么,减少不相关或不当内容
- Maintain Focus: 帮助模型保持主题,不偏离到无用的领域
- Enhance Clarity: 防止使用复杂术语或详细数据,使输出更清晰易懂

Prompt Performance Optimization
- System Prompts: 定义模型应该如何行为和回复
- Temperature (0 to 1): 控制创造性,低值更保守,高值更有创意
- Top P (0 to 1): 低值响应更连贯,高值更多样
- Top K: 限制可能词的数量,低值更连贯,高值更多样
- Length: 答案的最大长度
- Stop Sequences: 信号模型停止生成输出的 tokens

- Prompt Latency: 模型响应的速度,不受 Top P、Top K、Temperature 影响

Prompt Engineering Techniques
Zero-Shot Prompting
- 不提供示例,完全依赖模型的通用知识

Few-Shots Prompting
- 提供示例来引导模型输出

Chain of Thought Prompting
- 将任务分解为一系列推理步骤,使输出更有结构和连贯性
- 使用 “Think step by step” 这类句子有帮助

Retrieval-Augmented Generation (RAG) (这不算在 Technique 里)
- 结合模型能力与外部数据源,生成更有信息量和上下文的响应

Prompt Templates
- 简化和标准化生成 Prompts 的过程
- 可与 Bedrock Agents 一起使用

Prompt Template Injections
- 用户可能尝试输入恶意内容来劫持 prompt,获取禁止或有害话题的信息
- 防护方法: 添加明确指令,忽略任何不相关或潜在恶意内容

4. AWS Q
AWS Q Business
- 为员工打造的全托管 Gen-AI 助手
- 基于公司的知识和数据
- 构建在 Amazon Bedrock 上(但不能选择底层 FM)

Data Connectors (fully managed RAG)
- 连接 40+ 企业数据源:Amazon S3, RDS, Aurora, WorkDocs, Microsoft 365, Salesforce, GDrive, Gmail, Slack, Sharepoint…
- Plugins:与第三方服务交互,如 Jira, ServiceNow, Zendesk, Salesforce
- Custom Plugins:通过 API 连接任何第三方应用

IAM Identity Center
- 用户通过 IAM Identity Center 认证
- 可配置外部 Identity Providers

Admin Controls
- 控制和自定义响应以满足组织需求
- Admin controls == Guardrails

AWS Q App
- 用自然语言创建 Gen AI 应用,无需编码
- 利用公司内部数据

AWS Q Developer
- 回答关于 AWS 文档和服务选择的问题
- 回答关于你 AWS 账户中资源的问题
- AI 代码助手,帮助编写新应用(类似 GitHub Copilot)

AWS Q + AWS Services
Amazon Q for QuickSight
- QuickSight 用于数据可视化和创建 dashboards
- Amazon Q 理解自然语言,可以对数据提问
- 可创建数据的 executive summaries

Amazon Q for EC2
- EC2 是 AWS 上的虚拟服务器
- Amazon Q 为新 workload 提供最适合的 EC2 instance 类型建议

Amazon Q for AWS Chatbot
- AWS Chatbot 可在 Slack 或 Microsoft Teams 中部署,了解你的 AWS 账户
- 通过 Amazon Q 加速理解 AWS 服务、排查问题、找到解决方案

Amazon Q for Glue
- AWS Glue 是 ETL (Extract Transform and Load) 服务,用于数据迁移
- Amazon Q 可以:回答 Glue 相关问题、提供文档链接、生成数据集成代码、排查 Glue job 错误

5. AI & ML
AI, ML, Deep Learning, GenAI
What is Artificial Intelligence
- AI 是一个广泛的领域,开发能够执行通常需要人类智能任务的智能系统

AI Components
- Data Layer: 收集大量数据
- ML Framework and Algorithm Layer: 数据科学家和工程师合作理解 use cases、需求和可解决问题的框架
- Model Layer: 实现并训练模型,包括结构、参数、函数和优化器
- Application Layer: 如何服务模型,向用户提供能力

What is Machine Learning (ML)
- ML 是一种 AI,用于构建让机器学习的方法
- 利用数据提升计算机在特定任务上的表现
- 基于训练数据进行预测

What is Deep Learning (DL)
- 使用神经元和突触(类似大脑)来训练模型
- 处理比传统 ML 更复杂的数据模式

What is Generative AI (Gen-AI)
- Deep Learning 的子集
- 由神经网络支持的多用途 foundation models

What is the Transformer Model (LLM)
- 能够整体处理句子而不是逐词处理
- 更快更高效的文本处理(更少训练时间)

ML Terms
- GPT (Generative Pre-trained Transformer): 根据输入 prompts 生成人类文本或代码
- BERT (Bidirectional Encoder Representations from Transformers): 类似 GPT,但双向读取文本
- RNN (Recurrent Neural Network): 用于序列数据如时间序列或文本,适用于语音识别、时间序列预测
- ResNet (Residual Network): 深度卷积神经网络 (CNN),用于图像识别、目标检测、人脸识别
- SVM (Support Vector Machine): 用于分类和回归的 ML 算法
- WaveNet: 生成原始音频波形的模型,用于语音合成
- GAN (Generative Adversarial Network): 生成类似训练数据的合成图像、视频或声音,适用于数据增强
- XGBoost (Extreme Gradient Boosting): 梯度提升的一种实现

Training Data

Labeled vs. Unlabeled Data
- Labeled Data: 包含输入特征和对应输出标签,用于 Supervised Learning
- Unlabeled Data: 只有输入特征没有输出标签,用于 Unsupervised Learning

Structured Data
- 数据以结构化格式组织,通常是行和列
- Tabular Data: 表格形式,行是记录,列是特征
- Time Series Data: 按时间顺序收集的数据点

Unstructured Data
- 没有特定结构,通常是文本或多媒体内容
- Text Data: 文章、社交媒体帖子、客户评论等
- Image Data: 图像数据,格式和内容多样

Supervised Learning
- 学习一个映射函数,为新的未见输入数据预测输出
- 需要 labeled data:很强大,但在百万级数据上难以执行

Regression
- 根据输入数据预测数值
- 输出是连续的,可以是范围内的任何值

Classification
- 预测输入数据的类别标签
- 输出是离散的,落入特定类别
- 关键算法:K-nearest neighbors (k-NN)

Training vs. Validation vs. Test Set
- Training Set: 用于训练模型
- Validation Set: 用于调整参数和验证性能
- Test Set: 用于评估最终模型性能

Feature Engineering
- 使用领域知识将原始数据转换为有意义的特征
- 帮助提升 ML 模型性能
- Structured Data 例子:根据面积、位置、房间数预测房价
- Unstructured Data 例子:客户评论的情感分析

Unsupervised Learning
- 目标是发现数据中的内在模式、结构或关系
- 常用技术:Clustering、Association Rule Learning、Anomaly Detection
- Feature Engineering 可以提升训练质量

Clustering
- 根据特征将相似数据点分组
- 例子:Customer Segmentation
- 结果:公司可以针对不同细分市场制定营销策略

Association Rule Learning
- 例子:Market Basket Analysis
- 结果:超市可以将关联商品放在一起提升销量

Anomaly Detection
- 例子:Fraud Detection
- 结果:系统标记可疑交易进行进一步调查

Semi-supervised Learning
- 用少量 labeled data 和大量 unlabeled data 训练系统
- 之后,部分训练的算法自动标注 unlabeled data

Self-Supervised Learning
- 模型为自己的数据生成 pseudo-labels,无需人工标注
- 然后用 pseudo labels 解决传统 Supervised Learning 的问题
- 广泛用于 NLP(如 BERT、GPT)和图像识别任务

Reinforcement Learning
- 一种 ML,agent 通过在环境中执行动作来学习决策,目标是最大化累积奖励

RLHF
- RLHF = Reinforcement Learning from Human Feedback
- 使用人类反馈帮助 ML 模型更高效地自我学习


Model Fit, Bias and Variance
Model Fit
- Overfitting: 训练数据表现好,评估数据表现差
- Underfitting: 训练数据表现差,可能模型太简单或特征不好
- Balanced: 既不 overfitting 也不 underfitting

Bias
- 预测值与实际值的差异或误差,由 ML 过程中的错误选择导致
- High Bias: 模型不能很好匹配训练数据,属于 underfitting
- 减少 Bias: 使用更复杂的模型,增加特征数量

Variance
- 模型在不同但分布相似的数据集上训练时性能变化的程度
- High Variance: 模型对训练数据变化很敏感,属于 overfitting
- 减少 Variance: 特征选择(更少但更重要的特征),多次划分训练和测试数据集

Model Evaluation Metrics
Confusion Matrix
- 用于分类模型的评估矩阵
- True Positive (TP): 预测为正,实际为正
- True Negative (TN): 预测为负,实际为负
- False Positive (FP): 预测为正,实际为负(误报)
- False Negative (FN): 预测为负,实际为正(漏报)
- Accuracy = (TP + TN) / Total
- Precision = TP / (TP + FP)
- Recall = TP / (TP + FN)

Regression Metrics
- MAE (Mean Absolute Error): 预测值与实际值差的绝对值平均
- MSE (Mean Squared Error): 预测值与实际值差的平方平均
- RMSE (Root Mean Squared Error): MSE 的平方根
- R² (R-Squared): 模型解释数据变异的程度,越接近 1 越好

Machine Learning – Inferencing
- Inferencing 是模型对新数据进行预测
- Real Time: 数据到达时快速做出决策
- Batch: 一次性分析大量数据

Inferencing at the Edge
- Edge devices 是计算能力较弱、靠近数据源、网络连接可能有限的设备
- Small Language Model (SLM) 部署在 edge device
- Large Language Model (LLM) 部署在远程服务器

Phases of Machine Learning Project
- Define Business Goals: 定义价值、预算、成功标准和 KPI
- ML Problem Framing: 将业务问题转换为 ML 问题,判断 ML 是否合适
- Data Processing: 数据收集、预处理、可视化、feature engineering
- Exploratory Data Analysis: 用图表和 Correlation Matrix 分析数据
- Model Development: 模型训练、调参、评估(迭代过程)
- Deployment: 选择部署模式(real-time、batch、serverless 等)
- Monitoring: 监控性能、debug 问题
- Iterations: 持续改进模型

Hyperparameter
- Hyperparameter: 定义模型结构和学习算法的设置
- Hyperparameter tuning: 找到最佳参数值以优化模型性能,提高准确性、减少 overfitting、增强泛化能力

Important Hyperparameters
- Learning rate, Batch size, Number of Epochs, Regularization

Overfitting
- 模型在训练数据上表现好,但在新数据上表现差
- 原因: 训练数据太少、训练太久、模型太复杂从 noise 中学习
- 防止: 增加训练数据量、Early stopping、Data augmentation、调整 hyperparameters

6. AWS Managed AI Services
AWS Comprehend
- 用于 Natural Language Processing (NLP)
- 使用 ML 从文本中发现洞察和关系

Custom Classification
- 将文档组织到你定义的类别中
- Real-time Analysis: 单个文档,同步
- Async Analysis: 多个文档(batch),异步

Named Entity Recognition (NER)
- 从文本中提取预定义的通用实体,如人物、地点、组织、日期等

Custom Entity Recognition
- 分析文本中的特定术语和名词短语
- 提取如保单号或客户投诉相关短语等业务特定内容
- 用自定义数据训练模型

AWS Translate
- 自然准确的语言翻译
- 用于本地化网站和应用内容,高效翻译大量文本

AWS Transcribe
- 自动将语音转换为文本
- 通过 Redaction 自动移除 PII(个人身份信息)
- 支持多语言音频的自动语言识别

Toxicity Detection
- 基于 ML 的语音毒性检测能力

Improving Accuracy
- 允许 Transcribe 捕获领域特定或非标准术语
- Custom Vocabularies: 添加特定词汇、短语、领域术语
- Custom Language Models: 用自己的领域文本数据训练模型

AWS Polly
- 使用 deep learning 将文本转换为逼真的语音
- 创建会说话的应用

Advanced Features
- Lexicons: 定义如何朗读特定文本
- SSML: 标记文本以指示发音方式
- Voice engine: generative、long-form、neural、standard
- Speech mark: 标记音频中句子/单词的起始和结束位置

AWS Rekognition
- 使用 ML 在图像和视频中识别物体、人物、文本、场景
- 人脸分析和搜索,用于用户验证、人数统计

Custom Labels
- 标记训练图像并上传到 Rekognition
- 新图像将按你定义的自定义方式分类

Content Moderation
- 自动检测不当、有害或冒犯性内容
- Custom Moderation Adaptors: 提供自己标记的图像集扩展 Rekognition 能力

AWS Lex
- 使用语音和文本快速为应用构建聊天机器人

AWS Personalize
- 全托管 ML 服务,构建实时个性化推荐应用
- 集成到现有网站、应用、SMS、邮件营销系统

AWS Textract
- 使用 AI 和 ML 自动从扫描文档中提取文本、手写内容和数据
- 读取和处理任何类型文档(PDF、图像等)

AWS Kendra
- 全托管的 ML 文档搜索服务
- 从文档中提取答案(text、pdf、HTML、PowerPoint、Word、FAQs 等)
- 从用户交互/反馈中学习,提升首选结果(Incremental Learning)

AWS Mechanical Turk
- 众包市场,用于执行简单的人工任务

AWS Augmented AI (A2I)
- 在生产环境中对 ML 预测进行人工监督

AWS Transcribe Medical
- 自动将医疗相关语音转换为文本(符合 HIPAA)
- 支持实时(麦克风)和批量(上传文件)转录

AWS Comprehend Medical
- 从非结构化临床文本中检测并返回有用信息
- 使用 NLP 检测 Protected Health Information (PHI) — DetectPHI API
- 配合 Amazon Transcribe 将患者叙述转录为文本,再由 Comprehend Medical 分析

AWS Hardware for AI
- AWS Trainium: 用于 100B+ 参数模型 Deep Learning 的 ML 芯片,训练成本降低 50%
- AWS Inferentia: 用于高性能低成本推理的 ML 芯片,吞吐量提升 4x,成本降低 70%
- Trn 和 Inf 具有最低的环境足迹

7. AWS SageMaker
AWS SageMaker AI
- 全托管服务,供开发者/数据科学家构建 ML 模型

End-to-End ML Service
- 收集和准备数据
- 构建和训练 ML 模型
- 部署模型并监控预测性能

Built-in Algorithms
- Supervised: Linear regressions/classifications, KNN
- Unsupervised: PCA(降维), K-means(聚类), Anomaly Detection
- Textual: NLP, 摘要
- Image Processing: 分类, 检测

Automatic Model Tuning (AMT)
- 定义 Objective Metric
- AMT 自动选择 hyperparameter ranges、搜索策略、最大运行时间、早停条件
- 节省时间和成本

Model Deployment & Inference
- 一键部署,自动扩展,无需管理服务器
- Real-time: 单次预测
- Serverless: 流量高峰之间有空闲期
- Asynchronous: 大 payload(最大 1GB),请求/响应在 S3
- Batch: 整个数据集的预测


SageMaker Studio
- 统一界面进行端到端 ML 开发

SageMaker Data Tools
SageMaker - Data Wrangler
- 为 ML 准备表格和图像数据
- 数据准备、转换和 feature engineering

SageMaker - Feature Store
- 从多种来源摄取 features
- 可在 Feature Store 内定义数据到 feature 的转换
- Features 可在 SageMaker Studio 中发现

SageMaker - Models and Humans
SageMaker Clarify
- 评估 Foundation Models
- 评估人类因素如友好度或幽默感
- SageMaker Studio 的一部分

SageMaker Clarify - Model Explainability
- 帮助解释 ML 模型如何做出预测的工具集
- 部署前理解模型整体特征

SageMaker Clarify - Detect Bias
- 检测和解释数据集和模型中的偏见

SageMaker Ground Truth
- RLHF: 将人类反馈纳入 reward function 的强化学习
- Ground Truth Plus: 数据标注

SageMaker - Governance
- SageMaker Model Cards: 基本模型信息
- SageMaker Model Dashboard: 所有模型的集中仓库
- SageMaker Role Manager: 为角色定义权限

Model Dashboard
- 查看、搜索、探索所有模型的集中门户
- 帮助发现违反数据质量、模型质量、偏见、可解释性阈值的模型

Model Monitor
- 监控生产环境中模型质量:持续或按计划

Model Registry
- 追踪、管理和版本控制 ML 模型的集中仓库
- 管理模型审批状态、自动化部署、共享模型

SageMaker Pipelines
- 自动化构建、训练、部署 ML 模型的工作流
- ML 的 CI/CD 服务


SageMaker Consoles
SageMaker JumpStart
- ML Hub,查找预训练 Foundation Model、计算机视觉模型、NLP 模型
- 预建 ML 解决方案:需求预测、信用评级预测、欺诈检测、计算机视觉

SageMaker Canvas
- 使用可视化界面构建 ML 模型(无需编码)
- 使用 SageMaker Autopilot 的 AutoML 构建自定义模型
- SageMaker Studio 的一部分
- 利用 Data Wrangler 进行数据准备

8. AI Challenges and Responsibilities
Responsible AI
- Amazon Bedrock: 人工或自动模型评估
- Guardrails for Amazon Bedrock: 过滤内容、隐藏 PII、增强安全和隐私
- SageMaker Clarify: FM 评估准确性、鲁棒性、毒性
- SageMaker Data Wrangler: 通过平衡数据集修复偏见
- SageMaker Model Monitor: 生产环境质量分析
- Amazon Augmented AI (A2I): ML 预测的人工审核
- Governance: SageMaker Role Manager, Model Cards, Model Dashboard

AWS AI Service Cards
- 负责任 AI 的文档形式
- 帮助理解服务及其功能

Interpretability Trade-Offs
- Interpretability: 人类理解决策原因的程度
- 高透明度 => 高可解释性 => 性能较差
- Explainability: 理解模型的本质和行为

Partial Dependence Plots (PDP)
- 显示单个特征如何影响预测结果,同时保持其他特征不变
- 对 “black box” 模型(如 Neural Networks)特别有帮助

Human-Centered Design (HCD) for Explainable AI
- Design for amplified decision-making: 在高压环境中最小化风险和错误
- Design for unbiased decision-making: 决策过程无偏见
- Design for human and AI learning: 认知学徒制、个性化、用户中心设计

GenAI Challenges
Toxicity
- 生成冒犯性、令人不安或不当内容
- 缓解:预先筛选训练数据,识别和移除冒犯性内容

Hallucinations
- 听起来正确但实际错误的断言
- 缓解:教育用户必须核实模型生成的内容

Plagiarism and Cheating
- 担忧 Gen AI 被用于写论文、求职写作样本等作弊行为
- 检测 AI 生成文本/图像的技术兴起

Prompt Misuses
- Poisoning: 故意向训练数据集注入恶意或有偏见的数据
- Hijacking/Prompt Injection: 在 prompt 中嵌入特定指令影响输出
- Exposure: 训练或推理时暴露敏感信息的风险
- Prompt Leaking: 无意泄露模型使用的 prompt 或输入
- Jailbreaking: 绕过 AI 模型的伦理和安全约束

Governance of AI
- 管理、优化和扩展组织 AI 计划
- 治理对于建立信任至关重要

Governance Strategies
- Policies: 原则、指南和负责任 AI 考量
- Review Cadence: 技术、法律和负责任 AI 审查的结合

- Transparency Standards: 发布 AI 模型、训练数据、关键决策的信息
- Team Training Requirements: 培训相关政策、指南和最佳实践

Security and Privacy for AI Systems
- Threat Detection: 检测假内容、篡改数据、自动化攻击
- Vulnerability Management: 识别 AI 系统漏洞:软件 bug、模型弱点
- Infrastructure Protection: 保护云计算平台、边缘设备、数据存储

- Prompt Injection: 操纵输入 prompt 生成恶意或不良内容
- Data Encryption: 静态和传输中数据加密

AWS Shared Responsibility Model
- AWS 责任: Security of the Cloud(云的安全)
- 客户责任: Security in the Cloud(云中的安全)

9. AWS Services
AWS IAM
- Root Account(根账户) - 默认创建,拥有完全权限,不要与他人共享。
- Users(用户) - 组织内的个人,可以属于多个组。
- Groups(组) - 只能包含用户,不能包含其他组。

IAM Permissions
- 定义用户或组的访问权限
- 最小权限原则(Least Privilege Principle) - 只授予完成任务所需的最小权限,避免过度授权。

IAM Polices
定义操作权限,与执行方法无关。
策略结构 - Statements 必须包含:
- Effect - Allow 或 Deny
- Principal - 谁可以访问
- Action - 允许或拒绝的操作
- Resource - 作用于哪些资源
Inline Policy (内联策略) - 直接分配给单个用户、组或角色的策略。

IAM Roles
- 授权 AWS 服务去做某些事 (比如 EB 需要 EC2 Role 和 Service Role)
- 常见的 Role
- EC2 Instance Role - 允许 EC2 实例访问其他 AWS 服务
- Lambda Function Role - 授予 Lambda 函数执行权限
- Service Role - 如 Elastic Beanstalk 需要 EC2 Role 和 Service Role

AWS S3 (Simple Storage Service)
S3 Buckets (存储桶)
- S3 服务是全球性的,但 Bucket 是区域性的
- 在 buckets 中存储对象(文件)
- Bucket 名称必须全球唯一

Objects (对象)
- 每个对象有一个 key(完整路径 = prefix + object name)
- 最大对象大小 5TB
- 单次上传限制 5GB,超过需使用 Multi-Part Upload
- 可使用 S3 Transfer Acceleration 加速上传

S3 重要特性
- S3 总是返回对象的最新版本
- S3 无法加密 metadata
- S3 是 serverless 服务
- S3 sync 命令使用 CopyObject API 在 buckets 间复制对象
- 对象所有权:默认情况下,S3 对象归上传它的 AWS 账户所有,即使 bucket 属于另一个账户

S3 Storage Classes
- 共 7 种存储类别: 1 个 General + 2 个 IA + 3 个 Glacier + 1 个 Intelligent

S3 Standard (标准通用型)
- 频繁访问的数据,最常见
- 高持久性、高可用性、低延迟

S3 Infrequent Access (IA)
- Standard-IA: 多 AZ,高可用,最少存储 30 天
- One Zone-IA: 单 AZ,成本更低,AZ 可能故障所以不适合高可用需求

S3 Glacier (归档存储)
- Instant Retrieval: 毫秒级检索,最贵,最少 90 天
- Flexible Retrieval: 1-5 分钟 / 3-5 小时 / 5-12 小时,最少 90 天
- Deep Archive: 12 小时 / 48 小时,最便宜,最少 180 天

S3 Intelligent-Tiering
- 根据使用情况自动在存储类别之间移动
- 无检索费用,无需手动管理

AWS EC2 (Elastic Compute Cloud)
- 属于 Infrastructure as a Service (IaaS),绑定到特定 AZ。
- User Data (用户数据) - EC2 启动时自动运行的脚本 (如安装 Apache)。
- 默认只在首次启动时运行
- 默认以 root 用户权限执行


- SSH 连接 - 使用 EC2 实例的公网 IP 地址连接。
- Instance Metadata (实例元数据) - 通过特殊 IP 获取实例信息:
- http://169.254.169.254/latest/meta-data/public-ipv4 - 获取公网 IP
- 记住 169 这个数字
AWS Lambda
- 虚拟函数,Serverless,短期执行(最长 15 分钟)
- 按需运行,自动扩展,按毫秒计费
- 无需管理服务器
- Event-Driven: S3 事件、DynamoDB 流、API Gateway 等
- CRON Job: 使用 EventBridge 定期触发(如每小时)

Lambda Limits
- Execution: Memory 128MB-10GB,最长 15 分钟
- Deployment: 压缩包 50MB,解压 250MB,容器镜像 10GB
- 有 account quota 限制,需联系 AWS 提高

VPC 访问
- 默认 Lambda 运行在 AWS VPC,可访问公共互联网和 AWS API
- 启用 VPC 后,需通过公共子网的 NAT Gateway 访问公共资源
AWS Macie
- 使用机器学习保护敏感数据
- 使用 ML 保护 AWS 中的敏感数据 (PII)
- 自动发现和分类敏感数据
- 持续监控 S3 存储桶

AWS Config
- 资源配置监控和合规性服务
- 提供 AWS 资源配置的详细视图,记录配置和随时间的变更
- 示例:检查 ACM 证书是否临近过期

Config Rules
- 自定义 Rule 检查资源合规性,也有 AWS managed rules
- 常见规则:检查 S3 bucket 公开访问、EC2 是否使用批准的 AMI、EBS 卷是否加密

Config Remediations
- 使用 SSM Automation Documents 自动修复不合规资源
- 例如:自动关闭不受限制的 SSH 访问

Config Notifications
- 使用 EventBridge 在资源不合规时触发通知
- 集成 SNS、Lambda 等

CloudTrail vs. Config
- CloudTrail:谁在什么时候做了什么(API 调用审计)
- Config:资源配置是什么,如何变化(配置管理)
AWS Inspector
- 自动化安全评估服
- 自动化安全评估 (Automated Security Assessments)
- 持续扫描漏洞
- 生成安全发现报告
- 支持的资源类型
- EC2 Instance - 操作系统漏洞
- Container Images (ECR) - 容器镜像漏洞
- Lambda Functions - 函数代码和依赖漏洞

AWS CloudTrail
- AWS 账户的治理、合规和审计服务
- 记录事件历史和 API 调用,全球服务
- 资源被误删时,第一时间查看 CloudTrail

CloudTrail Events
- Management Events:创建、删除、修改资源等操作
- Data Events:S3 对象级活动、Lambda 执行、DynamoDB 操作
- Insights Events:使用 ML 检测异常活动

CloudTrail Insights
- 检测账户中的异常活动
- 检测场景:API 调用激增、资源配置异常变化

AWS Artifact
- 提供AWS合规报告和协议的自助服务门户
- 下载SOC报告、PCI报告等合规文档,管理协议(如BAA)

AWS Audit Manager
- 评估 AWS 工作负载的风险和合规性
- 持续审计 AWS 服务使用情况并准备审计
- 生成合规报告和证据文件夹

AWS Trusted Advisor
- 分析 AWS 账户并在 6 个类别提供建议
- Cost optimization, Performance, Security, Fault tolerance, Service limits, Operational Excellence
- 需要 Business 或 Enterprise Support plan

AWS VPC
- AWS 中的虚拟私有网络。

Subnets
- VPC 内的子网分区(公有/私有)
- 公有子网: 有路由到 Internet Gateway,可以直接访问互联网(如 web server)
- 私有子网: 没有直接路由到互联网,需通过 NAT Gateway 访问外网(如数据库)

Internet Gateway & NAT Gateway
- Internet Gateway (IGW): 让公有子网的资源访问互联网,双向通信
- NAT Gateway: 让私有子网的资源访问互联网,但外部无法主动连入(单向)

Security Group vs NACL
- Security Group: 实例级防火墙,只有允许规则,有状态
- NACL: 子网级防火墙,允许和拒绝规则,无状态

VPC Flow Logs
- 捕获 VPC 内网络流量日志,用于监控和排查网络问题

VPC Peering
- 连接两个 VPC,使它们可以像在同一网络中一样通信
- 不支持传递(A-B、B-C 不意味着 A-C 能通)

VPC Endpoints
- 私密访问 AWS 服务(如 S3、DynamoDB),流量不经过互联网,更安全

AWS PrivateLink
- 将第三方 VPC 或本地网络私密连接到 AWS 服务
- 不经过公网,最安全的暴露服务方式

Site to Site VPN & Direct Connect
Site-to-Site VPN
- 通过公网建立加密连接,连接本地网络和 AWS VPC
- 组件: Virtual Private Gateway (VGW) + Customer Gateway
Direct Connect
- 专用物理网络连接,从本地直连 AWS
- 比 VPN 更稳定、低延迟、高带宽,但成本更高

AWS Client VPN
- 允许用户从任何地方安全连接到 AWS 和本地网络
- 基于 OpenVPN 的托管 VPN 服务,适合远程办公

AWS Transit Gateway
- 中心化网络连接枢纽
- 通过单个网关连接多个 VPC 和本地网络,简化复杂网络拓扑









