~ Demuestra tus habilidades en AWS en la era de la IA generativa ~


Índice

  1. Introducción: posicionamiento de esta certificación y estrategia de estudio
  2. Resumen del examen y dominios evaluados
  3. Organización de conocimientos clave por dominio
    • 3.1 Uso y selección de modelos de base
    • 3.2 Ingeniería de prompts
    • 3.3 Arquitectura RAG (Generación Aumentada por Recuperación)
    • 3.4 Fine-tuning y personalización de modelos
    • 3.5 Desarrollo de agentes de IA
    • 3.6 Seguridad e IA responsable
    • 3.7 AgentCore (nuevo servicio)
  4. ¿Qué podrás hacer en la práctica?
  5. Métodos de estudio y guía de materiales
  6. Lista de verificación para antes del examen

1. Introducción: posicionamiento de esta certificación y estrategia de estudio

Este documento fue creado como guía de preparación para el examen AWS Certified Generative AI Developer – Professional (conocido como AIP).

Qué acredita esta certificación

Esta certificación demuestra las habilidades para desarrollar y optimizar aplicaciones de IA generativa sobre AWS. En 2026, la demanda de ingenieros con experiencia práctica en IA generativa crece a un ritmo acelerado; obtener esta certificación te permite posicionarte claramente en el mercado como un ingeniero capaz de trabajar con el stack de IA generativa de AWS a nivel profesional.

Enfoque general de estudio

Consejo: Este examen no evalúa la memorización, sino la comprensión. Estudia siempre teniendo presente «¿por qué existe este servicio?» y «¿qué problema resuelve?».


2. Resumen del examen y dominios evaluados

Ítem Detalle
Nombre del examen AWS Certified Generative AI Developer – Professional
Inicio oficial Abril de 2026 en adelante (versión beta antes de esa fecha)
Formato Opción múltiple (selección única y selección múltiple)
Duración 180 minutos
Puntaje mínimo 750/1000 (puntaje escalado)
Precio 44 000 JPY (impuestos incluidos)

Principales dominios evaluados

Dominio Tema principal
Dominio 1 Selección y uso de modelos de base
Dominio 2 Ingeniería de prompts
Dominio 3 Diseño y construcción de arquitecturas RAG
Dominio 4 Fine-tuning y personalización
Dominio 5 Desarrollo de agentes de IA
Dominio 6 Seguridad, gobernanza e IA responsable

3. Organización de conocimientos clave por dominio


3.1 Uso y selección de modelos de base

★ Puntos evaluados en el examen

Se evalúa la comprensión de las características de los modelos de base (Foundation Models: FM) accesibles a través de Amazon Bedrock y la capacidad de seleccionar el modelo óptimo según el caso de uso.

Lista de modelos que debes conocer

Familia de modelos Proveedor Características principales y puntos fuertes
Claude Anthropic Comprensión de textos largos, razonamiento lógico, énfasis en seguridad
Titan Amazon Generación de texto, embeddings, generación de imágenes. Nativo de AWS
Llama Meta De código abierto, alta capacidad de personalización
Mistral Mistral AI Ligero y rápido, buena relación costo-rendimiento
Stable Diffusion Stability AI Especializado en generación de imágenes
Command/Embed Cohere Fuerte en generación de texto y embeddings

Criterios de selección (muy frecuentes en el examen)

Factores a considerar al seleccionar un modelo:

  1. Tipo de tarea: generación de texto, resumen, generación de código, generación de imágenes, embeddings, etc.
  2. Requisitos de precisión: ¿se necesita alta precisión o es suficiente un nivel aceptable?
  3. Requisitos de latencia: ¿se requiere respuesta en tiempo real?
  4. Costo: precio por token de entrada/salida, costo de inferencia
  5. Ventana de contexto: límite máximo de tokens de entrada
  6. Soporte multimodal: ¿se necesita procesar texto e imágenes?

Técnica para el examen: Aparecen muchas preguntas sobre el equilibrio entre «optimización de costos» y «precisión». Ante la pregunta «¿cuál es el método más rentable?», la respuesta correcta suele seguir el enfoque de comenzar con un modelo pequeño y escalar según sea necesario.

Funciones principales de Amazon Bedrock

Función Descripción
Acceso a modelos Acceso vía API a FM de múltiples proveedores
Playground Entorno de prueba para probar modelos desde la interfaz gráfica
Knowledge Bases Servicio administrado para construir RAG
Agents Ejecución autónoma de tareas mediante integración con herramientas externas
Guardrails Filtrado de contenido dañino
Evaluación de modelos Función de comparación del rendimiento de modelos
Personalización Fine-tuning y preentrenamiento continuo

3.2 Ingeniería de prompts

★ Puntos evaluados en el examen

Se evalúan el nombre, las características y el uso apropiado de cada técnica de prompting. Son muy frecuentes las preguntas del tipo «¿qué técnica de prompting es la más adecuada en esta situación?».

Principales técnicas de prompting

Prompting Zero-shot

Método en el que solo se da una instrucción sin ejemplos previos. Depende del conocimiento previo del modelo.

Resume el siguiente texto en 3 líneas:
[texto]

Cuándo usarlo: tareas simples en las que las capacidades generales del modelo son suficientes

Prompting Few-shot

Método en el que se muestran algunos pares de entrada y salida de ejemplo antes de plantear la tarea real.

Reseña: "¡Este producto es increíble!" → Sentimiento: Positivo
Reseña: "Llegó roto y no funciona" → Sentimiento: Negativo
Reseña: "Es normal, nada especial" → Sentimiento:

Cuándo usarlo: cuando se necesita que el modelo respete un formato específico o criterios de clasificación determinados

Prompting Chain-of-Thought (CoT)

Técnica que lleva al modelo a seguir un proceso de razonamiento paso a paso. Se agrega una instrucción como «piensa paso a paso».

Problema: en una tienda hay 12 manzanas, se venden 8 y luego llegan 5 más.
¿Cuántas manzanas hay? Piensa paso a paso.

Cuándo usarlo: tareas complejas que requieren razonamiento matemático o lógico

Prompt de sistema

Prompt que define el rol, las restricciones y el comportamiento del modelo. Es la parte que el usuario no ve.

Eres un ingeniero de soporte técnico de AWS.
Responde únicamente preguntas relacionadas con servicios de AWS.
Limita tus respuestas a 200 caracteres.

Cuándo usarlo: aplicaciones en general donde se desea mantener una calidad de respuesta consistente

Buenas prácticas para optimizar prompts

Práctica Descripción
Ser específico en las instrucciones Evitar instrucciones ambiguas; especificar formato, longitud y tono de la salida
Usar delimitadores Separar las secciones de entrada con etiquetas XML o líneas divisorias
Mejorar de forma iterativa No buscar la perfección de inmediato; repetir ciclos de prueba y corrección
Aprovechar instrucciones negativas Las restricciones del tipo «no hagas X» también son efectivas
Ajustar el parámetro de temperatura Temperatura baja = determinista; temperatura alta = creativo

Parámetros de inferencia (muy frecuentes en el examen)

Parámetro Función Efecto según el valor
Temperature Controla la aleatoriedad de la salida Bajo → salida precisa y consistente; alto → salida diversa y creativa
Top P Limita los tokens candidatos por probabilidad acumulada Bajo → conservador; alto → diverso
Top K Selecciona entre los K tokens candidatos más probables Pequeño → conservador; grande → diverso
Max Tokens Número máximo de tokens en la salida Afecta el costo y la longitud de la respuesta
Stop Sequences Cadenas de texto que detienen la generación Útil para controlar el formato de salida

Técnica para el examen: «Tareas donde la precisión es crítica (generación de código, respuestas basadas en hechos)» → Temperature baja «Tareas donde la creatividad es importante (brainstorming, creación de historias)» → Temperature alta Este criterio aparece con mucha frecuencia.


3.3 Arquitectura RAG (Generación Aumentada por Recuperación)

★ Puntos evaluados en el examen

Se hace especial hincapié en la composición de la arquitectura RAG, el rol de cada componente y la selección de la base de datos vectorial. En particular, el patrón de construcción con Amazon Bedrock Knowledge Bases es uno de los temas más importantes.

¿Qué es RAG?

RAG (Retrieval-Augmented Generation: Generación Aumentada por Recuperación) es una arquitectura que recupera información relevante de fuentes de datos externas y la pasa como contexto al LLM para generar una respuesta.

Reduce las alucinaciones (respuestas plausibles pero incorrectas) que son un problema de los LLM por sí solos, y permite obtener respuestas precisas basadas en datos internos actualizados.

Arquitectura RAG (flujo de procesamiento)

┌──────────────────────────────────────────────────────────────┐
│                    Flujo de procesamiento RAG                │
│                                                              │
│  Pregunta del usuario                                        │
│      ↓                                                       │
│  ① Vectorizar la pregunta con un modelo de embedding         │
│      ↓                                                       │
│  ② Búsqueda por similitud en la BD vectorial (búsqueda       │
│     semántica)                                               │
│      ↓                                                       │
│  ③ Recuperar documentos relevantes (chunks)                  │
│      ↓                                                       │
│  ④ Incorporar la información recuperada + la pregunta        │
│     original en el prompt                                    │
│      ↓                                                       │
│  ⑤ El LLM genera la respuesta                                │
│      ↓                                                       │
│  Respuesta al usuario                                        │
└──────────────────────────────────────────────────────────────┘

Pipeline de ingesta de datos

┌──────────────────────────────────────────────────────────────┐
│               Pipeline de ingesta de datos                   │
│                                                              │
│  Fuente de datos (S3, web crawler, etc.)                     │
│      ↓                                                       │
│  ① Carga y parseo de documentos                              │
│      ↓                                                       │
│  ② Chunking (división del documento en unidades pequeñas)    │
│      ↓                                                       │
│  ③ Vectorización con modelo de embedding                     │
│      ↓                                                       │
│  ④ Almacenamiento en la BD vectorial                         │
└──────────────────────────────────────────────────────────────┘

Estrategias de chunking (muy frecuentes en el examen)

Estrategia Descripción Casos de uso adecuados
Tamaño fijo División mecánica por un número fijo de tokens Simple, rápido y de uso general
Semántico División por unidades de significado Cuando la coherencia semántica es importante
Jerárquico División en chunks padre e hijo Cuando se necesita tanto amplitud de contexto como nivel de detalle
Con solapamiento Se superponen los límites entre chunks Cuando se quiere evitar la pérdida de información

Técnica para el examen: Chunks demasiado grandes → aumenta el ruido, baja la precisión y sube el costo Chunks demasiado pequeños → se pierde el contexto y no se pueden generar respuestas con sentido Aparecen preguntas sobre «la selección del tamaño de chunk adecuado».

Opciones de bases de datos vectoriales

Servicio Características Posición en el examen
Amazon OpenSearch Serverless Serverless, búsqueda híbrida de texto completo + vectorial El más frecuente. Aparece con mayor frecuencia en preguntas sobre RAG
Amazon Aurora PostgreSQL (pgvector) Añade búsqueda vectorial a una BD relacional Cuando se quiere aprovechar una BD relacional existente
Amazon Neptune BD de grafos + búsqueda vectorial Combinación con grafos de conocimiento
Pinecone Tercero, especializado en búsqueda vectorial Conectable desde Bedrock Knowledge Bases
Redis Enterprise Cloud Alta velocidad en memoria + búsqueda vectorial Requisitos de baja latencia

Configuración de Amazon Bedrock Knowledge Bases

Amazon Bedrock Knowledge Bases es un servicio que permite construir el pipeline RAG descrito anteriormente de forma administrada.

Fuentes de datos compatibles:

  • Amazon S3 (la más común)
  • Web crawler
  • Confluence
  • SharePoint
  • Salesforce

Elementos de configuración principales:

  • Selección del modelo de embedding (Titan Embedding, etc.)
  • Selección de la estrategia de chunking
  • Selección de la BD vectorial
  • Configuración del filtrado por metadatos

Técnica para el examen: «Quiero construir un chatbot que devuelva respuestas precisas usando documentos internos» → RAG (Bedrock Knowledge Bases) es la primera opción. Comprende por qué se elige RAG en lugar de fine-tuning (frescura de los datos, costo, facilidad de implementación).

RAG vs. Fine-tuning (comparación muy frecuente en el examen)

Aspecto RAG Fine-tuning
Objetivo Mejorar la precisión de las respuestas mediante referencia a conocimiento externo Cambiar el comportamiento o estilo del modelo
Frescura de los datos Puede referenciar datos actualizados en tiempo real Depende de los datos disponibles al momento del entrenamiento
Costo Aumento de tokens en inferencia (por el contexto añadido) Requiere costo de entrenamiento (tiempo de GPU)
Complejidad de implementación Relativamente simple (al usar Bedrock Knowledge Bases) Requiere preparación de datos, entrenamiento y evaluación
Casos de uso adecuados FAQ interno, búsqueda de conocimiento, referencia a información actualizada Tono o formato específico, adquisición de terminología especializada

3.4 Fine-tuning y personalización de modelos

★ Puntos evaluados en el examen

Se evalúan los tipos de fine-tuning, sus usos, los costos y compromisos, y cuándo usarlo en lugar de RAG.

Comparación de técnicas de personalización

Técnica Costo Efecto Cuándo aplicarla
Ingeniería de prompts El más bajo Limitado Primera técnica que se debe probar
RAG Moderado Alta efectividad para ampliar conocimiento Cuando se necesita referenciar conocimiento externo
Fine-tuning Alto Alta efectividad para cambiar el comportamiento del modelo Tareas especializadas en un dominio específico
Preentrenamiento continuo El más alto Adición fundamental de conocimiento de dominio Incorporación de un nuevo idioma o campo especializado

Técnica para el examen: Si el enunciado dice «el más rentable» o «primero que se debe intentar», el patrón correcto es considerar en orden: ingeniería de prompts → RAG → fine-tuning.

Proceso de fine-tuning

  1. Preparación de datos de entrenamiento: preparar pares entrada-salida en formato JSONL
  2. Subir los datos a S3
  3. Crear un trabajo de personalización en Bedrock
  4. Entrenamiento del modelo (se requiere throughput provisionado)
  5. Evaluación del modelo personalizado
  6. Despliegue y uso

Cuándo elegir fine-tuning

  • Se quiere enseñar un estilo de respuesta o tono específico
  • Se necesita que el modelo comprenda terminología o siglas propias del sector
  • Se requiere una salida consistente en un formato determinado (JSON, XML, etc.)
  • La ingeniería de prompts y RAG no logran la precisión suficiente

3.5 Desarrollo de agentes de IA

★ Puntos evaluados en el examen

Se evalúan el funcionamiento de Amazon Bedrock Agents, la integración de acciones y Knowledge Bases, y la conexión con funciones Lambda.

¿Qué es Amazon Bedrock Agents?

Bedrock Agents es una función que permite al LLM interactuar con APIs externas y fuentes de datos para ejecutar tareas de múltiples pasos de forma autónoma.

Componentes de un agente

Componente Descripción
Modelo de base El LLM que actúa como «cerebro» del agente
Instrucciones (Instructions) Prompt que define el rol y las restricciones del agente
Grupos de acciones Operaciones externas que el agente puede ejecutar (implementadas con funciones Lambda)
Knowledge Bases Datos internos que el agente puede consultar (RAG)

Flujo de operación del agente

Pregunta del usuario
    ↓
El agente analiza la pregunta (orquestación)
    ↓
Selecciona una acción según sea necesario
    ├→ Búsqueda en Knowledge Base → Recupera información relevante
    ├→ Invoca función Lambda → Operación en API/BD externa
    └→ Se necesita razonamiento adicional → Consulta nuevamente al modelo
    ↓
Genera la respuesta final y la devuelve al usuario

Definición de grupos de acciones

Los grupos de acciones se definen mediante un esquema OpenAPI y se vinculan a funciones Lambda en el backend.