Детальна програма курсу
Введение в Big Data
- Определение терминов
- Пайплайн Big Data и основные инструменты работы с ним
Поглощение и передача Big Data
- Основные варианты поглощения Big Data в облако AWS
- Решения передачи Big Data в облаке AWS
Потоки Big Data и сервис Amazon Kinesis
- Необходимость поточной обработки и аналитики
- Возможности поточной обработки и аналитики
- Лабораторная работа 1: Использование Amazon Kinesis в поточной обработке и аналитике логов серверва Apache
Системы хранения для Big Data
- Сервисы хранения данных в AWS
- Факторы, влияющие на выбор хранилища для данных
Обработка и аналитика Big Data
- Amazon Athena
- Лабораторная работа 2: Использование Amazon Athena для запроса логов из Amazon S3
Apache Hadoop и Amazon EMR
- Введение в MapReduce и Apache Hadoop
- Лучшие практики поглощения данных
- Amazon EMR
- Лабораторная работа 3: Хранение и чтение данных в Amazon DynamoDB
Использование Amazon EMR
- Разработка и запуск приложения
- Запуск кластера
- Обработка выходных данных из завершённых работ
Фреймворки обработки Hadoop
- Работа фреймворков
- Фреймворки Hadoop
- Другие фреймворки, доступные для Amazon EMR
- Лабораторная работа 4: Обработка логов сервера с помощью Hive в Amazon EMR
Веб-интерфейсы в Amazon EMR
- Hue в Amazon EMR
- Мониторинг кластера
- Лабораторная работа 5: Запуск Pig-скриптов в Hue на Amazon EMR
Apache Spark на Amazon EMR
- Аналитика в оперативной памяти
- Apache Spark
- Модель программирования Spark
- Библиотеки Spark
- Лабораторная работа 6: Обработка данных NY Taxi с помощью Spark на Amazon EMR
Использование AWS Glue для автоматизации нагрузок ETL
- AWS Glue
- Оркестрация потоков
- Частые случаи использования
Amazon Redshift и Big Data
- Склады данных и традиционные базы данных
- Междоменная аналитика
- Amazon Redshift
Защита инфраструктур в AWS
- Обзор безопасности AWS
- Безопасность в Amazon EMR
- AWS IAM
- Защита данных
- Безопасность в Amazon Kinesis
- Безопасность в Amazon DynamoDB
- Безопасность в Amazon Redshift
Управление стоимостью Big Data
- Определение общей стоимости в Amazon EMR
- Модели ценообразования в Amazon EC2
- Хранилища и стоимость передачи
- Модели ценообразования в Amazon Kinesis
- Оптимизация стоимости в Amazon DynamoDB
- Оптимизация стоимости в AWS
Визуализация и оркестрация Big Data
- Визуализация Big Data
- Amazon QuickSight
- Другие возможности оптимизации
- Оркестрация потоков и нагрузок Big Data
- Лабораторная работа 7: Визуализация данных TIBCO Spotfire
Паттерны проектирования Big Data
- Распространенные архитектуры
Итоговый контроль знаний