- Кто такой аналитик Big Data?
- Что делают аналитики Big Data и чем занимаются?
- Что должен знать и уметь аналитик Big Data?
- Востребованность и зарплаты аналитиков Big Data
- Как стать аналитиком Big Data и где учиться?
- 15+ лучших курсов для обучения аналитика Big Data: подробный обзор
- 1 место. Курс «Факультет аналитики Big Data» — GeekBrains
- 2 место. Курс «Аналитик Big Data и старт в Data Science» — ProductStar
- Курс «BIG DATA для менеджеров» — ProductLIVE
- Курс «BIG DATA с нуля» — Нетология
- Курс «Big-Data для менеджеров» — SkillFactory
- Краткая программа обучения
- Ваши компетенции после курса
- Курс «Большие данные и машинное обучение» — Университет ИТМО
- Курс «Лекции по Big Data» — Sergey Petrovich
- Курс «Big Data» — Coursera
- Курс «Анализ Big Data» — BigData Team
- Курс «Аналитик Big Data» — «Специалист» при МГТУ им.Н.Э.Баумана
- Курс «Big Data for Data Science» — Stepik Academy
- Курс «Big Data Science» — Сетевая академия Ланит
- Курс «Бизнес-аналитика и системы больших данных» — НИУ ВШЭ
- Курс «Business Analytics and Big Data (MiBA)» — Высшая школа менеджмента СПбГУ
- Курс «Big Data» — ITEA
- https://www.bigdataschool.ru/ Стоимость:нет информации
Кто такой аналитик Big Data?
Аналитик больших данных (Big Data Analyst) — это специалист, который собирает данные из многочисленных источников и хранилищ данных компании, анализируют и интерпретируют их, чтобы извлечь такую информацию, которая может быть полезна для бизнеса. Аналитики больших данных также привлекаются компаниями для выполнения задач конкурентного анализа рынка с целью выявления ключевых тенденций в отрасли.
Что делают аналитики Big Data и чем занимаются?
Обязанности на примере одной из вакансий:
- решение аналитических задач;
- выявление и анализ инцидентов;
- участие в разработке продуктовых метрик и методов исследований;
- подготовка отчетов, дашбордов, визуализация результатов исследований;
- проведение и анализ А/Б-тестов.
- разработка и развитие предиктивных алгоритмов;
- автоматизация маркетинговой аналитики на основании собственных моделей;
- создание дашбордов для конечных пользователей;
- проверка и исследование гипотез.
Что должен знать и уметь аналитик Big Data?
Требования к аналитикам Big Data:
- Знание основ математической статистики
- Работа с Excel и Google Таблицами
- Основы программирования на Python
- Работа с Power BI
- Создание аналитических отчётов
- Знание Google Analytics и Яндекс.Метрики
- Работа с базами данных на SQL
- Создание дашбордов
- Подготовка презентаций в Power Point
Востребованность и зарплаты аналитиков Big Data
На сайте поиска работы в данный момент открыто 979 вакансий, с каждым месяцем спрос на аналитиков Big Data растет.
Количество вакансий с указанной зарплатой аналитика Big Data по всей России:
- от 95 000 руб. – 158
- от 175 000 руб. – 89
- от 255 000 руб. – 55
- от 335 000 руб. – 15
- от 415 000 руб. – 7
Вакансий с указанным уровнем дохода по Москве:
- от 120 000 руб. – 68
- от 195 000 руб. – 46
- от 270 000 руб. – 32
- от 345 000 руб. – 13
- от 420 000 руб. – 5
Вакансий с указанным уровнем дохода по Санкт-Петербургу:
- от 140 000 руб. – 15
- от 210 000 руб. – 9
- от 280 000 руб. – 6
- от 425 000 руб. – 2
Как стать аналитиком Big Data и где учиться?
Варианты обучения для аналитика Big Data с нуля:
- Самостоятельное обучение – всевозможные видео на YouTube, книги, форумы, самоучители и т.д. Плюсы – дешево или очень недорого. Минусы – нет системности, самостоятельное обучение может оказаться неэффективным, полученные навыки могут оказаться невостребованными у работодателя;
- Онлайн-обучение. Пройти курс можно на одной из образовательных платформ. Такие курсы рассчитаны на людей без особой подготовки, поэтому подойдут большинству людей. Обычно упор в онлайн-обучении делается на практику – это позволяет быстро пополнить портфолио и устроиться на работу сразу после обучения.
Ниже сделали обзор 15+ лучших онлайн-курсов.
15+ лучших курсов для обучения аналитика Big Data: подробный обзор
1 место. Курс «Факультет аналитики Big Data» — GeekBrains
https://gb.ru/geek_university/big-data-analytics
Стоимость: Рассрочка на 36 месяцев — от 4 828 ₽ / мес
Вы научитесь собирать и анализировать данные, извлекать полезную информацию и находить закономерности. После обучения сможете проверять гипотезы и помогать бизнесу принимать взвешенные решения.
- 18 месяцев
- 9 кейсов в вашем портфолио
- Гарантия трудоустройства
- Онлайн, 1–2 раза в неделю
Аналитик Big Data извлекает ценные данные из большого массива информации: отзывов, прогнозов, результатов исследований. Он помогает бизнесу принимать взвешенные решения: строить гипотезы, запускать продукты, улучшать процессы, планировать развитие.
Кому подойдет курс
Новичкам
Даже если вы никогда не работали в IT, вы получите востребованную и высокооплачиваемую специальность.
Начинающим аналитикам
У вас будет всё для ускоренного карьерного роста: комплексные знания и опыт работы с продвинутыми инструментами, методологиями и стандартами.
Практикующим IT-специалистам
Подскажем, как перейти в востребованное направление и зарабатывать больше.
Программа обучения
Подготовительный блок
Курсы
- Видеокурс: как учиться эффективно
- Основы языка Python
I четверть
Фундамент анализа данных
Студенты научатся главному инструменту аналитика — языку SQL. Также изучат основы языка Python и базовые библиотеки Python для анализа данных (NumPy, Pandas, Matplotlib, Scikit-learn).
Проект
Закрытое соревнование на Kaggle по предсказанию цены на недвижимость — решение задачи регрессии.
Курсы
- Встреча студентов с деканом факультета
- Основы языка Python
- Рабочая станция
- Основы реляционных баз данных. MySQL
- Библиотеки Python для Data Science: NumPy, Matplotlib, Scikit-learn
II четверть
Сбор, обработка и хранение данных
Студенты научатся собирать данные из различных источников. Также проработают процессы предобработки неструктурированных данных и их хранения в различных базах данных для дальнейшего анализа. На заключительном этапе познакомятся с популярным инструментом по работе с большими данными — Hadoop.
Проекты
— Несколько пауков для сбора данных с сайтов разной сложности: от открытого API до динамических страниц.
— Хранение и обработка полученных данных.
Курсы
Методы сбора и обработки данных из сети Интернет
Базы данных для аналитиков
Изучите работу долговременных хранилищ, начнёте работать с MySQL и другими базами данных: MongoDB, Redis, Elasticsearch и ClickHouse.
4 недели — 8 уроков
Big Data. Введение в экосистему Hadoop
Поработаете с парадигмой MapReduce и файловой системой HDFS, начнёте управлять ресурсами кластеров и планированием заданий в YARN, внедрите потоковую обработку данных. Изучите NoSQL, принципы ETL и архитектуры Data Lake и Lambda Architecture.
4 недели — 8 уроков
III четверть
Алгоритмы обработки и анализа данных. Совместно с компанией X5 Retail Group
Студенты начнут изучение теории вероятностей и математической статистики для понимания работы алгоритмов анализа данных. Также узнают базовые алгоритмы для решения основных задач анализа данных, научатся реализовать их с помощью Python и смогут применять их на практике в дальнейшем.
Проекты
— Разведочный анализ данных (EDA) на основе выбранного датасета: визуализация, корреляционный анализ, дисперсионный анализ, факторный анализ.
— Предиктивная аналитика выбранного датасета.
— Участие в одном или двух соревнованиях на Kaggle: предсказать средний балл на экзамене по математике, который получают ученики репетиторов; предсказать, подойдет ли репетитор для подготовки к экзамену по математике.
— Проект от X5 Retail Group: А/Б-тестирование на данных офлайн-ритейла.
Курсы
- Теория вероятностей и математическая статистика
- Алгоритмы анализа данных
IV четверть
Системы машинного обучения. Рекомендательные системы
Студенты погрузятся в прикладное машинное обучение: решат несколько бизнес-кейсов с применением ML, а также подробно изучат популярный фреймворк для работы с BigData — Apache Spark. Курсовой проект будет включать разработку рекомендательной системы.
Проекты
— Проект разработки модели с помощью Flask от сырых данных и типичных для отрасли задач до внедрения.
— Рекомендательная система на основе коллаборативной фильтрации.
Курсы
Машинное обучение в бизнесе
Вы познакомитесь с задачами, в которых машинное обучение помогает автоматизировать бизнес-процессы и улучшать финансовые показатели. Будут задачи по ретаргетингу, look-alike аудитории, uplift-моделированию. Также будут задачи по формулированию гипотез, презентации результатов, интеграции и АБ-тестированию ML-моделей.
5 недель — 9 уроков
Фреймворк Apache Spark
Рекомендательные системы
V четверть
Аналитика Big Data для бизнеса
Студенты научатся решать задачи ML с отзывами клиентов, геоданными и соцсетями. Также освоят несколько задач бизнес-аналитика в современных BI-системах: построение витрин данных, прогнозирование, управление знаниями и отчетность.Также студенты познакомятся с real-time системой обработки и анализа больших данных на основе Kafka и Apache Streaming.
Курсы
- Анализ данных в Power BI
- Потоковая обработка данных
- Финальный проект
Курсы со свободной датой старта
- Подготовка к собеседованию аналитика Big Data
- Введение в высшую математику
- Алгоритмы и структуры данных на Python. Интерактивный курс
- Видеокурс от Delivery Club
- Язык R для анализа данных
- Видокурс от Reg.ru.
Системы сбора логов - Видеокурс от X5 RETAIL GROUP.
A/B тестирование от основ до продвинутых подходов
Ключевые навыки
— Владею методами машинного обучения
— Использую в работе методы прикладной статистики и теории вероятностей
— Умею обрабатывать большие данные с помощью разных технологий (Hadoop, Hive, Spark, Hue, HBase, Kafka, Spark Streaming)
— Владею SQL и NoSQL СУБД
— Работаю с BI-системами (Power BI), формирую отчёты анализа данных
— Программирую на Python и работаю с библиотеками для анализа данных (NumPy, Matplotlib, scikit-learn)
2 место. Курс «Аналитик Big Data и старт в Data Science» — ProductStar
https://productstar.ru/analytics-bigdata-full-course
Стоимость: в рассрочку 6 658 ₽/ мес. на 12 месяцев
Освойте ключевые технологии, научитесь работать с большими данными, расширьте знания в аналитике и перейдите на новый уровень в профессии.
Инструменты: от SQL и Python до Hadoop, ETL и DWH
- Длительность — 12 месяцев
- Онлайн — в удобное время
- Обучение — на практике
- Доступ к курсу — навсегда
Чему вы научитесь
Работать SQL
Научитесь писать запросы, работать с данными в базе без переноса в таблицы, загружать данные и сохранять историю, работать с разными форматами файлов
Использовать Python и библиотеки анализа данных
Автоматизировать работу с большими массивами, получать данные из внешних источников, обосновывать выводы, сделанные на основании данных
Строить системы анализа больших данных
Освоите Hadoop и MapReduce. Научитесь проверять гипотезы, изучите машинные методы для обработки данных, сможете выявлять скрытые аномалии в данных и строить прогнозные модели
Использовать сложную математику для анализа Big Data
Освоите необходимый математический аппарат для продуктивной работы с моделями данных, машинным обучением и нейронными сетями
Программа курса (120 лекций и воркшопов)
Блок 1: «SQL для анализа данных»
- Введение в блок SQL
- Извлечение и фильтрация данных
- Преобразование и сортировка данных
- Группировка данных
- Введение в базы данных
- Объединение таблиц
- Вложенные запросы
- Обновление, добавление и удаление данных
- Создание, изменение и удаление таблиц
- Advanced
- Обзор основных программ
Блок 2: «Python и обработка данных»
- Введение в Python
- Типы данных, функции, классы, ошибки
- Строки, условия, циклы
- Списки и словари в Python
- Пакеты, файлы, Pandas — начало
- Pandas: продолжение
- Визуализация данных
- Базы данных и статистика
- Многопоточность
- Веб-сервер flask и контроль версий GIt
- Итоговый проект
Блок 3: «Построение Machine Learning моделей»
- Знакомство с машинным обучением
- Линейная регрессия
- Бинарная классификация
- Построение надежных стратегий валидации — важность локальной валидации
- Решающие деревья
- Бутстрап, Бэггинг и случайный лес
- Feature Engineering, Feature Selection
- Градиентный бустинг
- Воркшоп: предсказание оттока клиентов и прогноз продаж
- A/B тестирование
- Обучение без учителя
- Воркшоп: скоринг кредитного портфеля
Блок 4: «Нейронные сети и NLP»
- Введение в нейронные сети
- Обучение нейросетей
- Глубокое обучение на практике
- Дополнительные возможности Tensorflow + Keras
- Свёрточные нейронные сети
- Введение в NLP, понятие ембеддинга
- Рекурентные нейронные сети
- Нейросети с вниманием, трансформеры
- Metric learning, обучение без учителя
- Обучение с подкреплением в нейросетях
Блок 5: «Рекомендательные системы»
- Введение
- Метрики и бейзлайны
- Матричное разложение
- Рекомендации через поиск ближайших соседей
- Гибридные рекомендательные системы
Блок 6: «Аналитика больших данных»
- Машинные методы для обработки данных
- Культура сбора и источники данных
- Предобработка и визуализация данных в pandas
- Построение прогнозных и предсказательных моделей
- Основы работы в Hadoop и MapReduce
- Работа в pyspark
…
Блок 7: «Обработка больших данных»
- Улучшение качества работы с данными
- Основы архитектуры хранения и обработки больших данных, виды обработки и масштабирования
- Работа с облачными платформами: AWS, EMR, Azure
- Продвинутые подходы в MapReduce
- Организация команды для работы с данными. CRISP-DM
…
Блок 8: «Визуализация данных»
- Сравнительный обзор основных инструментов визуализации данных
- Основные ошибки при проектировании отчетности и визуализации данных
- Расширенные возможности визуализации данных + практика
- Организация хранения данных для целей анализа
- Презентация результата команде
- Решение бизнес-задач в команде
- Как управлять процессами по аналитике
…
Блок 9: Дипломная работа и помощь с трудоустройством
- Работа над дипломным проектом для портфолио
- Подготовка резюме
- Подготовка к собеседованию
- Финальная защита и консультации
Ваше резюме и проф.навыки после курса
Должность: Аналитик Big Data
Зарплата от: 145.000 рублей
- Machine Learning
Построение моделей. Линейные методы, логистическая регрессия и SVM
Продвинутая математика для ML
Методы математической оптимизации. Основы линейной алгебры и теории множеств
Построение ML-моделей
Построение прогнозных и предсказательных моделей - Продуктовые навыки
Построение и анализ MVP-решений, работа с HADI-циклами - Hadoop
Основы архитектуры хранения и обработки больших данных, виды обработки и масштабирования
Мат.статистика
Хороший уровень понимание базы мат.статистики, необходимый для работы с данными - Рекомендательные системы
Навык построения рекомендательных систем для различных отраслей - MapReduce
Продвинутые подходы в MapReduce работы с BigData - SQL
Продвинутый уровень анализа данных за счёт использования SQL-запросов - Python
Построение базовых отчётов и автоматизация работы с помощью библиотек Python - Визуализация данных
Навыки работы с OWOX, продвинутый уровень в Google Data Studio - Презентация данных
Подготовка отчётов и презентация результатов анализа данных
Курс «BIG DATA для менеджеров» — ProductLIVE
https://ProductLIVE.io/big-data-mba
Стоимость: 94 800 рублей или в рассрочку 7 900 руб/мес
Научитесь внедрять AI и использовать Big Data, чтобы оптимизировать работу компании, повысить прибыль и всегда быть на шаг впереди конкурентов. КУРС ДЛЯ РУКОВОДИТЕЛЕЙ ДЕПАРТАМЕНТОВ И НАПРАВЛЕНИЙ В КРУПНЫХ КОМПАНИЯХ.
Управление Big Data и AI — это отдельная область знаний. Вам не нужно быть техническим экспертом. На курсе вы освоите высокоуровневое понимание технологий и научитесь видеть возможности для роста и трансформации.
Обучение на курсе «Big Data» дает руководителям и менеджерам необходимые компетенции и множество конкретных бизнес-кейсов, которые можно переложить на свои собственные задачи.
Краткая программа курса
12 недель
Как работает Big Data & ML
- Основные понятия
- Модели машинного обучения
- Сбор и хранение данных
- Обработка и аналитика
10 недель
Менеджмент Big Data проектов
- Основные подходы к оцифровке бизнеса
- Как AI может быть полезен руководителю
- Какие люди нужны для реализации проектов по AI
- Планирование в AI проектах
4 недели
Дополнительные аспекты в работе с большими данными
- Юридические аспекты работы с большими данными
- Как презентовать Big Data проект руководству
- Summary. Подготовка проектного предложения
Ваши компетенции после курса
- Понимание возможностей Big Data & Machine Learning для бизнеса
- Умение выстраивать работу с BD и DS командой
- Понимание юридических аспектов работы с большими данными
- Навыки проверки гипотез через MVP
- Навыки работы с датасетами и фреймворками
- Навык планирования Big Data проектов
- Умение выявлять кадровые потребности в бизнесе и находить правильных кандидатов на должности в сфере Big Data
- Понимание алгоритмов искусственного интеллекта и инструментов BD
После успешного обучения
СЕРТИФИКАТ
Персональный сертификат о прохождении специализации. По запросу предоставляется на английском языке
РАЗВИТИЕ КАРЬЕРЫ
— консультации с ментором в течение обучения
— доступ к закрытому клубу выпускников и партнеров
— подборки инженеров, инсайты рынка поставщиков данных
— проекты в ваше портфолио
СООБЩЕСТВО
Сообщество экспертов с бизнес-опытом из разных сфер
Курс «BIG DATA с нуля» — Нетология
https://netology.ru/programs/big-data
Стоимость: 24 850 ₽ или рассрочка на 12 месяцев — 2 070 ₽ / мес
- Научитесь работать с большими данными
- Расширьте знания в аналитике
- Перейдите на новый уровень в профессии
- Формат обучения онлайн
- Для кого для всех, кто готов повышать свою грамотность в IT-технологиях
- Документ удостоверение о повышении квалификации установленного образца
Big data — инструменты, подходы и методы обработки огромных объёмов данных
По сути это альтернатива традиционным системам обработки данных.
Что вы узнаете на курсе
Как собрать и управлять командой big data проекта
Освоите подход CRISP-DM: межотраслевой стандартный процесс для исследования данных. Определите компетенции и состав команды.
Как создать стратегию работы с большими данными
Определите, сколько данных вам нужно для нахождения инсайтов. Найдёте задачи под биг дату в своей компании.
Как улучшить результаты обработки данных
Поймёте, как и по каким правилам хранить данные. Сможете обосновывать влияние на сбор данных, мониторинг и отчётность.
Практика на курсе
8+ часов в неделю
интенсивных уроков и практики с экспертами отрасли
9 изучаемых инструментов
must-have для работы с большими данными
Домашние задания
с проверкой и обратной связью от преподавателей курса
Лабораторная работа
от загрузки данных до построения модели
Нетворкинг (работа в команде с экспертом)
имитирует работу над проектом на удалёнке
Дипломный проект
работающая модель классификации данных
Программа курса
Аналитика больших данных
Часто аналитик данных нужен именно в тех компаниях, которые накопили «какую-то свою» Big data. Чтобы понимать, как он может принести пользу для бизнеса, нужно владеть не только стандартными инструментами вроде Excel и SQL, но и знать характерные только для больших данных принципы обработки, иметь представление о компонентах экосистемы Hadoop и облачных платформах для реализации решений по Big data. Мы не только поговорим об этом, но и попрактикуемся работать с главными инструментами.
16 часов теории
8 часов практики
- Традиционные аналитические подходы. Причины выбора Big data среди многообразия подходов
- Машинные методы для обработки данных. Как перестать реагировать и начать прогнозировать
- Культура сбора и источники данных. Дорожная карта и главное правило аналитика
- Предобработка и визуализация данных в pandas для отчётности на примере международного ритейлера
- Улучшение качества работы с данными. Основы архитектуры хранения и обработки больших данных, виды обработки и масштабирования
- Основы работы в Hadoop и MapReduce. Обзор облачных платформ: AWS, EMR, Azure и прочих
- Продвинутые подходы в MapReduce. Работа в pyspark, доступная каждому
- Организация команды для работы с данными. CRISP-DM
Дипломный проект
В дипломном проекте вы примените полученные навыки для решения задачи предсказания: создадите работающую модель классификации, опишете найденные в данных инсайты, разработаете стратегию внедрения хранилища данных и работы с большими данными в реальной компании. Сформулируете цели проекта внедрения больших данных и ключевые метрики, на которые будете влиять с их помощью.
Дипломная работа выполняется самостоятельно под руководством экспертов курса, закрепляет весь спектр знаний и навыков, полученных на программе и систематизирует рабочий опыт.
Гарантия возврата денег
У вас есть три занятия, чтобы попробовать. Если передумаете учиться, скажите — и мы вернём вам всю сумму.
Что вы получите в результате обучения
Аналитик больших данных
Реализованные проекты
- Классификатор и оценка результатов его работы на отложенной (train_test_split) выборке
- Коллаборативная фильтрация (прогнозы на основе данных) в MapReduce
Мои навыки
- Сбор и подготовка данных для анализа
- Понимание бизнес-требований заказчика и организация эффективной команды
- Преобразование неструктурированных данных в простые для восприятия и ценные для бизнеса сведения
- Построение моделей данных из разных неструктурированных источников: таблиц, сайтов и баз данных
- Определение и выбор оптимальной архитектуры для Big Data проекта
- Основы работы с Hadoop и MapReduce: фильтры, сортировки, поиск, группировки, определение мин-макс значений и частоты
- Определение результатов обработки и инсайтов в данных и улучшение качества принятия решений на их основе
Как проходит обучение
- Занятия
Вебинары дважды в неделю. Раз в три занятия — практика на отработку новых знаний.
- Практика
После каждого занятия — тестирование или практическое домашнее задание с проверкой и обратной связью.
- Сопровождение
Каждый студент может пообщаться с экспертами курса, получить помощь координатора и наставников.
- Трудоустройство
Центр развития карьеры поможет с составлением резюме, предложит вакансии и будет сопровождать на всех этапах поиска работы.
Курс «Big-Data для менеджеров» — SkillFactory
https://SkillFactory.ru/big-data-dlya-menedzherov
Стоимость: разная стоимость
Научись использовать силу Big Data и AI для трансформации вашего подразделения или компании.
Курс для руководителей департаментов и направлений в крупных компаниях.
Управление Big Data и AI – это отдельная область знаний, которая требует не столько технических навыков программирования и знания математики, сколько высокоуровневого понимания технологий и умения увидеть возможности для роста и трансформации.
Обучение на курсе «Big Data» дает руководителям и менеджерам необходимые компетенции и множество конкретных бизнес-кейсов, которые можно переложить на свои бизнес-задачи.
Как устроена специализация
Бизнес-задачи из индустрии
За время учёбы вы
реализуете финальный проект и решите 18 бизнес-кейсов по внедрению Big Data/ AI решений из самых разных индустрий.
Технологии Big Data и AI
На курсе вы получите глубокое понимание алгоритмов машинного обучения, инфраструктуры Big Data и технологий искусственного интеллекта.
Менторы и сообщество
Со старта программы вы становитесь частью живого сообщества в Slack. Вы получите экспертную поддержку ментора по реализации проекта.
Живые вебинары с экспертами
На вебинарах можно задать вопрос эксперту, поучаствовать в живом обсуждении на примере вашего дела.
Краткая программа обучения
Как работает Big Data & ML
- Основные понятия
- Модели машинного обучения
- Сбор и хранение данных
- Обработка и аналитика
Менеджмент Big Data проектов
- Основные подходы к оцифровке бизнеса
- Как AI может быть полезен руководителю
- Какие люди нужны для реализации проектов по AI
- Планирование в AI проектах
Дополнительные аспекты в работе с большими данными
- Юридические аспекты работы с большими данными
- Как презентовать Big Data проект руководству
- Подготовка проектного предложения
Ваши компетенции после курса
- Понимание возможностей Big Data & Machine Learning для бизнеса
- Навыки работы с датасетами и фреймворками
- Понимание алгоритмов искусственного интеллекта и инструментов BD
- Умение выстраивать работу с BD и DS командой
- Навыки проверки гипотез через MVP
- Навык планирования Big Data проектов
- Понимание алгоритмов искусственного интеллекта и инструментов BD
- Умение выявлять кадровые потребности в бизнесе и находить правильных кандидатов на должности в сфере Big Data
Курс «Большие данные и машинное обучение» — Университет ИТМО
https://itmo.ru/ru/viewjep/5/bolshie_dannye_i_mashinnoe_obuchenie.htm
Стоимость: 214 000 рублей
Место обучения: Россия
Результат программы: Диплом Университета ИТМО с присвоением магистерской степени по направлению «Прикладная математика и информатика»
Продолжительность: 2 года
Язык: Английский
Требования к поступающим: Степень бакалавра/специалиста по соответствующему направлени, высокая успеваемость, английский язык уровня Upper-Intermediate (CEFR B2) и выше.
Магистерская программа «Большие данные и машинное обучение» Университета ИТМО готовит специалистов в области прикладной математики и информатики, компетентных в проектировании, разработке и использовании технологии Big Data и машинного обучения для решения различных задач. В ходе обучения магистранты получат необходимые знания и навыки, в том числе для применения и разработки методов интеллектуального анализа данных, решения прикладных задач по обработке больших объемов информации и визуализации больших данных.
Цель программы
Цель образовательной программы: подготовка высококвалифицированных кадров, способных проектировать, разрабатывать и эффективно использовать технологии Big Data и машинного обучения при решении современных задач.
Направление включает в себя:
- создание научно-технологической базы современной распределенной вычислительной инфраструктуры для сбора, хранения и обработки сверхбольших данных в логике технологий Big Data;
- разработку методов, моделей и высокоэффективных алгоритмов для автоматического извлечения знаний из данных методами машинного обучения и эволюционных вычислений;
- развитие методов формализации, структурирования, агрегации, интерпретации и усвоения знаний, извлеченных из сверхбольших массивов данных для задач поддержки принятия решений.
Обучение на программе подразумевает выбор одной из следующих специализаций:
- Технологии организации и управления инфраструктурой больших данных
- Технологии машинного обучения и анализа больших данных
- Когнитивные технологии и квантовый интеллект
- Интеллектуальные технологии больших данных в медицине и здравоохранении
Основные дисциплины:
- Анализ и разработка алгоритмов
- Методы и модели многомерного анализа данных
- Инфраструктура больших данных
- Технологии машинного обучения
- Эволюционные вычисления
- Методы машинного обучения для обработки промышленных данных
- Специализированные технологии больших данных
- Специализированные технологии машинного обучения
- Архитектуры нейронных сетей для глубокого обучения
Примеры тем выпускных работ:
- Разработка метода извлечения изображений на основе анализа содержания с использованием низкоуровневых и высокоуровневых характеристик
- Многопользовательский подход адаптивного распределенного сбора данных социальных сетей
- Семантический подход к определению социального отклика для поддержки принятия решений в критических ситуациях
- Автоматическая система для аннотации изображений из зашумленных данных с использованием глубоких нейронных представлений
Курс «Лекции по Big Data» — Sergey Petrovich
https://www.youtube.com/playlist?list=PL15mR4o-R9Ng3Fh8Z2HpLdQeJQHSoNKcp
Стоимость: бесплатно
- Лекция №1 «Введение в машинное обучение»
- Лекция №2 «Python»
- Лекция №3 «Что такое BigData?»
- Лекция №4 «OLAP: What and why?»
- Лекция №5 «IoT and BigData»
- Лекция №6 «Сhallenges of classification»
- Лекция №7 «Formal Context Analysis»
- Лекция №8 «Регрессия»
- Лекция №9 «Хранение и анализ больших данных»
- Лекция №10 «Deep learning»
Курс «Big Data» — Coursera
https://www.coursera.org/courses?query=big%20data
Стоимость: разная стоимость
- Big Data
- Big Data – Introducción al uso práctico de datos masivos
- Introduction to Data Science
- Data Engineering, Big Data, and Machine Learning on GCP
- Big Data Essentials: HDFS, MapReduce and Spark RDD
- Data Engineering Foundations
- Introduction to Big Data
- Modern Big Data Analysis with SQL
- IBM AI Engineering
- Executive Data Science
- Data Science with Databricks for Data Analysts
- ML y Big Data con PySpark para la retención de clientes
- Big Data, Artificial Intelligence, and Ethics
Курс «Анализ Big Data» — BigData Team
https://bigdatateam.org/ru/big-data-course
Стоимость: от 25 000 руб.
Самый быстрый способ прокачать свои навыки для IT-специалистов. Научитесь эффективно обрабатывать большие данные, выполняя практические задания на реальном кластере.
Кому подойдет этот курс
Разработчики
Вы программируете, но хотите расширить профессиональные возможности и получить практические навыки работы с большими данными? На курсе вы научитесь работать с Hadoop, MapReduce, Hive, Spark, Kafka, Cassandra и будете выполнять задания на реальном кластере.
Аналитики
Хотите освоить работу с большими данными, чтобы решать более сложные и интересные аналитические задачи?
Вы научитесь использовать инструменты работы с большими, проводить аналитику с помощью SQL и NoSQL инструментов, готовить данные и отчеты на основе больших массивов информации.
Data Engineers
Хотите расширить свой арсенал для работы с данными и структурировать свои знания в DE? Вы узнаете о современных технологиях работы с Big Data, научитесь грамотно их использовать и понимать, какую технологию в каких случаях лучше применять.
Data Scientists
Ловите себя на мысли, что качество модели во многом зависит от правильного сбора и предобработки данных? Вы получите базу по современным инструментам и подходам, необходимым для сбора, хранения и обработки данных; изучите особенности укладки данных для оптимизации вычислений, подготовки фичей и масштабирования ML-моделей.
Набор на курс закрыт
Чему вы научитесь
Часть 1. HDFS, Map Reduce, Hive
Вы научитесь работать с распределенными файловыми системами, познакомитесь с экосистемой Hadoop, разберетесь с оптимизацией MapReduce вычислений и работой с Hive.
Введение в Большие Данные (Big Data). Распределенные файловые системы, Workshop
- Вводная часть: знакомство (задачи, оценки, дедлайны), подробности курса.
• Распределенные файловые системы (GFS, HDFS). Их составляющие, достоинства, недостатки и сфера применения.
• Чтение и запись в HDFS. HDFS APIs: Web, shell.
Hadoop экосистема, MapReduce и не только
- Hadoop Streaming.
- Элементы Hadoop-задачи (Mapper, reducer, combiner, partitioner, comparator).
Оптимизация MapReduce вычислений
- Приложения с несколькими Hadoop-задачами.
• Тюнинг Hadoop-job (настройка партиционирования, сложные ключи, uber jobs).
• Задачи с несколькими входами. Joins в Hadoop.
SQL поверх больших данных (Hive)
- Архитектура Hive, виды таблиц, форматы хранения данных.
• Трансляция Hive-запросов в MapReduce-задачи.
• Сериализация и десериализация.
• Тюнинг Join’ов в Hive.
• Партиционирование, бакетирование, семплирование.
• User defined functions, Hive Streaming.
Часть 2. Spark: from zero to hero
На протяжении этой части курса вы будете работать со Spark: от основных терминов и RDD до Spark DataFrames и оптимизации Spark вычислений.
Модель вычислений Spark: RDD
- Схема выполнения задачи в Spark.
• Основные термины Spark (job, task, stage).
• Представление вычислений в виде графа. Spark Python API. Spark RDD API.
• Broadcast-сообщения и счетчики.
Spark DataFrames, Spark SQL
- Взаимодействие Hive и Spark SQL.
• Отличия DF от RDD.
Оптимизация Spark вычислений
- Spark on YARN.
• Типы stage в Spark.
• Оптимизация операции shuffle.
• Настройка Garbage Collection, тюнинг потребления памяти.
Часть 3. RT, NoSQL, Data layout
Вы научитесь работать с потоковой обработкой данных, познакомитесь с Kafka и Spark Streaming, освоите NoSQL поверх больших данных, подружите Spark с Cassandra.
Потоковая обработка данных (Kafka, Spark Streaming)
- Подходы к Realtime-обработке.
• Гарантии обработки. Переход от одной гарантии к другой. Архитектуры «Лямбда» и «Каппа».
• Spark Streaming vs. Spark RDD, Spark Structured Streaming vs. Spark DataFrames, DStream.
• Архитектура Kafka, Kafka Streams, репликация в Kafka. Отличие Kafka от классических очередей.
• Семантики доставки сообщений. Сжатие данных в kafka. Синхронная и асинхронная репликация.
NoSQL поверх больших данных: Cassandra
- Отличия Key-Value хранилищ от реляционных БД.
• Компактификация и её виды. CQLSH.
• Архитектура Cassandra.
• Обеспечение надёжности и высокодоступности в Key-Value хранилищах.
• Интеграция Spark с Cassandra.
Data Layout
- Как бороться с Data Skew с помощью MapReduce подходов в разных фреймворках.
• Trade-off между CPU и IO-bound приложениями, подходы к сжатию в Big Data, горячие и холодные данные.
• Форматы данных в Big Data: ORC vs Parquet, Avro
Стоимость обучения Big Data
Вы можете пройти курс целиком или по частям
HDFS, Map Reduce, Hive
- Введение в Big Data
- Распределенные файловые системы
- Hadoop экосистема
- Оптимизация MapReduce вычислений
- Hive
25 000 рублей
Spark: from zero to hero
- Модель вычислений Spark: RDD
- Spark DataFrames, Spark SQL
- Оптимизация Spark вычислений
30 000 рублей
RT, NoSQL,
Data layout
- Потоковая обработка данных Kafka
- Spark Streaming
- Cassandra
25 000 рублей
Курс целиком
- Введение в Big Data
- Распределенные файловые системы
- Hadoop экосистема
- Оптимизация MapReduce вычислений
- Hive
- Модель вычислений Spark: RDD
- Spark DataFrames, Spark SQL
- Оптимизация Spark вычислений
- Потоковая обработка данных Kafka
- Spark Streaming
- Cassandra
65 000 рублей
Курс «Аналитик Big Data» — «Специалист» при МГТУ им.Н.Э.Баумана
https://www.specialist.ru/track/dp-bigdat
Стоимость: 149 490 р.
Big Data – современный тренд и предмет высокого спроса со стороны работодателей. Бизнес хочет расти, а для этого требуется анализировать большие объемы данных. Данные о клиентах, продажах, посетителях. На основе больших данных строятся гипотезы и принимаются решения о создании новых продуктов, тарифов, оптимизации расходов.
Мы подготовили для вас новую дипломную программу Аналитик Big Data.
Аналитик Big Data – сотрудник, использующий разнообразные инструменты для анализа и визуализации данных, такие как Tableau, Excel, Power Query/Pivot/Map.
Ваше резюме после прохождения обучения:
- Анализ данных на языке SQL
- Уверенное владение Excel
- Анализ и визуализация данных в Tableau, Power Query/Pivot/Map
- Владение языком Python
- Библиотеки python для визуализации и анализа данных: numpy, pandas, matplotlib
Дополнительно. Чтобы повысить вашу ценность на рынке труда, мы рекомендуем докупить (с перезачетом курса Основы работы с большими данными (Data Science)) дипломную программу «Разработчик BigData»– следующий шаг в вашей карьере. Вы научитесь «готовить» Hadoop и использовать его для обработки больших данных, разрабатывать решения для экосистемы Hadoop.
Курс «Big Data for Data Science» — Stepik Academy
https://academy.stepik.org/big-data
Стоимость: 26 000 ₽
Введение в науку о больших данных.
Мы научим вас использовать технологии Big Data так, что вы сразу сможете применять их в боевых условиях.
Кому подойдет эта программа?
Начинающим специалистам
Вы уже знакомы с Python, у вас есть базовые знания SQL и вы хотите развиваться в сфере Data Science
Аналитикам и исследователям
Вы уже умеете работать с данными и хотите познакомиться с инструментами для работы с Big Data
Data Science специалистам уровня junior/middle
Вы уже работаете в сфере Data Science и хотите прокачать навыки работы с Big Data
Специалистам в области Data Engineering
Вы уже работаете в сфере Data Engineering и хотите расширить свой кругозор и освоить актуальные технологии
Программа
6 недель • 6 — 10 часов в неделю
Первая неделя
Введение в Big Data для Data Science
- Зачем DS знать Big Data?
- Хранение данных
- Обработка данных
- Практика и задачи по SQL и ClickHouse
- Вводный вебинар первой недели
Вторая неделя
Hadoop
- Архитектура Hadoop
- HDFS
- MapReduce
- Hive
- Hbase
- Практика и задачи
- Вебинар второй недели
Третья неделя
Spark
- Архитектура spark
- Spark Core
- Потоковая обработка данных
- Практика и задачи по Spark
- Вебинар третьей недели
Четвёртая неделя
Workflow
- Управление данными ETL/ELT
- Архитектура хранилищ Data Warehouse vs Data Lake
- Облачные решения
- Apache Airflow
- Практика и задачи по Airflow
- Вебинар четвёртой недели
Пятая неделя
SparkML
- Распределенные модели машинного обучения
- Spark ML компоненты и модели
- Поставка моделей
- Практика и задачи по Spark ML
- Вебинар пятой недели
Шестая неделя
BI Tools
- Работа с данными в Superset
- Аналитические агрегаты
- Вебинар шестой недели
- Дополнительный вебинар про карьеру
Как проходит обучение на программе
Теоретические основы
Вся теория в онлайн-курсе, который можно проходить, когда удобно даже с мобильного. А доступ к материалу останется и после окончания программы
Общение
Общий чат в Telegram, где можно задать вопрос преподавателям и обсуждать тонкости заданий между собой
Вебинары
Каждую неделю – встреча с преподавателями, обсуждение материала и ваших вопросов
Проект
Вы будете работать с реальными базами данных MySQL и ClickHouse, настраивать работу аналитических пайплайнов в AirFlow, визуализировать результаты в BI системах. А преподаватели будут давать много обратной связи
Отзывы на сайте.
Курс «Big Data Science» — Сетевая академия Ланит
https://academy.ru/catalog/big-data-science/
Стоимость: разная стоимость
Data Scientist — это специалист в области исследовании данных, который разбирается в статистике лучше, чем любой инженер-программист и намного лучше в программировании, чем любой статистик.
В рамках данной специализации мы предлагаем:
- курсы по изучению R-языка программированиядля статистической обработки данных и работы с графикой;
- курсы для администраторов и пользователей платформы Hadoop;
- курсы по методам Data Mining;
- курсы по аналитике больших данных для менеджеров.
Специализация Big Data Science позволяет получить и расширить необходимые навыки для работы в области аналитики больших данных как для специалистов, имеющих опыт, так и для начинающих. Специализация Big Data Science предполагает наличие у слушателей знания статистических методов и инструментария аналитики, умение работать с большими структурированными и не структурированными данными и обладание практическими навыками использования компонент экосистемы Hadoop.
КОД КУРСА | НАЗВАНИЕ КУРСА | АК.Ч. | |
SPOT | Потоковая обработка в Apache Spark | 2 дн./16 ч. | |
SPARK | Анализ данных с APACHE SPARK STREAMING, SPARK SQL, MLLIB И GRAPHX | 3 дн./24 ч. | |
AIRF | Apache Airflow | 2 дн./16 ч. | |
HBASE | Администрирование кластера HBase | 4 дн./32 ч. | |
NoSQL | Интеграция Hadoop и NoSQL | 5 дн./40 ч. | |
PYML | Введение в машинное обучение на Python | 3 дн./24 ч. | |
PYNN | Введение в нейронные сети на Python | 3 дн./24 ч. | |
ADH-AIR | Data pipeline на Apache AirFlow и Arenadata Hadoop | 3 дн./24 ч. | |
BDAM | Аналитика Больших Данных для Руководителей | 3 дн./24 ч. | |
CORS | Основы Apache Spark для разработчиков | 2 дн./16 ч. | |
DEVKI | Apache Kafka для разработчиков | 4 дн./32 ч. | |
VIP | Визуализация данных на языке Python | 4 дн./32 ч. | |
MLSP | Машинное обучение в Apache Spark | 2 дн./16 ч. | |
GRAS | Графовые алгоритмы в Apache Spark | 2 дн./16 ч. | |
AIM | Онлайн-марафон «Искусственный интеллект для менеджеров» | 4 дн./16 ч. | |
CHTBT | Онлайн-марафон «Создай свой чат-бот за 4 урока» | 4 дн./16 ч. | |
ARMG | Архитектура Данных | 3 дн./24 ч. | |
DSEC | Безопасность озера данных Hadoop на платформе CDP | 3 дн./24 ч. | |
DPREP | Подготовка данных для Data Mining на Python | 3 дн./24 ч. | |
HADM | Администрирование кластера Hadoop | 5 дн./40 ч. | |
HDDE | Hadoop для инженеров данных | 5 дн./40 ч. | |
HIVE | Hadoop SQL Hive администратор | 1 дн./8 ч. | |
IMPA | Cloudera Impala Data Analytics | 1 дн./8 ч. | |
INTR | Основы Hadoop | 3 дн./24 ч. | |
KAFKA | Администрирование кластера Kafka | 3 дн./24 ч. | |
NIFI | Кластер Apache NiFi | 2 дн./16 ч. | |
Курс «Бизнес-аналитика и системы больших данных» — НИУ ВШЭ
https://www.hse.ru/ma/bigdata/
Стоимость: нет информации
Термином «Big Data» (большие данные) обозначают феномен стремительного роста объёмов информации во всех областях деятельности современного общества, появление технологических возможностей анализировать эти огромные массивы данных, и потенциальные перспективы эффективного использования результатов этого анализа для прогнозирования и принятия правильных управленческих решений.
Цель англоязычной магистерской программы Business Analytics and Big Data Systems (Бизнес-аналитика и системы больших данных) — подготовка профессионалов, способных оценить влияние технологий больших данных на деятельность организаций, умеющих разрабатывать новые модели информационной инфраструктуры предприятия с учетом возможностей технологий больших данных, организовать работу по внедрению основанного на технологиях больших данных аналитического инструментария и решений для управления большими данными, способных оценить экономическую эффективность таких проектов, управлять данными предприятия.
К обязательным предметам относятся следующие дисциплины:
- Economic and Mathematic Modeling (Экономико-математическое моделирование)
- Enterprise architecture perfection (Совершенствование архитектуры предприятия)
- Methods and Tools for the Intellectual Analysis of Big Data (Методы и средства интеллектуального анализа больших данных)
- Strategic innovation management (Стратегическое управление инновациями).
- System Analysis and Organization Design (Системный анализ и проектирование)
В качестве дисциплин по выбору предлагаются следующие курсы:
- Advanced Data Management (Современный менеджмент данных)
- Applied Blockchain in the Modern Enterprise Architecture (Прикладной блокчейн в архитектуре современного предприятия)
- Applied Machine Learning (Прикладные аспекты машинного обучения)
- Big Data Based Marketing Analytics (Маркетинговая аналитика на основе больших данных)
- Big Data Collection, Storage&Processing in Heterogeneous Distributed Computer Networks (Сбор, хранение и обработка данных в гетерогенных распределенных компьютерных сетях)
- Big Data Systems Development and Implementation (Разработка и внедрение систем больших данных)
- Cloud Technologies (Облачные технологи)
- Data analytics and visualization for business (Аналитика и визуализация данных для бизнеса)
- Digital Platforms and Ecosystems of Modern Business (Цифровые платформы и экосистемы современного бизнеса)
- Knowledge Management (Управление знаниями)
- Leadership and Project Team Management (Лидерство и управление командой проекта)
- Manufacturing Data Collection and Analytics (Сбор и аналитика производственных данных)
- Neural Networks and Deep Learning (Нейронные сети и глубокое обучение)
- Predictive Modelling (Предсказательное моделирование)
- Theoretical Basics of Distributed Information Processing in Big Data Systems (Теоретические основы распределенной обработки информации в системах больших данных)
Курс «Business Analytics and Big Data (MiBA)» — Высшая школа менеджмента СПбГУ
https://gsom.spbu.ru/programmes/graduate/miba/
Стоимость: нет информации
Общие дисциплины
Машинное обучение и большие данные
Во время курса студенты ознакомятся с основами применения машинного обучения в различных областях экономики и управления, а также научатся проводить анализы данных с использованием современных методов машинного обучения и интерпретировать полученные результаты расчетов. Полученные навыки позволят студентам уверенно работать с современными инструментами для анализа больших данных.
Управление ИТ проектами
Цель данного курса — овладеть принципами эффективного планирования и контроля проектов, включая анализ потребностей, разделение задач, планирование рабочего процесса, распределение ресурсов, управление рисками, отслеживание и оценку эффективности. Студенты ознакомятся с основными функциями руководителя проектов, узнают разницу между менеджментом обычных проектов и проектов с большими данными, изучат инструменты управления.
Разработка и внедрение моделей машинного обучения
На этом курсе студентам будет предложено своими руками разработать с нуля прототип предсказательного продукта на основе модели машинного обучение – от постановки бизнес-задачи до разворачивания микросервиса на облачной платформе. Внутри проекта студентам предстоит пройти весь путь аналитика данных и Data Science специалиста – собрать данные, провести их первичный анализ, выбрать необходимую метрику, провести моделирование и тестирование, закончить проект переводом модели в продуктивное окружение.
Основы корпоративных данных
Этот курс рассказывает про данные в компании от самых основ до начала погружения в предмет управления данными. На курсе рассказывается про данные, возникающие на разных уровнях организационной структуры компании, влияние отраслевых особенностей на структуру и состав данных, которые возникают в процессе функционирования компании. От бизнес-задач, решаемых разными компаниями с использованием данных, курс переходит к различным моделям работы с данными в компании. Студенты познакомятся с основными типами архитектур хранилищ данных, получат знания в области современных решений по хранению и работе с данными и принципов проектирования моделей данных.
Архитектура предприятия и бизнес-моделирование на основе анализа данных
Архитектура предприятия обеспечивает структурированный подход к реализации стратегии, что позволяет эффективно и результативно преобразовывать предприятия. Курс включает в себя анализ и проектирование предприятия в его нынешнем и будущем состоянии с точки зрения бизнеса и технологий. Студенты ознакомятся с преимуществами и основополагающими концепциями, методологией и основными инструментами предмета, узнают, как сервисы архитектуры предприятия помогают интегрировать методы бизнес-планирования и технологического планирования, а также научатся создавать и внедрять архитектуру предприятия.
К возможным карьерным траекториям в сфере аналитики и больших данных можно отнести следующие позиции:
- Менеджер проекта / продукта в области больших данных, продвинутой аналитики и Data Science
- Бизнес-консультант
- Бизнес-аналитик
- Chief Data Officer,
- Chief Innovation Officer
- Chief Product Officer
Курс «Big Data» — ITEA
https://onlineitea.com/course/big-data/
Стоимость: 24200 RUB
Стать Big Data-аналитиком? С ITEA!
Хочешь помогать бизнесу находить скрытые закономерности, прогнозировать развитие событий и оптимизировать ключевые процессы? Тогда курсы Big Data — то, что тебе нужно!
Эти интерактивные курсы предназначены для продвинутых специалистов, а не для начинающих. Поэтому в ITEA есть определенные требования к будущим студентам:
- владение на базовом уровне языком программирования Python;
- наличие личного ноутбука для онлайн-занятий;
- желание повысить свой уровень квалификации и изучить особенности работы с большими базами данных.
Курсы по Big Data проходят по такой программе:
- Онлайн-уроки
- Домашние задания
- Помощь ментора
- Курсовой проект
На курсе ты научишься:
- Анализировать и обрабатывать большие и сверхбольшие данные в различных форматах с целью поддержки принятия решений
- Находить шаблоны в больших и сверхбольших базах данных и массивах текста
- Строить прогнозы с использованием современных методов и алгоритмов интеллектуального анализа данных
- Использовать программное обеспечение для интеллектуального анализа данных в практической работе
Твой полный план изучения Big Data:
- Общие сведения о интеллектуальный анализ данных (ИАД) и машинное обучение
- Общие сведения о крупных данных и интеллектуальный анализ данных.
- Задачи ИАД. Обзор методов ИАД и машинного обучения
- Процесс ИАД. Подготовка данных.
- Практическое применение ИАД.
- Методы и алгоритмы классификации
- Методы построения деревьев решений. Методика «разделяй и властвуй».
- Алгоритм покрытия. Алгоритм CART.
- Байесовские методы классификации.
- Построение математических функций классификации. Метод опорных векторов: линейный и нелинейный случаи.
- Системы с нечеткой логикой. Нечетко-нейронные системы. Настройка нечетко-нейронных систем.
- Решение практических задач классификации.
- Методы и алгоритмы кластеризации
- Иерархическая кластеризация: агломеративный и дивизимный алгоритмы. Методы соседства. Понятие дендрограммы.
- Статистические методы k-средних, ЭМ и их модификации.
- Методы кластеризации на основе теории графов. Алгоритмы нахождения минимального покрывающего дерева. Алгоритм Борувки.
- Алгоритм Форел и его модификации.
- Метод самоорганизующихся карт Кохонена. Метод стохастического градиента. Интерпретация карт.
- Анализ результатов кластеризации. Решение практических задач.
- Методы и алгоритмы построения ассоциативных правил. Секвенциальный анализ
- Общие сведения. Показатели полезности ассоциативных правил.
- Алгоритмы Apriori и FP-роста. Понятие FP-дерева (префиксного дерева).
- Шаблоны последовательностей. Алгоритм AprioriAll.
- Поиск ассоциативных правил в иерархиях данных. Алгоритм GSP.
- Решение практических задач поиска ассоциативных правил и шаблонов последовательностей.
- Ансамбли моделей ИАД
- Виды ансамблей. Понятие бэггинга. Смесь моделей ИАД.
- Комбинирование результатов прогнозов, полученных моделями ИАД.
- Методы расчета коэффициентов относительной важности (весов) моделей в ансамбле.
- Понятие бустинга. Алгоритм AdaBoost. Обоснование бустинга. Градиентный бустинг.
- Сравнение моделей ИАД. Оценки эффективности и ошибок моделей. Lift- и Profit-кривые. ROC-анализ.
- Методы и алгоритмы анализа текстовой информации (text mining)
- Этапы text mining. Предварительная обработка документов. Выявление ключевых понятий. Аннотирование текстов.
- Методы категоризации (рубрикации) текстов.
- Методы поиска релевантных документов на основе множества запросов. Методы обучения ранжированию.
- Решение практических задач text mining.
https://www.bigdataschool.ru/
Стоимость: нет информации