Computer Vision позволяет нейросетям анализировать изображения и видео
Если у вас нет базы в DL, посмотрите курс «Инженер по глубокому обучению нейросетей»
Сначала научитесь работать на фреймоворке PyTorch, строить и обучать нейросети, подготавливать данные, а потом сможете выбрать специализацию — в том числе в CV

Посмотреть курс
Освоите продвинутые подходы, модели и архитектуры

PyTorch
YOLO
Faster R-CNN
SSD
TorchVision
LoRA
U-Net
DeepLab
MMSegmentation
GAN
VAE
Diffusion
ViT
CLIP
VQA
Программу обновляем регулярно, чтобы вы проходили только актуальное
Курс идёт 2 месяца; нагрузка — от 15 часов в неделю
2 часа
Бесплатно
Нейросетевые решения на практике
  • PyTorch
  • CV
  • NLP
Знакомство с курсом
Узнаете, как организован курс: из чего состоит программа, как устроена платформа, какие активности вас ждут
Введение в нейросети и их роль в решении сложных задач
Поймёте, в каких областях применяются нейросети и какие задачи они решают в реальной жизни
Работа с текстами
Классифицируете тексты с использованием предобученной модели
Работа с изображениями
Классифицируете изображения с помощью предобученной модели
Нейросети на практике
Научитесь использовать нейросети в повседневной практике и для решения профессиональных задач
Научитесь использовать предобученные модели для анализа текста и изображений и интерпретировать результаты их работы
1
1 проект・2 недели
Детекция объектов
  • PyTorch
  • YOLO
  • Faster R-CNN
  • SSD
  • TorchVision
Введение и быстрый старт с YOLOv8
Задача детекции объектов. Предсказания модели: координаты, класс, уверенность. Эволюция от YOLO до YOLOv8 (Backbone, Neck, Detection Head). Запуск предобученной YOLO‑модели на изображениях. Интерпретация результатов: рамки, метки, уверенность.
YOLO‑модель: подготовка данных и обучение
Форматы данных и их конвертация. Аугментация данных и её влияние на разметку. Loss‑функции и метрики для детекции. Разметка данных, конфигурации обучения и управление им по логам от модели.
Постобработка и визуализация результатов
Фильтрация по порогу уверенности. Non‑Maximum Suppression (NMS). Визуализация предсказаний (Matplotlib/OpenCV). Написание визуализатора результатов. Вывод top‑N‑предсказаний. Визуальное сравнение с ground truth.
Альтернативные архитектуры: SSD и Faster R‑CNN
SSD. Faster R‑CNN: двухэтапная архитектура. Ключевые отличия от YOLO: области применения, время инференса, сложность настройки и обучения. Различия в loss‑функциях.
Решение задачи на альтернативных архитектурах
Использование SSD или Faster R‑CNN. Подготовка данных. Обучение модели на том же наборе данных. Сравнение результатов: по метрикам (mAP, IoU), по скорости, по визуальному качеству.
Создадите высокоточный детектор на кастомном наборе данных
2
1 проект・2 недели
Сегментация изображений
  • PyTorch
  • U-Net
  • DeepLab
  • TorchVision
  • MMSegmentation
Введение и быстрый старт с сегментацией
Задача семантической сегментации: отличие от детекции. Карта классов (mask), формат выхода. Быстрый запуск предобученной модели. Визуализация результатов и интерпретация масок. Запуск инференса на изображениях. Отображение маски и соответствующих цветов для классов.
Подготовка данных и обучение модели
Разметка для задачи сегментации. Форматы масок: индексные, PNG, One Hot Encoding. Связь масок и аугментации. Выбор loss‑функции и метрик для модели. Разбор популярных архитектур и конфигурация обучения для них.
Постобработка и улучшение результатов
Softmax/Argmax и получение финальной маски. Morphological operations: opening, closing. CRF как опция. Визуальное сравнение до и после. Постобработка результата модели и эксперименты. Сравнение метрик до и после.
Альтернативные архитектуры
Обзор Encoder‑Decoder‑архитектур. U‑Net. DeepLabv3+: dilated convolutions, ASPP. SegFormer на основе трансформеров. Ключевые различия: строение, подход к масштабам, скорость и качество, области применения. Сравнение U‑Net, DeepLab, SegFormer.
Решение задачи на альтернативных архитектурах
Обучение U-Net, DeepLabv3, SegFormer. Сравнение: по точности, скорости, качеству масок. Обучение альтернативной модели. Визуальное сравнение и по метрикам. Применимость моделей.
Разработаете модели сегментации для решения бизнес‑задачи
3
1 проект・2 недели
Генерация изображений
  • PyTorch
  • GAN
  • VAE
  • Diffusion
Введение в генерацию изображений
Зачем нужна генерация изображений. Типы генеративных моделей: Autoencoders, GANs, Diffusion Models. Подходы к обучению и генерации. Предобученный VAE и визуализация латентного пространства.
Autoencoder и VAE
Архитектура: Encoder + Decoder. Ограничения обычных AE (неявное моделирование вероятностей). Variational Autoencoder: обучение распределения + sampling. Обучение VAE, генерация и интерполяция, латентное пространство в 2D.
GAN
Архитектура: Generator + Discriminator. Типичные проблемы: mode collapse, нестабильность. Варианты: DCGAN, Conditional GAN, StyleGAN. Обучение DCGAN на простом датасете, визуализация результатов по эпохам.
Диффузионные модели
Denoising Diffusion Probabilistic Models, Stable Diffusion, Imagen, DALL·E. Преимущества и ограничения diffusion‑архитектур. Использование diffusers от Hugging Face. Генерация по текстовому промпту. Замена параметров: guidance scale, steps, seed.
Файн‑тюнинг и кастомизация diffusion‑моделей
Принципы дообучения: Transfer Learning. Технология LoRA. Дообучение Stable Diffusion, сравнение оригинальных и кастомных промптов, визуализация влияния кастомного обучения.
Кастомизируете генеративную сеть под конкретный запрос
4
1 проект・2 недели
Трансформеры и мультимодальные модели
  • PyTorch
  • ViT
  • CLIP
  • VQA
Введение в Vision Transformers
Ограничения классических CNN. Архитектура ViT: патчи, позиционные эмбеддинги, self‑attention. Преимущества ViT и примеры использования. Загрузка и применение предобученного ViT. Классификация изображений. Визуализация attention maps.
Файн-тюнинг ViT и гибридные трансформеры
Обучение и файн‑тюнинг Vision Transformer. Гибридные модели: архитектурные особенности и преимущества. Сравнение ViT, гибридов и CNN. Советы по обучению и выбору моделей. Эксперименты.
Мультимодальные модели
Модели Vision + Language. Задачи: image captioning, VQA, image‑text retrieval. Архитектуры Encoder‑Decoder, Dual Encoder, Fusion. Обзор датасетов: COCO Captions, VQA, Flickr30k. Модели CLIP для простых визуально‑текстовых задач.
Текстово‑визуальный поиск и описание изображений
Архитектура моделей для генерации описания: BLIP, GIT. Метрики качества captioning. Модель CLIP для текстово‑визуального поиска: принцип работы и применение. Генерация описаний и поиск изображений по тексту с помощью BLIP или GIT.
Визуальные вопросы и ответы
Архитектуры для VQA: multi‑modal fusion, cross‑attention. Задача grounding: локализация объектов по тексту. Обзор моделей: OFA, LXMERT. Flamingo (DeepMind). Использование LXMERT или OFA для VQA‑задач.
Обучите классификационную модель на трансформерной архитектуре
Получите сертификат о завершении курса
Как устроен курс
Практикум AI помогает осваивать курс
Когда в теории что-то непонятно, нейросеть объяснит это другими словами. А в конце каждого модуля подготовит краткий пересказ о самом главном.
2 формата на выбор
  • С дедлайнами. Модули открываются по расписанию — их важно осваивать за определённое время. Проекты тоже нужно сдавать в срок.
  • В своём темпе. Темы и задания открываются последовательно. Можно завершить курс быстрее или продлить прохождение на месяц.

    Подробнее о форматах
Ещё у нас есть курс по обработке естественного языка — NLP
Научитесь строить модели, которые понимают человеческую речь, и решать с их помощью задачи из разных индустрий

Этот курс может оплатить
ваш работодатель
Полностью или разделив оплату с вами,
например 50/50 или 75/25
  • Расскажем всё про курс
  • Сообщим стоимость
  • Ответим на ваши вопросы
  • Подготовим договор и счёт

Если у вас есть вопросы, оставьте заявку — мы позвоним

 
  •                                        
Отвечаем на вопросы
Каким требованиям нужно соответствовать?
Программа рассчитана на специалистов, у которых уже есть опыт работы с нейросетями.

Для успешного прохождения курса нужны:
  • Навыки программирования на Python, включая знание ООП.
  • Опыт в анализе данных, их визуализации и манипулировании ими.
  • Опыт использования библиотек по работе с изображениями, например OpenCV, PIL.
  • Базовые знания в линейной алгебре: о матрицах, их свойствах и типовых операциях с ними, таких как сложение, умножение, транспонирование.
  • Понимание принципов предподготовки текстов.
  • Базовое понимание принципов работы свёрточных нейросетей.
  • Представление о работе с DL‑фреймворками, например PyTorch.
Кто будет помогать мне проходить курс?
Все наставники — практикующие специалисты: сотрудники Яндекса и других крупных компаний. Программу составляют опытные методисты, а ещё действующие специалисты Яндекса, Школы анализа данных и других лидеров технологической индустрии.
Что делать, если я не справлюсь с нагрузкой?
Если вам нужно больше времени на выполнение проекта, напишите куратору. Он подскажет, как согласовать новый дедлайн.
Можно ли пройти курс в своём темпе?
Да. Этот курс можно пройти в одном из двух форматов:

С дедлайнами. Модули открываются по расписанию, и задания нужно выполнять точно в срок.
В своём темпе. Темы и задания открываются последовательно. Можно регулировать нагрузку и проходить курс быстрее или медленнее. Подробнее о формате.

Проходите курс в своём темпе, если вам сложно подстраиваться под расписание. Но помните, что такой формат требует самоконтроля и высокой мотивации. С дедлайнами будет проще дойти до конца.
Если не понравится, я могу вернуть деньги?
Конечно. Если курс ещё не начался, вернём всю сумму. Если уже начался, придётся оплатить прошедшие дни со старта вашей когорты — но мы вернём деньги за остаток курса. Более подробно рассказываем об этом в 7 пункте оферты.
Получу ли я какой-то документ после курса?
Да, для этого нужно закончить курс и выполнить все 4 проекта. Тогда вы получите сертификат о завершении курса в электронном виде.
Вы поможете сменить или найти работу?
На этом курсе не предусмотрена помощь с трудоустройством, поскольку он для действующих специалистов, у которых уже есть навыки поиска работы.

Но если у вас появится вопрос о карьерном развитии, обратитесь в нашу службу поддержки — постараемся ответить.
Как можно оплатить?
Банковской картой: внести всю сумму сразу или платить ежемесячно.

Ежемесячные платежи работают так: вы вносите первую оплату, и в этот момент привязывается карта. С этой карты автоматически будут списываться следующие платежи каждые 30 календарных дней. Например, оплатили 25 марта — следующий платёж пройдёт 24 апреля. Курс будет стоить меньше, если оплатить его сразу целиком.

Через компанию: юридические лица также могут оплатить курс в Практикуме. Чтобы заказать счёт для оплаты, оставьте заявку на странице для корпоративных клиентов.
На каком языке проходит курс?
Всё будет на русском: теория, практические задания и вебинары, а ещё чаты с куратором, наставником и другими участниками курса.
В какой валюте можно оплатить курс?
Оплатить курс можно в любой валюте, кроме российских рублей.

Чтобы вам было проще сориентироваться, мы указываем примерную стоимость в долларах США, но списание будет в казахстанских тенге, а конвертация — по курсу вашего банка.

Давайте поможем

Мы работаем с 09:00 до 18:00 по минскому времени и связываемся в течение одного дня. Если оставите заявку сейчас, то перезвоним уже в рабочее время.