Если вам нравятся технологии, и вы ищете работу, которая была бы связана с наукой о данных, то вы, скорее всего, слышали про машинное обучение и анализ данных. Этот термин имеет некую атмосферу фантастики вокруг него – поэтому вызывает затруднения и недоумение у большинства людей. Однако, если вы хотите стать разработчиком в этой сфере, то вы просто обязаны знать, что такое машинное обучение и изучить всё что с ним связано. Если вы хотите получить работу в этой сфере, то вам нужно подготовиться к собеседованию. И, что может быть лучше, чем подготовка с помощью готовых материалов по темам и вопросам собеседования?
В этом руководстве мы постараемся рассмотреть некоторые из самых популярных вопросов собеседования про машинное обучение и анализ данных. Вы узнаете как базовые, так и более продвинутые темы, чтобы проверить или приобрести знания.
Содержание
- 1. Введение
- 1.1. Вопрос 1: Дайте Определение Машинному Обучению.
- 1.2. Вопрос 2: Что Такое Глубокое Обучение?
- 1.3. Вопрос 3: В Чём Различие Между Ошибками Первого и Второго Рода?
- 1.4. Вопрос 4: Что Такое Аугментация Данных?
- 1.5. Вопрос 5: Почему Наивный Байесовский Метод Так Называется?
- 1.6. Вопрос 6: Какие Лучше – Глубокие Или Неглубокие Сети?
- 1.7. Вопрос 7: Что Такое Преобразование Фурье?
- 1.8. Вопрос 8: Что Такое Свёрточная Сеть?
- 1.9. Вопрос 9: Что Вы Должны Знать о Корреляции Между True Positive Rate и Recall?
- 1.10. Вопрос 10: Что Такое Метод Обратного Распространения Ошибки?
- 1.11. Вопрос 11: Что Произойдёт, Если Мы Используем Validation Set Без Применения Test Set?
- 2. Машинное Обучение и Анализ Данных – Продвинутые Вопросы Собеседования
- 2.1. Вопрос 1: В Чём Различие Между Генеративными и Генерационными Моделями?
- 2.2. Вопрос 2: Объясните Разницу Между Перекрёстной Проверкой и Стратифицированной Перекрёстной Проверкой.
- 2.3. Вопрос 3: В Какой Ситуации Вы Должны Использовать Регрессии Lasso и Ridge?
- 2.4. Вопрос 4: Что Такое F1?
- 2.5. Вопрос 5: В Большинстве Случаев, Какие Модели Имеют Более Высокую Оценку – Ансамбли Или Индивидуальные Модели?
- 2.6. Вопрос 6: В Чём Различие Между Корреляцией и Ковариацией?
- 2.7. Вопрос 7: Дайте Определение Несбалансированному Набору Данных.
- 2.8. Вопрос 8: Что Такое Нормализация Данных?
- 2.9. Вопрос 9: Можете Ли Вы Захватить Корреляцию Между Категориальными и Непрерывными Переменными?
- 2.10. Вопрос 10: Для Чего Используется Функция Активации?
- 3. Заключение
Введение
Как только вы решитесь найти работу в этой сфере, то вам нужно будет начать готовиться и изучать вопросы собеседования. Запомните, к этому моменту вам нужно будет освоить хотя бы введение в машинное обучение. Если вы хотите начать изучать машинное обучение и анализ данных лишь сейчас, то начните с базовых вопросов. Они помогут вам узнать базовые концепты, а уже затем начните более практическую подготовку. Сами по себе базовые вопросы состоят из определений, объяснений и сравнений, поэтому идеально подойдут для новичков.
Последняя сделка действительна прямо сейчас:
GET 50% OFF
DataCamp Black Friday Sale
During this DataCamp Black Friday, you can access the top-rated courses with a 50% discount. Enroll now for way less!
Вопрос 1: Дайте Определение Машинному Обучению.
Вы же не пытались избежать ответа на данный вопрос?
Большая часть работодателей первым задаст именно его. Это делается по целому ряду различных причин.
Для начала ваши работодатели вряд-ли будут спрашивать вас про глубокое обучение и сложные алгоритмы, если не зададут хотя бы несколько базовых вопросов. Вряд-ли кто-то придёт на собеседования без таких знаний, но ваш ответ покажет насколько хорошо вы можете давать определение сложным для понимания вещам. Если вы просто выдадите заученное определение из Интернета, то вряд-ли вы вызовете доверие у будущего работодателя. Лучше постараться объяснить этот термин своими словами.
Итак… Что такое машинное обучение?
Вероятно, самым простым и понятным определением машинного обучения будет специфическая философия развития ИИ. Это сфера науки, которая нацелена на создание машин, способных обучаться с помощью предоставляемой им информации, без необходимости их точного программирования.
Вопрос 2: Что Такое Глубокое Обучение?
Это один из вопросов про глубокое машинное обучение и анализ данных, которые вы можете встретить на собеседовании. Часто это происходит по той причине, что глубокое обучение тесно связано с машинным обучением.
Глубокое обучение — это ответвление машинного обучения. Это ответвление нацелено на создание нейронных сетей имитирующих работу человеческого мозга (насколько это возможно).
Вопрос 3: В Чём Различие Между Ошибками Первого и Второго Рода?
Ошибки первого рода (Type 1) утверждают, что что-то произошло, когда на самом деле это было невозможно. Ошибки второго рода (Type 2) прямо противоположны – они утверждают, что ничего не случилось, когда на самом деле это произошло.
Такие вопросы про машинное обучение и анализ данных могут быть немного запутанными, но есть способ, чтобы их понять и запомнить.
Например, для запоминания различий между двумя ошибками: Представьте, что ошибка первого рода, это когда вы говорите вашей собаке, что она кошка, тогда как ошибка второго рода, это когда вы говорите собаке, что собаки не могут лаять.
Вопрос 4: Что Такое Аугментация Данных?
Один из самых простых вопросов про машинное обучение и анализ данных. Аугментация данных — это способ изменения и создания новых данных из старых. Делается это подобным образом – оставив цель как есть или просто изменив её на нечто уже известное.
Вопрос 5: Почему Наивный Байесовский Метод Так Называется?
Наивный байесовский называется так из-за своего способа мышления. Он предполагает, что каждый элемент в наборе данных одинаков в плане важности. Излишне говорить, что такое редко имеет место в реальной жизни.
Вопрос 6: Какие Лучше – Глубокие Или Неглубокие Сети?
Этот вопрос про машинное обучение предлагает вам сделать сравнение и многие вакансии потребуют от вас ответить именно на такие вопросы. Так как вам необходимо будет иметь знания об обеих сетях, чтобы найти чёткие различия между ними.
Глубокие сети обычно считаются более лучшей альтернативой, чем неглубокие. Причиной этого является то, что они состоят из большего количества слоёв, большинство из которых скрыты – это помогает глубоким сетям извлекать и создавать лучшие функции.
Вопрос 7: Что Такое Преобразование Фурье?
Метод преобразования Фурье используется для трансформации простых, обобщённых функций в так называемые суперфункции. Если этот вопрос про машинное обучение для вашей вакансии потребует более детального объяснения, то вы можете сравнить этот метод с ситуацией, где вам дают машину, чтобы разобрать ее и увидеть все различные компоненты и детали, из которых она сделана.
Вопрос 8: Что Такое Свёрточная Сеть?
Обычные, простые сети используют соединённые слои для выполнения их процессов. Свёрточные сети, в свою очередь, является теми, что вместо соединённых слоёв используют конволюционные.
Основная причина, по которой люди предпочитают использовать сверточные сети по сравнению со стандартными сетями с подключенными уровнями, заключается в том, что сверточным сетям присваивается гораздо меньшее количество параметров.
Вопрос 9: Что Вы Должны Знать о Корреляции Между True Positive Rate и Recall?
Данный вопрос про машинное обучение и анализ данных может казаться довольно сложным, но на деле всё просто. Здесь есть хитрость, обе эти метрики идентичны. Убедиться в этом можно взглянув на их формулу: TP/TP + FN.
Вопрос 10: Что Такое Метод Обратного Распространения Ошибки?
Метод обратного распространения ошибки или Backpropagation является методом тренировки многослойной нейронной сети. Мы бы смогли обучить сеть этим методом, если взяли ‘ошибку’ с самого ее конца и поместили её в каждый вес внутри сети. Таким образом, машина имеет возможность эффективно применять свои вычисления.
Вопрос 11: Что Произойдёт, Если Мы Используем Validation Set Без Применения Test Set?
На этот вопрос вряд-ли ответит тот, кто прошёл лишь введение в машинное обучение, так как он требует более специфических знаний.
Если вы применили только validation set (проверочный набор), то он не обеспечит вам точную оценку всех измерений модели, которую вы пытаетесь проверить. Именно поэтому test set (тестовый набор) используется для проверки того, как поведёт себя модель на примере, который она ранее не встречала. Таким образом, если вы уберёте test set, то можете скомпрометировать возможные результаты проверки.
Машинное Обучение и Анализ Данных – Продвинутые Вопросы Собеседования
Теперь, когда вы прошли некое введение в машинное обучение и знаете о том, какие вопросы стоит ожидать в начале собеседования, давайте перейдём к более продвинутым темам.
Однако вам не стоит пугаться. Ваш работодатель вряд-ли заставит вас создать полноценный ИИ или написать доклад по глубокому обучению. В данном контексте, “продвинутый” просто означает то, что вопросы будут более специфичны – вам нужно будет предоставить более детальную информацию, привести примеры и т.д. Поэтому не волнуйтесь и давайте начинать.
Вопрос 1: В Чём Различие Между Генеративными и Генерационными Моделями?
Этот вопрос про машинное обучение и анализ данных может показаться немного странным, но ваш работодатель просто хочет узнать, как эти модели работают с данными.
Генеративная модель, как понятно из названия, прикладывает усилия и изучает различные категории представленных ей данных. В отличие от неё, дискриминационная модель просто изучает разницу между различными категориями данных.
Разработчики и инженеры обычно предпочитают использовать дискриминационную модель, так как она справляется с задачами быстрее и эффективнее.
Вопрос 2: Объясните Разницу Между Перекрёстной Проверкой и Стратифицированной Перекрёстной Проверкой.
Простая кросс-валидация или перекрёстная проверка используется для случайного разделения данных между периодом обучения и набором проверки. Стратифицированная перекрёстная проверка делает тоже самое, но без случайной переменной – она отслеживает и сохраняет соотношение обучения и проверки тестирования. Если вас интересует машинное обучение и анализ данных, то вы должны обратить на эту тему особое внимание!
Вопрос 3: В Какой Ситуации Вы Должны Использовать Регрессии Lasso и Ridge?
Этот вопрос подпадает под категорию продвинутых из-за того, что для ответа на него вам нужно обладать более углубленными знаниями о типах регрессий.
Регрессия Lasso может выполнять обе функции как выбора переменных, так и сжатия параметров, тогда как регрессия Ridge может использоваться только для последнего. Поэтому Lasso лучше использовать, если у вас есть несколько переменных и большой эффект, а Ridge, если у вас есть много небольших переменных.
Это пример вопроса собеседования, на который вы можете дать более детальный ответ, а не просто рассказать определение.
Вопрос 4: Что Такое F1?
Нет, это не клавиша на вашей клавиатуре.
F1 является оценкой того, насколько хорошо справляется ваша модель. Всё, что близко к оценке ‘1’ считается отличным, а ниже оценки ‘0,5’ требует доработки.
Вопрос 5: В Большинстве Случаев, Какие Модели Имеют Более Высокую Оценку – Ансамбли Или Индивидуальные Модели?
Обычно именно ансамбли предоставляют более высокую оценку. Просто они являются комбинацией различных моделей, сделанных для прогноза одного, определённого результата. Чем больше моделей, тем больше ошибок может быть решено – соответственно, конечная оценка прогноза будет лучше.
Вопрос 6: В Чём Различие Между Корреляцией и Ковариацией?
Очень сложно ответить на этот вопрос, если вы не знаете об их соотношении друг с другом.
Если знаете, то ответ очень прост: Ковариация становится корреляцией, когда она стандартизирована.
Вопрос 7: Дайте Определение Несбалансированному Набору Данных.
Несбалансированный набор данных — это набор, который после тестирования, выдаёт результаты, где больше чем половина всей информации размещена в одном классе.
Как этого можно избежать? Что же, для этого есть несколько простых решений – вы можете либо запустить тест вновь с помощью другого алгоритма, либо попробовать тестировать более большое количество информации, чтобы результаты были выровнены.
Вопрос 8: Что Такое Нормализация Данных?
Помните как мы говорили про обратное распространение ошибок? Что же, нормализация данных используется для минимизации избыточности данных в процессе обратного распространения ошибок. Это позволяет пользователю масштабировать различные значения по своему усмотрению, тем самым устраняя возможные проблемы с избыточностью.
Вопрос 9: Можете Ли Вы Захватить Корреляцию Между Категориальными и Непрерывными Переменными?
Да, вы можете, но для этого вам будет необходимо использовать метод ANCOVA. Используя его, вы сможете захватить корреляцию.
- Простой в использовании
- Предлагает качественный контент
- Очень открытый в своих ценах
- Бесплатные сертификаты об окончании
- Фокус на навыки науки о данных
- Гибкое расписание занятий
- Простой дизайн (без бесполезной информации)
- Хорошее качество курсов (даже бесплатных)
- Разнообразие возможностей обучения
- Программа Nanodegree
- Подходит для корпоративного обучения
- Платные сертификаты об окончании
- Известная платформа в индустрии
- Широкий спектр особенностей
- Курсы университетского уровня
- Курсы университетского уровня
- Подходит для компаний
- Платные сертификаты об окончании
Вопрос 10: Для Чего Используется Функция Активации?
Эта функция позволяет вам диверсифицировать вашу сеть, внедряя нелинейные методы обучения. Это поможет вашей машине научиться проводить сложные процессы более простым способом.
Вы знали?
Вы когда-либо хотели узнать, какие платформы для онлайн обучения лучше всего подходят для вашей карьеры?
Заключение
В этом руководстве мы рассмотрели вопросы собеседования, которые нам может предоставить машинное обучение и анализ данных. Мы начали с основ, а уже затем затронули более продвинутые темы про машинное обучение.
Ищете ли вы вакансии в качестве ИТ специалиста или эксперта по ИИ, эти вопросы должны были помочь вам проверить и закрепить ваши знания. Конечно, это лишь верхушка айсберга, но по крайней мере вы знаете, чего стоит ожидать от вопросов собеседования по машинному обучению.
Итак, вот и подошло к концу руководство про машинное обучение и анализ данных. Надеемся, что эти вопросы и темы были для вас полезны. Удачи!