Каждый день в Интернете появляется огромное количество разнообразной информации. Точную цифру даже невозможно представить! И чтобы извлечь из этого выгоду, такой объём различной информации должен быть структурирован и упорядочен. Именно в этом и помогает Data Science или Наука о Данных - она предоставляет способ привнести порядок и смысл в эту информацию.
Это очень полезная наука, поэтому спрос на специалистов Data Scientist также очень высок. Если быть более точным, то он продолжает увеличиваться с каждым годом как и на способы попасть на этот рынок - онлайн курсы на таких платформах как DataCamp и Udacity. Поэтому, если вы решили, что профессия дата сайентист вам подходит, то вам необходимо подготовиться к собеседованию по этой позиции. В этом руководстве мы поможет вам это сделать.
Данное руководство разбито на две части – с базовыми и более продвинутыми темами. Мы поговорим про большие данные, узнаем отличие Data scientist от Data analyst и многое другое. В самом конце руководства вы узнаете несколько советов и мы вместе подведём итог для рассмотренного материала.
Содержание
- 1. Введение
- 1.1. Вопрос 1: Что Такое Data Science?
- 1.2. Вопрос 2: В Чём Различие Между Data Science и Big Data?
- 1.3. Вопрос 3: В Чём Различие Между Data Scientist и Data Analyst?
- 1.4. Вопрос 4: Каковы Основные Функции, Которые Представляют Big Data?
- 1.5. Вопрос 5: Что Такое Рекомендательная Система?
- 1.6. Вопрос 6: Назовите Причину, Почему в Data Science Лучше Всего Использовать Именно Python.
- 1.7. Вопрос 7: Что Такое A/B Тестирование?
- 1.8. Вопрос 8: Что Такое Hadoop и Почему Он Важен?
- 1.9. Вопрос 9: Что Такое Систематическая Ошибка Отбора?
- 1.10. Вопрос 10: Что Такое Анализ Мощности?
- 1.11. Вопрос 11: Что вы Знаете Про "Нормальное Распределение"?
- 1.12. Вопрос 12: Что Такое Статистическая Мощь Чувствительности?
- 1.13. Вопрос 13: Можете ли вы назвать различия между переобучением и недообучением?
- 1.14. Вопрос 14: Вы знаете, что такое Eigenvector и Eigenvalue?
- 1.15. Вопрос 15: Можете ли вы сказать, как набор проверки отличается от набора тестов?
- 2. Продвинутые Вопросы Data Science
- 2.1. Вопрос 1: Дайте Определение Коллаборативной Фильтрации.
- 2.2. Вопрос 2: Что Такое fsck?
- 2.3. Вопрос 3: Что Такое Перекрёстная Проверка?
- 2.4. Вопрос 4: Что Лучше – Хорошие Данные Или Хорошие Модели?
- 2.5. Вопрос 5: В Чём Различие Между Обучением с Учителем и Без Учителя?
- 2.6. Вопрос 6: В Чём Различие Между Математическим Ожиданием и Средним Значением?
- 2.7. Вопрос 7: В Чём Различие Между Двумерным, Многомерным и Одномерным Анализом?
- 2.8. Вопрос 8: Что, Если Два Пользователя Попробуют Получить Доступ к Одному и Тому же Файлу HDFS Одновременно?
- 2.9. Вопрос 9: Как Много Стандартных Форматов Ввода Hadoop Существует? Какие Они?
- 2.10. Вопрос 10: Что Такое Кластерная Выборка?
- 3. Советы
Введение
Давайте начнём с самого начала и поговорим об определениях.
Последняя сделка действительна прямо сейчас:
GET 50% OFF
DataCamp Black Friday Sale
During this DataCamp Black Friday, you can access the top-rated courses with a 50% discount. Enroll now for way less!
Большая часть ваших вопросов про Data science будут включать в себя определения и сравнения. Именно поэтому нам необходимо начать с определений, чтобы вы могли более плавно перейти к более сложным темам.
Вопрос 1: Что Такое Data Science?
Data science или наука о данных - это форма методологии, которая используется для извлечения и организации различных данных и информации из источников данных (как структурированных, так и нет).
Для своей работы данная наука использует различные алгоритмы и применяет математику для извлечения полезных знаний и информации, а также их организации таким образом, чтобы они имели смысл и имели применение.
Вопрос 2: В Чём Различие Между Data Science и Big Data?
Несомненно один из самых неприятных вопросов, так как многие люди не могут определить чёткие границы между ними. В основном причиной этого является нехватка информации по этой теме.
Хотя на самом деле ответ очень прост – так как термин Big data или большие данные подразумевает под собой огромные объёмы информации и данных, то ему необходимы особые методы для анализа. Поэтому можно сказать, что Big Data это то, что анализирует Data Science.
Вопрос 3: В Чём Различие Между Data Scientist и Data Analyst?
Несмотря на то, что эти термины в сфере Data science являются базовыми, многие люди часто их путают.
Data Scientist добывает, обрабатывает и анализирует данные. Сфера их работы нацелена на предоставление прогнозов для бизнеса о том, какие проблемы он может встретить.
Data Analyst решает неизбежные проблемы с бизнесом, вместо их прогнозирования. Они идентифицируют проблемы, проводят анализ статистической информации и документируют эти данные.
Вопрос 4: Каковы Основные Функции, Которые Представляют Big Data?
С определениями мы закончили, теперь давайте перейдём к более специфичным вопросам по Data science. Обратите внимание, что вопросы про Data scientist, analyst и Big data будут встречаться на собеседованиях почти всегда. Просто это различные подкатегории, которые тесно друг с другом переплетаются.
Большие данные представляют 5 категорий и они называются “5 V”:
- Value (значение);
- Variety (разнообразие);
- Velocity (скорость);
- Veracity (точность);
- Volume (объём).
Все эти термины в той или иной степени связаны с большими данными.
Вопрос 5: Что Такое Рекомендательная Система?
Это тип системы, которая используется для предсказания того, насколько высоко оценивают пользователи определённый объект (кино, музыку, товар и т.д.). Не стоит даже сильно разбираться в этих системам, чтобы осознать всю их сложность и наличие сложных формул.
Вопрос 6: Назовите Причину, Почему в Data Science Лучше Всего Использовать Именно Python.
Чтобы справиться с вопросами Data science, вы обязаны знать и уметь применять Python. В Python есть огромное количество библиотек Data science, а также он невероятно быстр, прост для изучения и чтения. Python включает в себя множество специализированных библиотек по глубинному обучению и машинному обучению, включая такие популярные инструменты как sci-kit-learn, Keras и TensorFlow, которые позволяют специалистам дата сайентист разрабатывать сложные модели данных, подключаемых непосредственно к производственной системе.
Чтобы раскопать нечто полезное из данных, вам нужно будет использовать Pandas, библиотеку для анализа данных на Python. Она может хранить огромное количество информации без различных неудобств, которые есть у Excel или подобных ему инструментов. Вы можете сделать численный анализ моделирования с Numpy. Провести научное вычисление и подсчёт с помощью SciPy. Или даже получить доступ к более мощным алгоритмам машинного обучения с помощью библиотеки sci-kit learn. В дополнение ко всему вышеперечисленному, с помощью Python API и IPython Notebook, который идёт вместе с Anaconda, вы получите возможность дать визуальное представление вашим данным.
Вопрос 7: Что Такое A/B Тестирование?
A/B тестирование может применяться во многих сферах, но в области Data science ему отводится особое предназначение. Почему так происходит?
A/B тестирование - это форма тестов проводимых для определения того, какая версия одной и той же вещи лучше подходит для достижения желаемых результатов.
Например, вы хотите продать яблоки. Однако вы не уверены какой сорт яблок – красные или зелёные – предпочтут ваши покупатели. Поэтому вы пробуете продавать оба – для начала вы продаёте красные яблоки, затем зелёные. После этого вы просто высчитываете какие из них были более прибыльными и готово – это была самая простая форма A/B тестирования!
Вопрос 8: Что Такое Hadoop и Почему Он Важен?
Чтобы ответить на этот вопрос правильно, вы должны понимать, что Apache Hadoop является набором программных утилит с открытым исходным кодом, которые облегчают использование сети из множества компьютеров для решения проблем, связанных с огромными объемами данных и вычислений. Он предоставляет фреймворк программного обеспечения для распределённого хранения и обработки данных с помощью модели программирования MapReduce.
Hadoop делит файлы на большие блоки и распределяет их по нодам кластера. После этого он перемещает упакованный код в ноды для параллельной обработки данных. Это позволяет набору данных обрабатываться быстрее и более эффективно, чем это было бы с более традиционной архитектурой суперкомпьютера.
Вопрос 9: Что Такое Систематическая Ошибка Отбора?
Систематическая ошибка отбора - это систематическое отклонение, вызванное отбором отдельных лиц, групп или данных для анализа таким образом, что надлежащая рандомизация не достигается, тем самым гарантируя, что полученная выборка не является репрезентативной для популяции, предназначенной для анализа.
Если систематическая ошибка отбора не берётся в расчёт, то некоторые выводы исследования могут быть неточными.
Вопрос 10: Что Такое Анализ Мощности?
Тип анализа, который используется для определения того, какой тип эффекта будет иметь единица в зависимости от её размера.
Анализ мощности напрямую связан с тестами гипотез. Главная цель, лежащая в основе анализа мощности, состоит в том, чтобы помочь исследователю определить наименьший размер выборки, который подходит для обнаружения эффекта данного теста на желаемом уровне значимости.
Вопрос 11: Что вы Знаете Про "Нормальное Распределение"?
Данные распределяются различными способами с уклоном влево или вправо или же смешанно. Однако есть возможность, что данные достигнут форму колоколообразной кривой без какого-либо смещения влево или вправо.
Формы Нормального Распределения:
- Унимодальная - один режим
- Симметричная - левая и правая части зеркальны
- Колоколообразные - максимальная высота
- Медиана расположена в центре
- Асимптотическая
Вопрос 12: Что Такое Статистическая Мощь Чувствительности?
Это один из наиболее сложных вопросов собеседования на позицию Data Scientist. Чувствительность в основном используется для подтверждения точности классификатора, к примеру, Logistic, Random Forest, SVC.
Чувстительность - Прогнозирование Реальных Событий/Тотальный Событий.
Реальные события - это те, что были реальными и модель также признала их правдивыми.
Расчёт сезонности прост. Формула выглядит следующим образом: Сезонность=(Истинные Положительные Результаты)/(Положительные Результаты в Зависимой Переменной).
Вопрос 13: Можете ли вы назвать различия между переобучением и недообучением?
Вы можете начать с определения того, что это такое. В переобучении статистическая модель описывает случайные ошибки или шум вместо соответствующих отношений. Это происходит когда модель слишком сложная, к примеру имеет слишком много параметров. Модель, которые был переобучена имеет слишком плохую прогнозируемую производительность так как слишком сильно реагирует на небольшие изменения в обучающих данных.
С другой стороны, недообучение происходит когда алгоритм машинного обучения или статистическая модель не может захватить соответствующий тренд данных. Недообучение происходит если вы попытаетесь использовать линейную модель для нелинейных данных. Это тоже будет иметь плохую прогнозируемую производительность. Не путайте эти два концепта так как это может быть важным.
Вопрос 14: Вы знаете, что такое Eigenvector и Eigenvalue?
Конечно вы знаете. Eigenvector используется для понимания линейной трансформации. В анализе данных Eigenvectors обычно рассчитываются для корреляционной или ковариационной матрицы.
Eigenvalue можно назвать силой трансформации в направлении Eigenvector или фактора, к которому происходит компрессия.
Вопрос 15: Можете ли вы сказать, как набор проверки отличается от набора тестов?
Набор провести является частью набор обучения, который используется для выбора параметров и избежания переобучения модели ML. Набор тестов предназначен для оценки и тестирования показателей модели ML.
Продвинутые Вопросы Data Science
Итак, мы рассмотрели базовые и вводные вопросы, которые нам может предложить наука о данных. Давайте перейдём к более сложным темам.
Представленный далее материал является выборкой из тем для Data scientists, Big data и Data analyst. Это темы, которые чаще всего затрагиваются в процессе проведения собеседования.
Вопрос 1: Дайте Определение Коллаборативной Фильтрации.
Коллаборативная фильтрация, как понятно из названия, является процессом фильтрации, который используют многие рекомендательные системы. Этот тип фильтрации используется для поиска и категоризации определённых паттернов.
Коллаборативная фильтрация - это способ создания автоматических прогнозов (фильтрации) об интересах пользователя с помощью сбора информации о предпочтениях и вкусе многих пользователей.
Вопрос 2: Что Такое fsck?
Дата сайентист должен знать, что fsck является аббревиатурой для “File System Check” или “Проверки Файловой Системы”. Это тип команды, который ищет возможные ошибки внутри файла и при их нахождении сообщает об этом в распределённую файловую систему Hadoop.
Вопрос 3: Что Такое Перекрёстная Проверка?
В сфере Data science перекрёстная проверка или кросс валидация, может быть довольно сложной темой для объяснения, особенно, если пытаться сделать это в простой и понятной для каждого манере.
Перекрёстная проверка используется для анализа того, поведёт ли себя объект так как от него ожидают при помещении на работающие сервера. Другими словами, она проверяет как определённые результаты статистического анализа будут измеряться, когда они помещаются в независимый набор данных.
Вопрос 4: Что Лучше – Хорошие Данные Или Хорошие Модели?
Это можно назвать одним из самых популярных вопросов по Big data, несмотря на то, что он также подпадает под категорию вопросов по Data science.
Ответ на этот вопрос на самом деле субъективен и зависит от ситуации. Крупные компании могут предпочесть хорошие данные, так как они являются основой для любого успешного бизнеса. С другой стороны, хорошие модели не могут быть созданы без хороших данных.
Вы должны ответить на этот вопрос в соответствии с вашими предпочтениями – здесь нет неправильного или правильного ответа (если конечно компания сама не пытается его найти).
Вопрос 5: В Чём Различие Между Обучением с Учителем и Без Учителя?
Это не самый распространённый вопрос и больше относиться к машинному обучению, чем к чему-то ещё, но дата сайентист должен это знать.
В процессе “Supervised learning” или “Обучения с учителем”, вы будете выводить функцию из помеченной части данных, предназначенных для обучения. Машина будет учиться с объективных и конкретных примеров, которые вы предоставите.
“Unsupervised learning” или “Обучение без учителя” относится к машинному методу обучения, который не использует помеченные ответы – машина учиться на описании входных данных.
Вопрос 6: В Чём Различие Между Математическим Ожиданием и Средним Значением?
Наука о данных может быть тесно связана с математическими значениями. Поэтому вы должны знать, что между ними нет никакой разницы. Однако используются они в разных ситуациях.
Математическое ожидание обычно отражает случайные переменные, тогда как среднее значение отражает выборку образцов.
Вопрос 7: В Чём Различие Между Двумерным, Многомерным и Одномерным Анализом?
Двумерный (bivariate) анализ касается двух переменных одновременно, тогда как многомерный (multivariate) анализ имеет дело с несколькими переменными. Одномерный (univariate) анализ является самой простой формой анализа данных. “Uni” означает “один“, другими словами, ваши данные имеют только одну переменную. Он не имеет отношения к причинам или отношениям (в отличие от регрессии), и его главная цель – описать; он берёт данные, суммирует эти данные и находит шаблоны в данных.
Вопрос 8: Что, Если Два Пользователя Попробуют Получить Доступ к Одному и Тому же Файлу HDFS Одновременно?
Этот вопрос по Data science также очень часто появляется в различных источниках – и на самом деле здесь есть небольшой подвох. Сам по себе ответ не так сложен, но очень легко перепутать как реагируют на это различные программы.
Если два пользователя попытаются получить доступ к файлу HDFS, то первый человек получит доступ, а второму пользователю в доступе будет отказано.
Вопрос 9: Как Много Стандартных Форматов Ввода Hadoop Существует? Какие Они?
Один из вопросов для аналитика данных, который также может быть задан. Он довольно сложный, так как вам не только нужно знать число, но и сам формат.
Всего существует три распространённых формата ввода Hadoop. Это: формат key-value, sequence file и text.
- Простой в использовании
- Предлагает качественный контент
- Очень открытый в своих ценах
- Бесплатные сертификаты об окончании
- Фокус на навыки науки о данных
- Гибкое расписание занятий
- Простой дизайн (без бесполезной информации)
- Хорошее качество курсов (даже бесплатных)
- Разнообразие возможностей обучения
- Программа Nanodegree
- Подходит для корпоративного обучения
- Платные сертификаты об окончании
- Известная платформа в индустрии
- Широкий спектр особенностей
- Курсы университетского уровня
- Курсы университетского уровня
- Подходит для компаний
- Платные сертификаты об окончании
Вопрос 10: Что Такое Кластерная Выборка?
Кластерная выборка относится к типу метода выборки. С кластерной выборкой, исследователь делит популяцию на несколько отдельных групп под названием кластеры. Затем, из популяции выбирается простой случайный образец кластеров. Исследователь проводит свой анализ данных на основе выбранных кластеров.
Вы знали?
Вы когда-либо хотели узнать, какие платформы для онлайн обучения лучше всего подходят для вашей карьеры?
Советы
Итак, мы успешно рассмотрели как базовые, так и более продвинутые вопросы по Data science. Давайте вспомним, что мы узнали и подведём итоги.
Самой важной вещью для начала вашего собеседования являются определения. Если вы их знаете и можете объяснить их значение в простой и понятной манере, то вы гарантированно произведёте хорошее впечатление на потенциального работодателя.
После этого, убедитесь, что повторите все сложные темы. Вам не обязательно изучать каждый из тысяч вопросов собеседования досконально. Тем не менее, изучить самые основные темы и запомнить хотя бы их концепт будет вовсе не лишним.
Вашей основной целью во время собеседования должен стать показ ваших знаний. Будь-то вопросы собеседования по Data science или какие-либо другие – если ваш работодатель увидит, что вы подкованы в данной теме, то он будет считать вас подходящим кандидатом.
Однако вам стоит помнить – знания это лишь один из критериев оценки. Работодатели также смотрят на вашу ответственность, надёжность и многие другие качества. Вы также должны уметь продемонстрировать их и другие ваши положительные качества. Не бойтесь говорить о себе, но знайте меру – есть серьёзное отличие между уверенностью и излишней самоуверенностью. Если необходимо больше советов по теме Data Science, то загляните в пути обучения BitDegree или прочитайте наши руководства по языкам программирования, вроде Python с DataCamp и начните ваше путешествие!