По мере того, как передовые и связанные технологии Industry 4.0 проникают в нашу повседневную деятельность, компании должны подумать о том, как использование Data Science может помочь им объяснить неизвестное, оптимизировать свой бизнес и предсказать будущее. В преддверии обсуждения и презентации группы Soothsayer's Data Science на конференции Integr8 на Autoley Alley 14 ноября, перед тем, как отправиться в путешествие по науке о данных, необходимо рассмотреть 12 вопросов.

Вопрос 1: Чем наука о данных отличается от бизнес-аналитики и статистики?

Ответ: Business Intelligence предоставляет представление о прошлом, а традиционные статистические данные (в контексте Analytics) используют упрощенные модели (такие как логистическая регрессия) для выборок прошлых данных, чтобы дать оценки будущего. Принципиальное различие между этим и Data Science, также известной как Advanced Analytics, заключается в использовании непараметрических моделей на основе машинного обучения, которые автоматически развиваются из данных и обладают способностью к самообучению и адаптации при представлении с новыми входными данными. ,

Это часто приводит к более глубокому пониманию, более точным прогнозам и, во многих случаях, к способности положительно беспокоить будущее. Специалисты по данным также не ограничиваются структурированными данными (например, строками и столбцами), что позволяет использовать новые источники знаний для бизнес-ценности (например, текст, изображения и аудио).

Вопрос 2: Что Правление хочет знать о науке о данных, аналитике и больших данных?

О: Делать домашнее задание очень важно, когда вы продаете новый путь вперед. Прежде чем говорить с руководством, встретитесь с соответствующими коллегами и заинтересованными сторонами по вопросам и возможностям, которые они хотели бы рассмотреть. Как только у вас появятся какие-то идеи, поработайте с вашей группой по обработке данных, чтобы определить соответствующие данные (которые предпочтительно являются чистыми и полными).

Говоря с C-suite или Board, начните с четкого определения того, в каком месте вы находитесь в настоящий момент в аналитическом путешествии - вы в настоящее время находитесь в описательной, диагностической, прогностической или предписывающей форме? Для этого у Gartner есть хорошая инфографика: «Что случилось, почему это произошло, что произойдет, и что нам с этим делать?»

Представьте свой список возможностей и, если возможно, воспользуйтесь примерами того, как конкуренты или смежные отрасли сделали что-то подобное - не забудьте рассказать о ценности, которую они создали для них. Например, если вы начинаете аналитическую инициативу у поставщика телекоммуникационных услуг, поговорите о том, как конкурент использовал свой поток данных о клиентах, чтобы сократить отток клиентов, что привело к экономии в размере 10 миллионов долларов в год.

Хотя это идет вразрез с вышеупомянутым примером - попробуйте начать с проблем, которые увеличат доход, а не уменьшат затраты. Зарабатывание денег часто считается более сексуальным, чем экономия денег.

Вопрос 3: Как мне сузить первую проблему, которую нужно решить с помощью Data Science, и сколько времени занимают эти проекты?

A: Быстрые, значимые победы обычно могут быть достигнуты в течение нескольких месяцев. Чтобы свести к минимуму время, необходимое для получения отдачи от инвестиций, начните с определения низко висящих фруктов, к которым у вас уже есть доступ к качественным данным - это может относиться к клиентам, процессам или даже в форме неструктурированных данных, таких как текст.

Если возможно, начните с более крупной проблемы, которую можно легко разделить на подпроекты. Например, если вы решили сосредоточиться на понимании клиентов, начните с научной сегментации клиентов. Как только вы узнаете, кто ваши клиенты, вы можете начать решать другие проблемы, такие как определение возможностей для перекрестных продаж и перепродаж, прогнозирование и предотвращение оттока клиентов, а также прогнозирование продолжительности жизни клиента.

Q4: Каковы мои внутренние / внешние потребности в ресурсах?   

A: Независимо от того, строите ли вы внутренние возможности или работаете с внешними партнерами, важно, чтобы ваша команда по науке о данных включала в себя некоторую комбинацию навыков программирования, знаний по математике и статистике, а также опыта в предметной области. Поскольку вам вряд ли удастся найти кого-то, который подходит всем трем, и из-за сравнительно высокой стоимости найма специалистов по внутренним данным, для компании часто имеет смысл предоставлять экспертные знания в области и полагаться на внешних партнеров для предоставления других наборов навыков.

Q5: Какое влияние окажет наш внутренний персонал?

Предполагая, что вы работаете с внешним партнером, влияние на ваш внутренний персонал обычно должно быть минимальным. Большинство заданий начнется с фазы понимания бизнеса и данных. В течение этого времени ваш партнер по науке о данных будет работать с экспертами в вашей области, чтобы выяснить цели и требования проекта и сформулировать первоначальный план проекта. В зависимости от размера и масштабов проекта, это может состоять из нескольких часов бесед с ключевыми заинтересованными сторонами или нескольких обсуждений в течение нескольких недель. После этого обычно достаточно еженедельной сенсорной базы.

В6: Сколько нужно тренироваться моей команде, чтобы использовать разработанные модели?

В зависимости от требований и технических навыков вашей внутренней команды, может также потребоваться время для обучения. Если у вас еще нет специалиста по внутренним данным, важно вступить в партнерские отношения с поставщиками, которые могут либо работать с вами, чтобы интегрировать их результаты в существующие системы BI или другие подобные приложения, либо создавать автономные инструменты, которые защищают сложность от нетехнических пользователей.

Q7: Это много времени и денег, какова окупаемость?

Ответ: Окупаемость зависит от текущего уровня зрелости аналитики компании, решаемой проблемы и от того, насколько инвестированы - как финансовые, так и стратегические - заинтересованные стороны.

Авторитетные исследования говорят о том, что компании в среднем получают доход 13: 1 от инвестиций в аналитику. Эта цифра кажется правильной, хотя мы видели случаи, когда рентабельность инвестиций превышала 40 к 1 в предсказателе.

В8: Как мне сформулировать это с точки зрения рентабельности инвестиций, чтобы лидерство не получило шок от наклеек?

О: Часто трудно рассчитать потенциальную рентабельность инвестиций в проект по науке о данных, прежде чем копаться в данных. Много раз, проект может привести к высшему пониманию, которое является ценным далеко за пределами первоначальной постановки проблемы. Если компания является новичком в Analytics, возможно, что рентабельность инвестиций, созданная в результате первоначального соглашения, открывает двери для новых возможностей и видимости ранее неизвестных аспектов их бизнеса.

Вообще говоря, вы можете рассчитать ROI, количественно определив, как в настоящее время решается проблема, по сравнению с тем, что можно достичь, если вместо этого будет реализован подход, основанный на науке о данных. Например, предположим, что вы являетесь дистрибьютором скоропортящихся продуктов. Если текущий метод прогнозирования, используемый вашей компанией на регулярной основе, дает на 10% больше запасов, чем требуется, вы можете легко сопоставить каждый процент повышения точности со значительной экономией. Поскольку вы сможете лучше прогнозировать спрос клиентов, вы также сможете более эффективно удовлетворять их потребности и улучшать показатели лояльности.

Q9: Как мне установить правильные ожидания?

A: Важно установить четкие ожидания. Многое из того, что делает Data Scientist, включает в себя идентификацию, сбор, очистку и компиляцию чистых данных в пригодные для использования форматы - во многих случаях это может занимать до 60% их времени. Любой фрагмент понимания может занять месяц или два, поэтому заинтересованные стороны должны быть терпеливыми. Если начальная работа является основополагающей, убедитесь, что они понимают, что будущие инициативы X & Y зависят от успеха этого первого шага.

Q10: Как мне сформулировать результаты нашего первого проекта Data Science?

A: Всегда начинайте с самых интересных идей и всех возможностей, которые они представляют. Здесь следует сосредоточиться на том, какие действия вы можете предпринять и как эти действия изменят бизнес в лучшую сторону.

Важно, чтобы тот, кто зачислен на внутреннюю работу для получения знаний о предметной области, также имел сильные коммуникативные навыки, иначе нетехническим лидерам может быть трудно понять ценность ваших результатов. Убедитесь, что также предоставили богатую визуализацию, где это возможно. Графику легче понять, чем уравнение, поэтому помните принцип KISS.

Q11: Какие технологии мы должны использовать для Data Science? Кто из поставщиков может удовлетворить эти потребности?

О: Существует много готовых инструментов, разработанных для «аналитики» самообслуживания относительно нетехническими пользователями. Проблема с такими инструментами, однако, заключается в том, что они часто подгоняют ваши данные к своему решению, а не подгоняют свое решение под ваши данные - они также часто сопровождаются значительными финансовыми связями.

По этой причине мы обычно рекомендуем начинать с изучения мощных инструментов с открытым исходным кодом, таких как R и Python - ни один из них не требует лицензионных сборов, и они, как правило, на несколько месяцев или лет вперед с точки зрения сложности алгоритмов. Эти инструменты также имеют отличные и очень активные онлайн-сообщества с качественными учебными пособиями, которые помогают снизить барьер для доступа к этим технологиям. Оба также предоставляют нативную визуализацию, хотя в этой области открытый исходный код все еще немного отстает. Такие продукты, как Tableau, Qlik и Power BI, снижают барьер доступа к богатой, эстетически привлекательной и интерактивной визуализации.

В12: Как мы интегрируем то, что мы встраиваем в наш существующий рабочий процесс, и как мы защищаем конфиденциальность?

A: Гибкость является ключевым фактором, но один из частых подходов - представить модель в виде веб-службы. Это делает использование модели довольно стандартной процедурой. Это не уникально для науки о данных, и подобные методы интеграции, вероятно, уже определены внутри.

В зависимости от решаемой проблемы могут возникнуть проблемы с конфиденциальностью клиента. Опять же, эта проблема не является специфичной для Data Science. В общем, вы будете следовать тем же традиционным процессам защиты данных, что и в любом другом приложении.