В новом выпуске рубрики «Список литературы» преподаватели проекта Data Culture НИУ ВШЭ рассказывают о книгах, которые помогут разобраться в том, что такое анализ данных.
Максимально близкая к практике книга, где каждый метод разбирается на полезной задаче (от кластеризации сообщений до анализа музыкальных треков) и с кодом наPython. Рекомендуем всем, кто уже умеет программировать и хочет получить опыт построения моделей, который можно будет сразу же использовать в своих задачах. Книга отвечает на множество вопросов: как следует обрабатывать данные так, чтобы алгоритмы машинного обучения могли извлечь максимум пользы? Как выбрать правильный алгоритм для решения проблемы? Почему один алгоритм превосходит другой в конкретном сценарии? Автор книги – Уили Ричерт, PhD в области машинного обучения и робототехники, в настоящее время работает в Microsoft в Bing Core Relevance Team.
Книга для тех, кого запугала школьная математика, представив великую науку в виде череды уравнений. В книге цифры, числа и задачи превращаются в замысловатый логический танец в пространстве мыслей. Её автор – Стивен Строгац, американский математик, профессор Корнелльского университета, писал статьи для газеты The New York Times, где максимально просто объяснял самые сложные понятия. В книгу вошли опубликованные материалы и новые главы. В предисловии Строгац пишет: «Математика повсюду, надо только научиться ее узнавать. Можно разглядеть синусоиду на спине зебры, услышать отголоски теорем Евклида в Декларации о независимости; да что там говорить, даже в сухих отчетах, предшествовавших Первой мировой войне, присутствуют отрицательные числа. Также можно увидеть, как на нашу сегодняшнюю жизнь влияют новые направления математики, например, когда мы ищем рестораны с помощью компьютера или пытаемся хотя бы понять, а еще лучше — пережить пугающие колебания фондового рынка».
Программируем коллективный разум
Тоби Сегеран
Отличная прикладная книга, которая «на пальцах» объясняет некоторые современные алгоритмы машинного обучения, с примерами кода на языке Python. Особенно подробно описаны алгоритмы классификации и кластеризации. Автор книги Тоби Сегеран пишет: «Цель этой книги – помочь вам перейти от простых приложений, хранящих данные в базе, к написанию более интеллектуальных программ, способных эффективно пользоваться той информацией, которую вы и другие люди накапливают каждодневно».
Автор Пол Локхард мастерски и со всех сторон критикует современное школьное математическое образование, предлагая прекрасный подход к ее изучению. Пол Локхард начал преподавать математику в начальной школе, защитил диссертацию в университете Коламбия, был сотрудников Института математических исследований (MSRI) и профессором в университете. Но потом вернулся в школу, преподавать математику во всех классах – от подготовительного до выпускного.
Одна из базовых книг по машинному обучению, авторы которой придумали немало методов, использующихся сегодня профессионалами каждый день. Взять хотя бы градиентный бустинг, предложенный Фридманом в 1999 году, а сегодня применяемый, например, для построения поисковых движков и рекомендательных систем. Многие курсы по машинному обучению основываются именно на этой книге.
Одна из лучших книг про анализ текстов и связанные задачи. Рассказ идёт от самых основ и простейших методов вроде регулярных выражений, а заканчивается рекуррентными нейросетями, построением диалоговых систем и прочими продвинутыми разделами. В процессе описания единого видения речевой и языковой обработки авторы собирают воедино те области, которые традиционно преподаются отдельно на разных курсах: распознавание речи, синтаксический анализ, семантическая интерпретация и лингвистическая прагматика, вычислительная морфология и фонология и многие другие. После прочтения этой книги, пишут авторы, станет понятно, насколько далёк от реальности был Артур Кларка, когда создавал своего персонажа – говорящего робота HAL из «Космической Одиссеи: 2001».
Развитие науки о данных влияет на множество аспектов деятельности человека, меняется даже сам научный подход. Эта книга рассматривает изменения, связанные с развитием современных методов анализа данных, происходящие в социальных науках. В книге много содержательных примеров и рекомендаций для исследователей и аналитиков. Мэтью Дж. Салганик – профессор социологии в Принстонском университете, где он также работает с Центром политики в области информационных технологий и Центром статистики и машинного обучения. Его исследования финансировались Microsoft, Facebook и Google.
IQ