• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Список литературы: data science

Программирование на Python, машинное обучение и большие данные

В новом выпуске рубрики «Список литературы» преподаватели проекта Data Culture НИУ ВШЭ рассказывают о книгах, которые помогут разобраться в том, что такое анализ данных.

 


Building Machine Learning Systems with Python
Willi Richert, Luis Pedro Coelho

Максимально близкая к практике книга, где каждый метод разбирается на полезной задаче (от кластеризации сообщений до анализа музыкальных треков) и с кодом наPython. Рекомендуем всем, кто уже умеет программировать и хочет получить опыт построения моделей, который можно будет сразу же использовать в своих задачах. Книга отвечает на множество вопросов: как следует обрабатывать данные так, чтобы алгоритмы машинного обучения могли извлечь максимум пользы? Как выбрать правильный алгоритм для решения проблемы? Почему один алгоритм превосходит другой в конкретном сценарии? Автор книги – Уили Ричерт, PhD в области машинного обучения и робототехники, в настоящее время работает в Microsoft в Bing Core Relevance Team.

 

Удовольствие от Х
Стивен Строгац

Книга для тех, кого запугала школьная математика, представив великую науку в виде череды уравнений. В книге цифры, числа и задачи превращаются в замысловатый логический танец в пространстве мыслей. Её автор – Стивен Строгац, американский математик, профессор Корнелльского университета, писал статьи для  газеты The New York Times, где максимально просто объяснял самые сложные понятия. В книгу вошли опубликованные материалы и новые главы. В предисловии Строгац пишет: «Математика повсюду, надо только научиться ее узнавать. Можно разглядеть синусоиду на спине зебры, услышать отголоски теорем Евклида в Декларации о независимости; да что там говорить, даже в сухих отчетах, предшествовавших Первой мировой войне, присутствуют отрицательные числа. Также можно увидеть, как на нашу сегодняшнюю жизнь влияют новые направления математики, например, когда мы ищем рестораны с помощью компьютера или пытаемся хотя бы понять, а еще лучше — пережить пугающие колебания фондового рынка».

 


Программируем коллективный разум

Тоби Сегеран

Отличная прикладная книга, которая «на пальцах» объясняет некоторые современные алгоритмы машинного обучения, с примерами кода на языке Python. Особенно подробно описаны алгоритмы классификации и кластеризации. Автор книги Тоби Сегеран пишет: «Цель этой книги – помочь вам перейти от простых приложений, хранящих данные в базе, к написанию более интеллектуальных программ, способных эффективно пользоваться той информацией, которую вы и другие люди накапливают каждодневно».

 

Эссе «Плач математика»

Пол Локхард

Автор Пол Локхард мастерски и со всех сторон критикует современное школьное математическое образование, предлагая прекрасный подход к ее изучению. Пол Локхард начал преподавать математику в начальной школе, защитил диссертацию в университете Коламбия, был сотрудников Института математических исследований (MSRI) и профессором в университете. Но потом вернулся в школу, преподавать математику во всех классах – от подготовительного до выпускного.

 

The elements of statistical learning
Friedman J., Hastie T., Tibshirani R.

Одна из базовых книг по машинному обучению, авторы которой придумали немало методов, использующихся сегодня профессионалами каждый день. Взять хотя бы градиентный бустинг, предложенный Фридманом в 1999 году, а сегодня применяемый, например, для построения поисковых движков и рекомендательных систем. Многие курсы по машинному обучению основываются именно на этой книге.

 

Speech and Language Processing
Dan Jurafsky, James H. Martin

Одна из лучших книг про анализ текстов и связанные задачи. Рассказ идёт от самых основ и простейших методов вроде регулярных выражений, а заканчивается рекуррентными нейросетями, построением диалоговых систем и прочими продвинутыми разделами. В процессе описания единого видения речевой и языковой обработки авторы собирают воедино те области, которые традиционно преподаются отдельно на разных курсах: распознавание речи, синтаксический анализ, семантическая интерпретация и лингвистическая прагматика, вычислительная морфология и фонология и многие другие. После прочтения этой книги, пишут авторы, станет понятно, насколько далёк от реальности был Артур Кларка, когда создавал своего персонажа – говорящего робота HAL из «Космической Одиссеи: 2001».

 

Bit by Bit
Matthew J. Salganik

Развитие науки о данных влияет на множество аспектов деятельности человека, меняется даже сам научный подход. Эта книга рассматривает изменения, связанные с развитием современных методов анализа данных, происходящие в социальных науках. В книге много содержательных примеров и рекомендаций для исследователей и аналитиков. Мэтью Дж. Салганик – профессор социологии в Принстонском университете, где он также работает с Центром политики в области информационных технологий и Центром статистики и машинного обучения. Его исследования финансировались Microsoft, Facebook и Google.

 IQ

6 июля