Amazon EMR для сообщества Yelp

Детали внедрения

Проблемы Проблемы
  •  Низкое качество обслуживания клиентов
  •  Высокая стоимость владения ИТ-инфраструктурой (TCO)
  •  Нехватка собственных ИТ ресурсов
  •  Высокие затраты на выполнение рутинных задач сотрудниками
  •  Низкая производительность труда сотрудников
  •  Низкое качество поддержки клиентов
  •  Риск потери доступа к данным и ИТ-системам
Проблемы Бизнес-задачи
  •  Сокращение затрат
  •  Повышение продуктивности персонала
  •  Безопасность и непрерывность бизнеса
  •  Улучшение обслуживания клиентов
Описание

Описание

ПРОБЛЕМА

Yelp определил постоянных потребителей, во многом благодаря тому, что они бдительны в защите пользователя от навязчивой рекламы или подозрительного контента. Yelp использует фильтр автоматической проверки, чтобы идентифицировать подозрительный контент и минимизировать воздействие на потребителя. На сайте также представлен широкий спектр других функций, которые помогают людям открывать новые компании (списки, специальные предложения и события) и общаться друг с другом. Кроме того, владельцы бизнеса и менеджеры могут создавать бесплатные учетные записи для размещения специальных предложений, загрузки фотографий и отправки сообщений клиентам.
Компания также сосредоточилась на разработке мобильных приложений, и недавно она была включена в Зал славы iTunes Apps. Приложения Yelp также доступны для Android, Blackberry, Windows 7, Palm Pre и WAP.
Локальная поисковая реклама составляет большую часть доходов Yelp. Поисковые объявления окрашены в светло-оранжевый цвет и четко помечены как «Спонсируемые результаты». Платящим рекламодателям не разрешается изменять или переупорядочивать свои отзывы.

 

ПОЧЕМУ Amazon Web Services

Изначально Yelp зависел от гигантских RAID-массивов для хранения своих журналов, а также от одного локального экземпляра Hadoop. Когда Yelp перешел на Amazon Elastic MapReduce (Amazon EMR), они заменили RAID-массивы на Amazon Simple Storage Service (Amazon S3) и немедленно перенесли все задания Hadoop в Amazon Elastic MapReduce.
«На нашем кластере Hadoop не хватило места и емкости жесткого диска», — говорит инженер по поиску и извлечению данных Yelp Дейв Марин.
Yelp использует Amazon S3 для хранения ежедневных журналов и фотографий, генерируя около 1,2 ТБ журналов в день. Компания также использует Amazon EMR для поддержки примерно 20 отдельных пакетных сценариев, большинство из которых обрабатывают журналы. Функциональные возможности Amazon Elastic MapReduce включают в себя:

  • Просмотр списка посетителей
  • Основные моменты обзора
  • Автозаполнение при вводе в поиск
  • Поиск орфографических предложений
  • Лучшие поиски
  • Объявления

Их задания написаны исключительно на Python, в то время как Yelp использует свою собственную библиотеку с открытым исходным кодом, mrjob, для запуска потоковых заданий Hadoop в Amazon EMR с помощью boto для общения с Amazon S3. Yelp также использует s3cmd и утилиту Ruby Elastic MapReduce для мониторинга.
Разработчики Yelp советуют другим, работающим с AWS, использовать API-интерфейс boto, а также mrjob для обеспечения полного использования потоков заданий Amazon Elastic MapReduce. Yelp выполняет около 250 заданий Amazon Elastic MapReduce в день, обрабатывая 30 ТБ данных, и выражает благодарность за поддержку AWS, которая помогла в разработке их приложений Hadoop.

ПРЕИМУЩЕСТВА

С помощью Amazon Elastic MapReduce Yelp удалось сэкономить 55 000 долларов на начальных затратах на оборудование и начать работу в течение нескольких дней, а не месяцев. Однако наиболее важным для Yelp является альтернативная стоимость. «Благодаря AWS наши разработчики теперь могут делать то, чего не могли раньше», — говорит Марин. «Наша системная команда может сосредоточить свои усилия на других задачах».