Внутри и снаружи «Яндекс.Станции»

30.05.2018 > 21:16
Внутри и снаружи «Яндекс.Станции»
Смарт-колонка "Яндекс.Станция". Фото: habr.com/company/yandex
По меркам российского рынка умного дома появление смарт-колонки «Яндекс.Станция» - безусловно, событие года. PRO IoT объясняет, почему это важно и что у «Яндекс.Станции» внутри и снаружи.
Прорыв года

«Это первая "железка", сделанная в Яндексе», - открыл новую страницу в развитии холдинга руководитель группы компаний «Яндекс» Аркадий Волож 29 мая на конференции Yet another Conference. В движении на аппаратный рынок через остановку «Смарт-колонки» «Яндекс» не одинок. Собственный умный динамик уже давно разрабатывает Facebook, по слухам, в этом же направлении движется Spotify, вслед за Amazon, Google и Apple на рынок также вышли маститые производители акустических систем.

Все дело в том, что, по данным аналитической компании Canalys, умные колонки по-прежнему являются самым быстрорастущим сегментом потребительской электроники в мире. В первом квартале их глобальные продажи выросли на 210% по сравнению с аналогичным периодом прошлого года, до 9 млн единиц.

Juniper Research ожидает, что смарт-колонками, такими, как Amazon Echo, Google Home и Sonos One, будут к 2022 году оснащены 55% всех американских жилых домов и квартир. Число домохозяйств США, в которых будут использоваться умные динамики с голосовым управлением, превысит к 2022 году 70 млн, а общее число установленных смарт-колонок с голосовым контролем достигнет 175 млн. При этом с точки зрения потребительских технологий важным здесь является масштаб проникновения голосовых интерфейсов: каждый владелец смартфона в США будет в 2022 году использовать в среднем три устройства с голосовым помощником (Voice Assistant).

Именно голосовые помощники и соответствующие облачные платформы становятся главным драйвером индустрии массового умного дома: огромное количество домашних смарт-устройств уже поддерживают интеграцию с популярными голосовыми интерфейсами, и большинство экспертов в области smart home не сомневаются, что за голосовым управлением в умных домах — будущее. Смарт-колонки приближают это будущее, прививая вкус к говорящим интерфейсам миллионам пользователей.

Фото: "Яндекс"
А что в России? До появления голосового помощника «Яндекса» «Алиса» мы фактически были изолированы от глобального тренда. Ведь ни одна из смарт-колонок, лидирующих в мире по продажам, официально в России не продается, а главные мировые голосовые помощники до сих пор не русифицированы (правда, в феврале в Google обещали русифицировать Assistаnt в «ближайшие месяцы»). Ни Google Home, в первом квартале 2018 года впервые занявший первое место по поставкам смарт-колонок (3,2 млн), ни Amazon Echo (2,5 млн), ни Alibaba с устройством Tmall Genie (1,1 млн) в России не просто официально не представлены, но и не вызывают столь же массового интереса, как за рубежом, где они превратились не только в рыночные, но и культурные феномены.

Совсем не обязательно, что умная колонка «Яндекс.Станция» с голосовым помощником «Алиса» станет рыночным бестселлером. Нет данных, какой объем продаж, и соответственно, выпуска запланирован компанией. Глава Mobile Review Эльдар Муртазин считает, что на старте продаж речь идет о тиражах в несколько тысяч экземпляров. «В «Яндексе» так верят в свою колонку, что заказали на заводе огромный тираж. Такой огромный, что закачаешься. Угадаете? Подсказка: JBL Extreme в таком объеме продается в РФ за 5 дней в среднем», - написал он в Facebook.

Смарт-колонка "Яндекс.Станция". Фото: телеграм-канал «Кухня Яндекс.Дзена»
"Яндекс.Станция" доступна в нескольких цветах.

Но главное здесь — начать. Уровень популярности устройства на начальном этапе будет зависеть от цены и активности маркетинга, в долгосрочной перспективе — от создания экосистемы сервисов и устройств, совместимых с «Алисой» и сопутствующими платформами «Яндекса». У компании в России пока нет конкурентов, правда, и интерес к подобным устройствам и сценариям их использования в умном доме пока ограничивается техногиками.

Как «Станция» работает с видео и голосом

В блоге «Яндекса» уточняется, что колонка построена на платформе Yandex.IO, включающей два компонента. Первый - главная плата с процессором Quad-core ARM Cortex-A53, обрабатывающая аудио, в том числе голосовые команды, и что не менее важно, видео. На фото видно, что внизу платы расположен HDMI-разъем, через который «Станция» подключается к телевизору. «Яндекс.Станция — это первое в мире устройство с голосовым помощником, которое подключается к телевизору напрямую и работает без пульта, только на голосовом управлении», — поясняет директор «Яндекса» по экспериментальным продуктам Константин Круглов.

Главная плата "Яндекс.Станции"Главная плата
Краткая спецификация:

Quad-core ARM Cortex-A53 @ 1 GHz (12000 MIPS)

RAM: 1 GB DDR3 SDRAM

Flash storage: 8 GB eMMC

WiFi: 802.11 b/g/n/ac, dualband, MIMO 2x2

Bluetooth: BLE 4.1 with A2DP support

Video: HDMI 1.4 + CEC. FullHD support (1080p)

Audio input: 16-channel digital audio capturing (I2S with TDM)

Audio output: 3-channel digital D-class amplifier 30 W + 2x10 W

Возможность подключения «Станции» к телевизору через HDMI позволяет говорить о принципиально ином позиционировании устройства, нежели у зарубежных аналогов. Да, у Amazon Echo Show есть 7-дюймовый сенсорный дисплей 1024х600 пикселей, но эта смарт—колонка ориентирована на использование в качестве видеомессенджера, возможности выводить видео на телевизор у нее нет. Да и с точки зрения доступности видеоконтента Echo Show «Станции» уступает: колонка поддерживает видеостриминг онлайн-кинотеатра Amazon и только.

Внутри «Станции»

- Два твитера мощностью 10 ватт и диаметром 20 мм

- Один вуфер мощностью 30 ватт и диаметром 85 мм

- Два пассивных излучателя диаметром 95 мм.

Габариты — 14х14х23 см, суммарная мощность — 50 ватт, диапазон частот — от 50 до 20 000 Гц, отношение сигнал/шум — 96 дБ.

«Станция» в этом смысле более «всеядна»: «если подключить [устройство] к телевизору — показывает кино, сериалы и видеоролики, которые находит в Интернете, на «КиноПоиске» или у партнёров — сейчас это сервисы ivi и «Амедиатека», - утверждает «Яндекс» в пресс-релизе. Остается открытым вопрос, будет ли смарт-колонка находить в сети и показывать пиратский контент, но и объем легального видео, доступный с ее помощью, делает ее использование вполне оправданным.

Выбор процессора в компании объясняют не только поддержкой стримингового видео в Full HD, но и необходимостью обработки голосовых команд: «Мы выбрали ARM Cortex-A53 не только из-за тяжелой задачи воспроизведения потокового видео, но и для работы с голосом. Со стороны может показаться, что никаких особых нагрузок здесь нет: записывайте весь аудиопоток с микрофона и транслируйте его в облако, где волшебная нейросеть всё распознает. Но это работает не так, а главная плата «Станции» несеёт в себе целый стек технологий, который направлен на улучшение распознавания голоса».

Микрофонная матрица "Яндекс.Станции". Фото: habr.com/company/yandex/blog/369353/Микрофонная матрица
Для точного восприятия речи и правильной интерпретации команд в колонке «Яндекса» использован второй важнейший конструктивный элемент - микрофонная матрица собственной разработки: «Один простой микрофон не справляется с задачей, но если взять несколько и заставить их работать согласованно, по принципу фазированных антенных решёток, то получим хороший направленный микрофон. Так и в «Станции» используется микрофонная матрица из семи микрофонов: один в центре и шесть по окружности. Причём они подключены к отдельному контуру питания, и когда вы нажимаете кнопку Mute на корпусе, микрофоны физически обесточены». К слову, в Amazon Echo также семь микрофонов, у модели Show — восемь.

Распознавание речи «Станции», как и у ее «старших» собратьев — облачное, поскольку, как поясняют в «Яндексе», это «крайне ресурсоемкий процесс». Но до активации ключевыми словами «Алиса» или «Яндекс» российская колонка воспринятый микрофонами звук в облако не отправляет. В то же время распознавание ключевых слов без обращения к сети в «Станции» построено на технологии Phrase Spotting (голосовая активация). «Мы обучаем небольшую нейронную сеть находить в потоке шума конкретные ключевые слова, например «Алиса». Для этого требуется порядка 100 тысяч записей на каждое слово, причем для различных акустических условий (тихая комната, работающий телевизор в фоне и т.д). Более того, для «Станции» нам потребовалось собирать эти записи вновь, а не использовать те, которые остались после запуска «Алисы» для смартфонов», - уточняют создатели смарт-колонки. Нейросеть, обученная для голосовой активации, способна распознать лишь несколько слов, но зато работает быстро и встроена в само устройство.

Другой алгоритм - Direction of Arrival — определяет направление на источник речи. «Как только направление речи определено, микрофонная матрица «разворачивается» в этом направлении и направляет на него «луч». Технология Beamforming позволяет выделить звук, приходящий с целевого направления, подавляя звуки, приходящие с других направлений. На этом же этапе работают алгоритмы Noise Suppression (шумоподавление) и De-reverberation (устранение реверберации)», - говорят разработчики. Благодаря алгоритму Acoustic Echo Cancellation устройство воспринимает речь даже на фоне проигрываемой им самим музыки, и все эти технологии «зашиты» локально на главной плате платформы IO.

И только прошедший через все этапы очистки и выделения речи сигнал отправляется в облако «Яндекса» для полноценного распознавания нейросетями. В компании обращают особое внимание на то, что в любой момент микрофоны можно обесточить одной кнопкой — на физическом уровне, так, что не воспринимаются даже слова-активаторы. Это в теории должно успокоить тех, кто опасается, что «Алиса» всегда транслирует услышанное прямиком «куда следует».

Примут ли «Станцию» аудиофилы

В «Яндексе» уверяют, что «Станция» — «еще и история про хороший звук». Суммарная мощность трехканального усилителя в D-классе - 50 Вт, в нижнечастотном диапазоне работает динамик диаметром 85 мм с диффузором вниз, нагруженный на два пассивных излучателя диаметром 95 мм. Два твиттера диаметром 20 мм могут работать в стереорежиме. «Для аудиофилов мы предусмотрели возможность снять кожух — тогда треки будут звучать без малейших искажений», - замечают создатели колонки. В Институтем интегральных схем общества Фраунгофера лицензированы права на технологию улучшения качества звука (Voice Quality Enhancement).

"Яндекс.Станция". Фото: habr.com/company/yandex/blog/369353/Акустическое оформление 

На любителей качественного звука ориентирована и более дорогая версия Google Home - Max с двумя НЧ/СЧ-драйверами диаметром 114 мм с большим ходом двойной катушки и двумя твиттерами, а также Apple Homepod c излучающим вверх низкочастотным 4-дюймовым динамиком и семью высокочастотниками. Но по факту истинные аудиофилы, согласно обзорам в зарубежных СМИ, продолжают воротить нос от всех смарт-динамиков, соглашаясь лишь на модели от Sonos, да и то с оговорками. Но для массовой аудитории качество звука «Яндекс.Станции» будет более чем приемлемым, а возможность запускать голосом проигрывание любимых треков без ограничений, возможно, станет решающим фактором при покупке.

Акустическое оформление "Яндекс.Станции". Фото: habr.com/company/yandex/blog/369353/

Музыку на умной колонке «Яндекса» можно воспроизводить и с телефона или ноутбука по Bluetooth, без подключения к сети.

Вокруг «Станции»

По данным компании, устройство будет стоить в рознице 9990 руб., продажи стартуют летом 2018 года. Каждый владелец колонки получит год бесплатной подписки на сервис «Яндекс.Музыка», год просмотра фильмов на «КиноПоиске» без рекламы и другие возможности подписки «Яндекс.Плюс», а также подписку на три месяца в «Амедиатеке» и на два месяца — в онлайн-кинотеатре ivi.

Запуская «Яндекс.Станцию», в компании делают шаг к созданию полноценной цифровой экосистемы сервисов, которая складывается вокруг голосовых помощников за рубежом. Речь здесь идет как об управлении устройствами умного дома (и «Алиса» в ближайшем будущем будет способна включить свет, стиральную машину или микроволновку), так и о коммерческих сервисах — заказе билетов, доставке еды из ресторанов или продуктов из онлайн-магазинов. Этой весной «Яндекс» запустил платформу «Яндекс.Диалоги» — с ее помощью сторонние разработчики могут добавлять голосовому помощнику новые навыки — фактически, это прикладные коммерческие сервисы от множества поставщиков.


Рубрика: Digital Lifestyle
09.09.2018 > 19:12:16
Где живет «Алиса»
Все Статьи

Комментарии
Авторизоваться