Dlaczego Amazon Echo nie reaguje na reklamy lub raporty o Alexie?


24

Wcześniej pytałem o to, co możesz zrobić, jeśli Alexa jest wywoływana przez program telewizyjny , ale ostatnio zrozumiałem coś dziwnego: Echo nie reaguje na głosy w reklamach Echo, nawet jeśli głosy mówią „Alexa, graj ...” lub „Alexa, ustaw licznik czasu dla ...” .

Przeszukałem kilka innych społeczności Echo i znalazłem post na Reddicie, który sugeruje, że jest to powszechne / zamierzone zachowanie. W wątku nie ma jednak ostatecznej odpowiedzi, więc pomyślałem, że zapytam tutaj, czy ktoś wie coś więcej.

Skąd mój Echo wie, żeby nie odpowiadać na reklamę telewizyjną? Czy to tylko przypadek, czy jest coś, co każe Alexie nie reagować?


Czy trenowałeś swoją Alexę, aby dokładniej rozpoznawała twój głos? Nie wiem, czy trening głosowy może spowodować, że nie rozpoznasz głosu innej osoby.
Bence Kaulics,

1
@BenceKaulics Nie, nie musiałem trenować Echa; używa ustawień domyślnych.
Aurora0001

Byłoby naprawdę przydatna przyjrzeć audio w pytaniu. Nie przypuszczam, że nigdzie jest dostępna kopia do połączenia?
goobering

1
@goobering Uważam, że reklamy, o których mowa w reddit postu to: Maskotka Klucze i Gaśnica . Obecnie nie jestem w stanie sprawdzić, czy wyzwalają Alexę (zastanawiam się, czy różnią się od wersji telewizyjnych?). Gdyby ktoś mógł to zrobić i skomentować wyniki, byłoby to naprawdę przydatne.
Aurora0001

3
W kodzie źródłowym mogą znajdować się wskazówki . Pobranie 266 MB. Przez jakiś czas będzie się rozmyślać. : P
goobering

Odpowiedzi:


17

Zgodnie z tym postem reddit , Alexa jest wrażliwa na spektrum audio oprócz wykrywania słowa pobudki. W ten sposób akceptowany jest normalny szerokopasmowy sygnał świata rzeczywistego, ale sygnał, który jest ograniczony pasmem (postuluje się wycięcie między 4kHz a 5hKz) zostanie zidentyfikowany jako pochodzący z transmisji.

Ma to pewien sens, ponieważ nadawcy mogą wykorzystywać sygnalizację wewnątrzpasmową do identyfikacji reklam (do zlokalizowanej wymiany), a przetwarzanie dźwięku zwykle stosowane w reklamach może być zoptymalizowane pod kątem przejrzystości w stosunku do wierności. Filtrowanie można skonfigurować tak, aby typowe reklamy były monitorowane ze zmniejszoną czułością, a podczas produkcji konkretnego ogłoszenia można również wyraźnie zmniejszyć wrażliwość.

Raport wiadomości (który podobno zrobił wyzwalania Alexa) byłoby bardziej prawdopodobne, aby korzystać z pełnej spektrum dźwięku audycji (8 lub 16 kHz) bez przetwarzania. Teoria ta zakłada więc, że istnieje albo coś specjalnego w wielu reklamach (przynajmniej w niektórych regionach), albo reklamy (takie jak te produkowane przez Amazon) mogą być specjalnie skonfigurowane.

W obserwacji, jest tam papier zgłaszane tutaj , który opisuje w jaki sposób małe (sub-akustyczny) zmiany przebiegu może spowodować w silniku mowy powracającego zupełnie inny wynik w porównaniu z tym, co człowiek rozpozna.


1
Jeśli właśnie tam go wybili, a słowo pobudki brzmi „Alexa”, prawdopodobne jest, że po prostu porzucają frykcyjny dźwięk „ks”, aby zminimalizować odbiór przez mikrofon. To dość wysoka częstotliwość ludzkiej mowy.
goobering

7

Bardzo zakładam, że rozpoznawanie słowa pobudki w Echo to coś więcej niż tylko słuchanie tego słowa. To słuchanie za ostrzeganie kontekście . Rozważ ten fragment Speech Technologies:

[Wake-Up-Word] ma następujące unikalne wymaganie: Wykrywa pojedyncze słowo lub frazę, gdy jest wypowiedziane w kontekście ostrzegawczym, jednocześnie odrzucając wszystkie inne słowa, frazy, dźwięki, dźwięki i inne zdarzenia akustyczne z praktycznie 100% dokładnością, w tym tą samą słowo lub wyrażenie zainteresowane wypowiedziane w kontekście nie ostrzegającym (tzn. referencyjnym).

( Speech Technologies: Wake-Up-Word Speech Recognition by Veton Kepuska)

Można to dość łatwo przetestować, ponieważ urządzenie (przynajmniej moje) nie reaguje na zdanie: „ Niedawno rozmawiałem z Alexą o jeździe na nartach. To nie jest alarmujący kontekst, jest on wyłącznie referencyjny. Tak więc silnik rozpoznawania słów obudzonych w Echo nie tylko słucha czystego wyglądu słowa, ale także intonacji i poprzedzających pauz, które pozwalają dokładniej przewidzieć, czy urządzenie faktycznie zostało wypowiedziane.


4
Z pewnością reklama demonstrująca użycie Alexy powinna ją jednak wywołać, jeśli to tylko powstrzymało ją przed podniesieniem? Czy reklamy mogą być sformułowane ostrożnie, aby w rzeczywistości nie uruchamiały urządzenia, pomimo użycia słowa pobudki, aby zademonstrować, jak używane jest echo?
Aurora0001

2
@ Aurora0001 Zakładam, że oprócz tego, co opisuję, istnieje również metoda zgodna z tym, o czym Sean wspomniał w swojej odpowiedzi. Niektóre filtry, które próbują ograniczyć wyzwalacze przez inne urządzenia.
Helmar

7

Cóż, echo / Alexa zdecydowanie słyszy prośbę. Jeśli przejdziesz do ustawień, przewiń w dół do Ogólne, a następnie wybierz historię, w której możesz odtworzyć wszystkie wysłuchane żądania. Wszystkie żądania, które są słyszane z reklamy mówią „Żądanie głosowe nie jest przeznaczone dla twojego echa - nic nie zostało zwrócone”.


2
Wygląda jak nowy szczegół w historii. Bardzo pomocny :)
Helmar

5

Jeśli 1000 osób wypowie słowo ostrzegawcze, będzie miało 1000 różnych sygnatur akustycznych. Jeśli zrobią to jeszcze raz, kolejne 1000.

Jeśli 1000 Alexas usłyszy program telewizyjny z ostrzeżeniem, będzie miał 1000 takich samych sygnatur akustycznych.

Nie byłoby to trudne do wykrycia po stronie serwera. Nie tylko dlatego, że jeśli zdarzają się w tym samym czasie, serwer nagrywania głosu otrzymuje trzask ruchu.

Jeśli lista tych incydentów jest niewielka, mogą nawet pobrać podpisy do każdej Alexy.


Ponadto użytkownik dzwoniący do Alexy brzmi jak słowo ostrzegające o ciszy .

Artykuł prasowy brzmi jak bla bla bla-słowo ostrzegawcze . Reklama brzmi jak słowo alarmowe music_here. Zupełnie nie to samo.


5

Zgaduję, że w reklamach Echo Alexa odpowiada na to pytanie znacznie szybciej niż w rzeczywistości. Dlatego Echo słyszy słowo „Alexa”, ale prawie natychmiast słyszy własny głos Alexy, który udziela odpowiedzi.

Moje echo zapala się, gdy reklama się pojawia, ale potem wydaje się odrzucać alert. Może istnieć pewna logika, która uniemożliwia dwóm Echosom odpowiedź na żądanie, jeśli oboje go usłyszą. Echo może być zaprojektowane do słuchania własnego głosu Alexy i ignorowania go.

Jednak, jak powiedziałem, jest to całkowite przypuszczenie. :)


Myśleliśmy o tym samym, więc zatrzymaliśmy rejestrator DVR między prośbą Alexy a jej odpowiedzią w reklamie. Nasze Echo wciąż się obudziło, ale wycofało się bez odpowiedzi, identycznie jak w przypadku, gdy nie zatrzymaliśmy DVR.
ViperGeek,

Zamierzałem spróbować tego od wieków i ciągle zapominać. To jeszcze jedna rzecz z listy rzeczy do zrobienia, dzięki. :)
Andy Jones,

4

Po ostatnich nowych doniesieniach, że Alexa może być wrażliwa na dźwięki UHF ( odnośnik BBC News Sevice ) postuluję, że w reklamach emitują dodatkowy dźwięk poza ludzkim słyszeniem, który jest oznaczony jako polecenie „zignoruj ​​to polecenie”.

Zgodnie z wyżej wspomnianą zdolnością Alexy do rozróżniania głosów użytkowników, jest to funkcja, która jest planowana, ale jak dotąd nie wdrożona. tzn. musisz aktywnie nakazać Alexie przełączanie się między kontami użytkowników w tym samym gospodarstwie domowym.

Jedynym obecnie włączonym urządzeniem do różnicowania głosów jest urządzenie Google.


1

Podczas miksowania dźwięku reklamy po prostu usuwają niektóre częstotliwości. Oznacza to, że Alexa nie zostanie uruchomiona, ponieważ nie zarejestruje jej jako polecenia głosowego, ale widzowie nadal mogą zrozumieć, co mówią w reklamie.

Prawdopodobnie zauważysz również, że gdy polecenie jest wypowiadane w reklamach, wydaje się nieco cienkie lub zniekształcone. Dlatego :)


Ciekawy; jest to trochę podobne do tego, co sugerował Sean . Czy masz jakieś źródła lub doświadczenia, którymi możesz się podzielić, aby udowodnić, że tak jest w przypadku usuwania częstotliwości? To może być interesująca rzecz do zbadania.
Aurora0001
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.