Możesz napisać oprogramowanie do:
- Weź słowa kluczowe z wyrażenia regularnego;
- Google słowa kluczowe i uzyskać listę wyników;
- Przeszukuj każdy wynikowy identyfikator URI i filtruj go za pomocą pełnego wyrażenia regularnego.
Przeanalizujmy przypadek: site:gog.com
znajdź wszystkie gry, które mają głos w języku hiszpańskim.
Wyrażenie regularne to:
Audio[^:]*:[^.,]*Spanish
Będzie pasować, na przykład:
Audio lanuage: English, German, Spanish, French.
I nie pasują:
Audio language: only-English. Text language: Spanish.
Krok 1. Pozwól oprogramowaniu przeszukać to w Google:
site:gog.com audio Spanish inurl:game
inurl:game
oznacza to wyszukiwanie tylko na stronach z opisem gry
Krok 2. Zdobądź 300 powstałych linków i zaindeksuj do każdego z nich.
Krok 3. Filtruj wynik według podanego wyrażenia regularnego:
Audio[^:]*:[^.,]*Spanish
To powinno być łatwe do zbudowania. W rzeczywistości nie rozumiem, dlaczego nie mogłem znaleźć czegoś, co jest już zbudowane w ten sposób.
Ponieważ wyszukiwarki nie mogą sobie pozwolić na zasób do skanowania swoich danych za pomocą wyrażeń regularnych, ta brudna robota spada na twoją stronę, a twój komputer powinien to zrobić za pomocą tego, co już zapewniają wyszukiwarki.