Istnieje problem, który próbujemy rozwiązać, gdy chcemy przeprowadzić wyszukiwanie semantyczne naszego zestawu danych, tj. Mamy dane specyficzne dla domeny (przykład: zdania mówiące o samochodach)
Nasze dane to tylko garść zdań, a my chcemy dać frazę i odzyskać zdania, które są:
- Podobne do tego zdania
- Ma część zdania podobną do frazy
- Zdanie, które ma kontekstowo podobne znaczenie
Pozwól, że podam przykład, że szukam frazy „Kupowanie”. Powinienem uzyskać zdania:
- Nigdy nie myślałem, że zakup samochodu może zająć mniej niż 30 minut na podpisanie i zakup.
Znalazłem samochód, który mi się podobał, a proces zakupu był
prosty i łatwyAbsolutnie nie lubiłem chodzić na zakupy samochodowe, ale dziś cieszę się, że tak zrobiłem
Chcę położyć nacisk na fakt, że szukamy podobieństwa kontekstowego, a nie tylko wyszukiwania słów metodą brutalną siłą.
Jeśli w zdaniu są używane inne słowa, to również powinno być w stanie je znaleźć.
Rzeczy, które już wypróbowaliśmy:
Otwarte przeszukiwanie semantyczne Problemem, który tu napotkaliśmy, jest generowanie ontologii na podstawie danych, które posiadamy, lub w tym celu wyszukiwanie dostępnej ontologii z różnych dziedzin będących przedmiotem naszego zainteresowania.
Elastyczne wyszukiwanie (BM25 + wektory (tf-idf)), próbowaliśmy tego, gdzie dał kilka zdań, ale precyzja nie była tak wielka. Zła była również dokładność. Próbowaliśmy przeciwko zestawowi danych stworzonym przez ludzi, który był w stanie uzyskać tylko około 10% zdań.
Próbowaliśmy różnych osadzeń, takich jak kiedyś wspomniane w transformatorach zdań, a także przeszliśmy przez ten przykład i próbowaliśmy ocenić nasz zestaw opracowany przez człowieka, który również miał bardzo niską dokładność.
Próbowaliśmy ELMO . To była lepsza, ale wciąż niższa dokładność, niż się spodziewaliśmy, i istnieje obciążenie poznawcze, które decyduje o wartości cosinus, poniżej której nie powinniśmy brać pod uwagę zdań. Dotyczy to nawet punktu 3.
Każda pomoc będzie mile widziana. Z góry dziękuję za pomoc