Czy są jakieś interfejsy API do indeksowania streszczenia papieru?


13

Jeśli mam bardzo długą listę nazw artykułów, jak mogę uzyskać streszczenie tych artykułów z Internetu lub z dowolnej bazy danych?

Nazwy artykułów są jak „Ocena użyteczności w Web Mining dla domeny zdrowia publicznego”.

Czy ktoś zna API, które może dać mi rozwiązanie? Próbowałem zaindeksować Google Scholar, jednak Google zablokował mój robot.


2
Wątpię, czy istnieje do tego jakiś ogólny interfejs API. Możesz spróbować zaindeksować różne usługi, takie jak Academia.edu, witryny wydawców i tak dalej. Niemniej jednak łatwiej byłoby najpierw zbudować lokalną bazę danych dokumentów, a następnie eksperymentować z wyodrębnianiem streszczeń.
Wojciech Walczak

Dzięki za odpowiedź! W tym celu zbudowałem już lokalną bazę danych. Problem z indeksowaniem z różnych usług polega na tym, że muszę tworzyć reguły analizy dla każdej witryny.
Alex Gao

A co powiesz na konwersję plików PDF na TXT, a następnie wyodrębnienie streszczeń za pomocą wyrażeń regularnych?
Wojciech Walczak

dzięki! Jednak umowa stanowi, że masowe pobieranie dokumentów jest niedozwolone. Powoduje to ból głowy.
Alex Gao

2
Myślę, że ten link odpowiedzi przepełnienia stosu daje najlepszą odpowiedź, jaką mogę uzyskać. Może ludzie, którzy napotkają ten problem, mogą również zajrzeć na tę stronę.
Alex Gao

Odpowiedzi:


8

Sprawdź to na:

Jeśli trafisz dokładnie jeden tytuł, prawdopodobnie znalazłeś odpowiedni artykuł i możesz tam wpisać resztę informacji. Oba dają linki do pobrania i wyjście w stylu bibtex. Aby uzyskać idealne metadane, prawdopodobnie należy pobrać i przeanalizować plik pdf (jeśli istnieje) i poszukać identyfikatora w stylu DOI.

Bądź miły i ogranicz swoje żądania, jeśli to zrobisz.


Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.