Czy są jakieś interfejsy API do indeksowania streszczenia papieru?

Jeśli mam bardzo długą listę nazw artykułów, jak mogę uzyskać streszczenie tych artykułów z Internetu lub z dowolnej bazy danych?

Nazwy artykułów są jak „Ocena użyteczności w Web Mining dla domeny zdrowia publicznego”.

Czy ktoś zna API, które może dać mi rozwiązanie? Próbowałem zaindeksować Google Scholar, jednak Google zablokował mój robot.

data-mining machine-learning

— Alex Gao
źródło

Wątpię, czy istnieje do tego jakiś ogólny interfejs API. Możesz spróbować zaindeksować różne usługi, takie jak Academia.edu, witryny wydawców i tak dalej. Niemniej jednak łatwiej byłoby najpierw zbudować lokalną bazę danych dokumentów, a następnie eksperymentować z wyodrębnianiem streszczeń.

— Wojciech Walczak

Dzięki za odpowiedź! W tym celu zbudowałem już lokalną bazę danych. Problem z indeksowaniem z różnych usług polega na tym, że muszę tworzyć reguły analizy dla każdej witryny.

— Alex Gao

A co powiesz na konwersję plików PDF na TXT, a następnie wyodrębnienie streszczeń za pomocą wyrażeń regularnych?

— Wojciech Walczak

dzięki! Jednak umowa stanowi, że masowe pobieranie dokumentów jest niedozwolone. Powoduje to ból głowy.

— Alex Gao

Myślę, że ten link odpowiedzi przepełnienia stosu daje najlepszą odpowiedź, jaką mogę uzyskać. Może ludzie, którzy napotkają ten problem, mogą również zajrzeć na tę stronę.

— Alex Gao

Odpowiedzi:

Sprawdź to na:

Link do Google Scholar
Link do cytowania

Jeśli trafisz dokładnie jeden tytuł, prawdopodobnie znalazłeś odpowiedni artykuł i możesz tam wpisać resztę informacji. Oba dają linki do pobrania i wyjście w stylu bibtex. Aby uzyskać idealne metadane, prawdopodobnie należy pobrać i przeanalizować plik pdf (jeśli istnieje) i poszukać identyfikatora w stylu DOI.

Bądź miły i ogranicz swoje żądania, jeśli to zrobisz.

— Alex I.
źródło

arXiv ma interfejs API i pobieranie zbiorcze, ale jeśli chcesz czegoś dla płatnych czasopism, trudno będzie go znaleźć bez płacenia indeksatorowi, jak pubmed, elsevier itp.

— cwharland
źródło

wielkie dzięki. Jednak arXiv zapewnia dokumenty, których potrzebuję.

— Alex Gao