Czytanie zawartości PDF za pomocą itextsharp dll w VB.NET lub C #

Question 1

Jak czytać zawartość PDF za pomocą itextsharp z klasą Pdfreader. Mój plik PDF może zawierać zwykły tekst lub obrazy tekstu.

Question 2

using iTextSharp.text.pdf;
using iTextSharp.text.pdf.parser;
using System.IO;

public string ReadPdfFile(string fileName)
{
    StringBuilder text = new StringBuilder();

    if (File.Exists(fileName))
    {
        PdfReader pdfReader = new PdfReader(fileName);

        for (int page = 1; page <= pdfReader.NumberOfPages; page++)
        {
            ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy();
            string currentText = PdfTextExtractor.GetTextFromPage(pdfReader, page, strategy);

            currentText = Encoding.UTF8.GetString(ASCIIEncoding.Convert(Encoding.Default, Encoding.UTF8, Encoding.Default.GetBytes(currentText)));
            text.Append(currentText);
        }
        pdfReader.Close();
    }
    return text.ToString();
}

Question 3

LGPL / FOSS iTextSharp 4.x

var pdfReader = new PdfReader(path); //other filestream etc
byte[] pageContent = _pdfReader .GetPageContent(pageNum); //not zero based
byte[] utf8 = Encoding.Convert(Encoding.Default, Encoding.UTF8, pageContent);
string textFromPage = Encoding.UTF8.GetString(utf8);

Żadna z pozostałych odpowiedzi nie była dla mnie przydatna, wszystkie wydają się być skierowane do AGPL v5 z iTextSharp. Nigdy nie mogłem znaleźć żadnego odniesienia doSimpleTextExtractionStrategy lub LocationTextExtractionStrategyw wersji FOSS.

Coś jeszcze, co może być bardzo przydatne w połączeniu z tym:

const string PdfTableFormat = @"\(.*\)Tj";
Regex PdfTableRegex = new Regex(PdfTableFormat, RegexOptions.Compiled);

List<string> ExtractPdfContent(string rawPdfContent)
{
    var matches = PdfTableRegex.Matches(rawPdfContent);

    var list = matches.Cast<Match>()
        .Select(m => m.Value
            .Substring(1) //remove leading (
            .Remove(m.Value.Length - 4) //remove trailing )Tj
            .Replace(@"\)", ")") //unencode parens
            .Replace(@"\(", "(")
            .Trim()
        )
        .ToList();
    return list;
}

Spowoduje to wyodrębnienie danych tekstowych z pliku PDF, jeśli wyświetlany tekst Foo(bar)będzie zakodowany w pliku PDF, ponieważ (Foo\(bar\))Tjta metoda zwróci Foo(bar)zgodnie z oczekiwaniami. Ta metoda usunie wiele dodatkowych informacji, takich jak współrzędne lokalizacji z surowej zawartości pliku PDF.

Question 4

Oto rozwiązanie VB.NET oparte na rozwiązaniu ShravankumarKumar.

To TYLKO da ci tekst. Obrazy to inna historia.

Public Shared Function GetTextFromPDF(PdfFileName As String) As String
    Dim oReader As New iTextSharp.text.pdf.PdfReader(PdfFileName)

    Dim sOut = ""

    For i = 1 To oReader.NumberOfPages
        Dim its As New iTextSharp.text.pdf.parser.SimpleTextExtractionStrategy

        sOut &= iTextSharp.text.pdf.parser.PdfTextExtractor.GetTextFromPage(oReader, i, its)
    Next

    Return sOut
End Function

Question 5

W moim przypadku chciałem tylko tekst z określonego obszaru dokumentu PDF, więc użyłem prostokąta wokół tego obszaru i wyodrębniłem z niego tekst. W poniższym przykładzie współrzędne dotyczą całej strony. Nie mam narzędzi do tworzenia plików PDF, więc gdy przyszedł czas na zawężenie prostokąta do określonej lokalizacji, odgadłem kilka współrzędnych, aż obszar został znaleziony.

Rectangle _pdfRect = new Rectangle(0f, 0f, 612f, 792f); // Entire page - PDF coordinate system 0,0 is bottom left corner.  72 points / inch
RenderFilter _renderfilter = new RegionTextRenderFilter(_pdfRect);
ITextExtractionStrategy _strategy = new FilteredTextRenderListener(new LocationTextExtractionStrategy(), _filter);
string _text = PdfTextExtractor.GetTextFromPage(_pdfReader, 1, _strategy);

Jak zauważono w powyższych komentarzach, wynikowy tekst nie zachowuje żadnego z formatowania znalezionego w dokumencie PDF, jednak byłem zadowolony, że zachował zwroty karetki. W moim przypadku w tekście było wystarczająco dużo stałych, aby móc wyodrębnić wymagane wartości.

Question 6

Tutaj poprawiona odpowiedź ShravankumarKumar. Stworzyłem specjalne klasy dla stron, dzięki czemu można uzyskać dostęp do słów w pliku PDF na podstawie wierszy tekstu i słowa w tym wierszu.

using iTextSharp.text.pdf;
using iTextSharp.text.pdf.parser;

//create a list of pdf pages
var pages = new List<PdfPage>();

//load the pdf into the reader. NOTE: path can also be replaced with a byte array
using (PdfReader reader = new PdfReader(path))
{
    //loop all the pages and extract the text
    for (int i = 1; i <= reader.NumberOfPages; i++)
    {
        pages.Add(new PdfPage()
        {
           content = PdfTextExtractor.GetTextFromPage(reader, i)
        });
    }
}

//use linq to create the rows and words by splitting on newline and space
pages.ForEach(x => x.rows = x.content.Split('\n').Select(y => 
    new PdfRow() { 
       content = y,
       words = y.Split(' ').ToList()
    }
).ToList());

Klasy niestandardowe

class PdfPage
{
    public string content { get; set; }
    public List<PdfRow> rows { get; set; }
}


class PdfRow
{
    public string content { get; set; }
    public List<string> words { get; set; }
}

Teraz możesz uzyskać słowo po wierszu i indeksie słów.

string myWord = pages[0].rows[12].words[4];

Lub użyj Linq, aby znaleźć wiersze zawierające określone słowo.

//find the rows in a specific page containing a word
var myRows = pages[0].rows.Where(x => x.words.Any(y => y == "myWord1")).ToList();

//find the rows in all pages containing a word
var myRows = pages.SelectMany(r => r.rows).Where(x => x.words.Any(y => y == "myWord2")).ToList();

Question 7

Public Sub PDFTxtToPdf(ByVal sTxtfile As String, ByVal sPDFSourcefile As String)
        Dim sr As StreamReader = New StreamReader(sTxtfile)
    Dim doc As New Document()
    PdfWriter.GetInstance(doc, New FileStream(sPDFSourcefile, FileMode.Create))
    doc.Open()
    doc.Add(New Paragraph(sr.ReadToEnd()))
    doc.Close()
End Sub