เรามีความยินดีที่จะแจ้งให้ทราบถึงการเปิดตัวรุ่นแรกของ GroupDocs.Parser for Python via .NET 25.12, ซึ่งพร้อมให้บริการตั้งแต่ December 2025 รุ่นแรกนี้นำพลังเต็มของเอนจินการแยกข้อมูลของ .NET ไปสู่ผู้พัฒนา Python ทำให้สามารถสกัดข้อความ, รูปภาพ, ไฟล์แนบ, บาร์โค้ด, เนื้อหา OCR, และข้อมูลเชิงโครงสร้างจากรูปแบบเอกสารที่หลากหลายได้

สิ่งใหม่ในรุ่นนี้

คุณลักษณะหลัก

  • การสกัดข้อความ – ดึงข้อความแบบธรรมดาหรือแบบจัดรูปแบบจาก PDF, เอกสาร Office, อีเมล, e‑books, ไฟล์บีบอัดและอื่น ๆ
  • การค้นหาขั้นสูง – การเข้าถึงระดับหน้า พร้อมตัวเลือกการค้นหาแบบแยกตัวพิมพ์ใหญ่‑เล็ก, คำเต็ม, และการใช้ regular‑expression
  • การแยกเนื้อหาเชิงโครงสร้าง – ตรวจจับและสกัดโครงสร้างเอกสาร เช่น หัวข้อ, ย่อหน้า, ตารางและพื้นที่ข้อความที่กำหนดเอง
  • การแยกตามเทมเพลต – ใช้เทมเพลตที่กำหนดไว้ล่วงหน้าเพื่อดึงฟิลด์ที่มีประเภทชัดเจนจากใบแจ้งหนี้, ใบเสร็จและเอกสารธุรกิจอื่น ๆ
  • การสกัดรูปภาพ – ดึงรูปภาพ raster ที่ฝังอยู่จากรูปแบบเอกสารและรูปภาพที่รองรับ
  • การสกัดไฟล์แนบ – ส่งออกไฟล์แนบที่ฝังอยู่ในเอกสาร
  • การสแกนบาร์โค้ด – ตรวจจับและอ่านบาร์โค้ดที่ปรากฏในเอกสาร
  • การสนับสนุน OCR – ทำการจดจำอักขระด้วยแสง (OCR) บน PDF ที่สแกนและรูปภาพ raster, พร้อมตัวเลือกการตรวจสอบการสะกดคำ
  • การสกัด Metadata – เข้าถึงคุณสมบัติของเอกสาร เช่น ผู้เขียน, วันที่สร้าง, และ Metadata ที่กำหนดเอง
  • การสกัดสารบัญ – ดึงโครงสร้างสารบัญจากรูปแบบที่รองรับ
  • การสกัดลิงก์ – สกัด hyperlink (ขณะนี้จำกัดอยู่ในบางรูปแบบ)

รูปแบบเอกสารที่รองรับ

  • การประมวลผลคำ – DOC, DOCX, RTF, TXT, ODT
  • PDF & markup – PDF, HTML/MHTML, Markdown, XML
  • สเปรดชีต – XLS, XLSX, ODS, CSV
  • งานนำเสนอ – PPT, PPTX, ODP
  • อีเมล & โน้ต – PST, OST, EML, MSG, ONE
  • eBooks & เนื้อหาเว็บ – EPUB, MOBI, AZW3, CHM, FB2
  • รูปภาพ – JPEG, PNG, TIFF, GIF, BMP, SVG
  • ไฟล์บีบอัด & คอนเทนเนอร์ – ZIP, RAR, 7Z, TAR, GZ, BZ2

การสนับสนุนแพลตฟอร์ม

  • Windows, Linux, และ macOS
  • Python 3.5+

การติดตั้ง

  1. ดาวน์โหลดแพคเกจ WHL ที่เหมาะกับแพลตฟอร์มของคุณ จากหน้า GroupDocs Releases page:

    • Windows x64
    • Windows x32
    • Linux
    • macOS
    • macOS ARM
  2. ติดตั้งแพคเกจด้วย pip (แทนที่ * ด้วยชื่อไฟล์จริงที่คุณดาวน์โหลด):

pip install groupdocs_parser_net-25.12-*.whl

เริ่มต้นใช้งาน

ตัวอย่างโค้ดต่อไปนี้แสดงวิธีสกัดข้อความธรรมดาจากไฟล์ PDF:

from groupdocs.parser import Parser

# สร้างอินสแตนซ์ Parser สำหรับเอกสารของคุณ
with Parser("sample.pdf") as parser:
    # สกัดข้อความจากเอกสาร
    text = parser.GetText()
    
    # พิมพ์ข้อความที่สกัดทั้งหมดลงคอนโซล
    print(text)

สำหรับสถานการณ์ที่ซับซ้อนกว่า—เช่น การใช้เทมเพลต, OCR, หรือการสแกนบาร์โค้ด—ให้ดูที่เอกสารอ้างอิง API และคลังตัวอย่างโค้ดที่เชื่อมต่อด้านล่าง

วิธีรับอัปเดต

  • ดาวน์โหลดโดยตรง – เลือกแพคเกจ WHL ที่ตรงกับระบบปฏิบัติการของคุณจาก GroupDocs Releases page
  • อัปเกรดด้วย pip – เมื่อมีเวอร์ชันใหม่เผยแพร่ ให้อัปเกรดด้วยคำสั่ง:
pip install --upgrade groupdocs_parser_net

แหล่งข้อมูล