เรามีความยินดีที่จะแจ้งให้ทราบถึงการเปิดตัวรุ่นแรกของ GroupDocs.Parser for Python via .NET 25.12, ซึ่งพร้อมให้บริการตั้งแต่ December 2025 รุ่นแรกนี้นำพลังเต็มของเอนจินการแยกข้อมูลของ .NET ไปสู่ผู้พัฒนา Python ทำให้สามารถสกัดข้อความ, รูปภาพ, ไฟล์แนบ, บาร์โค้ด, เนื้อหา OCR, และข้อมูลเชิงโครงสร้างจากรูปแบบเอกสารที่หลากหลายได้
สิ่งใหม่ในรุ่นนี้
คุณลักษณะหลัก
- การสกัดข้อความ – ดึงข้อความแบบธรรมดาหรือแบบจัดรูปแบบจาก PDF, เอกสาร Office, อีเมล, e‑books, ไฟล์บีบอัดและอื่น ๆ
- การค้นหาขั้นสูง – การเข้าถึงระดับหน้า พร้อมตัวเลือกการค้นหาแบบแยกตัวพิมพ์ใหญ่‑เล็ก, คำเต็ม, และการใช้ regular‑expression
- การแยกเนื้อหาเชิงโครงสร้าง – ตรวจจับและสกัดโครงสร้างเอกสาร เช่น หัวข้อ, ย่อหน้า, ตารางและพื้นที่ข้อความที่กำหนดเอง
- การแยกตามเทมเพลต – ใช้เทมเพลตที่กำหนดไว้ล่วงหน้าเพื่อดึงฟิลด์ที่มีประเภทชัดเจนจากใบแจ้งหนี้, ใบเสร็จและเอกสารธุรกิจอื่น ๆ
- การสกัดรูปภาพ – ดึงรูปภาพ raster ที่ฝังอยู่จากรูปแบบเอกสารและรูปภาพที่รองรับ
- การสกัดไฟล์แนบ – ส่งออกไฟล์แนบที่ฝังอยู่ในเอกสาร
- การสแกนบาร์โค้ด – ตรวจจับและอ่านบาร์โค้ดที่ปรากฏในเอกสาร
- การสนับสนุน OCR – ทำการจดจำอักขระด้วยแสง (OCR) บน PDF ที่สแกนและรูปภาพ raster, พร้อมตัวเลือกการตรวจสอบการสะกดคำ
- การสกัด Metadata – เข้าถึงคุณสมบัติของเอกสาร เช่น ผู้เขียน, วันที่สร้าง, และ Metadata ที่กำหนดเอง
- การสกัดสารบัญ – ดึงโครงสร้างสารบัญจากรูปแบบที่รองรับ
- การสกัดลิงก์ – สกัด hyperlink (ขณะนี้จำกัดอยู่ในบางรูปแบบ)
รูปแบบเอกสารที่รองรับ
- การประมวลผลคำ – DOC, DOCX, RTF, TXT, ODT
- PDF & markup – PDF, HTML/MHTML, Markdown, XML
- สเปรดชีต – XLS, XLSX, ODS, CSV
- งานนำเสนอ – PPT, PPTX, ODP
- อีเมล & โน้ต – PST, OST, EML, MSG, ONE
- eBooks & เนื้อหาเว็บ – EPUB, MOBI, AZW3, CHM, FB2
- รูปภาพ – JPEG, PNG, TIFF, GIF, BMP, SVG
- ไฟล์บีบอัด & คอนเทนเนอร์ – ZIP, RAR, 7Z, TAR, GZ, BZ2
การสนับสนุนแพลตฟอร์ม
- Windows, Linux, และ macOS
- Python 3.5+
การติดตั้ง
-
ดาวน์โหลดแพคเกจ WHL ที่เหมาะกับแพลตฟอร์มของคุณ จากหน้า GroupDocs Releases page:
- Windows x64
- Windows x32
- Linux
- macOS
- macOS ARM
-
ติดตั้งแพคเกจด้วย pip (แทนที่
*ด้วยชื่อไฟล์จริงที่คุณดาวน์โหลด):
pip install groupdocs_parser_net-25.12-*.whl
เริ่มต้นใช้งาน
ตัวอย่างโค้ดต่อไปนี้แสดงวิธีสกัดข้อความธรรมดาจากไฟล์ PDF:
from groupdocs.parser import Parser
# สร้างอินสแตนซ์ Parser สำหรับเอกสารของคุณ
with Parser("sample.pdf") as parser:
# สกัดข้อความจากเอกสาร
text = parser.GetText()
# พิมพ์ข้อความที่สกัดทั้งหมดลงคอนโซล
print(text)
สำหรับสถานการณ์ที่ซับซ้อนกว่า—เช่น การใช้เทมเพลต, OCR, หรือการสแกนบาร์โค้ด—ให้ดูที่เอกสารอ้างอิง API และคลังตัวอย่างโค้ดที่เชื่อมต่อด้านล่าง
วิธีรับอัปเดต
- ดาวน์โหลดโดยตรง – เลือกแพคเกจ WHL ที่ตรงกับระบบปฏิบัติการของคุณจาก GroupDocs Releases page
- อัปเกรดด้วย pip – เมื่อมีเวอร์ชันใหม่เผยแพร่ ให้อัปเกรดด้วยคำสั่ง:
pip install --upgrade groupdocs_parser_net