Beautiful Sop projek is 'n Python HTML / XML parser ontwerp vir 'n vinnige ommeswaai projekte soos die skerm-skraap. Drie eienskappe maak dit 'n kragtige:
Pragtige sop sal nie verstik as jy dit sleg opmaak. Dit lewer 'n parse boom wat maak ongeveer soveel sin as jou oorspronklike dokument. Dit is gewoonlik goed genoeg om die data wat jy nodig het om te versamel en hardloop weg.
Pragtige sop bied 'n paar eenvoudige metodes en Pythonic idiome vir die opgevolg, soek, en die wysiging van 'n parse boom 'n hulpmiddel vir die dissektering 'n dokument en onttrek wat jy nodig het. Jy het nie 'n persoonlike parser vir elke aansoek te skep.
Pragtige sop vat outomaties inkomende dokumente te Unicode en uitgaande dokumente te UTF-8. Jy hoef nie te dink oor coderingen, tensy die dokument nie 'n enkodering spesifiseer en Beautiful Sop kan nie een automaties. Dan moet jy net die oorspronklike enkodering spesifiseer.
Pragtige sop ontleed enigiets wat jy dit gee, en doen die boom traversal dinge vir jou. Jy kan jou vertel dit "Vind al die skakels", of "Vind al die skakels van die klas externalLink", of "Vind al die skakels wie urls pas" foo.com ", of" Vind die tafel pad dit is het vetgedrukte teks, dan gee my dat die teks. "
Waardevolle inligting wat eens opgesluit in swak-ontwerpte webwerwe is nou binne jou bereik. . Projekte wat ure sou geneem het om net minute met 'n pragtige Sop
Vereistes :
- Python
Kommentaar nie gevind