Scrappy geskryf 100% in Python en benut kan word vir 'n eenvoudige data-ontginning, na bladsy monitering, Web soek enjins en selfs vir die kode toets.
Scrapy is nie 'n soektog in die ware betekenis van die woord, maar dit tree op soos een (sonder die indeksering deel). Tog Scrapy kan 'n groot hulpmiddel om jou soektog logika bou op wees.
Die ware krag van hierdie raamwerk berus in veelsydigheid sy kern se Scrapy 'n stelsel op te generiese of toegewyde soek spinnekoppe (crawlers) op te bou.
Terwyl dit klink baie ingewikkeld om nie-tegniese gebruikers, met 'n vinnige blik oor die dokumentasie en beskikbaar tutoriale, dit is redelik maklik om te sien hoe Scrapy het daarin geslaag om uit te neem al die harde werk uit hierdie en die hele proses te verminder net 'n paar reëls van die kode (vir makliker, kleiner crawlers)
Wat is nuut in hierdie release:.
- Unquote versoek pad voordat hy tot FTPClient, dit is reeds ontsnap paaie.
- Sluit toetse / verspreiding bron in MANIFEST.in.
Wat is nuut in die weergawe 1.0.1:
- Unquote versoek pad voor verby te FTPClient, dit is reeds ontsnap paaie.
- Sluit toetse / verspreiding bron in MANIFEST.in.
Wat is nuut in die weergawe 0.24.6:
- Voeg UTF8 encoding kop om templates
- Telnet konsole bind nou 127.0.0.1 by verstek
- Update Debian / Ubuntu installeer instruksies
- Skakel smart snare in lxml XPath evaluerings
- Herstel lêerstelsel gebaseer kas as verstek vir HTTP kas middleware
- Ontbloot huidige kruiper in Scrapy dop
- Verbeter testsuite vergelyk CSV en XML uitvoerders
- New offsite / gefiltreer en offsite / domeine statistieke
- Support process_links as generator in CrawlSpider
Wat is nuut in die weergawe 0.24.5:
- Voeg UTF8 encoding kop om templates
- Telnet konsole bind nou 127.0.0.1 by verstek
- Update Debian / Ubuntu installeer instruksies
- Skakel smart snare in lxml XPath evaluerings
- Herstel lêerstelsel gebaseer kas as verstek vir HTTP kas middleware
- Ontbloot huidige kruiper in Scrapy dop
- Verbeter testsuite vergelyk CSV en XML uitvoerders
- New offsite / gefiltreer en offsite / domeine statistieke
- Support process_links as generator in CrawlSpider
Wat is nuut in die weergawe 0.22.0:
- hernoem scrapy.spider.BaseSpider om scrapy.spider .Spider
- Bevorder startup inligting oor instellings en middleware te INFO vlak
- Support alen in get_func_args util
- Laat loop indiviual toetse via tox
- uitbreidings Update geïgnoreer deur skakel trekkers
- Die keurders registreer EXSLT naamruimtes by verstek
- Unify item loaders soortgelyk aan keurders hernoeming
- Maak RFPDupeFilter klas maklik subclassable
- Verbeter toets dekking en komende Python 3 ondersteuning
Wat is nuut in die weergawe 0.20.1:
- include_package_data is nodig om wiele uit gepubliseerde bronne op te bou.
Wat is nuut in die weergawe 0.18.4:.
- Vaste AlreadyCalledError 'n versoek in die dop bevel vervang
- Vaste start_requests luiheid en vroeë hang.
Wat is nuut in die weergawe 0.18.1:.
- verwyder ekstra invoer bygevoeg deur kers opgetel veranderinge
- Vaste kruip toetse onder gedraai pre 11.0.0.
- py26 kan nie nul lengte velde {} formateer.
- Toets PotentiaDataLoss foute op ongebonde antwoorde.
- Behandel antwoorde sonder inhoud lengte of Transfer-Encoding as goeie antwoorde.
- Maak geen sluit ResponseFailed as http11 hanteerder is nie aangeskakel.
Vereistes :
- Python 2,7 of hoër
- Twisted 2.5.0 of hoër
- libxml2 2.6.28 of hoër
- pyOpenSSL
Kommentaar nie gevind