Semalt веб-парақтарды скраптауға 5 қадам ұсынады

Скрапи - бұл әртүрлі веб-сайттардан ақпарат алуға арналған ашық ақпарат көзі. Ол API қолданады және Python-да жазылған. Скрапиді қазіргі уақытта Scrapinghub Ltd деп аталатын веб- қырғыш компаниясы жүргізеді.

Бұл Scrapy көмегімен веб-тексеріп шығушыны қалай жазу, Craigslist талдау және CSV форматында ақпаратты сақтау туралы қарапайым нұсқаулық. Төменде осы оқулықтың негізгі бес қадамы көрсетілген:

1. Жаңа Scrapy жобасын жасаңыз

2. Веб-сайтты қарап шығу және деректерді шығару үшін паук жазыңыз

3. Пішімделген деректерді пәрмен жолын пайдаланып экспорттаңыз

4. Сілтемелерді орындау үшін паукты өзгертіңіз

5. Өрмекшілердің дәлелдерін қолданыңыз

1. Жобаны құрыңыз

Бірінші қадам - жоба жасау. Сізге Scrapy бағдарламасын жүктеп, орнату керек еді. Оның іздеу жолағында сіз деректерді сақтағыңыз келетін каталог атауын енгізуіңіз керек. Scrapy ақпарат алу үшін әр түрлі өрмекшілерді пайдаланады және бұл өрмекшілер каталогтарды құруға алғашқы сұраныстар жасайды. Өрмекшіні жұмысқа қосу үшін каталогтар тізіміне кіріп, сол жерге белгілі бір кодты енгізу керек. Ағымдағы каталогтағы файлдарға назар аударыңыз және екі жаңа файлды байқаңыз: quotes-a.html және quotes-b.html.

2. Веб-сайтты қарап шығу және деректерді шығару үшін өрмекші жазыңыз:

Өрмекшіні жазудың және деректерді шығарудың ең жақсы тәсілі - Scrapy қабығында әртүрлі селекторларды құру. Сіз әрқашан URL-мекен-жайларын тырнақшаға қосуыңыз керек; әйтпесе, Скрапи сол URL мекенжайларының сипатын немесе атын бірден өзгертеді. Өрмекшіні тиісті түрде жазу үшін URL мекен-жайы бойынша қос тырнақша қолдану керек. Сізex.extract_first () пайдалануыңыз керек және индекс қателігін болдырмаңыз.

3. Қиылған деректерді пәрмен жолының көмегімен экспорттаңыз:

Пішімделген деректерді командалық жолды пайдаланып экспорттау маңызды. Егер сіз оны экспорттамасаңыз, нақты нәтиже алмайсыз. Өрмекші пайдалы ақпаратты қамтитын әртүрлі каталогтарды жасайды. Бұл ақпаратты жақсы экспорттау үшін кірістілік Python кілт сөздерін пайдалану керек. JSON файлдарына деректерді импорттау мүмкін. JSON файлдары бағдарламашылар үшін пайдалы. JQ сияқты құралдар қиыршықталған деректерді еш қиындықсыз экспорттауға көмектеседі.

4. Сілтемелерді орындау үшін өрмекшіні өзгертіңіз:

Шағын жобаларда сіз өрмекшілерді сілтемелерді сәйкесінше өзгертуге болады. Бұл үлкен көлемді деректерді скраптау жобаларында қажет емес. Өрмекшіні ауыстырған кезде Элемент Құбырлары үшін толтырғыш файлы орнатылады. Бұл файлды оқулық / құбырлар.py бөлімінде орналастыруға болады. Скрапи көмегімен сіз күрделі өрмекшілерді құрып, олардың орналасуын кез келген уақытта өзгерте аласыз. Сіз бір уақытта бірнеше сайтты шығарып, әртүрлі деректерді шығару жобаларын жүзеге асыра аласыз.

5. Өрмекші дәлелдерін қолданыңыз:

Parse_author қоңырау шалу - бұл динамикалық веб-сайттардан мәліметтерді алу үшін қолданылатын өрмекші дәлел. Сондай-ақ, өрмекшілерге нақты коды бар командалық жол дәлелдерін бере аласыз. Өрмекші дәлелдері паук атрибутына айналады және сіздің деректеріңіздің жалпы көрінісін өзгертеді.

Бұл оқулықта біз Scrapy негіздерін ғана қарастырдық. Бұл құралдың көптеген мүмкіндіктері мен нұсқалары бар. Оның сипаттамалары туралы көбірек білу үшін Scrapy бағдарламасын жүктеп алып, іске қосу керек.