Crawler/stack/stack/stack_spider.py at master · study4coder/Crawler

25 lines (19 loc) · 721 Bytes

__author__ = 'Xing'
from scrapy import Spider
from scrapy.selector import Selector
from items import StackItem
class StackSpider(Spider):
    name = "stack"
    allowed_domains = ["stackoverflow.com"]
    start_urls = [
        "http://stackoverflow.com/questions?pagesize=50&sort=newest",
    def parse(self, response):
        questions = Selector(response).xpath('//div[@class="summary"]/h3')
        for question in questions:
            item = StackItem()
            item['title'] = question.xpath(
                'a[@class="question-hyperlink"]/text()').extract()[0]
            item['url'] = question.xpath(
                'a[@class="question-hyperlink"]/@href').extract()[0]
            yield item

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

FilesExpand file tree

stack_spider.py

Latest commit

History

stack_spider.py

File metadata and controls