请教一道 Python 多线程爬虫的面试题

从一个 url 出发，打印出所有链接出去的 url ，所有 url 只打印一次。

首先是单线程版本的，用 BFS ，同时用一个 set 记录访问过的 url 就可以了.

start = "http://google.com"
queue = [start]
visited = {start}

while queue:
    url = queue.pop(0)
    print url

    for next_url in extract_urls(url):
        if next_url not in visited:
            queue.append(next_url)
            visited.add(next_url)

然后要求把这个改成多线程，我是这样写的，不知道对不对：

class ThreadUrl(threading.Thread):

    def __init__(self, queue, visited):
        super(ThreadUrl, self).__init__()
        self.queue = queue
        self.visited = visited

    def run(self):
        while True:
            url = self.queue.get()
            print "%s: %s" % (self.name, url)
            for next_url in extract_urls(url):
                if next_url not in self.visited:
                    self.queue.put(next_url)
                    self.visited.add(next_url)
            self.queue.task_done()


queue = Queue()
visited = set()
visited.add("http://google.com")

for i in range(5):
    t = ThreadUrl(queue, visited)
    t.setDaemon(True)
    t.start()

queue.put(start_url)
queue.join()

没有学过操作系统，有些不确定。我的理解是， python 的Queue是 thread safe 的，set不是 thread safe 的。每次从 queue 里获取头部，这个是 thread safe 的，而我的if next_url not in self.visited这条语句写在queue.get()和queue.task_done()之间，所以可以保证操作visited也是 thread safe 的？因此我没有对visited进行 synchronization...

如果我的思路是错的，那么我还需要 synchronization 。这种情况下是应该用 lock 吗？我这种 lock 的方法对吗？

class ThreadUrl(threading.Thread):

    def __init__(self, queue, visited, lock):
        super(ThreadUrl, self).__init__()
        self.queue = queue
        self.visited = visited
        self.lock = lock

    def run(self):
        while True:
            url = self.queue.get()
            print "%s: %s" % (self.name, url)
            for next_url in extract_urls(url):
                self.lock.acquire()
                if next_url not in self.visited:
                    self.queue.put(next_url)
                    self.visited.add(next_url)
                self.lock.release()
            self.queue.task_done()

最后，这题是一道比较开放式的题目，对于多线程的版本，是否有更优的解法，或者有哪些注意点值得跟面试官讨论呢？

reorx

2016-01-23 10:52:55 +08:00

这里如果用多线程写法的话，我觉得应该是造一个 thread pool ，这个 pool 里的线程用于网络请求、解析返回页面里的 URL ，然后把结果扔到一个 Queue 中，主线程只做一件事就是不停地从这个 Queue 里取结果，去重后 print ，然后把新的未爬过的 URL spawn 出新的线程去处理

当然最有效率的办法还是如 @binux 所说，使用异步 io 库，这样可以保证单核效能最大化，且所有网络请求等待的时间都不会浪费（线程池方案就算线程多也不一定可以保证），推荐用 gevent 和 tornado ， twisted 比较重更适合解决 CS 结构双向通讯的网络需求