feat: add Playwright's enqueue links helper (#196)

vdusek · web-flow · commit 849d73cc7d13 · 2024-06-20T17:09:38.000+02:00
### Description - Add Playwright's enqueue links helper ### Related issues - #180 ### Testing - New unit test was implemented ### Checklist - [x] Changes are described in the `CHANGELOG.md` - [x] CI passed
diff --git a/CHANGELOG.md b/CHANGELOG.md
@@ -13,6 +13,7 @@
 - Add batched request addition in `RequestQueue`
 - Add start requests option to `BasicCrawler`
 - Add storage-related helpers `get_data`, `push_data` and `export_to` to `BasicCrawler` and `BasicContext`
+- Add `PlaywrightCrawler`'s enqueue links helper
 
 ## [0.0.4](../../releases/tag/v0.0.4) - 2024-05-30
 
diff --git a/src/crawlee/beautifulsoup_crawler/beautifulsoup_crawler.py b/src/crawlee/beautifulsoup_crawler/beautifulsoup_crawler.py
@@ -113,6 +113,8 @@ async def enqueue_links(
             user_data: dict[str, Any] | None = None,
             **kwargs: Unpack[AddRequestsKwargs],
         ) -> None:
+            kwargs.setdefault('strategy', EnqueueStrategy.SAME_HOSTNAME)
+
             requests = list[BaseRequestData]()
             user_data = user_data or {}
 
@@ -126,9 +128,6 @@ async def enqueue_links(
                 if (href := link.attrs.get('href')) is not None:
                     requests.append(BaseRequestData.from_url(href, user_data=link_user_data))
 
-            uses_patterns = 'include' in kwargs or 'exclude' in kwargs
-            kwargs.setdefault('strategy', EnqueueStrategy.SAME_HOSTNAME if uses_patterns else EnqueueStrategy.ALL)
-
             await context.add_requests(requests, **kwargs)
 
         yield BeautifulSoupCrawlingContext(
diff --git a/src/crawlee/playwright_crawler/playwright_crawler.py b/src/crawlee/playwright_crawler/playwright_crawler.py
@@ -6,12 +6,14 @@
 
 from crawlee.basic_crawler import BasicCrawler, BasicCrawlerOptions, ContextPipeline
 from crawlee.browsers import BrowserPool
+from crawlee.enqueue_strategy import EnqueueStrategy
+from crawlee.models import BaseRequestData
 from crawlee.playwright_crawler.types import PlaywrightCrawlingContext
 
 if TYPE_CHECKING:
     from collections.abc import AsyncGenerator
 
-    from crawlee.basic_crawler.types import BasicCrawlingContext
+    from crawlee.basic_crawler.types import AddRequestsKwargs, BasicCrawlingContext
 
 
 class PlaywrightCrawler(BasicCrawler[PlaywrightCrawlingContext]):
@@ -63,6 +65,34 @@ async def _page_goto(
         await crawlee_page.page.goto(context.request.url)
         context.request.loaded_url = crawlee_page.page.url
 
+        async def enqueue_links(
+            *,
+            selector: str = 'a',
+            label: str | None = None,
+            user_data: dict | None = None,
+            **kwargs: Unpack[AddRequestsKwargs],
+        ) -> None:
+            kwargs.setdefault('strategy', EnqueueStrategy.SAME_HOSTNAME)
+
+            requests = list[BaseRequestData]()
+            user_data = user_data or {}
+
+            elements = await crawlee_page.page.query_selector_all(selector)
+
+            for element in elements:
+                href = await element.get_attribute('href')
+
+                if href:
+                    link_user_data = user_data.copy()
+
+                    if label is not None:
+                        link_user_data.setdefault('label', label)
+
+                    request = BaseRequestData.from_url(href, user_data=link_user_data)
+                    requests.append(request)
+
+            await context.add_requests(requests, **kwargs)
+
         yield PlaywrightCrawlingContext(
             request=context.request,
             session=context.session,
@@ -71,6 +101,7 @@ async def _page_goto(
             push_data=context.push_data,
             proxy_info=context.proxy_info,
             page=crawlee_page.page,
+            enqueue_links=enqueue_links,
         )
 
         await crawlee_page.page.close()
diff --git a/src/crawlee/playwright_crawler/types.py b/src/crawlee/playwright_crawler/types.py
@@ -3,7 +3,7 @@
 from dataclasses import dataclass
 from typing import TYPE_CHECKING
 
-from crawlee.basic_crawler.types import BasicCrawlingContext
+from crawlee.basic_crawler.types import BasicCrawlingContext, EnqueueLinksFunction
 
 if TYPE_CHECKING:
     from playwright.async_api import Page
@@ -14,3 +14,4 @@ class PlaywrightCrawlingContext(BasicCrawlingContext):
     """Crawling context used by PlaywrightSoupCrawler."""
 
     page: Page
+    enqueue_links: EnqueueLinksFunction
diff --git a/tests/unit/beautifulsoup_crawler/test_beautifulsoup_crawler.py b/tests/unit/beautifulsoup_crawler/test_beautifulsoup_crawler.py
@@ -8,6 +8,7 @@
 from httpx import Response
 
 from crawlee.beautifulsoup_crawler import BeautifulSoupCrawler
+from crawlee.enqueue_strategy import EnqueueStrategy
 from crawlee.storages import RequestList
 
 if TYPE_CHECKING:
@@ -87,7 +88,8 @@ async def test_enqueue_links(server: respx.MockRouter) -> None:
     @crawler.router.default_handler
     async def request_handler(context: BeautifulSoupCrawlingContext) -> None:
         visit(context.request.url)
-        await context.enqueue_links()
+        # Note: with RESPX server mocking, we have to set EnqueueStrategy to ALL
+        await context.enqueue_links(strategy=EnqueueStrategy.ALL)
 
     await crawler.run()
 
diff --git a/tests/unit/playwright_crawler/test_playwright_crawler.py b/tests/unit/playwright_crawler/test_playwright_crawler.py
@@ -1,17 +1,21 @@
+# TODO: The current PlaywrightCrawler tests rely on external websites. It means they can fail or take more time
+# due to network issues. To enhance test stability and reliability, we should mock the network requests.
+# https://github.com/apify/crawlee-python/issues/197
+
 from __future__ import annotations
 
 from typing import TYPE_CHECKING
+from unittest import mock
 
 from crawlee.playwright_crawler import PlaywrightCrawler
-from crawlee.storages.request_list import RequestList
 
 if TYPE_CHECKING:
     from crawlee.playwright_crawler import PlaywrightCrawlingContext
 
 
 async def test_basic_request(httpbin: str) -> None:
-    request_provider = RequestList([f'{httpbin}/'])
-    crawler = PlaywrightCrawler(request_provider=request_provider)
+    requests = [f'{httpbin}/']
+    crawler = PlaywrightCrawler()
     result: dict = {}
 
     @crawler.router.default_handler
@@ -22,8 +26,42 @@ async def request_handler(context: PlaywrightCrawlingContext) -> None:
         result['page_title'] = await context.page.title()
         result['page_content'] = await context.page.content()
 
-    await crawler.run()
+    await crawler.run(requests)
 
     assert result.get('request_url') == result.get('page_url') == f'{httpbin}/'
     assert 'httpbin' in result.get('page_title', '')
     assert '<html' in result.get('page_content', '')  # there is some HTML content
+
+
+async def test_enqueue_links() -> None:
+    requests = ['https://crawlee.dev/']
+    crawler = PlaywrightCrawler()
+    visit = mock.Mock()
+
+    @crawler.router.default_handler
+    async def request_handler(context: PlaywrightCrawlingContext) -> None:
+        visit(context.request.url)
+        await context.enqueue_links()
+
+    await crawler.run(requests)
+
+    visited = {call[0][0] for call in visit.call_args_list}
+
+    assert visited == {
+        'https://crawlee.dev/',
+        'https://crawlee.dev/docs/guides/javascript-rendering',
+        'https://crawlee.dev/docs/guides/typescript-project',
+        'https://crawlee.dev/docs/guides/avoid-blocking',
+        'https://crawlee.dev/docs/guides/cheerio-crawler-guide',
+        'https://crawlee.dev/docs/guides/result-storage',
+        'https://crawlee.dev/docs/guides/proxy-management',
+        'https://crawlee.dev/api/core/class/AutoscaledPool',
+        'https://crawlee.dev/docs/guides/jsdom-crawler-guide',
+        'https://crawlee.dev/docs/guides/request-storage',
+        'https://crawlee.dev/api/utils',
+        'https://crawlee.dev/api/utils/namespace/social',
+        'https://crawlee.dev/docs/deployment/aws-cheerio',
+        'https://crawlee.dev/api/basic-crawler/interface/BasicCrawlerOptions',
+        'https://crawlee.dev/docs/deployment/gcp-cheerio',
+        'https://crawlee.dev/docs/quick-start',
+    }