dotfiles/tests/ebook_search/test_dataset.py

"""Tests for the shared query/gold set loader."""

from __future__ import annotations

from python.ebook_search.eval.dataset import load_gold_queries


def test_default_query_set_counts() -> None:
    queries = load_gold_queries()
    answerable = [query for query in queries if query.answerable]

    assert len(queries) == 70
    assert len(answerable) == 50
    assert len(queries) - len(answerable) == 20
    assert all(query.query for query in queries)
    # Answerable queries carry at least one source; garbage queries carry none.
    assert all(query.relevant_sources for query in answerable)
    assert all(not query.relevant_sources for query in queries if not query.answerable)