LightningIRDataModule

Bases: LightningDataModule

Initializes a new Lightning IR DataModule.

Parameters:

train_dataset (RunDataset | TupleDataset | None) – A training dataset. Defaults to None.
train_batch_size (int | None) – Batch size to use for training. Defaults to None.
shuffle_train (bool) – Whether to shuffle the training data. Defaults to True.
inference_datasets (Sequence[RunDataset | TupleDataset | QueryDataset | DocDataset] | None) – list of datasets to use for inference (indexing, searching, and re-ranking). Defaults to None.
inference_batch_size (int | None) – Batch size to use for inference. Defaults to None.
num_workers (int) – Number of workers for loading data in parallel. Defaults to 0.

Methods

`__init__`([train_dataset, train_batch_size, ...])	Initializes a new Lightning IR DataModule.
`inference_dataloader`()	Returns a list of dataloaders for inference (validation, testing, or predicting).
`predict_dataloader`()	Returns a list of dataloaders for predicting.
`prepare_data`()	Downloads the data using ir_datasets if needed.
`setup`(stage)	Sets up the data module for a given stage.
`test_dataloader`()	Returns a list of dataloaders for testing.
`train_dataloader`()	Returns a dataloader for training.
`val_dataloader`()	Returns a list of dataloaders for validation.

Attributes

inference_dataloader() → list[DataLoader][source]

Returns a list of dataloaders for inference (validation, testing, or predicting).

predict_dataloader() → Any[source]

Returns a list of dataloaders for predicting.

prepare_data() → None[source]: Downloads the data using ir_datasets if needed.

setup(stage: 'fit' | 'validate' | 'test') → None[source]

Sets up the data module for a given stage.

Parameters:: stage (Literal["fit", "validate", "test"]) – Stage to set up the data module for.
Raises:: ValueError – If the stage is fit and no training dataset is provided.

test_dataloader() → list[DataLoader][source]

Returns a list of dataloaders for testing.

train_dataloader() → DataLoader[source]

Returns a dataloader for training.

val_dataloader() → list[DataLoader][source]

Returns a list of dataloaders for validation.