NLP-Baseline

NLP baseline model on the fine-tuning classification task, assuming the model embeddings are pre-trained.

class INDRAEvidenceDataset(encodings, labels)[source]

Custom Dataset class for INDRA data.

Initialize INDRA Dataset based on token embeddings for each text evidence.

get_train_test_splits(data, max_dataset_size=100000, label_column_name='class', random_seed=42, n_splits=5)[source]

Return deterministic train/test indices for n_splits based on the fine-tuning dataset that is passed.

Return type:: List

run_nlp_baseline_classification_cv(train_data_path, sep='\\t', model_type='dmis-lab/biobert-v1.1', output_dir='/home/docs/checkouts/readthedocs.org/user_builds/stonkgs/checkouts/latest/models/nlp-baseline', logging_uri_mlflow=None, label_column_name='class', text_data_column_name='evidence', epochs=10, log_steps=500, lr=5e-05, batch_size=16, gradient_accumulation=1, task_name='', embedding_path='/home/docs/checkouts/readthedocs.org/user_builds/stonkgs/checkouts/latest/models/kg-hpo/embeddings_best_model.tsv', deepspeed=True, max_dataset_size=100000)[source]

Run cross-validation for the sequence classification task.

Return type:: Dict