{
 "cells": [
  {
   "cell_type": "markdown",
   "id": "dca40d3f",
   "metadata": {},
   "source": [
    "# amyloid dataset"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 1,
   "id": "43acb29b",
   "metadata": {
    "ExecuteTime": {
     "end_time": "2021-11-11T20:47:14.433015Z",
     "start_time": "2021-11-11T20:47:12.356766Z"
    }
   },
   "outputs": [],
   "source": [
    "# Standard imports\n",
    "import pandas as pd\n",
    "import numpy as np\n",
    "import matplotlib.pyplot as plt\n",
    "%matplotlib inline\n",
    "\n",
    "# Special imports\n",
    "import mavenn\n",
    "import os\n",
    "import urllib"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "5c257c40",
   "metadata": {
    "ExecuteTime": {
     "end_time": "2021-11-11T17:26:47.608641Z",
     "start_time": "2021-11-11T17:26:47.392567Z"
    }
   },
   "source": [
    "## Summary"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "c7e0fed0",
   "metadata": {
    "ExecuteTime": {
     "end_time": "2021-11-11T17:27:24.538136Z",
     "start_time": "2021-11-11T17:27:24.529622Z"
    }
   },
   "source": [
    "The deep mutational scanning (DMS) dataset of Seuma et al., 2021. The function of small protein called amyloid beta (A$\\beta$) is suspected to play a significant role in Alzheimer's disease. By mutating each position in the protein, Seuma et al. produced more than 14,000 different versions of A$\\beta$ with single and double mutation. \n",
    "To globally quantify the impact of mutations, they used *in-vivo* selection assay using yeast cells and measured how quickly these mutants were able to aggregate. The quantification is summarized in the variable called nucleation score.\n",
    "\n",
    "**Names**: ``'amyloid'``\n",
    "\n",
    "**Reference**: Seuma M, Faure A, Badia M, Lehner B, Bolognesi B. The genetic landscape for amyloid beta fibril nucleation accurately discriminates familial Alzheimer’s disease mutations. [eLife 10:e63364 (2021)](https://doi.org/10.7554/eLife.63364)."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 2,
   "id": "ba16bbe4",
   "metadata": {
    "ExecuteTime": {
     "end_time": "2021-11-11T20:47:14.458963Z",
     "start_time": "2021-11-11T20:47:14.434183Z"
    }
   },
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>set</th>\n",
       "      <th>dist</th>\n",
       "      <th>y</th>\n",
       "      <th>dy</th>\n",
       "      <th>x</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>0</th>\n",
       "      <td>training</td>\n",
       "      <td>1</td>\n",
       "      <td>-0.117352</td>\n",
       "      <td>0.387033</td>\n",
       "      <td>KAEFRHDSGYEVHHQKLVFFAEDVGSNKGAIIGLMVGGVVIA</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1</th>\n",
       "      <td>training</td>\n",
       "      <td>1</td>\n",
       "      <td>0.352500</td>\n",
       "      <td>0.062247</td>\n",
       "      <td>NAEFRHDSGYEVHHQKLVFFAEDVGSNKGAIIGLMVGGVVIA</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2</th>\n",
       "      <td>training</td>\n",
       "      <td>1</td>\n",
       "      <td>-2.818013</td>\n",
       "      <td>1.068137</td>\n",
       "      <td>TAEFRHDSGYEVHHQKLVFFAEDVGSNKGAIIGLMVGGVVIA</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>3</th>\n",
       "      <td>training</td>\n",
       "      <td>1</td>\n",
       "      <td>0.121805</td>\n",
       "      <td>0.376764</td>\n",
       "      <td>SAEFRHDSGYEVHHQKLVFFAEDVGSNKGAIIGLMVGGVVIA</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>4</th>\n",
       "      <td>training</td>\n",
       "      <td>1</td>\n",
       "      <td>-2.404340</td>\n",
       "      <td>0.278486</td>\n",
       "      <td>IAEFRHDSGYEVHHQKLVFFAEDVGSNKGAIIGLMVGGVVIA</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>...</th>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>16061</th>\n",
       "      <td>training</td>\n",
       "      <td>2</td>\n",
       "      <td>-0.151502</td>\n",
       "      <td>0.389821</td>\n",
       "      <td>DAEFRHDSGYEVHHQKLVFFAEDVGSNKGAIIGLMVGGVVKV</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>16062</th>\n",
       "      <td>training</td>\n",
       "      <td>2</td>\n",
       "      <td>-1.360708</td>\n",
       "      <td>0.370517</td>\n",
       "      <td>DAEFRHDSGYEVHHQKLVFFAEDVGSNKGAIIGLMVGGVVLV</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>16063</th>\n",
       "      <td>training</td>\n",
       "      <td>2</td>\n",
       "      <td>-0.996816</td>\n",
       "      <td>0.346949</td>\n",
       "      <td>DAEFRHDSGYEVHHQKLVFFAEDVGSNKGAIIGLMVGGVVMV</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>16064</th>\n",
       "      <td>training</td>\n",
       "      <td>2</td>\n",
       "      <td>-3.238403</td>\n",
       "      <td>0.429008</td>\n",
       "      <td>DAEFRHDSGYEVHHQKLVFFAEDVGSNKGAIIGLMVGGVVTV</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>16065</th>\n",
       "      <td>training</td>\n",
       "      <td>2</td>\n",
       "      <td>-1.141457</td>\n",
       "      <td>0.365638</td>\n",
       "      <td>DAEFRHDSGYEVHHQKLVFFAEDVGSNKGAIIGLMVGGVVVV</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "<p>16066 rows × 5 columns</p>\n",
       "</div>"
      ],
      "text/plain": [
       "            set  dist         y        dy  \\\n",
       "0      training     1 -0.117352  0.387033   \n",
       "1      training     1  0.352500  0.062247   \n",
       "2      training     1 -2.818013  1.068137   \n",
       "3      training     1  0.121805  0.376764   \n",
       "4      training     1 -2.404340  0.278486   \n",
       "...         ...   ...       ...       ...   \n",
       "16061  training     2 -0.151502  0.389821   \n",
       "16062  training     2 -1.360708  0.370517   \n",
       "16063  training     2 -0.996816  0.346949   \n",
       "16064  training     2 -3.238403  0.429008   \n",
       "16065  training     2 -1.141457  0.365638   \n",
       "\n",
       "                                                x  \n",
       "0      KAEFRHDSGYEVHHQKLVFFAEDVGSNKGAIIGLMVGGVVIA  \n",
       "1      NAEFRHDSGYEVHHQKLVFFAEDVGSNKGAIIGLMVGGVVIA  \n",
       "2      TAEFRHDSGYEVHHQKLVFFAEDVGSNKGAIIGLMVGGVVIA  \n",
       "3      SAEFRHDSGYEVHHQKLVFFAEDVGSNKGAIIGLMVGGVVIA  \n",
       "4      IAEFRHDSGYEVHHQKLVFFAEDVGSNKGAIIGLMVGGVVIA  \n",
       "...                                           ...  \n",
       "16061  DAEFRHDSGYEVHHQKLVFFAEDVGSNKGAIIGLMVGGVVKV  \n",
       "16062  DAEFRHDSGYEVHHQKLVFFAEDVGSNKGAIIGLMVGGVVLV  \n",
       "16063  DAEFRHDSGYEVHHQKLVFFAEDVGSNKGAIIGLMVGGVVMV  \n",
       "16064  DAEFRHDSGYEVHHQKLVFFAEDVGSNKGAIIGLMVGGVVTV  \n",
       "16065  DAEFRHDSGYEVHHQKLVFFAEDVGSNKGAIIGLMVGGVVVV  \n",
       "\n",
       "[16066 rows x 5 columns]"
      ]
     },
     "execution_count": 2,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "mavenn.load_example_dataset('amyloid')"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "6fe018cb",
   "metadata": {},
   "source": [
    "## Preprocessing\n",
    "\n",
    "The DMS dataset of single and double mutations in A$\\beta$ of Seuma et al., (2021)\n",
    "is publicly available in the excel format on the [Gene Expression Omnibus server](https://www.ncbi.nlm.nih.gov/geo/download/?acc=GSE151147&format=file&file=GSE151147%5FMS%5FBL%5FBB%5Fprocessed%5Fdata%2Exlsx).\n",
    "It is formatted as follows: \n",
    "\n",
    "- Single mutated sequences are in `1 aa change sheet`. For these sequences the `Pos` column lists the amino acid (aa) position which mutated, and `Mut` column is mutated aa residue.\n",
    "\n",
    "- Double mutated sequences are in `2 aa change sheet`. For these sequences the `Pos1` and `Pos2` columns list the first and second aa positions which mutated. `Mut1` and `Mut2` columns are residues of mutation 1 and 2 in double mutant, respectively.\n",
    "\n",
    "- Both single and double mutant consist of the nucleation scores across three replicates \n",
    "and the weighted average (`nscore`) of them based on their uncertainties (`sigma`)."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 3,
   "id": "29aecf0a",
   "metadata": {
    "ExecuteTime": {
     "end_time": "2021-11-11T20:47:16.593192Z",
     "start_time": "2021-11-11T20:47:14.460041Z"
    }
   },
   "outputs": [],
   "source": [
    "# Download datset\n",
    "url = 'https://www.ncbi.nlm.nih.gov/geo/download/?acc=GSE151147&format=file&file=GSE151147%5FMS%5FBL%5FBB%5Fprocessed%5Fdata%2Exlsx'\n",
    "raw_data_file = 'Abeta_raw_data.xlsx'\n",
    "urllib.request.urlretrieve(url, raw_data_file)\n",
    "\n",
    "# Record wild-type sequence\n",
    "wt_seq = 'DAEFRHDSGYEVHHQKLVFFAEDVGSNKGAIIGLMVGGVVIA'\n",
    "\n",
    "# Read single mutation sheet from raw data\n",
    "single_mut_df = pd.read_excel(raw_data_file, sheet_name='1 aa change')\n",
    "\n",
    "# Read double mutation sheet from raw data\n",
    "double_mut_df = pd.read_excel(raw_data_file, sheet_name='2 aa changes')"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 4,
   "id": "c2d32d78",
   "metadata": {
    "ExecuteTime": {
     "end_time": "2021-11-11T20:47:16.599358Z",
     "start_time": "2021-11-11T20:47:16.593926Z"
    }
   },
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>Pos</th>\n",
       "      <th>WT_AA</th>\n",
       "      <th>Mut</th>\n",
       "      <th>Nham_nt</th>\n",
       "      <th>Nham_aa</th>\n",
       "      <th>Nmut_codons</th>\n",
       "      <th>STOP</th>\n",
       "      <th>mean_count</th>\n",
       "      <th>nscore1</th>\n",
       "      <th>sigma1</th>\n",
       "      <th>nscore2</th>\n",
       "      <th>sigma2</th>\n",
       "      <th>nscore3</th>\n",
       "      <th>sigma3</th>\n",
       "      <th>nscore</th>\n",
       "      <th>sigma</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>0</th>\n",
       "      <td>1</td>\n",
       "      <td>D</td>\n",
       "      <td>K</td>\n",
       "      <td>2</td>\n",
       "      <td>1</td>\n",
       "      <td>1</td>\n",
       "      <td>False</td>\n",
       "      <td>210.500000</td>\n",
       "      <td>-0.280176</td>\n",
       "      <td>0.482820</td>\n",
       "      <td>0.175372</td>\n",
       "      <td>0.647374</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>-0.117352</td>\n",
       "      <td>0.387033</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1</th>\n",
       "      <td>1</td>\n",
       "      <td>D</td>\n",
       "      <td>N</td>\n",
       "      <td>2</td>\n",
       "      <td>1</td>\n",
       "      <td>1</td>\n",
       "      <td>False</td>\n",
       "      <td>28544.000000</td>\n",
       "      <td>0.388480</td>\n",
       "      <td>0.112041</td>\n",
       "      <td>0.306589</td>\n",
       "      <td>0.077314</td>\n",
       "      <td>0.785219</td>\n",
       "      <td>0.299795</td>\n",
       "      <td>0.352500</td>\n",
       "      <td>0.062247</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2</th>\n",
       "      <td>1</td>\n",
       "      <td>D</td>\n",
       "      <td>T</td>\n",
       "      <td>2</td>\n",
       "      <td>1</td>\n",
       "      <td>1</td>\n",
       "      <td>False</td>\n",
       "      <td>97.000000</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>-2.818013</td>\n",
       "      <td>1.068137</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>-2.818013</td>\n",
       "      <td>1.068137</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>3</th>\n",
       "      <td>1</td>\n",
       "      <td>D</td>\n",
       "      <td>S</td>\n",
       "      <td>2</td>\n",
       "      <td>1</td>\n",
       "      <td>1</td>\n",
       "      <td>False</td>\n",
       "      <td>150.666667</td>\n",
       "      <td>0.003406</td>\n",
       "      <td>0.525670</td>\n",
       "      <td>0.180478</td>\n",
       "      <td>0.622756</td>\n",
       "      <td>0.448936</td>\n",
       "      <td>1.086370</td>\n",
       "      <td>0.121805</td>\n",
       "      <td>0.376764</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>4</th>\n",
       "      <td>1</td>\n",
       "      <td>D</td>\n",
       "      <td>I</td>\n",
       "      <td>2</td>\n",
       "      <td>1</td>\n",
       "      <td>1</td>\n",
       "      <td>False</td>\n",
       "      <td>334.333333</td>\n",
       "      <td>-2.364750</td>\n",
       "      <td>0.373224</td>\n",
       "      <td>-2.579152</td>\n",
       "      <td>0.482386</td>\n",
       "      <td>-2.074932</td>\n",
       "      <td>0.839842</td>\n",
       "      <td>-2.404340</td>\n",
       "      <td>0.278486</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "   Pos WT_AA Mut  Nham_nt  Nham_aa  Nmut_codons   STOP    mean_count  \\\n",
       "0    1     D   K        2        1            1  False    210.500000   \n",
       "1    1     D   N        2        1            1  False  28544.000000   \n",
       "2    1     D   T        2        1            1  False     97.000000   \n",
       "3    1     D   S        2        1            1  False    150.666667   \n",
       "4    1     D   I        2        1            1  False    334.333333   \n",
       "\n",
       "    nscore1    sigma1   nscore2    sigma2   nscore3    sigma3    nscore  \\\n",
       "0 -0.280176  0.482820  0.175372  0.647374       NaN       NaN -0.117352   \n",
       "1  0.388480  0.112041  0.306589  0.077314  0.785219  0.299795  0.352500   \n",
       "2       NaN       NaN -2.818013  1.068137       NaN       NaN -2.818013   \n",
       "3  0.003406  0.525670  0.180478  0.622756  0.448936  1.086370  0.121805   \n",
       "4 -2.364750  0.373224 -2.579152  0.482386 -2.074932  0.839842 -2.404340   \n",
       "\n",
       "      sigma  \n",
       "0  0.387033  \n",
       "1  0.062247  \n",
       "2  1.068137  \n",
       "3  0.376764  \n",
       "4  0.278486  "
      ]
     },
     "execution_count": 4,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "# Preview single-mutant data\n",
    "single_mut_df.head()"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 5,
   "id": "280e35c1",
   "metadata": {
    "ExecuteTime": {
     "end_time": "2021-11-11T20:47:16.608307Z",
     "start_time": "2021-11-11T20:47:16.600072Z"
    }
   },
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>Pos2</th>\n",
       "      <th>Mut2</th>\n",
       "      <th>Pos1</th>\n",
       "      <th>Mut1</th>\n",
       "      <th>WT_AA1</th>\n",
       "      <th>WT_AA2</th>\n",
       "      <th>Nham_nt</th>\n",
       "      <th>Nham_aa</th>\n",
       "      <th>Nmut_codons</th>\n",
       "      <th>STOP</th>\n",
       "      <th>mean_count</th>\n",
       "      <th>nscore1</th>\n",
       "      <th>sigma1</th>\n",
       "      <th>nscore2</th>\n",
       "      <th>sigma2</th>\n",
       "      <th>nscore3</th>\n",
       "      <th>sigma3</th>\n",
       "      <th>nscore</th>\n",
       "      <th>sigma</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>0</th>\n",
       "      <td>2</td>\n",
       "      <td>E</td>\n",
       "      <td>1</td>\n",
       "      <td>E</td>\n",
       "      <td>D</td>\n",
       "      <td>A</td>\n",
       "      <td>2</td>\n",
       "      <td>2</td>\n",
       "      <td>2</td>\n",
       "      <td>False</td>\n",
       "      <td>78.500000</td>\n",
       "      <td>0.160562</td>\n",
       "      <td>0.878728</td>\n",
       "      <td>-1.908344</td>\n",
       "      <td>0.999612</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>-0.741292</td>\n",
       "      <td>0.659978</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1</th>\n",
       "      <td>2</td>\n",
       "      <td>E</td>\n",
       "      <td>1</td>\n",
       "      <td>G</td>\n",
       "      <td>D</td>\n",
       "      <td>A</td>\n",
       "      <td>2</td>\n",
       "      <td>2</td>\n",
       "      <td>2</td>\n",
       "      <td>False</td>\n",
       "      <td>139.500000</td>\n",
       "      <td>-0.461932</td>\n",
       "      <td>0.679144</td>\n",
       "      <td>-0.616485</td>\n",
       "      <td>0.715070</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>-0.535229</td>\n",
       "      <td>0.492438</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2</th>\n",
       "      <td>2</td>\n",
       "      <td>E</td>\n",
       "      <td>1</td>\n",
       "      <td>N</td>\n",
       "      <td>D</td>\n",
       "      <td>A</td>\n",
       "      <td>2</td>\n",
       "      <td>2</td>\n",
       "      <td>2</td>\n",
       "      <td>False</td>\n",
       "      <td>146.000000</td>\n",
       "      <td>0.143146</td>\n",
       "      <td>0.530710</td>\n",
       "      <td>-0.181673</td>\n",
       "      <td>0.855333</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>0.052856</td>\n",
       "      <td>0.450957</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>3</th>\n",
       "      <td>2</td>\n",
       "      <td>E</td>\n",
       "      <td>1</td>\n",
       "      <td>V</td>\n",
       "      <td>D</td>\n",
       "      <td>A</td>\n",
       "      <td>2</td>\n",
       "      <td>2</td>\n",
       "      <td>2</td>\n",
       "      <td>False</td>\n",
       "      <td>133.333333</td>\n",
       "      <td>-0.526572</td>\n",
       "      <td>0.551242</td>\n",
       "      <td>-1.427565</td>\n",
       "      <td>0.708833</td>\n",
       "      <td>-0.423844</td>\n",
       "      <td>1.053086</td>\n",
       "      <td>-0.801619</td>\n",
       "      <td>0.402165</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>4</th>\n",
       "      <td>2</td>\n",
       "      <td>E</td>\n",
       "      <td>1</td>\n",
       "      <td>Y</td>\n",
       "      <td>D</td>\n",
       "      <td>A</td>\n",
       "      <td>2</td>\n",
       "      <td>2</td>\n",
       "      <td>2</td>\n",
       "      <td>False</td>\n",
       "      <td>62.000000</td>\n",
       "      <td>-0.288245</td>\n",
       "      <td>0.876578</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>-0.288245</td>\n",
       "      <td>0.876578</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "   Pos2 Mut2  Pos1 Mut1 WT_AA1 WT_AA2  Nham_nt  Nham_aa  Nmut_codons   STOP  \\\n",
       "0     2    E     1    E      D      A        2        2            2  False   \n",
       "1     2    E     1    G      D      A        2        2            2  False   \n",
       "2     2    E     1    N      D      A        2        2            2  False   \n",
       "3     2    E     1    V      D      A        2        2            2  False   \n",
       "4     2    E     1    Y      D      A        2        2            2  False   \n",
       "\n",
       "   mean_count   nscore1    sigma1   nscore2    sigma2   nscore3    sigma3  \\\n",
       "0   78.500000  0.160562  0.878728 -1.908344  0.999612       NaN       NaN   \n",
       "1  139.500000 -0.461932  0.679144 -0.616485  0.715070       NaN       NaN   \n",
       "2  146.000000  0.143146  0.530710 -0.181673  0.855333       NaN       NaN   \n",
       "3  133.333333 -0.526572  0.551242 -1.427565  0.708833 -0.423844  1.053086   \n",
       "4   62.000000 -0.288245  0.876578       NaN       NaN       NaN       NaN   \n",
       "\n",
       "     nscore     sigma  \n",
       "0 -0.741292  0.659978  \n",
       "1 -0.535229  0.492438  \n",
       "2  0.052856  0.450957  \n",
       "3 -0.801619  0.402165  \n",
       "4 -0.288245  0.876578  "
      ]
     },
     "execution_count": 5,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "# Preview double-mutant data\n",
    "double_mut_df.head()"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "bc82e470",
   "metadata": {},
   "source": [
    "To reformat `single_mut_df` and `double_mut_df` into the one provided with MAVE-NN, we first need to get the full sequence of amino acids corresponding to each mutation. Therefore, we used `Pos` and `Mut` columns to replace single aa in wild type sequence for each record for the single mutant. Then, we used `Pos1`, `Pos2`, `Mut1` and `Mut2` from the double mutants to replace two aa in the wild type sequence. The list of sequences with single and double mutants are called `single_mut_list` and `double_mut_list`, respectively.\n",
    "Those lists are then horizontally (column wise) stacked in `x` variable.\n",
    "\n",
    "Next, we stack single- and double-mutant \n",
    "- nucleation scores `nscore` in `y`\n",
    "- score uncertainties `sigma` in `dy`\n",
    "- hamming distance in `dists`\n",
    "\n",
    "Finally, we create a `set` column that randomly assigns each sequence to the training, test, or validation set (using a 90:05:05 split), then reorder the columns for clarity. The resulting dataframe is called final_df."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 6,
   "id": "ea6bc93e",
   "metadata": {
    "ExecuteTime": {
     "end_time": "2021-11-11T20:47:16.640561Z",
     "start_time": "2021-11-11T20:47:16.609320Z"
    }
   },
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>set</th>\n",
       "      <th>dist</th>\n",
       "      <th>y</th>\n",
       "      <th>dy</th>\n",
       "      <th>x</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>0</th>\n",
       "      <td>training</td>\n",
       "      <td>1</td>\n",
       "      <td>-0.117352</td>\n",
       "      <td>0.387033</td>\n",
       "      <td>KAEFRHDSGYEVHHQKLVFFAEDVGSNKGAIIGLMVGGVVIA</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1</th>\n",
       "      <td>training</td>\n",
       "      <td>1</td>\n",
       "      <td>0.352500</td>\n",
       "      <td>0.062247</td>\n",
       "      <td>NAEFRHDSGYEVHHQKLVFFAEDVGSNKGAIIGLMVGGVVIA</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2</th>\n",
       "      <td>training</td>\n",
       "      <td>1</td>\n",
       "      <td>-2.818013</td>\n",
       "      <td>1.068137</td>\n",
       "      <td>TAEFRHDSGYEVHHQKLVFFAEDVGSNKGAIIGLMVGGVVIA</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>3</th>\n",
       "      <td>training</td>\n",
       "      <td>1</td>\n",
       "      <td>0.121805</td>\n",
       "      <td>0.376764</td>\n",
       "      <td>SAEFRHDSGYEVHHQKLVFFAEDVGSNKGAIIGLMVGGVVIA</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>4</th>\n",
       "      <td>training</td>\n",
       "      <td>1</td>\n",
       "      <td>-2.404340</td>\n",
       "      <td>0.278486</td>\n",
       "      <td>IAEFRHDSGYEVHHQKLVFFAEDVGSNKGAIIGLMVGGVVIA</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>...</th>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>16061</th>\n",
       "      <td>training</td>\n",
       "      <td>2</td>\n",
       "      <td>-0.151502</td>\n",
       "      <td>0.389821</td>\n",
       "      <td>DAEFRHDSGYEVHHQKLVFFAEDVGSNKGAIIGLMVGGVVKV</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>16062</th>\n",
       "      <td>training</td>\n",
       "      <td>2</td>\n",
       "      <td>-1.360708</td>\n",
       "      <td>0.370517</td>\n",
       "      <td>DAEFRHDSGYEVHHQKLVFFAEDVGSNKGAIIGLMVGGVVLV</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>16063</th>\n",
       "      <td>training</td>\n",
       "      <td>2</td>\n",
       "      <td>-0.996816</td>\n",
       "      <td>0.346949</td>\n",
       "      <td>DAEFRHDSGYEVHHQKLVFFAEDVGSNKGAIIGLMVGGVVMV</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>16064</th>\n",
       "      <td>training</td>\n",
       "      <td>2</td>\n",
       "      <td>-3.238403</td>\n",
       "      <td>0.429008</td>\n",
       "      <td>DAEFRHDSGYEVHHQKLVFFAEDVGSNKGAIIGLMVGGVVTV</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>16065</th>\n",
       "      <td>training</td>\n",
       "      <td>2</td>\n",
       "      <td>-1.141457</td>\n",
       "      <td>0.365638</td>\n",
       "      <td>DAEFRHDSGYEVHHQKLVFFAEDVGSNKGAIIGLMVGGVVVV</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "<p>16066 rows × 5 columns</p>\n",
       "</div>"
      ],
      "text/plain": [
       "            set  dist         y        dy  \\\n",
       "0      training     1 -0.117352  0.387033   \n",
       "1      training     1  0.352500  0.062247   \n",
       "2      training     1 -2.818013  1.068137   \n",
       "3      training     1  0.121805  0.376764   \n",
       "4      training     1 -2.404340  0.278486   \n",
       "...         ...   ...       ...       ...   \n",
       "16061  training     2 -0.151502  0.389821   \n",
       "16062  training     2 -1.360708  0.370517   \n",
       "16063  training     2 -0.996816  0.346949   \n",
       "16064  training     2 -3.238403  0.429008   \n",
       "16065  training     2 -1.141457  0.365638   \n",
       "\n",
       "                                                x  \n",
       "0      KAEFRHDSGYEVHHQKLVFFAEDVGSNKGAIIGLMVGGVVIA  \n",
       "1      NAEFRHDSGYEVHHQKLVFFAEDVGSNKGAIIGLMVGGVVIA  \n",
       "2      TAEFRHDSGYEVHHQKLVFFAEDVGSNKGAIIGLMVGGVVIA  \n",
       "3      SAEFRHDSGYEVHHQKLVFFAEDVGSNKGAIIGLMVGGVVIA  \n",
       "4      IAEFRHDSGYEVHHQKLVFFAEDVGSNKGAIIGLMVGGVVIA  \n",
       "...                                           ...  \n",
       "16061  DAEFRHDSGYEVHHQKLVFFAEDVGSNKGAIIGLMVGGVVKV  \n",
       "16062  DAEFRHDSGYEVHHQKLVFFAEDVGSNKGAIIGLMVGGVVLV  \n",
       "16063  DAEFRHDSGYEVHHQKLVFFAEDVGSNKGAIIGLMVGGVVMV  \n",
       "16064  DAEFRHDSGYEVHHQKLVFFAEDVGSNKGAIIGLMVGGVVTV  \n",
       "16065  DAEFRHDSGYEVHHQKLVFFAEDVGSNKGAIIGLMVGGVVVV  \n",
       "\n",
       "[16066 rows x 5 columns]"
      ]
     },
     "execution_count": 6,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "# Introduce single mutations into wt sequence and append to a list\n",
    "single_mut_list = []\n",
    "for mut_pos, mut_char in zip(single_mut_df['Pos'].values,\n",
    "                             single_mut_df['Mut'].values):\n",
    "    mut_seq = list(wt_seq)\n",
    "    mut_seq[mut_pos-1] = mut_char\n",
    "    single_mut_list.append(''.join(mut_seq))\n",
    "    \n",
    "# Introduce double mutations into wt sequence and append to list\n",
    "double_mut_list = []\n",
    "for mut1_pos, mut1_char, mut2_pos, mut2_char in zip(double_mut_df['Pos1'].values,\n",
    "                                                    double_mut_df['Mut1'].values,\n",
    "                                                    double_mut_df['Pos2'].values,\n",
    "                                                    double_mut_df['Mut2'].values):\n",
    "    mut_seq = list(wt_seq)\n",
    "    mut_seq[mut1_pos-1] = mut1_char\n",
    "    mut_seq[mut2_pos-1] = mut2_char\n",
    "    double_mut_list.append(''.join(mut_seq))\n",
    "    \n",
    "# Stack single-mutant and double-mutant sequences\n",
    "x = np.hstack([single_mut_list, \n",
    "               double_mut_list])\n",
    "\n",
    "# Stack single-mutant and double-mutant nucleation scores\n",
    "y = np.hstack([single_mut_df['nscore'].values, \n",
    "               double_mut_df['nscore'].values])\n",
    "\n",
    "# Stack single-mutant and double-mutant nucleation score uncertainties\n",
    "dy = np.hstack([single_mut_df['sigma'].values, \n",
    "                double_mut_df['sigma'].values])\n",
    "\n",
    "# List hamming distances\n",
    "dists = np.hstack([1*np.ones(len(single_mut_df)), \n",
    "                   2*np.ones(len(double_mut_df))]).astype(int)\n",
    "\n",
    "# Assign each sequence to training, validation, or test set\n",
    "np.random.seed(0)\n",
    "sets = np.random.choice(a=['training', 'validation', 'test'], \n",
    "                        p=[.9,.05,.05], \n",
    "                        size=len(x))\n",
    "\n",
    "# Assemble into dataframe\n",
    "final_df = pd.DataFrame({'set':sets, 'dist':dists, 'y':y, 'dy':dy, 'x':x})\n",
    "\n",
    "# # Save to file (uncomment to execute)\n",
    "# final_df.to_csv('amyloid_data.csv.gz', index=False, compression='gzip')\n",
    "\n",
    "# Preview dataframe\n",
    "final_df"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "c5c7a468",
   "metadata": {},
   "source": [
    "This final dataframe, final_df, has the same format as the `amyloid` dataset that comes with MAVE-NN."
   ]
  }
 ],
 "metadata": {
  "kernelspec": {
   "display_name": "Python 3",
   "language": "python",
   "name": "python3"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 3
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
   "version": "3.9.2"
  },
  "varInspector": {
   "cols": {
    "lenName": 16,
    "lenType": 16,
    "lenVar": 40
   },
   "kernels_config": {
    "python": {
     "delete_cmd_postfix": "",
     "delete_cmd_prefix": "del ",
     "library": "var_list.py",
     "varRefreshCmd": "print(var_dic_list())"
    },
    "r": {
     "delete_cmd_postfix": ") ",
     "delete_cmd_prefix": "rm(",
     "library": "var_list.r",
     "varRefreshCmd": "cat(var_dic_list()) "
    }
   },
   "types_to_exclude": [
    "module",
    "function",
    "builtin_function_or_method",
    "instance",
    "_Feature"
   ],
   "window_display": false
  }
 },
 "nbformat": 4,
 "nbformat_minor": 5
}