Code

The document loads taxonomic data, creates an adjacency matrix showing co-occurrences of taxa, constructs a graph from the matrix, embeds the graph nodes in 2D using t-SNE, clusters the embedded nodes using DBSCAN, and plots the results.

Uploaded by

Hugo

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as TXT, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

9 views2 pages

Code

Uploaded by

Hugo

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as TXT, PDF, TXT or read online on Scribd

### Loading the file ###

import pandas as pd
f="C:/MP-CHEW/CHEW/cycle_2/lca.tsv"
df=pd.read_csv(f,sep="\t")#.sample(2000) #you can just sample here for testing
purposes
df["proteins"]=df["proteins"].str.split(", ")
edf=df.explode("proteins")
edf["OX"]=edf["proteins"].str.split("_").apply(lambda x: "_".join(x[-3:])) #these
are the taxonomies (GTDB taxid instead of NCBI)

#Data reduction: trim taxa based on frequency

s=edf.groupby("OX").size()
edf=edf[edf["OX"].isin(s[s>5].index)]
ut=edf["OX"].drop_duplicates()

### create adjacency matrix ###

dfm =edf[["u_ix","OX"]].merge(edf[["u_ix","OX"]],on="u_ix").query("OX_x != OX_y")
out=pd.crosstab(dfm["OX_x"],dfm["OX_y"])

#Data reduction: trim crosstab based on minimum adjacency?

# q=out[out.sum()>2].index
# out=out.loc[q,q]

### Graph construction

import networkx as nx
from node2vec import Node2Vec

graph=nx.from_pandas_adjacency(out)
node2vec=Node2Vec(graph,dimensions=10,walk_length=5,num_walks=20,workers=4) #not
sure what parameters I should select here
model=node2vec.fit(window=10,min_count=1)

### 2D embedding
from sklearn.manifold import TSNE
from sklearn.decomposition import PCA
import numpy as np
import matplotlib.pyplot as plt
# Retrieve node embeddings and corresponding subjects
node_targets = model.wv.index_to_key # list of node IDs
node_embeddings = (
model.wv.vectors
) # numpy.ndarray of size number of nodes times embeddings dimensionality

trans = TSNE(n_components=2) # or PCA

node_embeddings_2d = trans.fit_transform(node_embeddings)

### Clustering

from sklearn.cluster import DBSCAN

sw=s.loc[node_targets]
clustering = DBSCAN(eps=2,
min_samples=1).fit(node_embeddings_2d)#,sample_weight=sw) #distance would need
optimization?
clusters=clustering.labels_
uc=np.unique(clusters)
cluster_count=len(uc)

#plot clusters
import seaborn as sns
node_colors=np.array(sns.color_palette("Spectral",n_colors=cluster_count))
[clusters]
plt.scatter( node_embeddings_2d[:, 0],
node_embeddings_2d[:, 1],
c=node_colors,)

#plot intensity
plt.scatter( node_embeddings_2d[:, 0],
node_embeddings_2d[:, 1],
c=np.log(s.loc[node_targets].values)
,cmap='Spectral',s=0.2)

Graph Analysis Code
No ratings yet
Graph Analysis Code
2 pages
Graph Analysis2 Code
No ratings yet
Graph Analysis2 Code
2 pages
7034 1713335587607 Dimensionality - Reduction - Ipynb Colaboratory
No ratings yet
7034 1713335587607 Dimensionality - Reduction - Ipynb Colaboratory
4 pages
N.E.O of Ai Spacescienceprintout
No ratings yet
N.E.O of Ai Spacescienceprintout
12 pages
Dimensionality Reduction in Python
No ratings yet
Dimensionality Reduction in Python
4 pages
Graph Analysis3 Code
No ratings yet
Graph Analysis3 Code
2 pages
Assignment #1: K Nearest Neighbor Classifier: Name: Srikanth Mujjiga (Roll No: 2015-50-831
No ratings yet
Assignment #1: K Nearest Neighbor Classifier: Name: Srikanth Mujjiga (Roll No: 2015-50-831
8 pages
Assignment 4
No ratings yet
Assignment 4
9 pages
16BCB0126 VL2018195002535 Pe003
No ratings yet
16BCB0126 VL2018195002535 Pe003
40 pages
Assignment 1
No ratings yet
Assignment 1
2 pages
Code and Output of Cancer Detection Model
No ratings yet
Code and Output of Cancer Detection Model
13 pages
Mercedes-Benz Greener Manufacturing Ai
0% (1)
Mercedes-Benz Greener Manufacturing Ai
16 pages
ML Lab Experiment Shortened With Same Output
No ratings yet
ML Lab Experiment Shortened With Same Output
6 pages
ML II Lab
No ratings yet
ML II Lab
5 pages
ML
No ratings yet
ML
7 pages
Week 8 DS Practical
No ratings yet
Week 8 DS Practical
13 pages
Twins Code
No ratings yet
Twins Code
4 pages
ML 7
No ratings yet
ML 7
6 pages
DataScience All 1to8
No ratings yet
DataScience All 1to8
6 pages
Pattern Recognition Lab
No ratings yet
Pattern Recognition Lab
24 pages
AI and ML Lab Programs To Print
No ratings yet
AI and ML Lab Programs To Print
22 pages
ML Journal External
No ratings yet
ML Journal External
14 pages
Wa0003
No ratings yet
Wa0003
16 pages
ML
No ratings yet
ML
11 pages
Data Preprocessing
No ratings yet
Data Preprocessing
9 pages
DEEP LEARNING MANUAL Final
No ratings yet
DEEP LEARNING MANUAL Final
14 pages
Machine Learning Model Building
No ratings yet
Machine Learning Model Building
6 pages
1-Linear Regression and TensorFlow
No ratings yet
1-Linear Regression and TensorFlow
79 pages
Implementing KNN Algorithm On The Iris Dataset
No ratings yet
Implementing KNN Algorithm On The Iris Dataset
7 pages
Mla 7th
No ratings yet
Mla 7th
2 pages
Ai Int-1
No ratings yet
Ai Int-1
6 pages
Dimension Reduction and Classification Analysis
No ratings yet
Dimension Reduction and Classification Analysis
11 pages
Aiml
No ratings yet
Aiml
18 pages
EE 559 HW2Code PDF
No ratings yet
EE 559 HW2Code PDF
7 pages
Clustering
No ratings yet
Clustering
1 page
Boston Housing
No ratings yet
Boston Housing
5 pages
1
No ratings yet
1
13 pages
Mlalllabprgs
No ratings yet
Mlalllabprgs
17 pages
AIML Lab 10
No ratings yet
AIML Lab 10
4 pages
Medical Data ML
No ratings yet
Medical Data ML
6 pages
DM ML Practical
No ratings yet
DM ML Practical
13 pages
Slip
No ratings yet
Slip
5 pages
ML Minimized Programs
No ratings yet
ML Minimized Programs
9 pages
AML Lab
No ratings yet
AML Lab
14 pages
Protein Code Explanation
No ratings yet
Protein Code Explanation
9 pages
Py 2
No ratings yet
Py 2
7 pages
Spectral Clustering
No ratings yet
Spectral Clustering
5 pages
Annex e Gui
No ratings yet
Annex e Gui
8 pages
DNN Lab Manual for MCA Semester II
No ratings yet
DNN Lab Manual for MCA Semester II
34 pages
DWM
No ratings yet
DWM
12 pages
Big Data Assignment - 7
No ratings yet
Big Data Assignment - 7
7 pages
Graph Embedding for Dimensionality Reduction
No ratings yet
Graph Embedding for Dimensionality Reduction
12 pages
Market Analysis by Pchandru
No ratings yet
Market Analysis by Pchandru
10 pages
HRMS Project Report
No ratings yet
HRMS Project Report
21 pages
Intro Cluster Problem Python
No ratings yet
Intro Cluster Problem Python
13 pages
ML Programs
No ratings yet
ML Programs
14 pages
Psii Viii
No ratings yet
Psii Viii
2 pages
Face Recognition Using Pca - Ipynb
No ratings yet
Face Recognition Using Pca - Ipynb
843 pages

Code

Uploaded by

Code

Uploaded by

### Loading the file ###

#Data reduction: trim taxa based on frequency

### create adjacency matrix ###

#Data reduction: trim crosstab based on minimum adjacency?

### Graph construction

trans = TSNE(n_components=2) # or PCA

from sklearn.cluster import DBSCAN

You might also like