Aktuelles
  Seminar
  LS Liesenfeld
  LS Mosler
  Mitarbeiter
  Lehre
Diplom
Bachelor
Master
Promotion
  Forschung
  Bibliothek
  Links
 
   

     Uni Köln > WiSo-Fakultät > Seminar für Wirtschafts- und Sozialstatistik > Institut > LS Mosler > Prof. Mosler > Datenportal

Datenportal des Lehrstuhls für Statistik und Ökonometrie

 

Ecoli (CP vs PP) data


The data set (and description) can be downloaded here:
http://archive.ics.uci.edu/ml/machine-learning-databases/ecoli/ecoli.data


Description:

1. Title: Protein Localization Sites


2. Creator and Maintainer:
     Kenta Nakai
             Institue of Molecular and Cellular Biology
     Osaka, University
     1-3 Yamada-oka, Suita 565 Japan
     nakai@imcb.osaka-u.ac.jp
             http://www.imcb.osaka-u.ac.jp/nakai/psort.html
   Donor: Paul Horton (paulh@cs.berkeley.edu)
   Date:  September, 1996
   See also: yeast database

3. Past Usage.
Reference: "A Probablistic Classification System for Predicting the Cellular 
           Localization Sites of Proteins", Paul Horton & Kenta Nakai,
           Intelligent Systems in Molecular Biology, 109-115.
   St. Louis, USA 1996.
Results: 81% for E.coli with an ad hoc structured
 probability model. Also similar accuracy for Binary Decision Tree and
 Bayesian Classifier methods applied by the same authors in
 unpublished results.

Predicted Attribute: Localization site of protein. ( non-numeric ).


4. The references below describe a predecessor to this dataset and its 
development. They also give results (not cross-validated) for classification 
by a rule-based expert system with that version of the dataset.

Reference: "Expert Sytem for Predicting Protein Localization Sites in 
           Gram-Negative Bacteria", Kenta Nakai & Minoru Kanehisa,  
           PROTEINS: Structure, Function, and Genetics 11:95-110, 1991.

Reference: "A Knowledge Base for Predicting Protein Localization Sites in
   Eukaryotic Cells", Kenta Nakai & Minoru Kanehisa, 
   Genomics 14:897-911, 1992.


5. Number of Instances:  336 for the E.coli dataset and 


6. Number of Attributes.
         for E.coli dataset:  8 ( 7 predictive, 1 name )

     
7. Attribute Information.

  1.  Sequence Name: Accession number for the SWISS-PROT database
  2.  mcg: McGeoch's method for signal sequence recognition.
  3.  gvh: von Heijne's method for signal sequence recognition.
  4.  lip: von Heijne's Signal Peptidase II consensus sequence score.
           Binary attribute.
  5.  chg: Presence of charge on N-terminus of predicted lipoproteins.
   Binary attribute.
  6.  aac: score of discriminant analysis of the amino acid content of
   outer membrane and periplasmic proteins.
  7. alm1: score of the ALOM membrane spanning region prediction program.
  8. alm2: score of ALOM program after excluding putative cleavable signal
   regions from the sequence.



8. Missing Attribute Values: None.


9. Class Distribution. The class is the localization site. Please see Nakai &
       Kanehisa referenced above for more details.

  cp  (cytoplasm)                                    143
  im  (inner membrane without signal sequence)        77               
  pp  (perisplasm)                                    52
  imU (inner membrane, uncleavable signal sequence)   35
  om  (outer membrane)                                20
  omL (outer membrane lipoprotein)                     5
  imL (inner membrane lipoprotein)                     2
  imS (inner membrane, cleavable signal sequence)      2


Citation Request:

Please refer to the repository http://archive.ics.uci.edu/ml (see citation policy).
See also Frank, A. & Asuncion, A. (2010). UCI Machine Learning Repository
[http://archive.ics.uci.edu/ml].
Irvine, CA: University of California, School of Information and Computer Science.


Descriptive statistics:

Dataset= ecoli_cpvspp : n= 195 , d= 5 


Class1: n= 143 

Covariance matrix:
        [,1]    [,2]    [,3]    [,4]    [,5]
[1,]  0.0153  0.0027 -0.0009  0.0006 -0.0008
[2,]  0.0027  0.0080 -0.0012  0.0022  0.0012
[3,] -0.0009 -0.0012  0.0077 -0.0008 -0.0004
[4,]  0.0006  0.0022 -0.0008  0.0098  0.0085
[5,] -0.0008  0.0012 -0.0004  0.0085  0.0092

Correlation matrix:
        [,1]    [,2]    [,3]    [,4]    [,5]
[1,]  1.0000  0.2397 -0.0855  0.0478 -0.0636
[2,]  0.2397  1.0000 -0.1579  0.2435  0.1382
[3,] -0.0855 -0.1579  1.0000 -0.0893 -0.0445
[4,]  0.0478  0.2435 -0.0893  1.0000  0.8957
[5,] -0.0636  0.1382 -0.0445  0.8957  1.0000

Median:          0.3597 0.4085 0.4512 0.3117 0.3976 

Mean:            0.3636 0.4097 0.4545 0.3127 0.3952 
MCD-estimated:
MDC-0.975-Mean:  0.3454 0.4056 0.4542 0.321  0.4155 
MDC-0.750-Mean:  0.3454 0.4056 0.4542 0.321  0.4155 
MDC-0.500-Mean:  0.3454 0.4056 0.4542 0.321  0.4155 


Class2: n= 52 

Covariance matrix:
        [,1]    [,2]    [,3]    [,4]    [,5]
[1,]  0.0082  0.0049 -0.0017  0.0035 -0.0011
[2,]  0.0049  0.0167 -0.0046  0.0008 -0.0012
[3,] -0.0017 -0.0046  0.0073 -0.0006  0.0012
[4,]  0.0035  0.0008 -0.0006  0.0102  0.0040
[5,] -0.0011 -0.0012  0.0012  0.0040  0.0140

Correlation matrix:
        [,1]    [,2]    [,3]    [,4]    [,5]
[1,]  1.0000  0.4169 -0.2151  0.3791 -0.1011
[2,]  0.4169  1.0000 -0.4196  0.0649 -0.0761
[3,] -0.2151 -0.4196  1.0000 -0.0658  0.1182
[4,]  0.3791  0.0649 -0.0658  1.0000  0.3309
[5,] -0.1011 -0.0761  0.1182  0.3309  1.0000

Median:          0.6617 0.7065 0.4372 0.4572 0.3642 

Mean:            0.6521 0.6998 0.4367 0.4681 0.3744 
MCD-estimated:
MDC-0.975-Mean:  0.6726 0.7238 0.4279 0.4633 0.3636 
MDC-0.750-Mean:  0.6726 0.7238 0.4279 0.4633 0.3636 
MDC-0.500-Mean:  0.6724 0.7213 0.4292 0.4584 0.3584 


Measures:
Mah.Dist:                        3.7929 
Mah.Dist-MCD-0.975:              4.6429 
Mah.Dist-MCD-0.750:              4.6949 
Mah.Dist-MCD-0.500:              4.6429 
 



 

Zuletzt geändert am 17.02.2013