WPROWADZENIE: Jestem bioinformatykiem. W mojej analizie, którą wykonuję na wszystkich ludzkich genach (około 20 000), szukam konkretnego motywu krótkiej sekwencji, aby sprawdzić ile razy ten motyw występuje w każdym genie.Dopasowywanie dystrybucji, dobro dopasowania, wartość p. Czy można to zrobić za pomocą Scipy (Python)?
Geny są "pisane" w liniowej sekwencji w czterech literach (A, T, G, C). Na przykład: CGTAGGGGGTTTAC ... Jest to czteroliterowy alfabet kodu genetycznego, który jest jak tajny język każdej komórki, tak naprawdę DNA przechowuje informacje.
Podejrzewam, że częste powtarzanie określonej sekwencji krótkiego motywu (AGTGGAC) w niektórych genach ma kluczowe znaczenie w konkretnym procesie biochemicznym w komórce. Ponieważ sam motyw jest bardzo krótki, trudno jest narzędziom obliczeniowym odróżnić prawdziwe funkcjonalne przykłady w genach od tych, które wyglądają podobnie przez przypadek. Aby uniknąć tego problemu, otrzymuję sekwencje wszystkich genów i łączę się w jeden ciąg i tasuje. Długość każdego z oryginalnych genów została zapisana. Następnie dla każdej z pierwotnych długości sekwencji skonstruowano losową sekwencję przez wielokrotne wybieranie A lub T lub G lub C losowo ze sprzężonej sekwencji i przeniesienie jej do losowej sekwencji. W ten sposób otrzymany zestaw losowych sekwencji ma taki sam rozkład długości, jak również ogólny skład A, T, G, C. Następnie szukam motywu w tych losowych sekwencjach. Wykonałem tę procedurę 1000 razy i uśredniłem wyniki.
15000 geny nie zawierać określony motyw 5000 geny, które zawierają 1 motif 3000 geny, które zawierają 2 motywy 1000 genów, które zawierają 3 motywy ... jeden gen, który zawiera 6 motywy
Dlatego nawet po 1000 razy randomizacji prawdziwego kodu genetycznego nie ma żadnych genów, które mają więcej niż 6 motywów. Ale w prawdziwym kodzie genetycznym jest kilka genów, które zawierają więcej niż 20 wystąpień tego motywu, co sugeruje, że te powtórzenia mogą być funkcjonalne i jest mało prawdopodobne, aby znalazły je w takiej obfitości przez czysty przypadek.
PROBLEM: Chciałbym poznać prawdopodobieństwo znalezienia genu z powiedzmy 20 wystąpień motywu w mojej dystrybucji. Chcę więc poznać prawdopodobieństwo znalezienia takiego genu przez przypadek. Chciałbym wdrożyć to w Pythonie, ale nie wiem jak.
Czy mogę przeprowadzić taką analizę w Pythonie?
Każda pomoc zostanie doceniona.
Należy pamiętać, że zasadniczo zmodyfikowane zapytanie.Czy będzie możliwe przywrócenie tego pytania do pierwotnego pytania oraz wyraźnej sekcji "aktualizacja" dla wszystkich nowych szczegółów? A może tylko nowe pytanie? Dzięki – eat
Możesz rozważyć zgłoszenie tego na [BioStar] (http://biostar.stackexchange.com/questions) – ars
Zadaję nowe pytanie: http://stackoverflow.com/questions/6620471/fitting-empirical-distribution-to -theoretical-one-with-scipy-python –