Substr In Stata Forex

Ich habe Beobachtungen, die Strafcodes als String-Variablen auflisten, aber nicht im Format, das ich brauche. Mit Stata 12, möchte ich einige Teilzeichenfolgen in einer Zeichenfolge-Variable ersetzen. Zum Beispiel muss ich alle Instanzen von CC auf 18 ändern. VC auf 75. und PC auf 35. Wie so: Die Zeichen, die ich ändern müssen, sind immer am Anfang. Einige ursprüngliche Variablen müssen nicht geändert werden. Ich versuchte, dies herauszufinden, mit dem Befehl substring, aber ich konnte nur nicht passen Sie den Code korrekt. Fragte am 22. Oktober 14 um 23: 39NOTICE: Die IDRE Statistische Beratungsgruppe wird die Website im Februar auf das WordPress CMS migrieren, um die Wartung und die Erstellung neuer Inhalte zu erleichtern. Einige unserer älteren Seiten werden entfernt oder archiviert, so dass sie nicht länger erhalten bleiben. Wir werden versuchen, die Weiterleitungen so zu halten, dass die alten URLs weiterhin so gut funktionieren, wie wir können. Willkommen beim Institut für Digitale Forschung und Bildung Hilfe der Stat Consulting Group durch ein Geschenk Stata FAQ: Wie kann ich einen Teil einer String-Variable mit regulären Ausdrücken extrahieren Die String-Verarbeitung ist in Stata aufgrund der vielen eingebauten String-Funktionen ziemlich einfach . Unter diesen String-Funktionen sind drei Funktionen, die sich auf reguläre Ausdrücke, Regexm für Matching, Regexr für den Ersatz und Regexs für Unterausdrücke beziehen. Wir zeigen einige Beispiele für die Verwendung von regulärem Ausdruck zu extrahieren und zu ersetzen einen Teil einer Zeichenfolge Variable mit diesen drei Funktionen. Am unteren Rand der Seite ist eine Erklärung für alle regulären Ausdrucksoperatoren sowie die Funktionen, die mit regulären Ausdrücken arbeiten. Beispiel 1: Ein Forscher hat Adressen als String-Variable und möchte eine neue Variable erstellen, die nur die Postleitzahlen enthält. Beispiel 2: Wir haben eine Variable, die vollständige Namen in der Reihenfolge des Vornamens und dann des Nachnamens enthält. Wir wollen eine neue Variable mit vollem Namen in der Reihenfolge des Nachnamens erstellen und dann den Vornamen durch Komma getrennt haben. Beispiel 2: Die Daten wurden als String-Variable eingegeben, in einigen Fällen wurde das Jahr als vierstelliger Wert eingegeben (was Stata generell erwartet), aber in anderen Fällen wurde er als zweistelliger Wert eingetragen. Wir möchten eine Datumsvariable im numerischen Format auf Basis dieser Stringvariablen erstellen. Diese Aufgabe kann eigentlich problemlos mit regelmäßigen Stata-Befehlen behandelt werden, siehe unsere FAQ-Seite Meine Datumsvariable ist eine Zeichenfolge, wie kann ich sie in eine Datumsvariable verwandeln, die Stata für Informationen darüber informieren kann. Wir haben dieses Beispiel hier für Demonstrationszwecke eingeschlossen, nicht weil reguläre Ausdrücke notwendigerweise der beste Weg sind, um diese Situation zu bewältigen. In diesen Situationen können reguläre Ausdrücke verwendet werden, um Fälle zu identifizieren, in denen ein String einen Satz von Werten enthält (z. B. ein bestimmtes Wort, eine Zahl, gefolgt von einem Wort usw.) und extrahieren diesen Satz von Werten aus der gesamten Zeichenfolge für die Verwendung an anderer Stelle. Beispiel 1: Extrahieren von Postleitzahlen aus Adressen Lässt mit einigen gefälschten Adressen von Adressen beginnen. Um die Postleitzahl zu finden, suchen wir eine fünfstellige Nummer innerhalb einer Adresse. Der gen-Befehl (short for quotgeneratequot) unten sagt Stata, um eine neue Variable namens zip zu generieren. Der Rest des Kommandos ist ein wenig heikles, das Quiftetat wird zuerst ausgewertet, wenn (regexm (Adresse, 0-90-90-90-90-9)) die Variablenadresse für eine fünfstellige Zahl sucht und wenn ja Eine fünffache Zahl in der Variablenadresse finden. Die Regexs (0) zeigen an, dass Stata den Wert von Zip so einstellen soll, dass er gleich der fünfstelligen Zahl ist. Wir weisen darauf hin, dass wir eine fünfstellige Zahl wünschen, indem wir 0-9 fünfmal angeben. Sofern nicht anders angegeben, mit, Markieren, wird einer und nur einer der in Klammern enthaltenen Zeichen abgestimmt. Dies bedeutet, dass das Zusammenführen von fünf dieser Ausdrücke zusammen eine Reihe von genau fünf Ziffern finden kann. Beachten Sie, dass die 0-9 anzeigt, dass der Ausdruck mit jedem Zeichen 0 bis 9 übereinstimmen sollte (d. H. 0, 1, 2, 3, 4, 5, 6, 7, 8 und 9 sind alle Übereinstimmungen). Beispiel 1, Variation Number 1 In unserem vereinfachten Beispiel oben hat keine der Adressen fünfstellige Straßennummern. Was ist, wenn es Adressen mit fünfstelligen Straßennummern gibt, schauen wir uns einen anderen Datensatz von gefälschten Adressen an und sehen, was passiert, wenn wir versuchen, denselben Code oben zu verwenden. Anscheinend funktioniert das nicht richtig, da die letzten beiden Zeilen des Variablen-Reißverschlusses die Straßennummern für diese Adressen anstelle von Postleitzahlen abgeholt haben. In diesem Datensatz erscheint die Postleitzahl am Ende der Adressfolge. Wenn wir davon ausgehen, dass dies der Fall für alle Adressen in den Daten ist, wird das Heilmittel wirklich einfach sein. Wir können festlegen, dass Stata eine fünfstellige Zahl am Ende des Strings finden soll. Deutsch: www. tab. fzk. de/de/projekt/zusammenf...ng/ab117.htm. Beispiel 1, Variation Number 2 Manchmal enthält die Postleitzahl auch die vierstellige Erweiterung und der Ländername kann auch am Ende der Adresse erscheinen, z. B. in einigen der unten aufgeführten Adressen. Bei dieser Art von realistischer Situation funktioniert der Code in den vorherigen Beispielen nicht ordnungsgemäß, da es zusätzliche Zeichen gibt, nachdem die Postleitzahl extrahiert wurde. Hier ist, wie wir es mit einem komplizierteren regulären Ausdruck machen können. Was wir im regulären Ausdruck hinzugefügt haben, ist dieses Sub-: -0-9 a-zA-Zquot. Es gibt drei Komponenten in diesem regulären Ausdruck. - - passende Null - oder mehr Bindestriche-Ziffern 0-9 - passende Null - oder mehr Zahlen a-zA-Z - passend zu null oder mehr Leerzeichen oder Buchstaben Diese Ergänzungen erlauben uns, die Fälle, in denen es nach dem Reißverschluss hinterlässt, zusammenzufassen Code und die Postleitzahl korrekt zu extrahieren. Beachten Sie, dass wir auch quotregexs (1) anstelle von quotregexs (0) wie früher verwendet haben, weil wir jetzt Subausdrücke verwenden, die durch das Paar von Klammern in "(0-90-90-90-90-9) angegeben sind . Eine andere Strategie, die in manchen Fällen besser funktionieren könnte, ist der reguläre Ausdruck In diesem Beispiel stimmt die Periode (d. h.) jedem Charer zu, und der Asterix alleine () passt zu beliebigen Zeichen. Gemeinsam zeigen die beiden an, dass die Zahl, die wir suchen, nicht am Anfang der Saite auftreten sollte, sondern irgendwann nachher auftreten kann. Beispiel 2: Vorname und Nachname extrahieren und deren Reihenfolge umschalten Wir haben eine Variable, die einen vollständigen Namen in der Reihenfolge Vorname und dann Nachname enthält. Wir wollen eine neue Variable für den vollständigen Namen in der Reihenfolge des Nachnamens erstellen und dann den Vornamen durch Komma getrennt haben. Zum Starten können Sie einen Beispieldatensatz erstellen. Jetzt müssen wir das erste Wort und das zweite Wort erfassen und tauschen. Hier ist der reguläre Ausdruck für diesen Zweck: ((a-zA-Z) (a-zA-Z)). Es gibt drei Teile in diesem regulären Ausdruck: (a-zA-Z) - Unterausdruck, der eine Zeichenkette mit Buchstaben, Kleinbuchstaben und Großbuchstaben erfasst. Das ist der Vorname. - passend zu platz (s) Dies ist der Abstand zwischen Vorname und Nachname. (A-zA-Z) - Unterausdruck, der einen String mit Buchstaben aufnimmt. Das ist der Nachname. Das funktioniert ja Lets sehen, wie Regexs in diesem Fall funktioniert. Regex identifiziert tatsächlich eine Anzahl von Abschnitten, basierend auf dem ganzen Ausdruck sowie den Unterausdrücken. Der folgende Code verwendet Regexs, um jede dieser Komponenten (Unterausdrücke) in ihre eigene Variable zu platzieren und sie dann anzuzeigen. Beispiel 3: Zwei - und vierstellige Werte für das Jahr. In diesem Beispiel haben wir Daten als String-Variable eingegeben. Stata kann dies mit Standardbefehlen behandeln (siehe quotMy Datumsvariable ist ein String, wie kann ich es in eine Datumsvariable verwandeln, die Stata erkennen kann), wir verwenden dies als Beispiel dafür, was man mit regulären Ausdrücken machen könnte. Das Ziel dieses Prozesses ist es, für jeden Fall eine Stringvariable mit dem entsprechenden vierstelligen Jahr zu erzeugen, die Stata dann leicht in ein Datum umwandeln kann. Um dies zu tun, werden wir zunächst jedes Element des Datums (Tag, Monat und zwei - oder vierstelliges Jahr) in eine eigene Variable trennen, dann werden wir das richtige vierstellige Jahr in Fällen abgeben, in denen es derzeit nur gibt Zwei Ziffern, schließlich verketten wir die Variablen, um eine einzelne Stringvariable zu erstellen, die Monat, Tag und vierstellige Jahre enthält. Zuerst geben wir die Daten ein: Als nächstes wollen wir den Tag des Monats identifizieren und ihn in eine Variable mit dem Namen Tag setzen. Um dies zu tun, weisen wir Stata an, den Tag zu finden, indem wir den Anfang des Strings (d. h. das Datum) für einen oder mehrere Werte von 0-9 betrachten. (Mit anderen Worten, suche eine Nummer am Anfang der Zeile, da wir die erste Serien von Zahlen kennen, ist der Tag.) Generiere einen neuen Variablentag. Und setze diesen Wert gleich. Die Zeile der Syntax unten findet den Monat, indem man einen oder mehrere Buchstaben zusammen in der Zeichenfolge sucht. Dann erzeugt der variable Monat und setzt ihn gleich dem im String identifizierten Monat. Das Jahr ist, wo die Dinge komplexer werden. Beachten Sie, dass die Werte für die Zuweisung von Jahrhunderten auf meiner Kenntnis meiner Daten basieren. Zuerst extrahieren wir alle Ziffern für Jahr. Wir verwenden den Quarter-Operator, um anzuzeigen, dass die Suche vom Ende des Strings erfolgt. Dann drehen wir die String-Variable in eine numerische Variable mit Statas-Funktion quotrealquot. Die nächste Aktion beinhaltet den Umgang mit zweistelligen Jahren beginnend mit quot0quot. Das entspricht den letzten Jahren im einundzwanzigsten Jahrhundert. Um diese in vierstellige Jahre zu verwandeln, verknüpfen wir (mit dem) die mit dem String quot20quot identifizierten String (das zweistellige Jahr). Als nächstes finden wir die zweistelligen Jahre 10-99, und verknüpfen diese Zeichenfolgen mit dem String quot19quot. Schließlich erstellen wir das variable date2, welches unser Datum nur vierstellige Jahre enthält. (Wir könnten auch die drei Variablen, Tag, Monat und Jahr verwenden, um eine Datumsvariable mit den Stata-Datumsfunktionen zu erstellen.) Reguläre Ausdrücke Reguläre Ausdrücke sind im Allgemeinen eine Möglichkeit, nach dem Auftreten und in einigen Fällen das Vorkommen zu ersetzen Ein Muster innerhalb eines Strings, der auf einem Satz von Regeln basiert. Diese Regeln werden mit einem Satz von Operatoren definiert. Die folgende Tabelle zeigt alle Betreiber, die Stata akzeptiert und erklärt. Beachten Sie, dass in Stata reguläre Ausdrücke immer in Anführungszeichen fallen. Eckige Klammern zeigen an, dass eine der Zeichen in den Klammern angepasst werden sollte. Zum Beispiel, wenn ich nach einem einzigen Buchstaben zwischen f und m suchen wollte, würde ich den Befehl quot-mquot A eingeben, dass jeder Wert innerhalb dieses Bereichs akzeptabel ist. Dies ist case-sensitive, also ist a-z nicht das gleiche wie A-Z, wenn jeder Fall als Match gezählt werden kann, beinhalten beide a-zA-Z. Numerische Werte sind auch als Bereiche akzeptabel (z. B. 0-9). Eine Periode entspricht jedem Charakter. Ermöglicht es Ihnen, Zeichen zu übereinstimmen, die normalerweise reguläre Ausdrucksoperatoren sind. Zum Beispiel, wenn du mit einem Quartett übereinstimmen würdest, würdest du statt nur ein einziges schreiben. Match null oder mehr der Zeichen im vorherigen Ausdruck. Zum Beispiel, wenn ich eine Nummer aus einer oder mehreren Ziffern zusammenstellen wollte, wenn es eine Nummer gibt, aber trotzdem eine Übereinstimmung angeben möchte, wenn der Rest des Ausdrucks passt, könnte ich 0-9 anpassen. Ein oder mehrere Zeichen eingeben Im vorigen Ausdruck. Zum Beispiel, wenn ich wollte ein Wort mit einer beliebigen Kombination von Buchstaben, würde ich spezifizieren a-zA-Z Match entweder Null oder eines der vorherigen Ausdruck. Wenn es am Anfang eines Ausdrucks erscheint, zeigt ein Quittung an, dass der folgende Ausdruck am Anfang des Strings erscheinen soll. Wenn es am Ende eines Ausdrucks erscheint, zeigt ein Quittung an, dass der vorhergehende Ausdruck am Ende des Strings erscheinen soll. Zum Beispiel, wenn ich wollte eine Nummer, die das letzte, was am Ende eines Strings erscheinen würde passieren würde, würde ich quot0-9quot Der logische Operator oder, was darauf hinweist, dass entweder der Ausdruck vor oder nach ihm qualifizieren als Match. Erstellt einen Unterausdruck in einem größeren Ausdruck. Nützlich mit dem Quotorquot-Perator (d. h.) und beim Extrahieren und Ersetzen von Werten. Zum Beispiel, wenn ich einen numerischen Wert extrahieren wollte, den ich kenne, folgt direkt nach einem Wort oder einem Satz von Buchstaben, könnte ich den regulären Ausdruck a-zA-Z (0-9) verwenden, das entspricht dem ganzen Ausdruck, aber erlaubt dir Um den Teil in den Klammern auszuwählen (als Teilstring bezeichnet). Die Handhabung von Teilstrings wird nachfolgend näher erläutert. Diese Ausdrücke können kombiniert werden, um nach einer Vielzahl von Saiten zu suchen. Wie oben erwähnt, gibt es drei Arten von Funktionen, die mit regulären Ausdrücken in Stata vorgeformt werden können (wenn Sie kreativ sind, können Sie eine beliebige Anzahl von anderen Dingen mit diesen Funktionen machen, aber die grundlegenden Werkzeuge sind die eingebauten Stata-Funktionen). Stata hat getrennte Befehle für jede der drei Arten von Aktionen, die reguläre Ausdrücke ausführen können: regexm - verwendet, um passende Zeichenfolgen zu finden, wertet eine, wenn es eine Übereinstimmung gibt, und null ansonsten regexs - verwendet, um den n-ten Teilstring innerhalb eines Ausdrucks zurückzusetzen Von regexm (daher muss regexm immer vor regexs laufen, beachten Sie, dass ein quotifquot zuerst ausgewertet wird, obwohl es später auf der Zeile der Syntax erscheint). Regexr - verwendet, um einen passenden Ausdruck mit etwas anderem zu ersetzen. Jeder von ihnen hat eine etwas andere Syntax. Die folgende Zeile zeigt die Syntax für regexm. Das heißt, die Funktion, die Ihrem regulären Ausdruck entspricht, wobei die Zeichenfolge entweder eine Zeichenfolge ist, die Sie selbst eingeben, einen String aus einem Makro oder am häufigsten den Namen einer Variablen. Regulärer Ausdruck ist der reguläre Ausdruck für den String, den Sie gerne finden möchten, beachten Sie, dass er in Anführungszeichen erscheinen muss. Für regexs, das heißt, um alle oder einen Teil einer Zeichenfolge aufzurufen, ist die Syntax: Wo ist n die Nummer, die dem Teilstring zugewiesen wird, den Sie extrahieren möchten. Die Teilstrings sind tatsächlich geteilt, wenn man regexm ausführt. Der gesamte Teilstring wird in Null zurückgegeben, und jeder Teilstring wird nacheinander von 1 bis n numeriert. Zum Beispiel gibt regexm (907-789-3939, (0-9) - (0-9) - (0-9)) folgendes zurück: Beachten Sie, dass in den Unterausdrücken 1, 2 und 3 die Bindestriche fallen gelassen werden Sie sind nicht in den Klammern enthalten, die die Unterausdrücke markieren. Sie können einen weiteren Blick darauf werfen, wie dies mit der folgenden Syntax funktioniert, die den Befehl display verwendet, um die Funktion auszuführen. Weil sie Funktionen sind, arbeiten die Regex-Befehle innerhalb anderer Befehle (z. B. generieren), können aber nicht auf eigene Faust verwendet werden (d. h. Sie können keinen Befehl in Stata mit regexm (.)) Starten. Der Inhalt dieser Website sollte nicht als eine Bestätigung für eine bestimmte Website, ein Buch oder ein Softwareprodukt der Universität von Kalifornien verstanden werden.

Online Greding (Bavaria)

Search This Blog

Substr In Stata Forex

Comments

Post a Comment

Popular posts from this blog

Stochastisches Diagramm Forex

Devisen Kerzenmuster Indikator Forex

Management Mythos Unternehmen Dossier Ökonomisch Mal Forex