rohitashwachaks
diff --git a/‎contracts/portfolio.py‎
Lines changed: 2 additions & 1 deletion b/‎contracts/portfolio.py‎
Lines changed: 2 additions & 1 deletion
diff --git a/‎core/backtester.py‎
Lines changed: 10 additions & 8 deletions b/‎core/backtester.py‎
Lines changed: 10 additions & 8 deletions
diff --git a/‎core/data_loader.py‎
Lines changed: 52 additions & 18 deletions b/‎core/data_loader.py‎
Lines changed: 52 additions & 18 deletions
diff --git a/‎core/market_data.py‎
Lines changed: 29 additions & 16 deletions b/‎core/market_data.py‎
Lines changed: 29 additions & 16 deletions
diff --git a/‎data_ingestion/alpaca_fetcher.py‎
Lines changed: 2 additions & 2 deletions b/‎data_ingestion/alpaca_fetcher.py‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎data_ingestion/polygon_fetcher.py‎
Lines changed: 66 additions & 2 deletions b/‎data_ingestion/polygon_fetcher.py‎
Lines changed: 66 additions & 2 deletions
diff --git a/‎data_ingestion/yahoo_fetcher.py‎
Lines changed: 5 additions & 1 deletion b/‎data_ingestion/yahoo_fetcher.py‎
Lines changed: 5 additions & 1 deletion
@@ -19,7 +19,7 @@ def __init__(self,
                  tickers: str | List[str],
                  starting_cash: float,
                  strategy: str,
-                 benchmark: str = "SPY",
+                 benchmark: Optional[str] = None,
                  guardrail: Optional[str] = None,
                  rebalance_freq: Optional[str] = None,
                  recomposition_freq: Optional[str] = None,
@@ -53,6 +53,7 @@ def __init__(self,
         self.strategy = StrategyFactory.create_strategy(strategy)
 
         # Initialise benchmark
+        benchmark = benchmark if benchmark else tickers[0]
         benchmark = clean_ticker(benchmark)
         assert isinstance(benchmark, str), "Benchmark must be a string"
         self.benchmark = benchmark
 
@@ -1,4 +1,4 @@
-from typing import List
+from typing import List, Optional
 import pandas as pd
 from tqdm import tqdm
 
@@ -38,13 +38,9 @@ def __init__(self, strategy: 'StrategyBase',
         self.executor = executor
 
         self.tickers = portfolio.tickers
-        self.start_date = None
-        self.end_date = None
         self.signals = {}
 
-    def run(self, start_date: str, end_date: str):
-        self.start_date = pd.to_datetime(start_date)
-        self.end_date = pd.to_datetime(end_date)
+    def run(self, end_date: str, start_date: Optional[str] = None, interval='1d', period='5y'):
 
         # Fetch market data for all tickers
         # check for strategy lok-back period, if any, and adjust start_date accordingly
@@ -56,15 +52,21 @@ def run(self, start_date: str, end_date: str):
             else:
                 raise ValueError("lookback_period must be an integer representing days")
         self.market_data.get_market_data(self.tickers + [self.portfolio.benchmark],
-                                         start_date=start_date, end_date=end_date)
+                                         start_date=start_date, end_date=end_date,
+                                         interval=interval, period=period)
 
         # Iterate through the common index dates
         for current_date in tqdm(self.market_data.dates):
             try:
                 # Generate slice of
                 # --- MARKET DATA: FETCH HISTORICAL DATA FOR ALL TICKERS ---
                 # current_date = pd.to_datetime(current_date)
-                historical_data = self.market_data.get_history(self.tickers, end_date=current_date, lookback=self.strategy.lookback_period)
+
+                historical_data = self.market_data.get_history(self.tickers, lookback=self.strategy.lookback_period, end_date=current_date)
+                if not historical_data:
+                    continue
+
+                # current_date = historical_data.iloc[-1].name
 
                 # --- PURE STRATEGY: ONLY GENERATE SIGNALS ---
                 signals = self.strategy.generate_signals(historical_data, current_date=current_date,
 
@@ -1,57 +1,71 @@
 import os
 import hashlib
+from datetime import datetime, timedelta
+
 import pandas as pd
-from typing import Dict, List
+from typing import Dict, List, Optional
+
+from utils.config import DATA_CACHE
+from utils.utils import period_to_timedelta
 
 
-def _make_cache_key(ticker: str, start_date: str, end_date: str, source: str) -> str:
-    key = f"{ticker}_{start_date}_{end_date}_{source}"
+def _make_cache_key(*args, **kwargs) -> str:
+    key = '_'.join(args)
     return hashlib.md5(key.encode()).hexdigest()
 
 
-def _fetch_data(ticker: str, start_date: str, end_date: str, source: str) -> pd.DataFrame:
+def _fetch_data(ticker: str, start_date: str, end_date: str, interval: str, source: str) -> pd.DataFrame:
     if source == "yahoo":
         from data_ingestion.yahoo_fetcher import fetch_yahoo_data
-        return fetch_yahoo_data(ticker, start_date, end_date)
+        return fetch_yahoo_data(ticker, start_date, end_date, interval)
     elif source == "alpaca":
         from data_ingestion.alpaca_fetcher import fetch_alpaca_data
-        return fetch_alpaca_data(ticker, start_date, end_date)
+        return fetch_alpaca_data(ticker, start_date, end_date, interval)
     elif source == "polygon":
         from data_ingestion.polygon_fetcher import fetch_polygon_data
-        return fetch_polygon_data(ticker, start_date, end_date)
+        return fetch_polygon_data(ticker, start_date, end_date, interval)
     else:
         raise ValueError(f"Unsupported data source: {source}. Supported sources are 'yahoo', 'alpaca', and 'polygon'.")
 
 
-def load_price_data(ticker: str, start_date: str, end_date: str,
+def load_price_data(ticker: str, end_date: str,
+                    start_date: Optional[str] = None,
+                    interval: str = '1d',
                     use_cache: bool = True,
                     force_refresh: bool = False,
                     source: str = "yahoo") -> pd.DataFrame:
     """
     Load historical OHLCV data for a single ticker from the specified data source.
 
     Args:
-        ticker (str): The ticker ticker of the security.
-        start_date (str): The start date of the data range.
+        ticker (str): The ticker of the security.
         end_date (str): The end date of the data range.
+        start_date (str, optional): The start date of the data range.
+        interval (str): The data interval.
+        period (int): The data period.
         use_cache (bool, optional): Whether to use cached data. Defaults to True.
         force_refresh (bool, optional): Whether to force a refresh of the data. Defaults to False.
         source (str, optional): The data source to use. Defaults to "yahoo".
 
     Returns:
         pd.DataFrame: A pandas DataFrame containing the historical OHLCV data.
     """
-    os.makedirs("./data_cache", exist_ok=True)
-    cache_key = _make_cache_key(ticker, start_date, end_date, source)
-    cache_path = os.path.join("./data_cache", f"{cache_key}.parquet")
+    os.makedirs(DATA_CACHE, exist_ok=True)
+    cache_key = _make_cache_key(ticker, start_date, end_date, interval, source)
+    cache_path = os.path.join(DATA_CACHE, f"{cache_key}.parquet")
 
     if use_cache and os.path.exists(cache_path) and not force_refresh:
         try:
             return pd.read_parquet(cache_path)
         except Exception:
             print(f"⚠️ Cache corrupted at {cache_path}, refetching...")
 
-    df = _fetch_data(ticker, start_date, end_date, source)
+    df = _fetch_data(ticker, start_date, end_date, interval, source)
+
+    try:
+        df.index = df.index.tz_localize("UTC")
+    except:
+        df.index = df.index.tz_convert("UTC")
 
     if df.empty or "Close" not in df.columns:
         raise ValueError(f"No data returned for {ticker} from {start_date} to {end_date}")
@@ -69,18 +83,38 @@ def __init__(self, use_cache=True, force_refresh=False, source="yahoo"):
         self.force_refresh = force_refresh
         self.source = source
 
-    def get_data(self, tickers: List[str], start_date: str, end_date: str) -> Dict[str, pd.DataFrame] | pd.DataFrame:
+    def get_data(
+            self, tickers: List[str], end_date: str, start_date: Optional[str] = None,
+            interval: Optional[str] = '1d', period: Optional[int] = '5y',
+    ) -> Dict[str, pd.DataFrame] | pd.DataFrame:
         """
         Return a dictionary of {ticker: DataFrame} for all requested tickers.
 
         Args:
             tickers (List[str]): A list of ticker symbols.
             start_date (str): The start date of the data range.
             end_date (str): The end date of the data range.
+            interval (str): The data interval.
+            period (int): The data period.
 
         Returns:
             Dict[str, pd.DataFrame]: A dictionary containing the historical OHLCV data for each ticker.
         """
+        start = pd.to_datetime(start_date) if start_date else datetime.today().date()
+        end = pd.to_datetime(end_date) if end_date else datetime.today().date()
+
+        # IF start after end
+        # OR, if interval in minutes, but period > 60
+        if start >= end:
+            period_int = period_to_timedelta(period)
+            start -= period_int
+            start_date = start.strftime('%Y-%m-%d')
+
+        elif interval.endswith("m") and (end - start).days >= 60:  # Yahoo-finance limitation
+            start = end - timedelta(days=59)
+            start_date = start.strftime('%Y-%m-%d')
+
+        data = {}
         # TODO: Convert Dict structure to a single Multi-indexed dataframe?
         # data = load_price_data(
         #         tickers,
@@ -90,12 +124,12 @@ def get_data(self, tickers: List[str], start_date: str, end_date: str) -> Dict[s
         #         force_refresh=self.force_refresh,
         #         source=self.source
         #     )
-        data = {}
         for ticker in tickers:
             data[ticker] = load_price_data(
                 ticker,
-                start_date,
-                end_date,
+                start_date=start_date,
+                end_date=end_date,
+                interval=interval,
                 use_cache=self.use_cache,
                 force_refresh=self.force_refresh,
                 source=self.source
 
@@ -1,6 +1,8 @@
 # core/market_data.py
+from datetime import timedelta
+
 import pandas as pd
-from typing import Dict, Any, List
+from typing import Dict, Any, List, Optional
 
 from core.data_loader import DataIngestionManager
 
@@ -11,7 +13,7 @@ class MarketData:
     def __init__(self, ingestion_manager: DataIngestionManager, simulation_start_date: str = None):
         self._ingestion_manager = ingestion_manager
         self.data: Dict[str, pd.DataFrame] | None = None
-        self._simulation_start_date = pd.to_datetime(simulation_start_date)
+        self._simulation_start_date = pd.to_datetime(simulation_start_date).tz_localize("UTC")
 
     def _validate_all_data(self):
         for ticker, df in self.data.items():
@@ -46,17 +48,22 @@ def _clean_and_align_data(self):
         # Align all DataFrames to the common index
         self._dates = common_index
         for ticker in self.data.keys():
-            self.data[ticker] = self.data[ticker].reindex(common_index)
+            df = self.data[ticker].reindex(common_index).copy()
+            df['SEQ'] = range(len(df))
+            self.data[ticker] = df
 
     def get_market_data(self,
                         tickers: List[str],
-                        start_date: str,
-                        end_date: str) -> None:
+                        end_date: str,
+                        start_date: Optional[str] = None,
+                        interval: str = '1d',
+                        period: str = '5y') -> None:
         """
         Create MarketData by fetching from a DataIngestionManager.
         """
         tickers = [t.strip().upper() for t in tickers]
-        raw_data: Dict[str, pd.DataFrame] = self._ingestion_manager.get_data(tickers, start_date, end_date)
+
+        raw_data: Dict[str, pd.DataFrame] = self._ingestion_manager.get_data(tickers=tickers, start_date=start_date, end_date=end_date, interval=interval, period=period)
 
         # Populate and validate the raw data
         self.data = raw_data
@@ -84,11 +91,12 @@ def get_series(self, ticker: str, price_type='Close') -> pd.Series:
     def get_available_symbols(self) -> list:
         return list(self.data.keys())
 
-    def get_history(self, ticker_list: List[str], end_date: pd.Timestamp, lookback: int) -> Dict[str, pd.DataFrame]:
+    def get_history(self, ticker_list: List[str], end_date: str, lookback: int) -> Dict[str, pd.DataFrame]:
         """
         Return historical price data for a ticker ending on `end_date` and going back `lookback` days.
         """
         historical_data = {}
+
         for ticker in ticker_list:
             if ticker not in self.data:
                 raise ValueError(f"ticker {ticker} not found in market data.")
@@ -98,14 +106,19 @@ def get_history(self, ticker_list: List[str], end_date: pd.Timestamp, lookback:
                 raise ValueError("lookback must be a positive integer.")
             if lookback > len(self.data[ticker]):
                 raise ValueError(f"lookback {lookback} exceeds available data length for ticker {ticker}.")
-            # Calculate start date based on lookback period
-            if lookback == 0:
-                start_date = end_date
-            else:
-                end_date = pd.to_datetime(end_date)
-                start_date = end_date - pd.Timedelta(days=lookback)
-            if ticker not in historical_data:
-                historical_data[ticker] = self.data[ticker].loc[start_date:end_date].copy()
+            # Calculate start date based on a lookback period
+            idx = self.data[ticker].loc[end_date]['SEQ']
+            historical_data[ticker] = self.data[ticker][
+                (self.data[ticker]['SEQ'] > idx - lookback) &
+                (self.data[ticker]['SEQ'] <= idx)
+            ]
+            # if lookback == 0:
+            #     start_date = end_date
+            # else:
+            #     end_date = pd.to_datetime(end_date)
+            #     start_date = end_date - pd.Timedelta(days=lookback)
+            # if ticker not in historical_data:
+            #     historical_data[ticker] = self.data[ticker].loc[start_date:end_date].copy()
         return historical_data
 
     def get_all_data(self) -> Dict[str, pd.DataFrame]:
@@ -124,4 +137,4 @@ def dates(self) -> pd.DatetimeIndex:
             return self._dates
 
         # Filter dates to include only those on or after the simulation start date
-        return self._dates[self._dates >= self._simulation_start_date]
+        return self._dates[self._dates >= self._simulation_start_date]
@@ -4,7 +4,7 @@
 from dotenv import load_dotenv
 
 
-def fetch_alpaca_data(ticker: str, start_date: str, end_date: str, timeframe: str = "1Day") -> pd.DataFrame:
+def fetch_alpaca_data(ticker: str, start_date: str, end_date: str, interval: str = "1Day") -> pd.DataFrame:
     """
     Fetch historical OHLCV data from Alpaca for a given ticker and date range.
     Requires ALPACA_API_KEY and ALPACA_API_SECRET in environment or .env.
@@ -26,7 +26,7 @@ def fetch_alpaca_data(ticker: str, start_date: str, end_date: str, timeframe: st
     params = {
         "start": start_date,
         "end": end_date,
-        "timeframe": timeframe,
+        "timeframe": interval,
         "adjustment": "all",
         "limit": 10000
     }
 
@@ -1,2 +1,66 @@
-def fetch_polygon_data(ticker: str, start_date: str, end_date: str):
-    raise NotImplementedError("Polygon data fetch not implemented. Set your API key and implement.")
+from polygon import RESTClient
+import pandas as pd
+
+from utils.config import POLYGON_API_KEY
+from utils.utils import split_period
+
+from tenacity import retry, stop_after_attempt, wait_exponential
+import time
+
+
+@retry(stop=stop_after_attempt(5), wait=wait_exponential(multiplier=1, min=5, max=300))
+def fetch_with_retry(client, ticker, multiplier, timespan, start_date, end_date):
+    try:
+        polygon_response = client.list_aggs(
+            ticker=ticker, multiplier=multiplier, timespan=timespan,
+            from_=start_date, to=end_date, adjusted=True, sort='asc',
+            limit=500
+        )
+        return polygon_response
+    except Exception as e:
+        print(f"Error: {e}. Retrying...")
+        raise
+
+
+def fetch_polygon_data_with_backoff(client, ticker, multiplier, timespan, start_date, end_date):
+    while True:
+        try:
+            return fetch_with_retry(client, ticker, multiplier, timespan, start_date, end_date)
+        except Exception as e:
+            print(f"Rate limit hit. Waiting before retrying...")
+            for remaining in range(300, 0, -1):
+                print(f"Retrying in {remaining} seconds...", end="\r")
+                time.sleep(1)
+
+
+def fetch_polygon_data(ticker: str, start_date: str, end_date: str, interval: str) -> pd.DataFrame:
+    """
+    Fetch historical price data from Polygon for a given stock.
+
+    Args:
+        ticker (str): Stock ticker symbol.
+        start_date (str): Start date in 'YYYY-MM-DD' format.
+        end_date (str): End date in 'YYYY-MM-DD' format.
+        interval (str): Price interval (e.g., '1m', '5m', '1h').
+        api_key (str): Polygon API key.
+
+    Returns:
+        pd.DataFrame: DataFrame containing historical price data.
+    """
+    client = RESTClient(POLYGON_API_KEY)
+
+    aggs = []
+    multiplier, timespan = split_period(interval)
+
+    polygon_response = fetch_polygon_data_with_backoff(
+        client, ticker, multiplier, timespan, start_date, end_date
+    )
+
+    for a in polygon_response:
+        aggs.append(a)
+
+    df = pd.DataFrame(aggs)
+    df["timestamp"] = pd.to_datetime(df["timestamp"], unit="ms")
+    df.set_index("timestamp", inplace=True)
+    df.columns = [k.capitalize() for k in df.columns]
+    return df
@@ -3,5 +3,9 @@
 
 
 def fetch_yahoo_data(ticker: str, start_date: str, end_date: str, interval: str = "1d") -> pd.DataFrame:
-    data = yf.download(ticker, start=start_date, end=end_date, interval=interval, multi_level_index=False, threads=False)
+    if interval.endswith("m"):
+        data = yf.download(ticker, end=end_date, interval=interval, period='1wk', multi_level_index=False, threads=False)
+    else:
+        data = yf.download(ticker, start=start_date, end=end_date, multi_level_index=False, threads=False)
+
     return data